SlideShare une entreprise Scribd logo
TRAITEMENTS AVANCES DE BIG DATA AVEC SPARK
ADVANCED BIG DATA PROCESSING WITH SPARK
SEMINAIRES POUR DOCTORANTS IAV
SEMINARS FOR IAV PHD STUDENTS
Par : Pr Hajji Hicham
https://www.linkedin.com/in/dr-hajji-hicham-6601606/
L’objectif de cette série de séminaires est de discuter des concepts fondamentaux autour de
la plateforme Spark (Version >2.0), et de montrer aux doctorants comment une architecture
basée sur Spark peut résoudre des problèmes avancés de Big
Data.
Des travaux pratiques avec Spark 2.0 seront assurés lors de ce
cours.
Le nombre Maximal d’inscrits dans le cadre de ce cours est : 15 personnes.
Ces séminaires seront ouverts uniquement pour les doctorants qui ont une très bonne
connaissance en Informatique (BD, Algorithmique…), et qui montrent qu’ils ont un besoin réel
de gestion de données massives dans le cadre de leurs travaux de recherche (par un email
de motivation à m’envoyer à l’adresse : hajjihi@gmail.com).
Programme provisoire à commencer à partir du début de Novembre 2017:
Traitements avances de Big Data avec Spark..............................................................................................................................1
Séminaire 1 : Spark Core et RDD .................................................................................................................................................1
seminaire 2 : Spark SQL - DataFrame et DataSet .....................................................................................................................1
Séminaire 3 : Modèle d'exécution de Spark .............................................................................................................................2
Seminaire 4 : Spark SQL Internals.................................................................................................................................................2
Seminaire 5 : Spark et la gestion de données spatiales ..........................................................................................................2
Seminaire 6 : Spark Machine learning........................................................................................................................................2
Seminaire 7: Spark Streaming ......................................................................................................................................................2
Seminaire 8: Use CASEs en Big data ...........................................................................................................................................2
SEMINAIRE 1 : SPARK CORE ET RDD
Ce séminaire introductif présentera les concepts de base de la plateforme Spark. Ainsi un
tour d’horizon sera fait autour de termes comme RDD, actions, transformations, Job, Stage,
Driver, Worker…
Un intérêt particulier sera porté sur l’abstraction RDD Resilient Distributed Dataset qui a été la
première abstraction à être proposée pour réaliser les calculs parallèles avec Spark.
SEMINAIRE 2 : SPARK SQL - DATAFRAME ET DATASET
Ce deuxième séminaire portera sur deux nouvelles abstractions proposées par Spark pour le
traitement Big Data : Dataframe et le DataSet.
Dans le cadre de cette partie, une analyse détaillée des deux APIs accompagnant ces
abstractions est présentée, ainsi que l’architecture du module Spark SQL.
SEMINAIRE 3 : MODELE D'EXECUTION DE SPARK
Dans cette partie, nous allons présenter le modèle d’exécution de Spark, ses composantes,
ses interactions, et comment comprendre le cycle de vie requête Spark en utilisant l’API RDD.
Les techniques d’optimisations présentés dans cette partie sont notamment le
Partitionnement et le Shuffling
SEMINAIRE 4 : SPARK SQL INTERNALS
Nous allons présenter dans cette partie le modèle d’exécution de Spark SQL, notamment
dans sa composante principale Catalyst, qui traduit les requêtes SQL en code RDD. L’objectif
principal est de comprendre le cycle de vie d’une requête Spark SQL et comment elle est
traduite en dernier ressort en code RDD exécutable ou en code optimisé quand c’est
possible avec le WholeStageCodeGen.
Les techniques d’optimisations présentés dans cette partie sont notamment l’introduction de
règles logiques et de stratégies d’exécutions.
SEMINAIRE 5 : SPARK ET LA GESTION DE DONNEES SPATIALES
Il s’agit dans cette partie d’aborder un exemple de Big Data notamment celui relatif à la
gestion des données massives spatiales (exp : Uber, Nasa, Google, etc). Nous allons faire un
tour d’horizon des différentes approches proposées pour traiter les Spatial Big Data, en se
basant sur des extensions des abstractions RDD, DataFrame et Dataset. Des prototypes
expérimentaux et de recherches seront présentés comme : SIMBA, Magellan, GeoTrellis,
GeoMesa…
SEMINAIRE 6 : SPARK MACHINE LEARNING
Il sera présenté dans cette partie l’utilisation du Machine learning dans Spark avec l’utilisation
du Module Spark ML qui se base sur l’utilisation de Dataframe comme backend API.
Quelques algorithmes ML comme Decision Tree et Random Forest seront abordés dans cette
partie.
SEMINAIRE 7: SPARK STRUCTURED STREAMING
Il sera présenté dans cette partie l’utilisation du Streaming dans Spark avec l’utilisation du
Module Spark Streaming.
Des exemples réels d’application streaming seront testés dans cette partie.
SEMINAIRE 8: USE CASES EN BIG DATA
Dans cette partie, des uses cases seront discutés autour de l’utilisation de Spark et de la
gestion massives des données dans applications comme Telco, Transport, Genomics, Smart
Cities, IoT.

Contenu connexe

Similaire à Syllabus advanced big data with spark

Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
Rima Jamli Faidi
 
Spark - An In-Memory Distributed Computing Engine.pptx
Spark - An In-Memory Distributed Computing Engine.pptxSpark - An In-Memory Distributed Computing Engine.pptx
Spark - An In-Memory Distributed Computing Engine.pptx
Anass Nabil
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
Amal Abid
 
Spark SQL principes et fonctions
Spark SQL principes et fonctionsSpark SQL principes et fonctions
Spark SQL principes et fonctions
MICHRAFY MUSTAFA
 
Liste des nouvelles acquisitions 2013
Liste des nouvelles acquisitions 2013Liste des nouvelles acquisitions 2013
Liste des nouvelles acquisitions 2013
CNI Tunisia
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
Julien BLAIZE
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
rajiasellami
 
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
OCTO Technology
 
Stratégies d’optimisation de requêtes SQL dans un écosystème Hadoop
Stratégies d’optimisation de requêtes SQL dans un écosystème HadoopStratégies d’optimisation de requêtes SQL dans un écosystème Hadoop
Stratégies d’optimisation de requêtes SQL dans un écosystème Hadoop
Sébastien Frackowiak
 
Découvrez comment l’ECM peut concrètement « BOOSTER » votre entreprise à trav...
Découvrez comment l’ECM peut concrètement « BOOSTER » votre entreprise à trav...Découvrez comment l’ECM peut concrètement « BOOSTER » votre entreprise à trav...
Découvrez comment l’ECM peut concrètement « BOOSTER » votre entreprise à trav...
Microsoft Décideurs IT
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing Théâtre
Soft Computing
 
Annexe Big Data
Annexe Big DataAnnexe Big Data
Annexe Big Data
Amal Abid
 
Alphorm.com Formation Big Data avec Apache Spark: Initiation
Alphorm.com Formation Big Data avec Apache Spark: InitiationAlphorm.com Formation Big Data avec Apache Spark: Initiation
Alphorm.com Formation Big Data avec Apache Spark: Initiation
Alphorm
 
DataStax Enterprise BBL
DataStax Enterprise BBLDataStax Enterprise BBL
DataStax Enterprise BBL
Victor Coustenoble
 
Infrastructure - Monitoring - Cacti
Infrastructure - Monitoring - CactiInfrastructure - Monitoring - Cacti
Infrastructure - Monitoring - Cacti
Frédéric FAURE
 
Bases de données no sql.pdf
Bases de données no sql.pdfBases de données no sql.pdf
Bases de données no sql.pdf
ZkSadrati
 
Catalogue PFE 2019
Catalogue PFE 2019Catalogue PFE 2019
Catalogue PFE 2019
NeoXam Tunisia
 
Big sql4meetup
Big sql4meetupBig sql4meetup
Big sql4meetup
Jacques Milman
 
Big Data : Une Introduction
Big Data : Une IntroductionBig Data : Une Introduction
Big Data : Une Introduction
Nicolas OGÉ
 

Similaire à Syllabus advanced big data with spark (20)

Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
 
Spark - An In-Memory Distributed Computing Engine.pptx
Spark - An In-Memory Distributed Computing Engine.pptxSpark - An In-Memory Distributed Computing Engine.pptx
Spark - An In-Memory Distributed Computing Engine.pptx
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
Spark SQL principes et fonctions
Spark SQL principes et fonctionsSpark SQL principes et fonctions
Spark SQL principes et fonctions
 
Liste des nouvelles acquisitions 2013
Liste des nouvelles acquisitions 2013Liste des nouvelles acquisitions 2013
Liste des nouvelles acquisitions 2013
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
 
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
 
Stratégies d’optimisation de requêtes SQL dans un écosystème Hadoop
Stratégies d’optimisation de requêtes SQL dans un écosystème HadoopStratégies d’optimisation de requêtes SQL dans un écosystème Hadoop
Stratégies d’optimisation de requêtes SQL dans un écosystème Hadoop
 
Découvrez comment l’ECM peut concrètement « BOOSTER » votre entreprise à trav...
Découvrez comment l’ECM peut concrètement « BOOSTER » votre entreprise à trav...Découvrez comment l’ECM peut concrètement « BOOSTER » votre entreprise à trav...
Découvrez comment l’ECM peut concrètement « BOOSTER » votre entreprise à trav...
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing Théâtre
 
Annexe Big Data
Annexe Big DataAnnexe Big Data
Annexe Big Data
 
Alphorm.com Formation Big Data avec Apache Spark: Initiation
Alphorm.com Formation Big Data avec Apache Spark: InitiationAlphorm.com Formation Big Data avec Apache Spark: Initiation
Alphorm.com Formation Big Data avec Apache Spark: Initiation
 
DataStax Enterprise BBL
DataStax Enterprise BBLDataStax Enterprise BBL
DataStax Enterprise BBL
 
47750479 cours-c
47750479 cours-c47750479 cours-c
47750479 cours-c
 
Infrastructure - Monitoring - Cacti
Infrastructure - Monitoring - CactiInfrastructure - Monitoring - Cacti
Infrastructure - Monitoring - Cacti
 
Bases de données no sql.pdf
Bases de données no sql.pdfBases de données no sql.pdf
Bases de données no sql.pdf
 
Catalogue PFE 2019
Catalogue PFE 2019Catalogue PFE 2019
Catalogue PFE 2019
 
Big sql4meetup
Big sql4meetupBig sql4meetup
Big sql4meetup
 
Big Data : Une Introduction
Big Data : Une IntroductionBig Data : Une Introduction
Big Data : Une Introduction
 

Plus de Dr Hajji Hicham

SEED4NA _AI4DRONE.pdf
SEED4NA _AI4DRONE.pdfSEED4NA _AI4DRONE.pdf
SEED4NA _AI4DRONE.pdf
Dr Hajji Hicham
 
Urban Big Data .pdf
Urban Big Data .pdfUrban Big Data .pdf
Urban Big Data .pdf
Dr Hajji Hicham
 
Slides Edataday2021_V2.pdf
Slides Edataday2021_V2.pdfSlides Edataday2021_V2.pdf
Slides Edataday2021_V2.pdf
Dr Hajji Hicham
 
Visual Transformer Overview
Visual Transformer OverviewVisual Transformer Overview
Visual Transformer Overview
Dr Hajji Hicham
 
Distributed computing with Spark 2.x
Distributed computing with Spark 2.xDistributed computing with Spark 2.x
Distributed computing with Spark 2.x
Dr Hajji Hicham
 
Processing Drone data @Scale
Processing Drone data @ScaleProcessing Drone data @Scale
Processing Drone data @Scale
Dr Hajji Hicham
 
Overview of Interpretability Approaches in Deep learning: Focus on Convnet ar...
Overview of Interpretability Approaches in Deep learning: Focus on Convnet ar...Overview of Interpretability Approaches in Deep learning: Focus on Convnet ar...
Overview of Interpretability Approaches in Deep learning: Focus on Convnet ar...
Dr Hajji Hicham
 

Plus de Dr Hajji Hicham (7)

SEED4NA _AI4DRONE.pdf
SEED4NA _AI4DRONE.pdfSEED4NA _AI4DRONE.pdf
SEED4NA _AI4DRONE.pdf
 
Urban Big Data .pdf
Urban Big Data .pdfUrban Big Data .pdf
Urban Big Data .pdf
 
Slides Edataday2021_V2.pdf
Slides Edataday2021_V2.pdfSlides Edataday2021_V2.pdf
Slides Edataday2021_V2.pdf
 
Visual Transformer Overview
Visual Transformer OverviewVisual Transformer Overview
Visual Transformer Overview
 
Distributed computing with Spark 2.x
Distributed computing with Spark 2.xDistributed computing with Spark 2.x
Distributed computing with Spark 2.x
 
Processing Drone data @Scale
Processing Drone data @ScaleProcessing Drone data @Scale
Processing Drone data @Scale
 
Overview of Interpretability Approaches in Deep learning: Focus on Convnet ar...
Overview of Interpretability Approaches in Deep learning: Focus on Convnet ar...Overview of Interpretability Approaches in Deep learning: Focus on Convnet ar...
Overview of Interpretability Approaches in Deep learning: Focus on Convnet ar...
 

Dernier

Estimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABEEstimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABE
contact Elabe
 
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
contact Elabe
 
Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?
Institut de l'Elevage - Idele
 
Les Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vagueLes Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vague
contact Elabe
 
Barometre_de_l_Economie_S1_2024_-_BAT__1_.pdf
Barometre_de_l_Economie_S1_2024_-_BAT__1_.pdfBarometre_de_l_Economie_S1_2024_-_BAT__1_.pdf
Barometre_de_l_Economie_S1_2024_-_BAT__1_.pdf
Paperjam_redaction
 
Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024
contact Elabe
 
Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024
contact Elabe
 
Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024
contact Elabe
 

Dernier (8)

Estimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABEEstimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABE
 
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
 
Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?
 
Les Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vagueLes Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vague
 
Barometre_de_l_Economie_S1_2024_-_BAT__1_.pdf
Barometre_de_l_Economie_S1_2024_-_BAT__1_.pdfBarometre_de_l_Economie_S1_2024_-_BAT__1_.pdf
Barometre_de_l_Economie_S1_2024_-_BAT__1_.pdf
 
Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024
 
Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024
 
Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024
 

Syllabus advanced big data with spark

  • 1. TRAITEMENTS AVANCES DE BIG DATA AVEC SPARK ADVANCED BIG DATA PROCESSING WITH SPARK SEMINAIRES POUR DOCTORANTS IAV SEMINARS FOR IAV PHD STUDENTS Par : Pr Hajji Hicham https://www.linkedin.com/in/dr-hajji-hicham-6601606/ L’objectif de cette série de séminaires est de discuter des concepts fondamentaux autour de la plateforme Spark (Version >2.0), et de montrer aux doctorants comment une architecture basée sur Spark peut résoudre des problèmes avancés de Big Data. Des travaux pratiques avec Spark 2.0 seront assurés lors de ce cours. Le nombre Maximal d’inscrits dans le cadre de ce cours est : 15 personnes. Ces séminaires seront ouverts uniquement pour les doctorants qui ont une très bonne connaissance en Informatique (BD, Algorithmique…), et qui montrent qu’ils ont un besoin réel de gestion de données massives dans le cadre de leurs travaux de recherche (par un email de motivation à m’envoyer à l’adresse : hajjihi@gmail.com). Programme provisoire à commencer à partir du début de Novembre 2017: Traitements avances de Big Data avec Spark..............................................................................................................................1 Séminaire 1 : Spark Core et RDD .................................................................................................................................................1 seminaire 2 : Spark SQL - DataFrame et DataSet .....................................................................................................................1 Séminaire 3 : Modèle d'exécution de Spark .............................................................................................................................2 Seminaire 4 : Spark SQL Internals.................................................................................................................................................2 Seminaire 5 : Spark et la gestion de données spatiales ..........................................................................................................2 Seminaire 6 : Spark Machine learning........................................................................................................................................2 Seminaire 7: Spark Streaming ......................................................................................................................................................2 Seminaire 8: Use CASEs en Big data ...........................................................................................................................................2 SEMINAIRE 1 : SPARK CORE ET RDD Ce séminaire introductif présentera les concepts de base de la plateforme Spark. Ainsi un tour d’horizon sera fait autour de termes comme RDD, actions, transformations, Job, Stage, Driver, Worker… Un intérêt particulier sera porté sur l’abstraction RDD Resilient Distributed Dataset qui a été la première abstraction à être proposée pour réaliser les calculs parallèles avec Spark. SEMINAIRE 2 : SPARK SQL - DATAFRAME ET DATASET
  • 2. Ce deuxième séminaire portera sur deux nouvelles abstractions proposées par Spark pour le traitement Big Data : Dataframe et le DataSet. Dans le cadre de cette partie, une analyse détaillée des deux APIs accompagnant ces abstractions est présentée, ainsi que l’architecture du module Spark SQL. SEMINAIRE 3 : MODELE D'EXECUTION DE SPARK Dans cette partie, nous allons présenter le modèle d’exécution de Spark, ses composantes, ses interactions, et comment comprendre le cycle de vie requête Spark en utilisant l’API RDD. Les techniques d’optimisations présentés dans cette partie sont notamment le Partitionnement et le Shuffling SEMINAIRE 4 : SPARK SQL INTERNALS Nous allons présenter dans cette partie le modèle d’exécution de Spark SQL, notamment dans sa composante principale Catalyst, qui traduit les requêtes SQL en code RDD. L’objectif principal est de comprendre le cycle de vie d’une requête Spark SQL et comment elle est traduite en dernier ressort en code RDD exécutable ou en code optimisé quand c’est possible avec le WholeStageCodeGen. Les techniques d’optimisations présentés dans cette partie sont notamment l’introduction de règles logiques et de stratégies d’exécutions. SEMINAIRE 5 : SPARK ET LA GESTION DE DONNEES SPATIALES Il s’agit dans cette partie d’aborder un exemple de Big Data notamment celui relatif à la gestion des données massives spatiales (exp : Uber, Nasa, Google, etc). Nous allons faire un tour d’horizon des différentes approches proposées pour traiter les Spatial Big Data, en se basant sur des extensions des abstractions RDD, DataFrame et Dataset. Des prototypes expérimentaux et de recherches seront présentés comme : SIMBA, Magellan, GeoTrellis, GeoMesa… SEMINAIRE 6 : SPARK MACHINE LEARNING Il sera présenté dans cette partie l’utilisation du Machine learning dans Spark avec l’utilisation du Module Spark ML qui se base sur l’utilisation de Dataframe comme backend API. Quelques algorithmes ML comme Decision Tree et Random Forest seront abordés dans cette partie. SEMINAIRE 7: SPARK STRUCTURED STREAMING Il sera présenté dans cette partie l’utilisation du Streaming dans Spark avec l’utilisation du Module Spark Streaming. Des exemples réels d’application streaming seront testés dans cette partie. SEMINAIRE 8: USE CASES EN BIG DATA Dans cette partie, des uses cases seront discutés autour de l’utilisation de Spark et de la gestion massives des données dans applications comme Telco, Transport, Genomics, Smart Cities, IoT.