TRAITEMENTS AVANCES DE BIG DATA AVEC SPARK
ADVANCED BIG DATA PROCESSING WITH SPARK
SEMINAIRES POUR DOCTORANTS IAV
SEMINARS FOR IAV PHD STUDENTS
Par : Pr Hajji Hicham
https://www.linkedin.com/in/dr-hajji-hicham-6601606/
L’objectif de cette série de séminaires est de discuter des concepts fondamentaux autour de
la plateforme Spark (Version >2.0), et de montrer aux doctorants comment une architecture
basée sur Spark peut résoudre des problèmes avancés de Big
Data.
Des travaux pratiques avec Spark 2.0 seront assurés lors de ce
cours.
Le nombre Maximal d’inscrits dans le cadre de ce cours est : 15 personnes.
Ces séminaires seront ouverts uniquement pour les doctorants qui ont une très bonne
connaissance en Informatique (BD, Algorithmique…), et qui montrent qu’ils ont un besoin réel
de gestion de données massives dans le cadre de leurs travaux de recherche (par un email
de motivation à m’envoyer à l’adresse : hajjihi@gmail.com).
Programme provisoire à commencer à partir du début de Novembre 2017:
Traitements avances de Big Data avec Spark..............................................................................................................................1
Séminaire 1 : Spark Core et RDD .................................................................................................................................................1
seminaire 2 : Spark SQL - DataFrame et DataSet .....................................................................................................................1
Séminaire 3 : Modèle d'exécution de Spark .............................................................................................................................2
Seminaire 4 : Spark SQL Internals.................................................................................................................................................2
Seminaire 5 : Spark et la gestion de données spatiales ..........................................................................................................2
Seminaire 6 : Spark Machine learning........................................................................................................................................2
Seminaire 7: Spark Streaming ......................................................................................................................................................2
Seminaire 8: Use CASEs en Big data ...........................................................................................................................................2
SEMINAIRE 1 : SPARK CORE ET RDD
Ce séminaire introductif présentera les concepts de base de la plateforme Spark. Ainsi un
tour d’horizon sera fait autour de termes comme RDD, actions, transformations, Job, Stage,
Driver, Worker…
Un intérêt particulier sera porté sur l’abstraction RDD Resilient Distributed Dataset qui a été la
première abstraction à être proposée pour réaliser les calculs parallèles avec Spark.
SEMINAIRE 2 : SPARK SQL - DATAFRAME ET DATASET
Ce deuxième séminaire portera sur deux nouvelles abstractions proposées par Spark pour le
traitement Big Data : Dataframe et le DataSet.
Dans le cadre de cette partie, une analyse détaillée des deux APIs accompagnant ces
abstractions est présentée, ainsi que l’architecture du module Spark SQL.
SEMINAIRE 3 : MODELE D'EXECUTION DE SPARK
Dans cette partie, nous allons présenter le modèle d’exécution de Spark, ses composantes,
ses interactions, et comment comprendre le cycle de vie requête Spark en utilisant l’API RDD.
Les techniques d’optimisations présentés dans cette partie sont notamment le
Partitionnement et le Shuffling
SEMINAIRE 4 : SPARK SQL INTERNALS
Nous allons présenter dans cette partie le modèle d’exécution de Spark SQL, notamment
dans sa composante principale Catalyst, qui traduit les requêtes SQL en code RDD. L’objectif
principal est de comprendre le cycle de vie d’une requête Spark SQL et comment elle est
traduite en dernier ressort en code RDD exécutable ou en code optimisé quand c’est
possible avec le WholeStageCodeGen.
Les techniques d’optimisations présentés dans cette partie sont notamment l’introduction de
règles logiques et de stratégies d’exécutions.
SEMINAIRE 5 : SPARK ET LA GESTION DE DONNEES SPATIALES
Il s’agit dans cette partie d’aborder un exemple de Big Data notamment celui relatif à la
gestion des données massives spatiales (exp : Uber, Nasa, Google, etc). Nous allons faire un
tour d’horizon des différentes approches proposées pour traiter les Spatial Big Data, en se
basant sur des extensions des abstractions RDD, DataFrame et Dataset. Des prototypes
expérimentaux et de recherches seront présentés comme : SIMBA, Magellan, GeoTrellis,
GeoMesa…
SEMINAIRE 6 : SPARK MACHINE LEARNING
Il sera présenté dans cette partie l’utilisation du Machine learning dans Spark avec l’utilisation
du Module Spark ML qui se base sur l’utilisation de Dataframe comme backend API.
Quelques algorithmes ML comme Decision Tree et Random Forest seront abordés dans cette
partie.
SEMINAIRE 7: SPARK STRUCTURED STREAMING
Il sera présenté dans cette partie l’utilisation du Streaming dans Spark avec l’utilisation du
Module Spark Streaming.
Des exemples réels d’application streaming seront testés dans cette partie.
SEMINAIRE 8: USE CASES EN BIG DATA
Dans cette partie, des uses cases seront discutés autour de l’utilisation de Spark et de la
gestion massives des données dans applications comme Telco, Transport, Genomics, Smart
Cities, IoT.

Syllabus advanced big data with spark

  • 1.
    TRAITEMENTS AVANCES DEBIG DATA AVEC SPARK ADVANCED BIG DATA PROCESSING WITH SPARK SEMINAIRES POUR DOCTORANTS IAV SEMINARS FOR IAV PHD STUDENTS Par : Pr Hajji Hicham https://www.linkedin.com/in/dr-hajji-hicham-6601606/ L’objectif de cette série de séminaires est de discuter des concepts fondamentaux autour de la plateforme Spark (Version >2.0), et de montrer aux doctorants comment une architecture basée sur Spark peut résoudre des problèmes avancés de Big Data. Des travaux pratiques avec Spark 2.0 seront assurés lors de ce cours. Le nombre Maximal d’inscrits dans le cadre de ce cours est : 15 personnes. Ces séminaires seront ouverts uniquement pour les doctorants qui ont une très bonne connaissance en Informatique (BD, Algorithmique…), et qui montrent qu’ils ont un besoin réel de gestion de données massives dans le cadre de leurs travaux de recherche (par un email de motivation à m’envoyer à l’adresse : hajjihi@gmail.com). Programme provisoire à commencer à partir du début de Novembre 2017: Traitements avances de Big Data avec Spark..............................................................................................................................1 Séminaire 1 : Spark Core et RDD .................................................................................................................................................1 seminaire 2 : Spark SQL - DataFrame et DataSet .....................................................................................................................1 Séminaire 3 : Modèle d'exécution de Spark .............................................................................................................................2 Seminaire 4 : Spark SQL Internals.................................................................................................................................................2 Seminaire 5 : Spark et la gestion de données spatiales ..........................................................................................................2 Seminaire 6 : Spark Machine learning........................................................................................................................................2 Seminaire 7: Spark Streaming ......................................................................................................................................................2 Seminaire 8: Use CASEs en Big data ...........................................................................................................................................2 SEMINAIRE 1 : SPARK CORE ET RDD Ce séminaire introductif présentera les concepts de base de la plateforme Spark. Ainsi un tour d’horizon sera fait autour de termes comme RDD, actions, transformations, Job, Stage, Driver, Worker… Un intérêt particulier sera porté sur l’abstraction RDD Resilient Distributed Dataset qui a été la première abstraction à être proposée pour réaliser les calculs parallèles avec Spark. SEMINAIRE 2 : SPARK SQL - DATAFRAME ET DATASET
  • 2.
    Ce deuxième séminaireportera sur deux nouvelles abstractions proposées par Spark pour le traitement Big Data : Dataframe et le DataSet. Dans le cadre de cette partie, une analyse détaillée des deux APIs accompagnant ces abstractions est présentée, ainsi que l’architecture du module Spark SQL. SEMINAIRE 3 : MODELE D'EXECUTION DE SPARK Dans cette partie, nous allons présenter le modèle d’exécution de Spark, ses composantes, ses interactions, et comment comprendre le cycle de vie requête Spark en utilisant l’API RDD. Les techniques d’optimisations présentés dans cette partie sont notamment le Partitionnement et le Shuffling SEMINAIRE 4 : SPARK SQL INTERNALS Nous allons présenter dans cette partie le modèle d’exécution de Spark SQL, notamment dans sa composante principale Catalyst, qui traduit les requêtes SQL en code RDD. L’objectif principal est de comprendre le cycle de vie d’une requête Spark SQL et comment elle est traduite en dernier ressort en code RDD exécutable ou en code optimisé quand c’est possible avec le WholeStageCodeGen. Les techniques d’optimisations présentés dans cette partie sont notamment l’introduction de règles logiques et de stratégies d’exécutions. SEMINAIRE 5 : SPARK ET LA GESTION DE DONNEES SPATIALES Il s’agit dans cette partie d’aborder un exemple de Big Data notamment celui relatif à la gestion des données massives spatiales (exp : Uber, Nasa, Google, etc). Nous allons faire un tour d’horizon des différentes approches proposées pour traiter les Spatial Big Data, en se basant sur des extensions des abstractions RDD, DataFrame et Dataset. Des prototypes expérimentaux et de recherches seront présentés comme : SIMBA, Magellan, GeoTrellis, GeoMesa… SEMINAIRE 6 : SPARK MACHINE LEARNING Il sera présenté dans cette partie l’utilisation du Machine learning dans Spark avec l’utilisation du Module Spark ML qui se base sur l’utilisation de Dataframe comme backend API. Quelques algorithmes ML comme Decision Tree et Random Forest seront abordés dans cette partie. SEMINAIRE 7: SPARK STRUCTURED STREAMING Il sera présenté dans cette partie l’utilisation du Streaming dans Spark avec l’utilisation du Module Spark Streaming. Des exemples réels d’application streaming seront testés dans cette partie. SEMINAIRE 8: USE CASES EN BIG DATA Dans cette partie, des uses cases seront discutés autour de l’utilisation de Spark et de la gestion massives des données dans applications comme Telco, Transport, Genomics, Smart Cities, IoT.