SlideShare une entreprise Scribd logo
Introduction à!
Nantes - 08/07/2014!
Ludwine Probst - @nivdul
développeuse!
maths lover!
machine learning & big data
Leadeuse de Duchess France
@nivdulnivdul.wordpress.com
Etat des lieux
Mais…
Introduction spark
• analytics pour de gros datasets et données en
mémoire!
• Resilient Distributed Datasets (RDD)!
• principe de lineage!
• compatible avec Hadoop / InputFormats!
• meilleures performances que Hadoop!
• plus de flexibilité d’implémentation
Interrogation de Spark
shell scala/python!
supporte les lambdas
expressions (Java8)
compatible avec
NumPy
Vue globale
todo schéma
SparkContext
SparkConf sparkConf = new SparkConf()
.setAppName("SimpleExample")
.setMaster("local");
!
//.setMaster(« spark://192.168.1.11:7077")
!
!
JavaSparkContext sc = new JavaSparkContext(sparkConf);
Resilient Distributed Datasets
(RDD)
• créé au démarrage!
• traitement en parallèle possible / partitionnement sur les différents
noeuds du cluster!
• opérations sur les RDDs = transformations + actions!
• contrôle sur la persistance : MEMORY, DISK…!
• resistance à la panne (principe de lineage avec le DAG)
Définition : collections distribuées fault-tolerant et
! immutable
Créer un RDD
// sc est le SparkContext
!
// à partir d’un fichier texte
JavaRDD<String[]> lines = sc.textFile("ensemble-des-equipements-
sportifs-de-lile-de-france.csv");
!
// à partir d’un fichier venant d’Hadoop
sc.hadoopFile(path, inputFormatClass, keyClass, valueClass);
!
Opérations sur les RDDs
JavaRDD<String[]> lines = sc.textFile("ensemble-des-equipements-
sportifs-de-lile-de-france.csv")
.map(line -> line.split(";"))
// suppression de la 1ère ligne
.filter(line -> !line[1].equals("ins_com"));
!
lines.count();
!
// nombre par type d'équipement rangé par ordre alphabétique
lines.mapToPair(line -> new Tuple2<>(line[3], 1))
.reduceByKey((x, y) -> x + y)
.sortByKey()
.foreach(t -> System.out.println(t._1 + " -> " + t._2));
!
Persistance des RDDs
// lines est un RDD
!
// persistance par défaut MEMORY_ONLY
lines.cache();
!
// spécifié
lines.persist(StorageLevel.DISK_ONLY());
lines.persist(StorageLevel.MEMORY_ONLY());
lines.persist(StorageLevel.MEMORY_AND_DISK());
!
// avec réplication
lines.persist(StorageLevel.apply(1, 3));
*Spark est fault-tolerant grâce au graphe d’exécution qui
enregistre la suite des opérations effectuées sur un RDD
Côté performances
Ecosystème Spark
Streaming
Introduction spark

Contenu connexe

Tendances

BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
Lilia Sfaxi
 
Chapitre 4 no sql
Chapitre 4 no sqlChapitre 4 no sql
Chapitre 4 no sql
Mouna Torjmen
 
Spark Streaming
Spark StreamingSpark Streaming
Spark Streaming
PALO IT
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
Alexia Audevart
 
Spark dataframe
Spark dataframeSpark dataframe
Spark dataframe
Modern Data Stack France
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5
Amal Abid
 
Base de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvreBase de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvre
MICHRAFY MUSTAFA
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Benoît de CHATEAUVIEUX
 
Annexe Big Data
Annexe Big DataAnnexe Big Data
Annexe Big Data
Amal Abid
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big data
acogoluegnes
 
Cours Big Data Chap6
Cours Big Data Chap6Cours Big Data Chap6
Cours Big Data Chap6
Amal Abid
 
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introNosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Olivier Mallassi
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
Khanh Maudoux
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
Cdiscount
 
Hadoop and friends : introduction
Hadoop and friends : introductionHadoop and friends : introduction
Hadoop and friends : introduction
fredcons
 
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielParis Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Modern Data Stack France
 
Stats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.itStats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.it
hibnico
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
ALTIC Altic
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
Arrow-Institute
 
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Modern Data Stack France
 

Tendances (20)

BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
Chapitre 4 no sql
Chapitre 4 no sqlChapitre 4 no sql
Chapitre 4 no sql
 
Spark Streaming
Spark StreamingSpark Streaming
Spark Streaming
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
Spark dataframe
Spark dataframeSpark dataframe
Spark dataframe
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5
 
Base de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvreBase de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvre
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
 
Annexe Big Data
Annexe Big DataAnnexe Big Data
Annexe Big Data
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big data
 
Cours Big Data Chap6
Cours Big Data Chap6Cours Big Data Chap6
Cours Big Data Chap6
 
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introNosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
 
Hadoop and friends : introduction
Hadoop and friends : introductionHadoop and friends : introduction
Hadoop and friends : introduction
 
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielParis Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
 
Stats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.itStats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.it
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
 
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
 

En vedette

Apache SPARK ML : principes, concepts et mise en œuvre
Apache SPARK  ML : principes, concepts et  mise en œuvre Apache SPARK  ML : principes, concepts et  mise en œuvre
Apache SPARK ML : principes, concepts et mise en œuvre
MICHRAFY MUSTAFA
 
Datastax Cassandra + Spark Streaming
Datastax Cassandra + Spark StreamingDatastax Cassandra + Spark Streaming
Datastax Cassandra + Spark Streaming
Victor Coustenoble
 
Spark une alternative à Hadoop MapReduce pour le Datamining
Spark une alternative à Hadoop MapReduce pour le DataminingSpark une alternative à Hadoop MapReduce pour le Datamining
Spark une alternative à Hadoop MapReduce pour le Datamining
Modern Data Stack France
 
Lambda architecture et Spark
Lambda architecture et SparkLambda architecture et Spark
Lambda architecture et Spark
Fabien COMTE
 
OPEN DATA WEEK // Intro : Overview of opening data in private sector
OPEN DATA WEEK // Intro : Overview of opening data in private sectorOPEN DATA WEEK // Intro : Overview of opening data in private sector
OPEN DATA WEEK // Intro : Overview of opening data in private sector
Fing
 
L'open data des entreprises
L'open data des entreprisesL'open data des entreprises
L'open data des entreprises
liberTIC
 
Offrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clicOffrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clic
Jean-Michel Franco
 
Cassandra 3.0
Cassandra 3.0Cassandra 3.0
Cassandra 3.0
Robert Stupp
 
Cassandra 2.2 & 3.0
Cassandra 2.2 & 3.0Cassandra 2.2 & 3.0
Cassandra 2.2 & 3.0
Victor Coustenoble
 
Wayne State University & DataStax: World's best data modeling tool for Apache...
Wayne State University & DataStax: World's best data modeling tool for Apache...Wayne State University & DataStax: World's best data modeling tool for Apache...
Wayne State University & DataStax: World's best data modeling tool for Apache...
DataStax Academy
 
Open Data : état de l&rsquo;art
Open Data : état de l&rsquo;artOpen Data : état de l&rsquo;art
Open Data : état de l&rsquo;art
Ferdinand Boas
 
David Joubert - Workshop Azure ML - Azure Data Factory - Global Azure Bootcam...
David Joubert - Workshop Azure ML - Azure Data Factory - Global Azure Bootcam...David Joubert - Workshop Azure ML - Azure Data Factory - Global Azure Bootcam...
David Joubert - Workshop Azure ML - Azure Data Factory - Global Azure Bootcam...
AZUG FR
 
Cassandra 3.0 - JSON at scale - StampedeCon 2015
Cassandra 3.0 - JSON at scale - StampedeCon 2015Cassandra 3.0 - JSON at scale - StampedeCon 2015
Cassandra 3.0 - JSON at scale - StampedeCon 2015
StampedeCon
 
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Modern Data Stack France
 
Introduction to Spark (Intern Event Presentation)
Introduction to Spark (Intern Event Presentation)Introduction to Spark (Intern Event Presentation)
Introduction to Spark (Intern Event Presentation)
Databricks
 
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Jean-Michel Franco
 
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...
Cedric CARBONE
 
Spark RDD : Transformations & Actions
Spark RDD : Transformations & ActionsSpark RDD : Transformations & Actions
Spark RDD : Transformations & Actions
MICHRAFY MUSTAFA
 
Audit Qualité des Données
Audit Qualité des DonnéesAudit Qualité des Données
Audit Qualité des Données
ArielleMeffre
 
Introduction to Apache Flink
Introduction to Apache FlinkIntroduction to Apache Flink
Introduction to Apache Flink
datamantra
 

En vedette (20)

Apache SPARK ML : principes, concepts et mise en œuvre
Apache SPARK  ML : principes, concepts et  mise en œuvre Apache SPARK  ML : principes, concepts et  mise en œuvre
Apache SPARK ML : principes, concepts et mise en œuvre
 
Datastax Cassandra + Spark Streaming
Datastax Cassandra + Spark StreamingDatastax Cassandra + Spark Streaming
Datastax Cassandra + Spark Streaming
 
Spark une alternative à Hadoop MapReduce pour le Datamining
Spark une alternative à Hadoop MapReduce pour le DataminingSpark une alternative à Hadoop MapReduce pour le Datamining
Spark une alternative à Hadoop MapReduce pour le Datamining
 
Lambda architecture et Spark
Lambda architecture et SparkLambda architecture et Spark
Lambda architecture et Spark
 
OPEN DATA WEEK // Intro : Overview of opening data in private sector
OPEN DATA WEEK // Intro : Overview of opening data in private sectorOPEN DATA WEEK // Intro : Overview of opening data in private sector
OPEN DATA WEEK // Intro : Overview of opening data in private sector
 
L'open data des entreprises
L'open data des entreprisesL'open data des entreprises
L'open data des entreprises
 
Offrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clicOffrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clic
 
Cassandra 3.0
Cassandra 3.0Cassandra 3.0
Cassandra 3.0
 
Cassandra 2.2 & 3.0
Cassandra 2.2 & 3.0Cassandra 2.2 & 3.0
Cassandra 2.2 & 3.0
 
Wayne State University & DataStax: World's best data modeling tool for Apache...
Wayne State University & DataStax: World's best data modeling tool for Apache...Wayne State University & DataStax: World's best data modeling tool for Apache...
Wayne State University & DataStax: World's best data modeling tool for Apache...
 
Open Data : état de l&rsquo;art
Open Data : état de l&rsquo;artOpen Data : état de l&rsquo;art
Open Data : état de l&rsquo;art
 
David Joubert - Workshop Azure ML - Azure Data Factory - Global Azure Bootcam...
David Joubert - Workshop Azure ML - Azure Data Factory - Global Azure Bootcam...David Joubert - Workshop Azure ML - Azure Data Factory - Global Azure Bootcam...
David Joubert - Workshop Azure ML - Azure Data Factory - Global Azure Bootcam...
 
Cassandra 3.0 - JSON at scale - StampedeCon 2015
Cassandra 3.0 - JSON at scale - StampedeCon 2015Cassandra 3.0 - JSON at scale - StampedeCon 2015
Cassandra 3.0 - JSON at scale - StampedeCon 2015
 
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
 
Introduction to Spark (Intern Event Presentation)
Introduction to Spark (Intern Event Presentation)Introduction to Spark (Intern Event Presentation)
Introduction to Spark (Intern Event Presentation)
 
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
 
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...
 
Spark RDD : Transformations & Actions
Spark RDD : Transformations & ActionsSpark RDD : Transformations & Actions
Spark RDD : Transformations & Actions
 
Audit Qualité des Données
Audit Qualité des DonnéesAudit Qualité des Données
Audit Qualité des Données
 
Introduction to Apache Flink
Introduction to Apache FlinkIntroduction to Apache Flink
Introduction to Apache Flink
 

Similaire à Introduction spark

160813-technology-template-16x9.pptx
160813-technology-template-16x9.pptx160813-technology-template-16x9.pptx
160813-technology-template-16x9.pptx
majdoulineaitabdelal
 
Big sql4meetup
Big sql4meetupBig sql4meetup
Big sql4meetup
Jacques Milman
 
JSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big DataJSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big Data
GUSS
 
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big DataJournées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
David Joubert
 
Spark - An In-Memory Distributed Computing Engine.pptx
Spark - An In-Memory Distributed Computing Engine.pptxSpark - An In-Memory Distributed Computing Engine.pptx
Spark - An In-Memory Distributed Computing Engine.pptx
Anass Nabil
 
Presentation des outils traitements distribues
Presentation des outils traitements distribuesPresentation des outils traitements distribues
Presentation des outils traitements distribues
Lê Anh
 
Spark
SparkSpark
Architecture Big Data open source S.M.A.C.K
Architecture Big Data open source S.M.A.C.KArchitecture Big Data open source S.M.A.C.K
Architecture Big Data open source S.M.A.C.K
Julien Anguenot
 
NoSQL panorama - Jean Seiler Softeam
NoSQL panorama - Jean Seiler SofteamNoSQL panorama - Jean Seiler Softeam
NoSQL panorama - Jean Seiler Softeam
TelecomValley
 
Distributed computing with Spark 2.x
Distributed computing with Spark 2.xDistributed computing with Spark 2.x
Distributed computing with Spark 2.x
Dr Hajji Hicham
 
Introduction Apche Spark
Introduction Apche SparkIntroduction Apche Spark
Introduction Apche Spark
Mohamed Ali Hamzaoui
 
Apache solr andré bois-crettez 08
Apache solr   andré bois-crettez 08Apache solr   andré bois-crettez 08
Apache solr andré bois-crettez 08
Loïc Descotte
 
REX Ansible
REX AnsibleREX Ansible
REX Ansible
Noël Bardelot
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
rajiasellami
 
0251-formation-java-programmation-objet.pdf
0251-formation-java-programmation-objet.pdf0251-formation-java-programmation-objet.pdf
0251-formation-java-programmation-objet.pdf
Ombotimbe Salifou
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStack
ALTIC Altic
 
Zenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_ml
Zenika
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big Data
Arrow Group
 
Presentation intis 2017 version27112017
Presentation intis 2017 version27112017Presentation intis 2017 version27112017
Presentation intis 2017 version27112017
Dr Hajji Hicham
 

Similaire à Introduction spark (20)

160813-technology-template-16x9.pptx
160813-technology-template-16x9.pptx160813-technology-template-16x9.pptx
160813-technology-template-16x9.pptx
 
Big sql4meetup
Big sql4meetupBig sql4meetup
Big sql4meetup
 
JSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big DataJSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big Data
 
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big DataJournées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
 
Spark - An In-Memory Distributed Computing Engine.pptx
Spark - An In-Memory Distributed Computing Engine.pptxSpark - An In-Memory Distributed Computing Engine.pptx
Spark - An In-Memory Distributed Computing Engine.pptx
 
Presentation des outils traitements distribues
Presentation des outils traitements distribuesPresentation des outils traitements distribues
Presentation des outils traitements distribues
 
Spark
SparkSpark
Spark
 
Architecture Big Data open source S.M.A.C.K
Architecture Big Data open source S.M.A.C.KArchitecture Big Data open source S.M.A.C.K
Architecture Big Data open source S.M.A.C.K
 
NoSQL panorama - Jean Seiler Softeam
NoSQL panorama - Jean Seiler SofteamNoSQL panorama - Jean Seiler Softeam
NoSQL panorama - Jean Seiler Softeam
 
Distributed computing with Spark 2.x
Distributed computing with Spark 2.xDistributed computing with Spark 2.x
Distributed computing with Spark 2.x
 
Introduction Apche Spark
Introduction Apche SparkIntroduction Apche Spark
Introduction Apche Spark
 
Soutenance ysance
Soutenance ysanceSoutenance ysance
Soutenance ysance
 
Apache solr andré bois-crettez 08
Apache solr   andré bois-crettez 08Apache solr   andré bois-crettez 08
Apache solr andré bois-crettez 08
 
REX Ansible
REX AnsibleREX Ansible
REX Ansible
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
 
0251-formation-java-programmation-objet.pdf
0251-formation-java-programmation-objet.pdf0251-formation-java-programmation-objet.pdf
0251-formation-java-programmation-objet.pdf
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStack
 
Zenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_ml
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big Data
 
Presentation intis 2017 version27112017
Presentation intis 2017 version27112017Presentation intis 2017 version27112017
Presentation intis 2017 version27112017
 

Dernier

ELABE BFMTV Actualisation 21H37 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 21H37 estimation 2nd tour élections législatives 2024ELABE BFMTV Actualisation 21H37 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 21H37 estimation 2nd tour élections législatives 2024
contact Elabe
 
ELABE BFMTV Estimation 2nd tour élections législatives 2024
ELABE BFMTV Estimation 2nd tour élections législatives 2024ELABE BFMTV Estimation 2nd tour élections législatives 2024
ELABE BFMTV Estimation 2nd tour élections législatives 2024
contact Elabe
 
Les Français et les élections législatives
Les Français et les élections législativesLes Français et les élections législatives
Les Français et les élections législatives
contact Elabe
 
Projection de la participation ELABE pour BFMTV
Projection de la participation ELABE pour BFMTVProjection de la participation ELABE pour BFMTV
Projection de la participation ELABE pour BFMTV
contact Elabe
 
Flash'Conso - Juillet 2024 : Les Français et les prospectus papier
Flash'Conso - Juillet 2024 : Les Français et les prospectus papierFlash'Conso - Juillet 2024 : Les Français et les prospectus papier
Flash'Conso - Juillet 2024 : Les Français et les prospectus papier
Enov
 
ELABE BFMTV Actualisation 23H59 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 23H59 estimation 2nd tour élections législatives 2024ELABE BFMTV Actualisation 23H59 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 23H59 estimation 2nd tour élections législatives 2024
contact Elabe
 
ELABE BFMTV Actualisation 23H20 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 23H20 estimation 2nd tour élections législatives 2024ELABE BFMTV Actualisation 23H20 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 23H20 estimation 2nd tour élections législatives 2024
contact Elabe
 
Plan de communication pour "Les 7 sens".
Plan de communication pour "Les 7 sens".Plan de communication pour "Les 7 sens".
Plan de communication pour "Les 7 sens".
kevmaufay
 
Les Français et la situation post élections législatives
Les Français et la situation post élections législativesLes Français et la situation post élections législatives
Les Français et la situation post élections législatives
contact Elabe
 
ELABE BFMTV Actualisation estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation estimation 2nd tour élections législatives 2024ELABE BFMTV Actualisation estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation estimation 2nd tour élections législatives 2024
contact Elabe
 

Dernier (10)

ELABE BFMTV Actualisation 21H37 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 21H37 estimation 2nd tour élections législatives 2024ELABE BFMTV Actualisation 21H37 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 21H37 estimation 2nd tour élections législatives 2024
 
ELABE BFMTV Estimation 2nd tour élections législatives 2024
ELABE BFMTV Estimation 2nd tour élections législatives 2024ELABE BFMTV Estimation 2nd tour élections législatives 2024
ELABE BFMTV Estimation 2nd tour élections législatives 2024
 
Les Français et les élections législatives
Les Français et les élections législativesLes Français et les élections législatives
Les Français et les élections législatives
 
Projection de la participation ELABE pour BFMTV
Projection de la participation ELABE pour BFMTVProjection de la participation ELABE pour BFMTV
Projection de la participation ELABE pour BFMTV
 
Flash'Conso - Juillet 2024 : Les Français et les prospectus papier
Flash'Conso - Juillet 2024 : Les Français et les prospectus papierFlash'Conso - Juillet 2024 : Les Français et les prospectus papier
Flash'Conso - Juillet 2024 : Les Français et les prospectus papier
 
ELABE BFMTV Actualisation 23H59 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 23H59 estimation 2nd tour élections législatives 2024ELABE BFMTV Actualisation 23H59 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 23H59 estimation 2nd tour élections législatives 2024
 
ELABE BFMTV Actualisation 23H20 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 23H20 estimation 2nd tour élections législatives 2024ELABE BFMTV Actualisation 23H20 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 23H20 estimation 2nd tour élections législatives 2024
 
Plan de communication pour "Les 7 sens".
Plan de communication pour "Les 7 sens".Plan de communication pour "Les 7 sens".
Plan de communication pour "Les 7 sens".
 
Les Français et la situation post élections législatives
Les Français et la situation post élections législativesLes Français et la situation post élections législatives
Les Français et la situation post élections législatives
 
ELABE BFMTV Actualisation estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation estimation 2nd tour élections législatives 2024ELABE BFMTV Actualisation estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation estimation 2nd tour élections législatives 2024
 

Introduction spark

  • 1. Introduction à! Nantes - 08/07/2014! Ludwine Probst - @nivdul
  • 2. développeuse! maths lover! machine learning & big data Leadeuse de Duchess France @nivdulnivdul.wordpress.com
  • 6. • analytics pour de gros datasets et données en mémoire! • Resilient Distributed Datasets (RDD)! • principe de lineage! • compatible avec Hadoop / InputFormats! • meilleures performances que Hadoop! • plus de flexibilité d’implémentation
  • 7. Interrogation de Spark shell scala/python! supporte les lambdas expressions (Java8) compatible avec NumPy
  • 9. SparkContext SparkConf sparkConf = new SparkConf() .setAppName("SimpleExample") .setMaster("local"); ! //.setMaster(« spark://192.168.1.11:7077") ! ! JavaSparkContext sc = new JavaSparkContext(sparkConf);
  • 10. Resilient Distributed Datasets (RDD) • créé au démarrage! • traitement en parallèle possible / partitionnement sur les différents noeuds du cluster! • opérations sur les RDDs = transformations + actions! • contrôle sur la persistance : MEMORY, DISK…! • resistance à la panne (principe de lineage avec le DAG) Définition : collections distribuées fault-tolerant et ! immutable
  • 11. Créer un RDD // sc est le SparkContext ! // à partir d’un fichier texte JavaRDD<String[]> lines = sc.textFile("ensemble-des-equipements- sportifs-de-lile-de-france.csv"); ! // à partir d’un fichier venant d’Hadoop sc.hadoopFile(path, inputFormatClass, keyClass, valueClass); !
  • 12. Opérations sur les RDDs JavaRDD<String[]> lines = sc.textFile("ensemble-des-equipements- sportifs-de-lile-de-france.csv") .map(line -> line.split(";")) // suppression de la 1ère ligne .filter(line -> !line[1].equals("ins_com")); ! lines.count(); ! // nombre par type d'équipement rangé par ordre alphabétique lines.mapToPair(line -> new Tuple2<>(line[3], 1)) .reduceByKey((x, y) -> x + y) .sortByKey() .foreach(t -> System.out.println(t._1 + " -> " + t._2)); !
  • 13. Persistance des RDDs // lines est un RDD ! // persistance par défaut MEMORY_ONLY lines.cache(); ! // spécifié lines.persist(StorageLevel.DISK_ONLY()); lines.persist(StorageLevel.MEMORY_ONLY()); lines.persist(StorageLevel.MEMORY_AND_DISK()); ! // avec réplication lines.persist(StorageLevel.apply(1, 3)); *Spark est fault-tolerant grâce au graphe d’exécution qui enregistre la suite des opérations effectuées sur un RDD