C'est quoi Spark ?
Spark (ou Apache Spark) est un Framework open source de calcul distribué in-memory pour
Faire de l’analyse unifié, un moteur ultra-rapide pour des traitements de données à grande échelle.
A quoi ça sert ?
Il permet d’effectuer des analyses de grande ampleur par le biais des machines de Clusters.
Il peut être utilisée pour de nombreuses tâches qui devaient auparavant être accomplies avec plusieurs Framework différents.
Il est essentiellement dédié au Big Data et Machine Learning. Voir sujet 2 et 7
JVM
INSTALLATIONS DES PRÉREQUIS
1. Télécharger JAVA jdk 8 et l’ installer :
https://www.oracle.com/fr/java/technologies/javase/javase8-archive-
downloads.html#license-lightbox
2. Créer une variable d’environnement JAVA_HOME contenant le chemin vers JDK8 :
JAVA_HOME = C:Program FilesJavajdk1.8.0_202
3. Insérer dans la variable d’environnement path la variable JAVA_HOME (sans oublier
bin) : path = %JAVA_HOME%bin
4. Ouvrir un terminal. Lancer la commande java -version et vérifier que java 8 est bien
exécutable depuis le terminal : java version "1.8.0_321"
• PYTHON sup 3.6 ou inf 3.10 :
1. Télécharger python (prendre la version 3.9) :
https://www.python.org/ftp/python/3.9.7/python-3.9.7-amd64.exe
2. Installer python en cochant la case add path.
• Ouvrir un terminal et lancer la commande python -V. vérifier que python est bien
installé et exécutable sur le terminal. Résultat attendu : Python 3.9.7
1. Télécharger Spark apache : https://www.apache.org/dyn/closer.lua/spark/spark-3.2.1/spark-
3.2.1-bin-hadoop3.2.tgz
2. Dézipper et copier le dossier sur le répertoire C:spark (répertoire spark que vous créez)
3. Créer une variable d’environnement SPARK_HOME, contenant le chemin vers le dossier
spark : SPARK_HOME = C:sparkspark-3.2.1-bin-hadoop3.2
4. Insérer dans la variable d’environnement path la variable SPARK_HOME (sans oublier bin) :
path = %SPARK_HOME%bin
Ouvrir le terminal pour lancer la commande pyspark , chargement de l’application réussit
avec l’affichage du Logo :
CONCLUSION
Son Concepteur
Matei Zaharia
Cofondateur et chef
Technologist Databricks
Les chiffres
2009 Création de SPARK
1200 Développeurs
2014 Année du Record dans le Tri
100 To de données en 23 mn contre 72
S’utilise uniquement 206 nœuds
Tri à l’échelle du pétaoctet (1 Po = 1015 o )
Ce qu’on peut faire avec l’outil
• Chargement les données sur le disque.
• Importer les données dans la mémoire de la machine
• Traiter et analyser les données.
• Créer le modèle d'apprentissage automatique.
• Stocker la prédiction sur le disque.
• Et bien plus….
LIENS UTILES
• Tout savoir sur SPARK
• https://meritis.fr/spark-shuffle/
• https://www.crunchbase.com/organization/spark-digital-capital
• https://datascientest.com/apache-spark
• https://aws.amazon.com/fr/solutions/implementations/sql-based-etl-with-apache-spark-on-amazon-eks/
• https://www.guru99.com/pyspark-tutorial.html#3
• https://spark.apache.org/docs/3.0.0-preview/web-ui.html
• https://sparkdigitalcapital.com/ *************
• Installation
• https://spark.apache.org/downloads.html
• TUTO / LAB
• https://community.cloudera.com/t5/Community-Articles/Micro-Batching-Cryptocurrency-Transactions-with-Spark/ta-p/248390
• https://github.com/patalwell/SparkStreamingKafka
• https://www.apache.org/dyn/closer.lua/spark/spark-3.2.1/spark-3.2.1-bin-hadoop3.2.tgz
• http://www.xavierdupre.fr/app/sparkouille/helpsphinx/lectures/spark_install.html#installation-de-spark-sous-windows
• https://phoenixnap.com/kb/install-spark-on-windows-10
• https://www.udemy.com/topic/apache-spark/?locale=fr_FR&persist_locale=

Présentation_Spark.pptx

  • 2.
    C'est quoi Spark? Spark (ou Apache Spark) est un Framework open source de calcul distribué in-memory pour Faire de l’analyse unifié, un moteur ultra-rapide pour des traitements de données à grande échelle. A quoi ça sert ? Il permet d’effectuer des analyses de grande ampleur par le biais des machines de Clusters. Il peut être utilisée pour de nombreuses tâches qui devaient auparavant être accomplies avec plusieurs Framework différents. Il est essentiellement dédié au Big Data et Machine Learning. Voir sujet 2 et 7
  • 4.
  • 6.
    INSTALLATIONS DES PRÉREQUIS 1.Télécharger JAVA jdk 8 et l’ installer : https://www.oracle.com/fr/java/technologies/javase/javase8-archive- downloads.html#license-lightbox 2. Créer une variable d’environnement JAVA_HOME contenant le chemin vers JDK8 : JAVA_HOME = C:Program FilesJavajdk1.8.0_202 3. Insérer dans la variable d’environnement path la variable JAVA_HOME (sans oublier bin) : path = %JAVA_HOME%bin 4. Ouvrir un terminal. Lancer la commande java -version et vérifier que java 8 est bien exécutable depuis le terminal : java version "1.8.0_321"
  • 7.
    • PYTHON sup3.6 ou inf 3.10 : 1. Télécharger python (prendre la version 3.9) : https://www.python.org/ftp/python/3.9.7/python-3.9.7-amd64.exe 2. Installer python en cochant la case add path. • Ouvrir un terminal et lancer la commande python -V. vérifier que python est bien installé et exécutable sur le terminal. Résultat attendu : Python 3.9.7
  • 8.
    1. Télécharger Sparkapache : https://www.apache.org/dyn/closer.lua/spark/spark-3.2.1/spark- 3.2.1-bin-hadoop3.2.tgz 2. Dézipper et copier le dossier sur le répertoire C:spark (répertoire spark que vous créez) 3. Créer une variable d’environnement SPARK_HOME, contenant le chemin vers le dossier spark : SPARK_HOME = C:sparkspark-3.2.1-bin-hadoop3.2 4. Insérer dans la variable d’environnement path la variable SPARK_HOME (sans oublier bin) : path = %SPARK_HOME%bin Ouvrir le terminal pour lancer la commande pyspark , chargement de l’application réussit avec l’affichage du Logo :
  • 12.
    CONCLUSION Son Concepteur Matei Zaharia Cofondateuret chef Technologist Databricks Les chiffres 2009 Création de SPARK 1200 Développeurs 2014 Année du Record dans le Tri 100 To de données en 23 mn contre 72 S’utilise uniquement 206 nœuds Tri à l’échelle du pétaoctet (1 Po = 1015 o ) Ce qu’on peut faire avec l’outil • Chargement les données sur le disque. • Importer les données dans la mémoire de la machine • Traiter et analyser les données. • Créer le modèle d'apprentissage automatique. • Stocker la prédiction sur le disque. • Et bien plus….
  • 13.
    LIENS UTILES • Toutsavoir sur SPARK • https://meritis.fr/spark-shuffle/ • https://www.crunchbase.com/organization/spark-digital-capital • https://datascientest.com/apache-spark • https://aws.amazon.com/fr/solutions/implementations/sql-based-etl-with-apache-spark-on-amazon-eks/ • https://www.guru99.com/pyspark-tutorial.html#3 • https://spark.apache.org/docs/3.0.0-preview/web-ui.html • https://sparkdigitalcapital.com/ ************* • Installation • https://spark.apache.org/downloads.html • TUTO / LAB • https://community.cloudera.com/t5/Community-Articles/Micro-Batching-Cryptocurrency-Transactions-with-Spark/ta-p/248390 • https://github.com/patalwell/SparkStreamingKafka • https://www.apache.org/dyn/closer.lua/spark/spark-3.2.1/spark-3.2.1-bin-hadoop3.2.tgz • http://www.xavierdupre.fr/app/sparkouille/helpsphinx/lectures/spark_install.html#installation-de-spark-sous-windows • https://phoenixnap.com/kb/install-spark-on-windows-10 • https://www.udemy.com/topic/apache-spark/?locale=fr_FR&persist_locale=