Les technologies big data avec speech commentaries

Université de Kairouan
Institut Supérieur d’Informatique
et de Gestion de Kairouan
LES TECHNOLOGIES
BIG-DATA
Réaliser par:
Jamli Rim

PLAN:
En jeux du Big Data
Types De Technologie Big Data
Top Des Technologies Big Data
Apache Spark
1
2
3
4
1

2
1- En jeux du BIG DATA
Without big data analytics,companies are blind and deaf,wandering out onto the web like deer on a freeway.
Geoffrey Moore

4
En jeux du BIG-DATA
1
1
Les méga donné par le biais des
formules mathématiques.
D’identifier et d’analyser nos schémas
comportementaux .
Prédire l’avenir , le future numérique.
Explosion des données modifier
radicalement notre vie.
Que le Big data c’est : l’accroissement
exponentielle des données.

5
2-Types De Technologie
Big Data

6
2
Qu'est-ce que la technologie Big Data?
Logiciel utilitaire conçu pour analyser , traiter et extraire les informations complexe et volumineux
logiciel de traitement de données traditionnel
Technologies de traitement de Big Data:
analyser énorme quantité de données
temps réel
proposer des conclusions /prévisions
réduire les risques

7
2
Types de technologies Big Data:
 Technologies Big Data opérationnelles
 Technologies analytiques du Big Data
Les données quotidiennes normales que nous générons
Les transactions en ligne, les médias sociaux ou les
données d'une organisation particulière
Alimenter les technologies analytiques de Big Data.
Réservation de billets en ligne, qui comprend vos billets de train,
billets d'avion, billets de cinéma,Airbnb,tripadvisor
Les achats en ligne qui sont votre offre Amazon,
Walmart, Snap et bien d'autres.
 médias sociaux comme Facebook, Instagram,etc

8
2
 la version avancée des technologies du Big Data
complexe que le Big Data Opérationnel
Le big data analytique est l'endroit où la partie de la performance réelle entre en scène et les
décisions commerciales cruciales en temps réel sont prises en analysant le Big Data opérationnel

9
2
Stock marketing
Réaliser les missions spatiales où chaque information est cruciale.
Informations sur les prévisions météorologiques.
Domaines médicaux dans lesquels:
l'état de santé d'un patient particulier peut être surveillé.

10
3-Top Des Technologies Big
Data

11
3
Les principales technologies Big Data
sont divisées en 4 domaines qui sont classés
comme suit:
Stockage de données
Exploration de données
Analyse des données
Visualisation de données

12
3
2019
2019
Stockage de données: HADOOP
Hadoop est un Framework logiciel open-source utilisé pour stocker et traiter le Big Data de manière
distribuée sur de grands clusters de matériel de base. Hadoop est sous licence Apache v2.
Hadoop a été développé sur la base de l'article rédigé par Google sur le système MapReduce et
applique des concepts de programmation fonctionnelle.
Développé par : Apache Software Fondation en 2011, le 10 décembre.
Écrit en : JAVA
Entreprises utilisant Hadoop:
Qu'est-ce que Hadoop?

13
3
Exploration des données
PRESTO est un moteur de requêtes SQL distribué open source permettant d'exécuter des requêtes
analytiques interactives sur des sources de données de toutes tailles allant de gigaoctets à pétaoctets.
Presto permet d'interroger des données dans Hive , Cassandra , les bases de données relationnelles
et les magasins de données propriétaires.
Développé par : Apache Foundation en 2013.
Écrit en : JAVA
Entreprises utilisant Presto :

14
3
Spark fournit des capacités de calcul en mémoire pour fournir Speed,
un modèle d'exécution généralisé pour prendre en charge une grande
variété d'applications, et des API Java , Scala et Python pour faciliter
le développement.
Développé par : Apache Software Foundation
Écrit en : Java, Scala, Python, R
Entreprises utilisant Spark:

15
3
BlockChain:
utilisé dans des fonctions essentielles telles que le paiement, le séquestre et le titre peut également réduire la
fraude, augmenter la confidentialité financière, accélérer les transactions et internationaliser les marchés.
BlockChain peut être utilisé pour réaliser ce qui suit dans un environnement de réseau d'entreprise:
Grand livre partagé: Ici, nous pouvons ajouter le système distribué d'enregistrements sur un réseau
d'entreprise.
Contrat intelligent: les conditions commerciales sont intégrées dans la base de données des transactions et
exécutées avec les transactions.
Confidentialité: en garantissant une visibilité appropriée, les transactions sont sécurisées, authentifiées et
vérifiables
Consensus: toutes les parties d'un réseau d'entreprise acceptent de mettre en réseau les transactions vérifiées.
Développé par : Bitcoin
Rédigé en : JavaScript, C ++, Python
Entreprises utilisant Blockchain:

16
3
Tableau est un outil de visualisation de données puissant et à la croissance la plus rapide
utilisé dans le secteur de la Business Intelligence .
L'analyse des données est très rapide avec Tableau et les visualisations créées se présentent
sous la forme de tableaux de bord et de feuilles de calcul.
Développé par : TableAU 2013 May 17
Écrit en : JAVA, C ++, Python, C
Entreprises utilisant :
Visualisation de données

17
3
Technologies Big Data émergentes

18
3
TensorFlow dispose d'un écosystème complet et flexible d'outils, de bibliothèques et de ressources
communautaires qui permet aux chercheurs de pousser les avancées de pointe en matière de machine
learning et les développeurs peuvent facilement créer et déployer des applications basées sur le machine
learning.
Développé par : Google Brain Team en 2019
Écrit en : : Python, C++, CUDA
Entreprises utilisant TensorFlow:

19
4- Apache Spark
Historique
La notion Spark
Architecture
RDD
Avantages

20
Apache Spark
4
 Un projet de recherche à l' UC
Berkeley AMPLab en 2009
Open source au début de 2010
En 2013, transmis à la
fondation Apache, Spark
devient l'un des projets les
plus actifs de cette dernière
En 2014, Spark a
gagné le Daytona
GraySort Contest
dont l'objectif est de
trier 100 To de
données le plus
rapidement possible
Les contributeurs qui participent à son développement sont nombreux et
issus d'environ 200 sociétés différentes,
comme Intel, Facebook, IBM et Netflix. Ainsi depuis 2015 on recense plus de
1 000 contributeurs
Historique

21
Apache Spark
4
Plateforme de traitement sur cluster générique
Assure un traitement parallèle et distribué des données massives
Réalise des traitement par lot (batch) ou a la volée (streaming)
Permet d’intégrer tous les outils et technologies Big data
Offre un traitement itératif et interactif
Offre des API de haut niveau en JAVA, Scala ,PYTHON et R
La notion Spark

23
Apache Spark
4
Architecture
Maitre-Esclave
JOBS

24
Apache Spark
4
RDD
RDD
Resilient Distributed Dataset
Collection distribuée d’éléments en mémoire, qui peut être gérée en parallèle
Résilient: capable de récupérer rapidement en cas de panne ou de problèmes
Distribué: partage les données sur les différents nœuds pour une exécution parallèle
Dataset: collection des données en mémoire ;accélère le traitement sur données

23
Apache Spark
4
RDD
En parallélisant des collections existantes
Utiliser la fonction: parallelize()
A partir de fichieres enregistrés dans un support de stockage
tel que disque local, hdfs,Cassandra….
A partir d’autres RDD
Grace aux transformations…

25
Apache Spark
4
Performance De Traitement:
Spark utilise des mécanismes qui
optimisé en terme de temps
d’exécution
La réduction de nombres de lecture-
écriture sur le disque.
Dynamicité:
Il est facilement possible de
développer une application
parallèle, car Spark fournit
80 opérateurs de haut niveau.
Tolérances Aux pannes:
Offre une tolérance aux pannes via Spark abstraction-RDD.
Les RDD Spark sont conçus pour gérer l’échec de tout nœud
de travail du cluster. Ainsi, cela garantit une perte de données
nulle.
Traitement A La Volée
Support De Plusieurs Langages:
Convivialité: Spark prend en charge
plusieurs langues, ce qui facilite le
travail
Avantages

Spark et Hadoop :
compagnons ou concurrents ?
Spark n’est pas un concurrent d’Hadoop.
Spark et Hadoop ne sont pas pour le même usage.
Spark :traite les données plus rapidement que Map
Reduce.
D’une part professionnel :utiliser hadoop avec la partie
HDFS et Spark peut remplace map reduce
26

Références
26
edureka.co/blog/top-big-data-technologies/!
https://www.youtube.com/watch?v=bS2als8VmuQ
https://www.educba.com/what-is-apache-spark/
https://fr.wikipedia.org/wiki/Apache_Spark

Les technologies big data avec speech commentaries

Les technologies big data avec speech commentaries

Contenu connexe

Tendances

Similaire à Les technologies big data avec speech commentaries

Les technologies big data avec speech commentaries

Notes de l'éditeur