Big Data
Mouna TORJMEN KHEMAKHEM
Ecole Nationale d’Ingénieurs de Sfax (ENIS)
2017-2018
Chapitre 1
Introduction à Big Data
Mouna TORJMEN KHEMAKHEM
Historique du Big Data
Définition du Big Data
Les 5Vs du Big Data
Plan du chapitre
Les 5Vs du Big Data
Spécificités du Big Data
Les domaines d’application du Big Data
Mouna TORJMEN KHEMAKHEM
BIG DATA Landscape (2012)
4444
Mouna TORJMEN KHEMAKHEM
BIG DATA Landscape Version 3.0 (2016)
5555
Mouna TORJMEN KHEMAKHEM
Big Data est plus qu’un logiciel, c’est un domaine d’activité!
6666
Mouna TORJMEN KHEMAKHEM
Google : Le système de fichier GFS
• Problème de stockage de l’index volumineux du moteur de
recherche Google.
1. Utilisation d’un SGBDR ?
BIG DATA: Historique
1. Utilisation d’un SGBDR ?
Problème de distribution des données
Problème du nombre d’utilisateurs
Problème de vitesse du moteur de recherche
2. Invention d’un nouveau système propriétaire : GFS ( Google File
Système) en 2003
7777
Mouna TORJMEN KHEMAKHEM
Google : Le système de fichier GFS
BIG DATA: Historique
8888
https://fr.wikipedia.org/wiki/Google_File_System
Mouna TORJMEN KHEMAKHEM
Google : Le système de fichier GFS
-MapReduce : Simplified Data Processing on Large Clusters
- -algorithme inventé par Google Inc permettant la distribution des traitements
sur un ensemble de machines avec le système GFS.
- Google possède aujourd'hui plus de 1 000 000 de serveurs interconnectés
BIG DATA: Historique
- Google possède aujourd'hui plus de 1 000 000 de serveurs interconnectés
dans le monde.
9999
Mouna TORJMEN KHEMAKHEM
BIG DATA: Définition
Données massives
Données incertaines
Visualisation de
donnéesBig
Data
Big
Data
Traitements parallèles
Données distribuées
Données non
structurées
Flux de données Fouille de données
Machine Learning
Prédiction et Prévision
10101010
DataData
Mouna TORJMEN KHEMAKHEM
Big Data = données massives
Facilité d’acquisition des données: capteurs, télescopes, cartes de
fidélité, réseaux sociaux, …
BIG DATA: Définition
fidélité, réseaux sociaux, …
Baisse des prix des supports de stockage
11111111
Mouna TORJMEN KHEMAKHEM
Big data = données distribuées
Quantités de données énormes
BIG DATA: Définition
Utilisation d’une seule machine impossible
Acquisition des données à des endroits différents
Transfert couteux en terme de temps
12121212
Mouna TORJMEN KHEMAKHEM
Big data = données incertaines
Imprécision des capteurs
BIG DATA: Définition
– Les images transmises par un télescope sont altérées
Fausses données sur les réseaux sociaux
– Les données des réseaux sociaux sont souvent incomplètes et
bruitées
13131313
Mouna TORJMEN KHEMAKHEM
Big Data = données non/peu structurées
Non structurées: vidéo
Peu structurées: tweets
BIG DATA: Définition
Peu structurées: tweets
Très structurées: tickets de caisse
Les systèmes NoSQL permettent une structuration lâche
14141414
Mouna TORJMEN KHEMAKHEM
Big Data = flux de données
Arrivé des données en continu (stream data)
Traitement efficace=prise en charge des données au moment d’arrivée
BIG DATA: Définition
Traitement efficace=prise en charge des données au moment d’arrivée
Proposition des algorithmes ne nécessitant pas plusieurs passes sur les
données
15151515
Mouna TORJMEN KHEMAKHEM
Big Data = Traitement parallèle
Stockage des données d’une manière distribuée traitement
parallèle autant que possible
BIG DATA: Définition
Remarque: Un traitement parallèle n’est pas forcément plus
rapide qu’un traitement séquentiel.
16161616
Mouna TORJMEN KHEMAKHEM
Big Data = Visualisation de données
Données massives Résultats massifs
Comment analyser et comprendre ces résultats énormes?
BIG DATA: Définition
Comment analyser et comprendre ces résultats énormes?
Visualisation: représentation graphique de données
17171717
Mouna TORJMEN KHEMAKHEM
Big Data = Fouille de données
Data Mining à partir de gros volumes de données
Extraction d'un savoir ou d'une connaissance
BIG DATA: Définition
Extraction d'un savoir ou d'une connaissance
18181818
Mouna TORJMEN KHEMAKHEM
Big Data = Prédiction et Prévision
Explication de phénomènes
Prévision des conséquences Réduire les risques
Analyse prédictif du futur Aide à la prise de décisions
BIG DATA: Définition
Analyse prédictif du futur Aide à la prise de décisions
19191919
Mouna TORJMEN KHEMAKHEM
Big Data = Machine Learning
Grâce aux grosses quantités de données
BIG DATA: Définition
Extraction des modèles au lieu de valeurs précises
Ces modèles sont
– plus précis grâce à la disponibilité de données
– plus difficiles à réaliser à cause de la quantité des données
20202020
Mouna TORJMEN KHEMAKHEM
Gartner (2001) – 3Vs
Les 5 Vs de BIG DATA
21212121
IBM (2012) – 4Vs
Mouna TORJMEN KHEMAKHEM
2015: 5 Vs
Les 5 Vs de BIG DATA
22222222
Mouna TORJMEN KHEMAKHEM
Volume
Quantité de données croissante (teraoctets et même petaoctets).
En 1 minute Internet (30h vidéos, 204 millions emails, 300 milles tweets…)
Estimation d’une croissance de 800% des quantités de données à traiter dans 5
ans.
Les 5 Vs de BIG DATA
23232323
Mouna TORJMEN KHEMAKHEM
Variété
Données structurées (20%) :bases de données structurée, feuilles de calcul de
tableur, …
Données non structurées (80%) : textes, sons, photos, vidéos, emails ,
messages réseaux sociaux, …
Les 5 Vs de BIG DATA
Diversité des données
Variété
24242424
Mouna TORJMEN KHEMAKHEM
Vélocité : rapidité des flux de données
Données en temps réel (internet of things, détection de fraudes, …).
Analyse de ces données au moment de leur génération sans les stocker en
bases de données.
Les 5 Vs de BIG DATA
Exemple :
- Streaming Data: caméra de surveillance
- 100 Capteurs / voiture moderne pour la surveillance
25252525
Mouna TORJMEN KHEMAKHEM
Véracité
Qualité de la fiabilité des données.
Données bruitées, imprécises, …
Exemple:
Les 5 Vs de BIG DATA
Exemple:
-Faux profils sur les réseaux sociaux
-Fausses informations et faux avis des consommateurs sur un
produit.
-Capteurs défectueux.
Smart Data26262626
Mouna TORJMEN KHEMAKHEM
Valeur
Utilisation des stratégie adéquates pour une création de valeur
des données disponibles
apport de la valeur ajoutée et de nouvelles connaissances.
Les 5 Vs de BIG DATA
apport de la valeur ajoutée et de nouvelles connaissances.
27272727
Mouna TORJMEN KHEMAKHEM
• Distribution des données
Les spécificités du BIG DATA
Nœud 1
Nœud 2
Nœud 3
•Traitement en parallèle
28282828
Nœud 3
Mouna TORJMEN KHEMAKHEM
• Tolérance aux pannes
Les spécificités du BIG DATA
Fichier
29292929 Nœud 1 Nœud 2 Nœud 3 Nœud n
Mouna TORJMEN KHEMAKHEM
• Utilisation de matériel standard
• Flexibilité, évolutivité et scalabilité
Les spécificités du BIG DATA
RAID
• Flexibilité, évolutivité et scalabilité
30303030
Mouna TORJMEN KHEMAKHEM
Santé
• Dépister de manière précoce la maladie d’un individu grâce aux
requêtes qu’il a effectuées sur les moteurs de recherche en ligne
• Médecine personnalisée: choisir le traitement en fonction des
meilleures prédictions faites grâce au big data, prenant en compte
Domaines d’application de BIG DATA
meilleures prédictions faites grâce au big data, prenant en compte
un ensemble de critères variés allant de la génétique au mode
d’alimentation .
• Analyser les données de santé d’une population pour prévoir les
maladies et les épidémies, savoir les causes environnementales et
prendre les préventions nécessaires.
31313131
Mouna TORJMEN KHEMAKHEM
Marketing
• Analyse prédictive : prédiction de ce que cherche le client en
analysant l’historique de ses achats et proposition d’achat sur les
zones des offres et des publicités afin d’augmenter les achats.
• Analyse des sentiments : détection de satisfaction ou de
Domaines d’application de BIG DATA
• Analyse des sentiments : détection de satisfaction ou de
mécontentement des clients envers un produit en analysant leurs
posts sur les réseaux sociaux.
Analyse de tweets en temps réel
•Identification des terroristes par leurs tweets publiés
•Identification des thèmes les plus abordées en temps réel
•Analyse de sentiments
32323232
Mouna TORJMEN KHEMAKHEM
Politique
• L’analyse de Big Data a joué un rôle important dans la
campagne de ré-élection de Barack Obama, notamment
pour analyser les opinions politiques de la population.
Domaines d’application de BIG DATA
• En 2014, SIGMA conseil a utilisé le Big Data pour
donner l’estimation du résultat de vote préliminaire en
Tunisie.
33333333
Mouna TORJMEN KHEMAKHEM

Chapitre1 introduction

  • 1.
    Big Data Mouna TORJMENKHEMAKHEM Ecole Nationale d’Ingénieurs de Sfax (ENIS) 2017-2018
  • 2.
    Chapitre 1 Introduction àBig Data Mouna TORJMEN KHEMAKHEM
  • 3.
    Historique du BigData Définition du Big Data Les 5Vs du Big Data Plan du chapitre Les 5Vs du Big Data Spécificités du Big Data Les domaines d’application du Big Data Mouna TORJMEN KHEMAKHEM
  • 4.
    BIG DATA Landscape(2012) 4444 Mouna TORJMEN KHEMAKHEM
  • 5.
    BIG DATA LandscapeVersion 3.0 (2016) 5555 Mouna TORJMEN KHEMAKHEM
  • 6.
    Big Data estplus qu’un logiciel, c’est un domaine d’activité! 6666 Mouna TORJMEN KHEMAKHEM
  • 7.
    Google : Lesystème de fichier GFS • Problème de stockage de l’index volumineux du moteur de recherche Google. 1. Utilisation d’un SGBDR ? BIG DATA: Historique 1. Utilisation d’un SGBDR ? Problème de distribution des données Problème du nombre d’utilisateurs Problème de vitesse du moteur de recherche 2. Invention d’un nouveau système propriétaire : GFS ( Google File Système) en 2003 7777 Mouna TORJMEN KHEMAKHEM
  • 8.
    Google : Lesystème de fichier GFS BIG DATA: Historique 8888 https://fr.wikipedia.org/wiki/Google_File_System Mouna TORJMEN KHEMAKHEM
  • 9.
    Google : Lesystème de fichier GFS -MapReduce : Simplified Data Processing on Large Clusters - -algorithme inventé par Google Inc permettant la distribution des traitements sur un ensemble de machines avec le système GFS. - Google possède aujourd'hui plus de 1 000 000 de serveurs interconnectés BIG DATA: Historique - Google possède aujourd'hui plus de 1 000 000 de serveurs interconnectés dans le monde. 9999 Mouna TORJMEN KHEMAKHEM
  • 10.
    BIG DATA: Définition Donnéesmassives Données incertaines Visualisation de donnéesBig Data Big Data Traitements parallèles Données distribuées Données non structurées Flux de données Fouille de données Machine Learning Prédiction et Prévision 10101010 DataData Mouna TORJMEN KHEMAKHEM
  • 11.
    Big Data =données massives Facilité d’acquisition des données: capteurs, télescopes, cartes de fidélité, réseaux sociaux, … BIG DATA: Définition fidélité, réseaux sociaux, … Baisse des prix des supports de stockage 11111111 Mouna TORJMEN KHEMAKHEM
  • 12.
    Big data =données distribuées Quantités de données énormes BIG DATA: Définition Utilisation d’une seule machine impossible Acquisition des données à des endroits différents Transfert couteux en terme de temps 12121212 Mouna TORJMEN KHEMAKHEM
  • 13.
    Big data =données incertaines Imprécision des capteurs BIG DATA: Définition – Les images transmises par un télescope sont altérées Fausses données sur les réseaux sociaux – Les données des réseaux sociaux sont souvent incomplètes et bruitées 13131313 Mouna TORJMEN KHEMAKHEM
  • 14.
    Big Data =données non/peu structurées Non structurées: vidéo Peu structurées: tweets BIG DATA: Définition Peu structurées: tweets Très structurées: tickets de caisse Les systèmes NoSQL permettent une structuration lâche 14141414 Mouna TORJMEN KHEMAKHEM
  • 15.
    Big Data =flux de données Arrivé des données en continu (stream data) Traitement efficace=prise en charge des données au moment d’arrivée BIG DATA: Définition Traitement efficace=prise en charge des données au moment d’arrivée Proposition des algorithmes ne nécessitant pas plusieurs passes sur les données 15151515 Mouna TORJMEN KHEMAKHEM
  • 16.
    Big Data =Traitement parallèle Stockage des données d’une manière distribuée traitement parallèle autant que possible BIG DATA: Définition Remarque: Un traitement parallèle n’est pas forcément plus rapide qu’un traitement séquentiel. 16161616 Mouna TORJMEN KHEMAKHEM
  • 17.
    Big Data =Visualisation de données Données massives Résultats massifs Comment analyser et comprendre ces résultats énormes? BIG DATA: Définition Comment analyser et comprendre ces résultats énormes? Visualisation: représentation graphique de données 17171717 Mouna TORJMEN KHEMAKHEM
  • 18.
    Big Data =Fouille de données Data Mining à partir de gros volumes de données Extraction d'un savoir ou d'une connaissance BIG DATA: Définition Extraction d'un savoir ou d'une connaissance 18181818 Mouna TORJMEN KHEMAKHEM
  • 19.
    Big Data =Prédiction et Prévision Explication de phénomènes Prévision des conséquences Réduire les risques Analyse prédictif du futur Aide à la prise de décisions BIG DATA: Définition Analyse prédictif du futur Aide à la prise de décisions 19191919 Mouna TORJMEN KHEMAKHEM
  • 20.
    Big Data =Machine Learning Grâce aux grosses quantités de données BIG DATA: Définition Extraction des modèles au lieu de valeurs précises Ces modèles sont – plus précis grâce à la disponibilité de données – plus difficiles à réaliser à cause de la quantité des données 20202020 Mouna TORJMEN KHEMAKHEM
  • 21.
    Gartner (2001) –3Vs Les 5 Vs de BIG DATA 21212121 IBM (2012) – 4Vs Mouna TORJMEN KHEMAKHEM
  • 22.
    2015: 5 Vs Les5 Vs de BIG DATA 22222222 Mouna TORJMEN KHEMAKHEM
  • 23.
    Volume Quantité de donnéescroissante (teraoctets et même petaoctets). En 1 minute Internet (30h vidéos, 204 millions emails, 300 milles tweets…) Estimation d’une croissance de 800% des quantités de données à traiter dans 5 ans. Les 5 Vs de BIG DATA 23232323 Mouna TORJMEN KHEMAKHEM
  • 24.
    Variété Données structurées (20%):bases de données structurée, feuilles de calcul de tableur, … Données non structurées (80%) : textes, sons, photos, vidéos, emails , messages réseaux sociaux, … Les 5 Vs de BIG DATA Diversité des données Variété 24242424 Mouna TORJMEN KHEMAKHEM
  • 25.
    Vélocité : rapiditédes flux de données Données en temps réel (internet of things, détection de fraudes, …). Analyse de ces données au moment de leur génération sans les stocker en bases de données. Les 5 Vs de BIG DATA Exemple : - Streaming Data: caméra de surveillance - 100 Capteurs / voiture moderne pour la surveillance 25252525 Mouna TORJMEN KHEMAKHEM
  • 26.
    Véracité Qualité de lafiabilité des données. Données bruitées, imprécises, … Exemple: Les 5 Vs de BIG DATA Exemple: -Faux profils sur les réseaux sociaux -Fausses informations et faux avis des consommateurs sur un produit. -Capteurs défectueux. Smart Data26262626 Mouna TORJMEN KHEMAKHEM
  • 27.
    Valeur Utilisation des stratégieadéquates pour une création de valeur des données disponibles apport de la valeur ajoutée et de nouvelles connaissances. Les 5 Vs de BIG DATA apport de la valeur ajoutée et de nouvelles connaissances. 27272727 Mouna TORJMEN KHEMAKHEM
  • 28.
    • Distribution desdonnées Les spécificités du BIG DATA Nœud 1 Nœud 2 Nœud 3 •Traitement en parallèle 28282828 Nœud 3 Mouna TORJMEN KHEMAKHEM
  • 29.
    • Tolérance auxpannes Les spécificités du BIG DATA Fichier 29292929 Nœud 1 Nœud 2 Nœud 3 Nœud n Mouna TORJMEN KHEMAKHEM
  • 30.
    • Utilisation dematériel standard • Flexibilité, évolutivité et scalabilité Les spécificités du BIG DATA RAID • Flexibilité, évolutivité et scalabilité 30303030 Mouna TORJMEN KHEMAKHEM
  • 31.
    Santé • Dépister demanière précoce la maladie d’un individu grâce aux requêtes qu’il a effectuées sur les moteurs de recherche en ligne • Médecine personnalisée: choisir le traitement en fonction des meilleures prédictions faites grâce au big data, prenant en compte Domaines d’application de BIG DATA meilleures prédictions faites grâce au big data, prenant en compte un ensemble de critères variés allant de la génétique au mode d’alimentation . • Analyser les données de santé d’une population pour prévoir les maladies et les épidémies, savoir les causes environnementales et prendre les préventions nécessaires. 31313131 Mouna TORJMEN KHEMAKHEM
  • 32.
    Marketing • Analyse prédictive: prédiction de ce que cherche le client en analysant l’historique de ses achats et proposition d’achat sur les zones des offres et des publicités afin d’augmenter les achats. • Analyse des sentiments : détection de satisfaction ou de Domaines d’application de BIG DATA • Analyse des sentiments : détection de satisfaction ou de mécontentement des clients envers un produit en analysant leurs posts sur les réseaux sociaux. Analyse de tweets en temps réel •Identification des terroristes par leurs tweets publiés •Identification des thèmes les plus abordées en temps réel •Analyse de sentiments 32323232 Mouna TORJMEN KHEMAKHEM
  • 33.
    Politique • L’analyse deBig Data a joué un rôle important dans la campagne de ré-élection de Barack Obama, notamment pour analyser les opinions politiques de la population. Domaines d’application de BIG DATA • En 2014, SIGMA conseil a utilisé le Big Data pour donner l’estimation du résultat de vote préliminaire en Tunisie. 33333333 Mouna TORJMEN KHEMAKHEM