SlideShare une entreprise Scribd logo
CHAPITRE 1:
Introduction aux Big Data
Samia BELDJOUDI
1
Plan:
■ Définition de “donnée”
■ Types de données
■ Définition du “Big Data”
■ Importance de Big Data
■ Défis du Big Data
■ Les 3 Vs du Big Data
2
Définition de “donnée”
■ Data are raw symbols that represent the properties of objects and events and
in this sense data has no meaning of itself, it simply exists (Russell L. Acko,
1989).
Exemple. “John”, “Smith”, 30000
■ Information: Donnée + sens (meaning).
(first name, “John”), (last name, “Smith”), (salary, 30000)
3
Types de données
■ Données structurées
■ Données semi-structurées
■ Données non-structurées
4
Données structurées
■ Les données peuvent être identifiées selon leur structure.
■ Une donnée structurée décrit une propriété (e.g., nom, adresse, Numéro de
carte de crédit) d’une entité (e.g., client, produit) selon un modèle (ou
template) fixé.
■ Exemples:
- Données stockées dans des feuilles (e.g., Fichier Excel).
- Enregistrements stockés dans les tables d’une base de données relationnelle.
- Chaque propriété est distinguée facilement des autres.
- Elle correspond à une unité de la structure (e.g., colonne de la table).
5
Données non structurées
■ Une donnée non structurée décrit une entité qui ne possède pas une structure
à cause de ses propriétés qui ne peuvent pas être distinguées les unes des
autres..
■ Un texte est non structuré.
■ Description des propriétés d’une entité noyée dans un contexte riche.
■ Aucun accès direct à ces propriétés.
6
Données semi-structurées
■ Une donnée semi-structurée possède une structure où les entités et leurs propriétés peuvent être facilement
distinguées, MAIS l’organisation de la structure n’est pas rigoureuse comme celle de la table de la base de
données.
■ Exemples: documents XML, JSON, HTML.
■ Exemple (document XML)
<book id="bk101">
<author>Gambardella, Matthew</author>
<title>XML Developers Guide</title>
<genre>Computer</genre>
<price>44.95</price>
<publish_date>2000-10-01</publish_date>
</book>
7
Définition du “Big Data”
■ Le terme Big Data se réfère à une accumulation de données très larges et très
complexes pour être traitées par les outils classiques de gestion des bases de
données.
■ “The term Big Data refers to an accumulation of data that is too large and
complex for processing by traditional database management tools.”
■ Le terme Big Data se réfère:
- Aux solutions hardware et software développées pour la gestion de données
volumineuses.
- A la branche de l’informatique qui étudie les solutions de gestion de données
volumineuses.
8
Importance de Big Data
■ Chaque jour, nous générons plus que 2,5 trillions d’octets de données
■ 90% des données dans le monde ont été créées au cours des deux dernières
années
■ 90% des données générées sont non structurées:
- Capteurs utilisés pour collecter les informations climatiques
- Messages sur les médias sociaux
- Images numériques et vidéos publiées en ligne
- Enregistrements transactionnels d’achat en ligne
- Signaux GPS de téléphones mobiles
9
Challenges
■ Réunir un grand volume de données variées pour trouver de nouvelles idées
■ Capturer des données créées rapidement
■ Sauvegarder toutes ces données
■ Traiter ces données et les utiliser
10
Défis du Big Data
■ Le Big Data ne peut pas être manipulé au niveau d’une seule machine.
■ Il y a deux défis principaux du Big Data: traitement et stockage des données.
■ Traitement:
- Parallélisation du calcul sur les machines,
- Bases de données parallèles.
- Frameworks de traitement distribué (e.g., Hadoop MapReduce/Spark)
■ Stockage:
- Systèmes Distribués.
- Bases de données distribuées.
11
Les 3 Vs du Big Data
■ Big data is high-Volume, high-Velocity and high-Variety information assets that
demand cost-effective, innovative forms of information processing for
enhanced insight and decision making (Gartner).
■ Volume: La taille du dataset.
■ Vélocité: La nécessité de traitement des données à leur arrivée.
■ Variété: La nature hétérogène des données (structurées, semi-structurées, non
structurées).
12
Les 4 Vs du Big Data
■ Big Data consists of extensive datasets primarily in the characteristics of
Volume, Variety, Velocity, and/or Variability that require a scalable
architecture for efficient storage, manipulation, and analysis (NIST).
■ Différence entre variété et variabilité.
- Variété: un boulanger qui vend dix types de pain.
- Variabilité: un boulanger qui vend un seul type de pain qui change de goût
chaque jour.
■ Scalabilité: la capacité d’une architecture du système de gérer la taille
grandissante des données, sans aucune réduction de sa performance.
13
Exemple des 4 Vs du Big Data
■ Système d’analyse des Sentiments qui traite les tweets afin de trouver
l’ambiance générale du candidat politique.
■ Analyse du Langage: sentiment positif/négatif/neutre?
■ Volume: Millions de tweets.
■ Vélocité: flot constant de données (7,500 tweets/second).
■ Variété: Textes, images et liens pages Web.
■ Variabilité: Le sens de chaque mot change selon le contexte.
- Je suis profondément satisfait du candidat
- Je suis profondément offensé par le candidat
14

Contenu connexe

Similaire à Chapitre 1- Introduction aux Big data.pdf

2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungenGalsungen
 
Big_Data_Cours.pdf
Big_Data_Cours.pdfBig_Data_Cours.pdf
Big_Data_Cours.pdfGonnaBe1
 
Diaporamas-Bases de données.pdf
Diaporamas-Bases de données.pdfDiaporamas-Bases de données.pdf
Diaporamas-Bases de données.pdfEST-UMI de Meknès
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
BD_Decisionnel_fin-2020tjtgenieindustriel.ppt
BD_Decisionnel_fin-2020tjtgenieindustriel.pptBD_Decisionnel_fin-2020tjtgenieindustriel.ppt
BD_Decisionnel_fin-2020tjtgenieindustriel.pptmarocdakhla135
 
OWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceOWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceParis Open Source Summit
 
Outils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseOutils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseBEL MRHAR Mohamed Amine
 
LES SYSTEMES INTERACTIFS D'AIDE A' LA DECISION.
LES SYSTEMES INTERACTIFS D'AIDE A' LA DECISION.LES SYSTEMES INTERACTIFS D'AIDE A' LA DECISION.
LES SYSTEMES INTERACTIFS D'AIDE A' LA DECISION.IsabelleMasika
 
De la business intelligence au Big Data
De la business intelligence au Big DataDe la business intelligence au Big Data
De la business intelligence au Big DataTechnofutur TIC
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleMedhi Corneille Famibelle*
 
Distributed programing (hadoop &amp;&amp; java) version finale.pptx
Distributed programing  (hadoop &amp;&amp; java) version finale.pptxDistributed programing  (hadoop &amp;&amp; java) version finale.pptx
Distributed programing (hadoop &amp;&amp; java) version finale.pptxAhmed rebai
 
Big data: NoSQL comme solution
Big data: NoSQL comme solutionBig data: NoSQL comme solution
Big data: NoSQL comme solutionJEMLI Fathi
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2Mehdi TAZI
 

Similaire à Chapitre 1- Introduction aux Big data.pdf (20)

Big data
Big dataBig data
Big data
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
 
Big_Data_Cours.pdf
Big_Data_Cours.pdfBig_Data_Cours.pdf
Big_Data_Cours.pdf
 
Diaporamas-Bases de données.pdf
Diaporamas-Bases de données.pdfDiaporamas-Bases de données.pdf
Diaporamas-Bases de données.pdf
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 
BD_Decisionnel_fin-2020tjtgenieindustriel.ppt
BD_Decisionnel_fin-2020tjtgenieindustriel.pptBD_Decisionnel_fin-2020tjtgenieindustriel.ppt
BD_Decisionnel_fin-2020tjtgenieindustriel.ppt
 
OWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceOWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysance
 
Outils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseOutils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouse
 
LES SYSTEMES INTERACTIFS D'AIDE A' LA DECISION.
LES SYSTEMES INTERACTIFS D'AIDE A' LA DECISION.LES SYSTEMES INTERACTIFS D'AIDE A' LA DECISION.
LES SYSTEMES INTERACTIFS D'AIDE A' LA DECISION.
 
Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)
 
De la business intelligence au Big Data
De la business intelligence au Big DataDe la business intelligence au Big Data
De la business intelligence au Big Data
 
Analyse spatiale en Big data
Analyse spatiale en Big dataAnalyse spatiale en Big data
Analyse spatiale en Big data
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence Artificielle
 
Distributed programing (hadoop &amp;&amp; java) version finale.pptx
Distributed programing  (hadoop &amp;&amp; java) version finale.pptxDistributed programing  (hadoop &amp;&amp; java) version finale.pptx
Distributed programing (hadoop &amp;&amp; java) version finale.pptx
 
Big data: NoSQL comme solution
Big data: NoSQL comme solutionBig data: NoSQL comme solution
Big data: NoSQL comme solution
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2
 
Bigdata opensource
Bigdata opensourceBigdata opensource
Bigdata opensource
 

Chapitre 1- Introduction aux Big data.pdf

  • 1. CHAPITRE 1: Introduction aux Big Data Samia BELDJOUDI 1
  • 2. Plan: ■ Définition de “donnée” ■ Types de données ■ Définition du “Big Data” ■ Importance de Big Data ■ Défis du Big Data ■ Les 3 Vs du Big Data 2
  • 3. Définition de “donnée” ■ Data are raw symbols that represent the properties of objects and events and in this sense data has no meaning of itself, it simply exists (Russell L. Acko, 1989). Exemple. “John”, “Smith”, 30000 ■ Information: Donnée + sens (meaning). (first name, “John”), (last name, “Smith”), (salary, 30000) 3
  • 4. Types de données ■ Données structurées ■ Données semi-structurées ■ Données non-structurées 4
  • 5. Données structurées ■ Les données peuvent être identifiées selon leur structure. ■ Une donnée structurée décrit une propriété (e.g., nom, adresse, Numéro de carte de crédit) d’une entité (e.g., client, produit) selon un modèle (ou template) fixé. ■ Exemples: - Données stockées dans des feuilles (e.g., Fichier Excel). - Enregistrements stockés dans les tables d’une base de données relationnelle. - Chaque propriété est distinguée facilement des autres. - Elle correspond à une unité de la structure (e.g., colonne de la table). 5
  • 6. Données non structurées ■ Une donnée non structurée décrit une entité qui ne possède pas une structure à cause de ses propriétés qui ne peuvent pas être distinguées les unes des autres.. ■ Un texte est non structuré. ■ Description des propriétés d’une entité noyée dans un contexte riche. ■ Aucun accès direct à ces propriétés. 6
  • 7. Données semi-structurées ■ Une donnée semi-structurée possède une structure où les entités et leurs propriétés peuvent être facilement distinguées, MAIS l’organisation de la structure n’est pas rigoureuse comme celle de la table de la base de données. ■ Exemples: documents XML, JSON, HTML. ■ Exemple (document XML) <book id="bk101"> <author>Gambardella, Matthew</author> <title>XML Developers Guide</title> <genre>Computer</genre> <price>44.95</price> <publish_date>2000-10-01</publish_date> </book> 7
  • 8. Définition du “Big Data” ■ Le terme Big Data se réfère à une accumulation de données très larges et très complexes pour être traitées par les outils classiques de gestion des bases de données. ■ “The term Big Data refers to an accumulation of data that is too large and complex for processing by traditional database management tools.” ■ Le terme Big Data se réfère: - Aux solutions hardware et software développées pour la gestion de données volumineuses. - A la branche de l’informatique qui étudie les solutions de gestion de données volumineuses. 8
  • 9. Importance de Big Data ■ Chaque jour, nous générons plus que 2,5 trillions d’octets de données ■ 90% des données dans le monde ont été créées au cours des deux dernières années ■ 90% des données générées sont non structurées: - Capteurs utilisés pour collecter les informations climatiques - Messages sur les médias sociaux - Images numériques et vidéos publiées en ligne - Enregistrements transactionnels d’achat en ligne - Signaux GPS de téléphones mobiles 9
  • 10. Challenges ■ Réunir un grand volume de données variées pour trouver de nouvelles idées ■ Capturer des données créées rapidement ■ Sauvegarder toutes ces données ■ Traiter ces données et les utiliser 10
  • 11. Défis du Big Data ■ Le Big Data ne peut pas être manipulé au niveau d’une seule machine. ■ Il y a deux défis principaux du Big Data: traitement et stockage des données. ■ Traitement: - Parallélisation du calcul sur les machines, - Bases de données parallèles. - Frameworks de traitement distribué (e.g., Hadoop MapReduce/Spark) ■ Stockage: - Systèmes Distribués. - Bases de données distribuées. 11
  • 12. Les 3 Vs du Big Data ■ Big data is high-Volume, high-Velocity and high-Variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making (Gartner). ■ Volume: La taille du dataset. ■ Vélocité: La nécessité de traitement des données à leur arrivée. ■ Variété: La nature hétérogène des données (structurées, semi-structurées, non structurées). 12
  • 13. Les 4 Vs du Big Data ■ Big Data consists of extensive datasets primarily in the characteristics of Volume, Variety, Velocity, and/or Variability that require a scalable architecture for efficient storage, manipulation, and analysis (NIST). ■ Différence entre variété et variabilité. - Variété: un boulanger qui vend dix types de pain. - Variabilité: un boulanger qui vend un seul type de pain qui change de goût chaque jour. ■ Scalabilité: la capacité d’une architecture du système de gérer la taille grandissante des données, sans aucune réduction de sa performance. 13
  • 14. Exemple des 4 Vs du Big Data ■ Système d’analyse des Sentiments qui traite les tweets afin de trouver l’ambiance générale du candidat politique. ■ Analyse du Langage: sentiment positif/négatif/neutre? ■ Volume: Millions de tweets. ■ Vélocité: flot constant de données (7,500 tweets/second). ■ Variété: Textes, images et liens pages Web. ■ Variabilité: Le sens de chaque mot change selon le contexte. - Je suis profondément satisfait du candidat - Je suis profondément offensé par le candidat 14