SlideShare une entreprise Scribd logo
1  sur  27
Télécharger pour lire hors ligne
Cours Big Data
Master Recherche en Informatique Décisionnelle et
Vision Intelligente (MIDVI)
Université Sidi Mohamed Ben Abdellah
Faculté des Sciences Dhar El Mahraz
Fès
Préparé par :
Pr. Noura AHERRAHROU
Mise en contexte et problématique
Aujourd’hui, on parle beaucoup d’un terme
actuellement à la mode « Big Data » et du
fameux « Framework » de calcul « Hadoop».
Introduction
au Big Data
L’écosystème
Hadoop
Faits
Introduction
Au Big Data
L’écosystème
Hadoop
En une minute sur l'Internet, 4,3
Million vidéos sont vues sur
Youtube, 973,000 utilisateurs
rejoignemnt Facebook éditent 3,4
millions de statuts et génèrent 4
GB de données digitales, Google
répond à 3,7 Millions recherches
et reçoit 126 heures de vidéos et
pas moins de 700 nouveaux
utilisateurs rejoignent Twitter. Au
même moment, 480 000 tweets
sont générés et 38 Millions de
messages envoyés via whatsapp
Faits
Introduction
Au Big Data
L’écosystème
Hadoop
2,4 Million de snaps sont générés.
187 Millions emails envoyées. D'un
autre côté, dans le monde
commercial, 862,823 dollars de
commandes faites en ligne. Ces
statistiques prouvent que le
monde devient le théâtre d'un
accroissement de données sans
précèdent.
Ces données proviennent d’où???
Cette démultiplication des
données est due à un
accroissement provoqué
par l'ubiquité de l'Internet,
l'adoption des réseaux
sociaux et des applications
mobiles,…
Introduction
Au Big Data
L’écosystème
Hadoop
Actuellement, le volume des données en circulation connaît une
démultiplication permanente
Introduction
Au Big Data
L’écosystème
Hadoop
Chefs d’entreprises ne font pas
confiance aux informations qu’ils
utilisent pour prendre des décisions.
1/3
Pourquoi Adopter l’approche Big Data?
L’échelle de cette croissance
des données surpasse la
capacité raisonnable des
technologies
traditionnelles et plus
précisément celle des Systèmes
de gestion de bases de données
relationnelles (SGBDR) – ou
même la configuration
matérielle typique permettant
l’accès à ces données.
Introduction
Au Big Data
L’écosystème
Hadoop
Mise en contexte
Introduction
au
Big Data
L’écosystème
Hadoop
Les entreprises doivent trouver le moyen de maîtriser et
traiter efficacement ces données pour continuer à servir
fidèlement leur clientèle et rester compétitives. Google fait
partie des entreprises qui ont très tôt ressenti le besoin de
gérer efficacement les gros volumes de données liés aux
requêtes des utilisateurs.
L’approche conceptuelle de Google
Introduction
au
Big Data
L’écosystème
Hadoop
Pour répondre à ces défis, l’idée de Google était de
développer une approche conceptuelle consistant, d’une
part, à distribuer le stockage des données et, d’autre
part, à paralléliser le traitement de ces données sur
plusieurs noeuds d’une grappe de calcul (un cluster
d’ordinateurs).
A l’origine des Big Data
Introduction
au
Big Data
L’écosystème
Hadoop
L’approche conceptuelle qui a été adoptée par Google au
paravent a envahit l’ensemble des grands acteurs du web
actuellement.
Face Book Yahoo
Twitter
LinkedIn Amazon eBay Alibaba
C’est quoi selon vous le Big Data ??
Introduction
au Big Data
L’écosystème
Hadoop
Définition de Big Data
Il s’agit d’un ensemble de technologies, d’architecture, d’outils
et de procédures permettant à une organisation de très
rapidement capter, traiter et analyser de larges quantités et
contenus hétérogènes et changeants, et d’en extraire les
informations pertinentes à un coût accessible.
Introduction
Au Big Data
L’écosystème
Hadoop
Définition de Big Data
Le terme Big Data réfère à la croissance exponentielle des
données, au traitement de ces dernières ou de manière plus
générale à toutes les étapes entrant en jeu dans le processus
d'extraction d'informations utiles à partir de l’énorme lot de
données brutes [Tudoran, 2014]
Introduction
Au Big Data
L’écosystème
Hadoop
Définition de Big Data
L’expression « big data » a été proposée par le Gartner
Institute : « le big data est un fort volume
de données très variées et produites très rapidement, qui
exigent des techniques innovantes et rentables de traitement
d’information pour une meilleure prise de décision ».
Introduction
Au Big Data
L’écosystème
Hadoop
Définition de Big Data
Selon la Commission générale de terminologie et de néologie
française, le big data, fait référence aux « données, structurées
ou non, dont le très grand volume
requiert des outils d’analyse adaptés. »
Introduction
Au Big Data
L’écosystème
Hadoop
Les 5 v
Même si les définitions diffèrent, elles s'articulent
autour de certaines caractéristiques que partagent les
données. Il s'agit originellement des « 5V » du Big
Data.
Tirer parti des Big Data implique
d’intégrer à la fois volume,
vélocité, variété, véracité
et valeur des données
considérées.
Big
Data
(5V)
Volume
Valeur
Variété
Véracité
Vitesse
Introduction
Au Big Data
L’écosystème
Hadoop
Volume
• Fait référence aux énormes quantités
de données générées chaque seconde.
• Il suffit de penser à tous les e-mails,
tweets, photos, vidéos, les données
des capteurs que nous produisons et
partageons chaque seconde.
• Sur Facebook seulement, nous
envoyons 10 millions de messages
par jour, « Likons » 4,5 millions de
fois et téléchargeons 350 millions de
nouvelles photos chaque jour.
Big
Data
(5V)
Volume
Valeur
Variété
Véracité
Vitesse
Introduction
Au Big Data
L’écosystème
Hadoop
Volume
• Chaque jour, 2.5 trillions d’octets
de données sont générées.
• 90% des données créées dans le
monde l’ont été au cours des
dernières années.
• Prévision d’une croissance de
800% des quantités de données à
traiter d’ici à 2020.
• On estime qu’en 2020, 40ZB
seront générés.
Big
Data
(5V)
Volume
Valeur
Variété
Véracité
Vitesse
Introduction
Au Big Data
L’écosystème
Hadoop
Variété
Fait référence aux différents types
de données que nous pouvons
utiliser.
ces données sont très diversifiées.
Autant par leurs provenances
(Réseaux sociaux, emails,
historique de navigation Internet,
échange vocaux,…), que par leurs
formats (texte, images, vidéos, …),
domaines auxquels elles sont liées,
structurées ou
non structurées.…
Big
Data
(5V)
Volume
Valeur
Variété
Véracité
Vitesse
Introduction
Au Big Data
L’écosystème
Hadoop
Vélocité (Vitesse)
 Fait référence à la vitesse à laquelle la
nouvelle donnée est générée et traitée.
 Un système big data optimisé doit
apporter la bonne réponse au bon
moment ; Pensez juste aux messages sur
les réseaux sociaux qui deviennent viraux
en quelques secondes, les transactions
bancaires frauduleuses détectées en
quelques minutes ou encore le temps que
prennent les logiciels pour analyser les
réseaux sociaux et capter les
comportements qui déclenchent l’achat.
 Le Big Data nous permet aujourd’hui
d’analyser les données pendant qu’elles
sont générées, sans avoir à les analyser
dans des bases de données.
Big
Data
(5V)
Volume
Valeur
Variété
Véracité
Vitesse
Introduction
Au Big Data
L’écosystème
Hadoop
Véracité: la certitude des données
- c’est l‘un des enjeux majeurs de
l’exploitation des Big Data.
- Faux profils sur les réseaux
sociaux, fautes d’orthographes,
fraudes, …
- Il est nécessaire de multiplier les
précautions pour minimiser les
biais liés au manque de fiabilité
du Big Data.
Big
Data
(5V)
Volume
Valeur
Variété
Véracité
Vitesse
Introduction
Au Big Data
L’écosystème
Hadoop
Valeur
Sûrement c’est le point le plus important
des 5.
Les technologies de stockage et d’analyse
des Big Data n’ont de sens que s’elles
apportent de la valeur ajoutée.
Big
Data
(5V)
Volume
Valeur
Variété
Véracité
Vitesse
Introduction
Au Big Data
L’écosystème
Hadoop
Challenges des Big Data
• Réunir un grand volume de données variées pour trouver
de nouvelles idées
• Capturer des données créées rapidement
• Sauvegarder toutes ces données
• Traiter ces données et les utiliser
Introduction
Au Big Data
L’écosystème
Hadoop
Challenges des Big Data
• Les données recèlent de trésors de connaissance. Nous
pouvons extraire de ces données des informations, des
tendances voire des prédictions, afin d’anticiper et suivre
des phénomènes.
• Le traitement, le stockage et l’analyse de ces
mégadonnées sont donc de vrais enjeux. Ainsi les
données sont décrites comme l’or noir du numérique, ou
l’or d’aujourd’hui tout court.
Introduction
Au Big Data
L’écosystème
Hadoop
Challenges
Introduction
Au Big Data
L’écosystème
Hadoop
Les applications du Big Data
Introduction
au
Big Data
L’écosystème
Hadoop
LES BIG DATA TROUVENT UNE APPLICATION DANS DE NOMBREUX
DOMAINES D’ACTIVITÉS :
Sciences & recherche : au CERN
(Comité Européen sur la Recherche
Nucléaire) pour les calculs de données
générées par le LHC (Large Hadron
Collider), séquençage de l’ADN
Développement
durable : paramétrage des
éoliennes après collecte de
données météorologiques
Education en ligne : activité
des élèves, façon de suivre les
programmes, pour amélioration
des modes d’enseignement.
Transports : amélioration des
horaires et des trajets desservis après
collecte des mouvements des usagers.
Politique : L’analyse de Big
Data ajoué un rôle
important dans la campagne
de ré-élection de Barack
Obama, notamment pour
Santé : Analyse des données
globales des patients et des
résultats pour comparer
l'efficacité des différentes
interventions.
Introduction
au
Big Data
L’écosystème
Hadoop

Contenu connexe

Similaire à Introduction au BigData.pdf

Big_Data_Cours.pdf
Big_Data_Cours.pdfBig_Data_Cours.pdf
Big_Data_Cours.pdfGonnaBe1
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Philippe METAYER
 
les 4 clés pour saisir les opportunités du big data
les 4 clés pour saisir les opportunités du big datales 4 clés pour saisir les opportunités du big data
les 4 clés pour saisir les opportunités du big dataJuvénal CHOKOGOUE
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxChloé Marty
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
EuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTechnologies
 
Big Data ete learning Analytics
Big Data ete learning AnalyticsBig Data ete learning Analytics
Big Data ete learning AnalyticsMokhtar Ben Henda
 
Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big dataAbdelghani Azri
 
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxExcelerate Systems
 
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioComment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioHervé Bourdon
 
L'Encyclopédie des Big Data 2016
L'Encyclopédie des Big Data 2016L'Encyclopédie des Big Data 2016
L'Encyclopédie des Big Data 201655 | fifty-five
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptxAhmed rebai
 

Similaire à Introduction au BigData.pdf (20)

Big_Data_Cours.pdf
Big_Data_Cours.pdfBig_Data_Cours.pdf
Big_Data_Cours.pdf
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
les 4 clés pour saisir les opportunités du big data
les 4 clés pour saisir les opportunités du big datales 4 clés pour saisir les opportunités du big data
les 4 clés pour saisir les opportunités du big data
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Big Data
Big DataBig Data
Big Data
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociaux
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 
EuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTech Trends : Big Data
EuraTech Trends : Big Data
 
Big Data ete learning Analytics
Big Data ete learning AnalyticsBig Data ete learning Analytics
Big Data ete learning Analytics
 
Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big data
 
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
 
Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
 
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioComment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
 
Big data
Big dataBig data
Big data
 
L'Encyclopédie des Big Data 2016
L'Encyclopédie des Big Data 2016L'Encyclopédie des Big Data 2016
L'Encyclopédie des Big Data 2016
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptx
 

Dernier

Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformersbahija babzine
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023France Travail
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...France Travail
 
analyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxanalyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxHadJer61
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentationbahija babzine
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attalcontact Elabe
 

Dernier (6)

Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformers
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
 
analyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxanalyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptx
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentation
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
 

Introduction au BigData.pdf

  • 1. Cours Big Data Master Recherche en Informatique Décisionnelle et Vision Intelligente (MIDVI) Université Sidi Mohamed Ben Abdellah Faculté des Sciences Dhar El Mahraz Fès Préparé par : Pr. Noura AHERRAHROU
  • 2. Mise en contexte et problématique Aujourd’hui, on parle beaucoup d’un terme actuellement à la mode « Big Data » et du fameux « Framework » de calcul « Hadoop». Introduction au Big Data L’écosystème Hadoop
  • 3. Faits Introduction Au Big Data L’écosystème Hadoop En une minute sur l'Internet, 4,3 Million vidéos sont vues sur Youtube, 973,000 utilisateurs rejoignemnt Facebook éditent 3,4 millions de statuts et génèrent 4 GB de données digitales, Google répond à 3,7 Millions recherches et reçoit 126 heures de vidéos et pas moins de 700 nouveaux utilisateurs rejoignent Twitter. Au même moment, 480 000 tweets sont générés et 38 Millions de messages envoyés via whatsapp
  • 4. Faits Introduction Au Big Data L’écosystème Hadoop 2,4 Million de snaps sont générés. 187 Millions emails envoyées. D'un autre côté, dans le monde commercial, 862,823 dollars de commandes faites en ligne. Ces statistiques prouvent que le monde devient le théâtre d'un accroissement de données sans précèdent.
  • 5. Ces données proviennent d’où??? Cette démultiplication des données est due à un accroissement provoqué par l'ubiquité de l'Internet, l'adoption des réseaux sociaux et des applications mobiles,… Introduction Au Big Data L’écosystème Hadoop
  • 6. Actuellement, le volume des données en circulation connaît une démultiplication permanente Introduction Au Big Data L’écosystème Hadoop Chefs d’entreprises ne font pas confiance aux informations qu’ils utilisent pour prendre des décisions. 1/3
  • 7. Pourquoi Adopter l’approche Big Data? L’échelle de cette croissance des données surpasse la capacité raisonnable des technologies traditionnelles et plus précisément celle des Systèmes de gestion de bases de données relationnelles (SGBDR) – ou même la configuration matérielle typique permettant l’accès à ces données. Introduction Au Big Data L’écosystème Hadoop
  • 8. Mise en contexte Introduction au Big Data L’écosystème Hadoop Les entreprises doivent trouver le moyen de maîtriser et traiter efficacement ces données pour continuer à servir fidèlement leur clientèle et rester compétitives. Google fait partie des entreprises qui ont très tôt ressenti le besoin de gérer efficacement les gros volumes de données liés aux requêtes des utilisateurs.
  • 9. L’approche conceptuelle de Google Introduction au Big Data L’écosystème Hadoop Pour répondre à ces défis, l’idée de Google était de développer une approche conceptuelle consistant, d’une part, à distribuer le stockage des données et, d’autre part, à paralléliser le traitement de ces données sur plusieurs noeuds d’une grappe de calcul (un cluster d’ordinateurs).
  • 10. A l’origine des Big Data Introduction au Big Data L’écosystème Hadoop L’approche conceptuelle qui a été adoptée par Google au paravent a envahit l’ensemble des grands acteurs du web actuellement. Face Book Yahoo Twitter LinkedIn Amazon eBay Alibaba
  • 11. C’est quoi selon vous le Big Data ?? Introduction au Big Data L’écosystème Hadoop
  • 12. Définition de Big Data Il s’agit d’un ensemble de technologies, d’architecture, d’outils et de procédures permettant à une organisation de très rapidement capter, traiter et analyser de larges quantités et contenus hétérogènes et changeants, et d’en extraire les informations pertinentes à un coût accessible. Introduction Au Big Data L’écosystème Hadoop
  • 13. Définition de Big Data Le terme Big Data réfère à la croissance exponentielle des données, au traitement de ces dernières ou de manière plus générale à toutes les étapes entrant en jeu dans le processus d'extraction d'informations utiles à partir de l’énorme lot de données brutes [Tudoran, 2014] Introduction Au Big Data L’écosystème Hadoop
  • 14. Définition de Big Data L’expression « big data » a été proposée par le Gartner Institute : « le big data est un fort volume de données très variées et produites très rapidement, qui exigent des techniques innovantes et rentables de traitement d’information pour une meilleure prise de décision ». Introduction Au Big Data L’écosystème Hadoop
  • 15. Définition de Big Data Selon la Commission générale de terminologie et de néologie française, le big data, fait référence aux « données, structurées ou non, dont le très grand volume requiert des outils d’analyse adaptés. » Introduction Au Big Data L’écosystème Hadoop
  • 16. Les 5 v Même si les définitions diffèrent, elles s'articulent autour de certaines caractéristiques que partagent les données. Il s'agit originellement des « 5V » du Big Data. Tirer parti des Big Data implique d’intégrer à la fois volume, vélocité, variété, véracité et valeur des données considérées. Big Data (5V) Volume Valeur Variété Véracité Vitesse Introduction Au Big Data L’écosystème Hadoop
  • 17. Volume • Fait référence aux énormes quantités de données générées chaque seconde. • Il suffit de penser à tous les e-mails, tweets, photos, vidéos, les données des capteurs que nous produisons et partageons chaque seconde. • Sur Facebook seulement, nous envoyons 10 millions de messages par jour, « Likons » 4,5 millions de fois et téléchargeons 350 millions de nouvelles photos chaque jour. Big Data (5V) Volume Valeur Variété Véracité Vitesse Introduction Au Big Data L’écosystème Hadoop
  • 18. Volume • Chaque jour, 2.5 trillions d’octets de données sont générées. • 90% des données créées dans le monde l’ont été au cours des dernières années. • Prévision d’une croissance de 800% des quantités de données à traiter d’ici à 2020. • On estime qu’en 2020, 40ZB seront générés. Big Data (5V) Volume Valeur Variété Véracité Vitesse Introduction Au Big Data L’écosystème Hadoop
  • 19. Variété Fait référence aux différents types de données que nous pouvons utiliser. ces données sont très diversifiées. Autant par leurs provenances (Réseaux sociaux, emails, historique de navigation Internet, échange vocaux,…), que par leurs formats (texte, images, vidéos, …), domaines auxquels elles sont liées, structurées ou non structurées.… Big Data (5V) Volume Valeur Variété Véracité Vitesse Introduction Au Big Data L’écosystème Hadoop
  • 20. Vélocité (Vitesse)  Fait référence à la vitesse à laquelle la nouvelle donnée est générée et traitée.  Un système big data optimisé doit apporter la bonne réponse au bon moment ; Pensez juste aux messages sur les réseaux sociaux qui deviennent viraux en quelques secondes, les transactions bancaires frauduleuses détectées en quelques minutes ou encore le temps que prennent les logiciels pour analyser les réseaux sociaux et capter les comportements qui déclenchent l’achat.  Le Big Data nous permet aujourd’hui d’analyser les données pendant qu’elles sont générées, sans avoir à les analyser dans des bases de données. Big Data (5V) Volume Valeur Variété Véracité Vitesse Introduction Au Big Data L’écosystème Hadoop
  • 21. Véracité: la certitude des données - c’est l‘un des enjeux majeurs de l’exploitation des Big Data. - Faux profils sur les réseaux sociaux, fautes d’orthographes, fraudes, … - Il est nécessaire de multiplier les précautions pour minimiser les biais liés au manque de fiabilité du Big Data. Big Data (5V) Volume Valeur Variété Véracité Vitesse Introduction Au Big Data L’écosystème Hadoop
  • 22. Valeur Sûrement c’est le point le plus important des 5. Les technologies de stockage et d’analyse des Big Data n’ont de sens que s’elles apportent de la valeur ajoutée. Big Data (5V) Volume Valeur Variété Véracité Vitesse Introduction Au Big Data L’écosystème Hadoop
  • 23. Challenges des Big Data • Réunir un grand volume de données variées pour trouver de nouvelles idées • Capturer des données créées rapidement • Sauvegarder toutes ces données • Traiter ces données et les utiliser Introduction Au Big Data L’écosystème Hadoop
  • 24. Challenges des Big Data • Les données recèlent de trésors de connaissance. Nous pouvons extraire de ces données des informations, des tendances voire des prédictions, afin d’anticiper et suivre des phénomènes. • Le traitement, le stockage et l’analyse de ces mégadonnées sont donc de vrais enjeux. Ainsi les données sont décrites comme l’or noir du numérique, ou l’or d’aujourd’hui tout court. Introduction Au Big Data L’écosystème Hadoop
  • 26. Les applications du Big Data Introduction au Big Data L’écosystème Hadoop
  • 27. LES BIG DATA TROUVENT UNE APPLICATION DANS DE NOMBREUX DOMAINES D’ACTIVITÉS : Sciences & recherche : au CERN (Comité Européen sur la Recherche Nucléaire) pour les calculs de données générées par le LHC (Large Hadron Collider), séquençage de l’ADN Développement durable : paramétrage des éoliennes après collecte de données météorologiques Education en ligne : activité des élèves, façon de suivre les programmes, pour amélioration des modes d’enseignement. Transports : amélioration des horaires et des trajets desservis après collecte des mouvements des usagers. Politique : L’analyse de Big Data ajoué un rôle important dans la campagne de ré-élection de Barack Obama, notamment pour Santé : Analyse des données globales des patients et des résultats pour comparer l'efficacité des différentes interventions. Introduction au Big Data L’écosystème Hadoop