SlideShare une entreprise Scribd logo
1  sur  28
Big Data
UNE INTRODUCTION SUR LE SUJET
C’est quoi une donnée ? Et le reste ?
 Data (donnée) : enregistrement numérique d’un fait du monde réel
 Objet
 Transaction
 Observation
 Information :
 ce que je peux déduire d’un certain nombre de données et de règles
 Le résultat de la rencontre d’une donnée et d’un problème
2
De la donnée à l’information
 Un duo concept – mesure
 1/1/2001
 Cela devient une information lorsque qu’un humain l’interprête
 1/1/2001 est une date, le premier janvier 2001
 On met cette information en relation avec d’autres
 Facebook m’indique qu’il s’agit de la date de naissance de Pierre
 Cette nouvelle information permet une prise de décision éclairée
 Je programme une alerte dans mon agenda pour l’année prochaine
 Google le fait pour TOUS ses clients identifiés
3
Définition 1
 Le Big Data c’est quand les ennuis commencent
 Trop de données
 Pas assez de ressources
 Les outils habituels ne fonctionnent plus ou mal
 Pourtant, il y a 30 ans, on traitait déjà des gros volumes de données
 C’était cher, mais vraiment cher
 C’était très spécifique (le code adapté à la machine)
 Hors de portée du secteur privé (sauf Total)
4
Buzz
 Big Data is like teenage sex:
 Everyone talk about it
 Nobody really knoxs how to do it
 Everyone thinks everyone else is doing it
 So everyone claims they are doing it …
5
Les piliers du Big Data
 Innovations
 Objets connectés
 Infrastructure dématérialisée (Cloud)
 Data Science
 Data Viz
 Evolutions sociétales
 Partage d’information personnelles à grande échelle
 Evolutions des usages, du business
 Connaissance du client
 Amélioration des process
6
Quelques exemples
 Customer centric : l’expérience client
 Amazon : algorithmes de recommandation
 SNCF : Yield management
 Process centric : amélioration de la performance opérationnelle
 Gefco : optimisation des trajets, prévision de la demande
 Airbus industries : maintenance prédictive (stade R&D)
 Panama Papers : exploration d’un volume de données impossibles à traiter par
un groupe de journalistes
 Diversification du business model
 IPD : passage d’un groupe de presse B2B à de la vente de donnée (2500 pers,
50% du CA vient de la data)
7
Les 3V … ou presque
 Volume
 Qui dit Big Data dit Big
 Des catalogues de 10 millions de produits sont courants
 Les logs de milliards de lignes aussi
 Vitesse
 Les données sont générées, capturées et traitées rapidement
 Les cycle de production des données fait que le batch quotidien intervient trop
tard (p.ex. personnalisation des ventes)
 Variété
 Plus une source unique
 Vente, géolocalisation, logs
8
+ 2V
 Véracité
 Dimension qualitative des données
 Au-delà de l’intégrité
 Garbage In – Garbage Out
 Visibilité
 Les données doivent être accessibles, manipulables
 Par les gens du métier, pas ceux de la technique
 Avec des moyens d’exploration et d’analyse ou delà de la BI
9
De la donnée à l’information
 Collecte (3V)
 Traitements
 Analyses
 Mise à disposition (Data Warehouse)
 Cibles (diffusion)
10
11
Premier V : volume
 Exemples
 Coûts
12
Les unités
 Octet : 8 bits, de quoi stocker un caractère non accentué ou un chiffre
 Kilooctet : 1 000 octets (103), une demi-page A4 de texte
 Megaoctet: 106 octets, une nouvelle courte, 5 Mo : l’œuvre intégrale de
Shakespeare
 Gigaoctet : 109 octets, une symphonie enregistrée en haute qualité
 Teraoctet : 1012 octets, 5 000 arbres transformés en feuilles de papier
 Petaoctet : 1015 octets, 10% de l’information disponible sur le WEB (20
Petas : production de disques durs en 1995)
 Exaoctet : 1018 octets
13
Unités
 Attention aux définitions
 Ko = 1000 octets
 Kio = 1024 octets
 Introduit en 1998 pour les unités informatiques (par multiple de 210) qui
ne respectent pas la norme du Système International
 Kibi : kilo binaire
 Mébi : méga binaire
 Etc…
 Pour les gros volumes de données, cela ne change pas grand-chose en vrai
14
Evolution solutions de stockage
 Invention de la carte perforée (1725 pour les métiers à tisser) et surtout
d’une machine pour les lire (1890) par Herman Hollerith, qui grâce a cela
va diviser les temps de traitement d’un recensement US par 10, et …
fonder IBM
 Etape suivante : la bande magnétique (lent, faible densité d’information,
mais super fiable si bien entretenue)
 Sous forme de bande 1’’
 Sous forme de K7, DAT, … (de quelques Ko à quelques Go)
 A plat : le disque dur
 Enregistrement optique
 CD-ROM/RW : 680Mo
 DVD: 4,7Go
15
Explosion de volume de données
disponible
 Début des années 2000, la tendance est à tout stocker, sans savoir ce qu’
l’on va faire de cela
 On commence à analyser les choses avec des outils de BI (Business
Intelligence)
 Pratiques pour fournir quelques KPI au top management
 Aident le management à piloter son activité
 Les défauts de la BI
 Analyses prédictives très difficiles
 Les volumes de données commencent à être trop importants pour ces outils
16
Ordres de grandeur
 5 Milliards de Go (Exa Octets)
 L’humanité jusqu’en 2003
 1 jour en 2011
 10 minutes en 2013
 90% des données existantes ont été produites ces deux dernières années
17
Exemples
 Compteur Linky
 1 mesure par demi-heure
 Environ un million de compteurs actifs début 2019
 48 000 000 mesures par jour (48 millions)
 17 520 000 000 mesures par an (17 milliards)
 Cotation véhicules
 7 millions de pages crawlées par jour
 10 milliards de relevés de prix en 10 ans
18
Exemples
 Facebook
 250 milliards d’images stockées (combien de chats ??)
 350 millions de nouvelle photos … par jour
 Google
 Gmail : 6 Exa Octets
 Données manipulées : 24 Po par jour, 9 Exa par an
 0,01% de l’électricité mondiale
 100 requêtes  un repassage de T-shirt
 7,3 milliards de dollars dépensés par an dans les datacenter
 2 millions de serveurs, 2% du parc mondial
19
Exemples
 Sloan digital Sky Survey (carte du ciel numérique)
 Carte 3D
 470 millions d’étoiles
 2 millions de galaxies
 10 ans
 1 image : 1 Petapixel (500 000 écrans HD)
 71 PetaOctets de données
20
 Prix du Mo :
 1950 : 10 000 $
 1980 : 193 $
 1987 : 90 $
 1988 : 53 $
 1989 : 12 $
 1990 : 9 $
 1995: 0,9 $
 1999 : 0,02 $
 Prix du Go :
 2000 : 20 $
 2005 : 0,72 $
 2007 : 0,31 $
 2010 : 0,08 $
21
Prix du Go (en $ relatif à 2017)
1
10
100
1000
10000
100000
1000000
10000000
100000000
1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 2016 2018
Ratio 2017
22
Vélocité
 Les résultats de l’analyse de données doivent être fournies en temps réel
 P.ex. Amazon : ceux qui ont acheté ce produit ont aussi acheté celui-là
 Suivi des ventes par un manager de point de vente
 Bourse de New York : 1 TB de transaction / jour
 Les gros batch qui tournent la nuit ou une fois par heure ne sont pas
adaptés à ce besoin
 On parle de flux de données
23
Puissance de calcul (Mflops Linpack)
1
10
100
1000
10000
100000
1000000
10000000
100000000
1000000000
10000000000
100000000000
1964 - CDC 6600 1985 - Cray 2 1997 - ASCI Red 2012 - Cray Titan 2016 - Xeon E5
24
2013 – I7 3770
60 – 90 M$
2010 – Iphone 4
Puissance de calcul (Tflops Linpack)
1 1 3
137
0
20
40
60
80
100
120
140
160
1997 ASCI Red 2015 Intel I7 3770 2016 Xeon E5 2016 Nvidia GDX-1
25
60 M$ 0,2 k$ 0,4 k$
125 k$
Variété
 De la donnée structurée mais pas seulement
 Des géolocalisations
 Des mesures
 Des données RFID
 Traffic WEB
 Du texte
 Des photos
 De la vidéo
 IOT
 …
26
Véracité
 On parle ici de qualité, pas de quantité
 Seule une donnée de qualité peut produire une information réaliste et
définir un levier d’action
 P.ex marques de voitures : Peugeot et peugeot sont différents, or ce
devrait être pareil
Garbage in … garbage out
27
Visibilité
 Les analyses doivent être visibles
 Les utilisateurs doivent les comprendre
 On parle métier ici, pas data ou maths !!
 Il faut former les utilisateurs à comprendre la donnée
 Il faut les aider à fouiller la donnée par eux même
28

Contenu connexe

Tendances

Nested and Parent/Child Docs in ElasticSearch
Nested and Parent/Child Docs in ElasticSearchNested and Parent/Child Docs in ElasticSearch
Nested and Parent/Child Docs in ElasticSearchBeyondTrees
 
A critique of snapshot isolation: eurosys 2012
A critique of snapshot isolation: eurosys 2012A critique of snapshot isolation: eurosys 2012
A critique of snapshot isolation: eurosys 2012Maysam Yabandeh
 
Introduction to redis - version 2
Introduction to redis - version 2Introduction to redis - version 2
Introduction to redis - version 2Dvir Volk
 
Transitioning Compute Models: Hadoop MapReduce to Spark
Transitioning Compute Models: Hadoop MapReduce to SparkTransitioning Compute Models: Hadoop MapReduce to Spark
Transitioning Compute Models: Hadoop MapReduce to SparkSlim Baltagi
 
Lessons Learned From Running 1800 Clusters (Brooke Jensen, Instaclustr) | Cas...
Lessons Learned From Running 1800 Clusters (Brooke Jensen, Instaclustr) | Cas...Lessons Learned From Running 1800 Clusters (Brooke Jensen, Instaclustr) | Cas...
Lessons Learned From Running 1800 Clusters (Brooke Jensen, Instaclustr) | Cas...DataStax
 
2019.06.27 Intro to Ceph
2019.06.27 Intro to Ceph2019.06.27 Intro to Ceph
2019.06.27 Intro to CephCeph Community
 
Redis cluster
Redis clusterRedis cluster
Redis clusteriammutex
 
Storage tiering and erasure coding in Ceph (SCaLE13x)
Storage tiering and erasure coding in Ceph (SCaLE13x)Storage tiering and erasure coding in Ceph (SCaLE13x)
Storage tiering and erasure coding in Ceph (SCaLE13x)Sage Weil
 
Introduction to Impala
Introduction to ImpalaIntroduction to Impala
Introduction to Impalamarkgrover
 
Understanding blue store, Ceph's new storage backend - Tim Serong, SUSE
Understanding blue store, Ceph's new storage backend - Tim Serong, SUSEUnderstanding blue store, Ceph's new storage backend - Tim Serong, SUSE
Understanding blue store, Ceph's new storage backend - Tim Serong, SUSEOpenStack
 
Büyük Veri İşlemleri ve Hadoop
Büyük Veri İşlemleri ve HadoopBüyük Veri İşlemleri ve Hadoop
Büyük Veri İşlemleri ve HadoopCenk Derinozlu
 
MongoDB for Coder Training (Coding Serbia 2013)
MongoDB for Coder Training (Coding Serbia 2013)MongoDB for Coder Training (Coding Serbia 2013)
MongoDB for Coder Training (Coding Serbia 2013)Uwe Printz
 
How we got to 1 millisecond latency in 99% under repair, compaction, and flus...
How we got to 1 millisecond latency in 99% under repair, compaction, and flus...How we got to 1 millisecond latency in 99% under repair, compaction, and flus...
How we got to 1 millisecond latency in 99% under repair, compaction, and flus...ScyllaDB
 
Hive+Tez: A performance deep dive
Hive+Tez: A performance deep diveHive+Tez: A performance deep dive
Hive+Tez: A performance deep divet3rmin4t0r
 
Parquet Strata/Hadoop World, New York 2013
Parquet Strata/Hadoop World, New York 2013Parquet Strata/Hadoop World, New York 2013
Parquet Strata/Hadoop World, New York 2013Julien Le Dem
 
Amazon Redshift: Performance Tuning and Optimization
Amazon Redshift: Performance Tuning and OptimizationAmazon Redshift: Performance Tuning and Optimization
Amazon Redshift: Performance Tuning and OptimizationAmazon Web Services
 
An Introduction to REDIS NoSQL database
An Introduction to REDIS NoSQL databaseAn Introduction to REDIS NoSQL database
An Introduction to REDIS NoSQL databaseAli MasudianPour
 
Snowflake Data Loading.pptx
Snowflake Data Loading.pptxSnowflake Data Loading.pptx
Snowflake Data Loading.pptxParag860410
 

Tendances (20)

Nested and Parent/Child Docs in ElasticSearch
Nested and Parent/Child Docs in ElasticSearchNested and Parent/Child Docs in ElasticSearch
Nested and Parent/Child Docs in ElasticSearch
 
A critique of snapshot isolation: eurosys 2012
A critique of snapshot isolation: eurosys 2012A critique of snapshot isolation: eurosys 2012
A critique of snapshot isolation: eurosys 2012
 
Introduction to redis - version 2
Introduction to redis - version 2Introduction to redis - version 2
Introduction to redis - version 2
 
Transitioning Compute Models: Hadoop MapReduce to Spark
Transitioning Compute Models: Hadoop MapReduce to SparkTransitioning Compute Models: Hadoop MapReduce to Spark
Transitioning Compute Models: Hadoop MapReduce to Spark
 
Lessons Learned From Running 1800 Clusters (Brooke Jensen, Instaclustr) | Cas...
Lessons Learned From Running 1800 Clusters (Brooke Jensen, Instaclustr) | Cas...Lessons Learned From Running 1800 Clusters (Brooke Jensen, Instaclustr) | Cas...
Lessons Learned From Running 1800 Clusters (Brooke Jensen, Instaclustr) | Cas...
 
Log Structured Merge Tree
Log Structured Merge TreeLog Structured Merge Tree
Log Structured Merge Tree
 
2019.06.27 Intro to Ceph
2019.06.27 Intro to Ceph2019.06.27 Intro to Ceph
2019.06.27 Intro to Ceph
 
Redis cluster
Redis clusterRedis cluster
Redis cluster
 
Storage tiering and erasure coding in Ceph (SCaLE13x)
Storage tiering and erasure coding in Ceph (SCaLE13x)Storage tiering and erasure coding in Ceph (SCaLE13x)
Storage tiering and erasure coding in Ceph (SCaLE13x)
 
Introduction to Impala
Introduction to ImpalaIntroduction to Impala
Introduction to Impala
 
Understanding blue store, Ceph's new storage backend - Tim Serong, SUSE
Understanding blue store, Ceph's new storage backend - Tim Serong, SUSEUnderstanding blue store, Ceph's new storage backend - Tim Serong, SUSE
Understanding blue store, Ceph's new storage backend - Tim Serong, SUSE
 
Büyük Veri İşlemleri ve Hadoop
Büyük Veri İşlemleri ve HadoopBüyük Veri İşlemleri ve Hadoop
Büyük Veri İşlemleri ve Hadoop
 
MongoDB for Coder Training (Coding Serbia 2013)
MongoDB for Coder Training (Coding Serbia 2013)MongoDB for Coder Training (Coding Serbia 2013)
MongoDB for Coder Training (Coding Serbia 2013)
 
How we got to 1 millisecond latency in 99% under repair, compaction, and flus...
How we got to 1 millisecond latency in 99% under repair, compaction, and flus...How we got to 1 millisecond latency in 99% under repair, compaction, and flus...
How we got to 1 millisecond latency in 99% under repair, compaction, and flus...
 
Hive+Tez: A performance deep dive
Hive+Tez: A performance deep diveHive+Tez: A performance deep dive
Hive+Tez: A performance deep dive
 
Parquet Strata/Hadoop World, New York 2013
Parquet Strata/Hadoop World, New York 2013Parquet Strata/Hadoop World, New York 2013
Parquet Strata/Hadoop World, New York 2013
 
Amazon Redshift: Performance Tuning and Optimization
Amazon Redshift: Performance Tuning and OptimizationAmazon Redshift: Performance Tuning and Optimization
Amazon Redshift: Performance Tuning and Optimization
 
An Introduction to REDIS NoSQL database
An Introduction to REDIS NoSQL databaseAn Introduction to REDIS NoSQL database
An Introduction to REDIS NoSQL database
 
Snowflake Data Loading.pptx
Snowflake Data Loading.pptxSnowflake Data Loading.pptx
Snowflake Data Loading.pptx
 
Apache Kylin
Apache KylinApache Kylin
Apache Kylin
 

Similaire à 02 big data definition

Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesOCTO Technology Suisse
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 OCTO Technology
 
Open Data - Rencontre Bi-départementale des EPN 26-07
Open Data - Rencontre Bi-départementale des EPN 26-07Open Data - Rencontre Bi-départementale des EPN 26-07
Open Data - Rencontre Bi-départementale des EPN 26-07Garlann Nizon
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleMedhi Corneille Famibelle*
 
3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big DataAlain KHEMILI
 
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfuyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfNajlaAllouche
 
Regard prospectif sur la R&D en IA avec Bertrand Braunschweig
Regard prospectif sur la R&D en IA avec Bertrand BraunschweigRegard prospectif sur la R&D en IA avec Bertrand Braunschweig
Regard prospectif sur la R&D en IA avec Bertrand BraunschweigLiving Things
 
CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?Cap'Com
 
Bigdata, small decision and smart organisation
Bigdata, small decision and smart organisationBigdata, small decision and smart organisation
Bigdata, small decision and smart organisationChristophe Benavent
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
Festival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tousFestival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tousAlexandra Loria
 
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...Altares D&B
 
Le Big Data : Une Révolution Numérique
Le Big Data : Une Révolution NumériqueLe Big Data : Une Révolution Numérique
Le Big Data : Une Révolution NumériqueRoland Coma
 
Introduction au projet Datapride
Introduction au projet DataprideIntroduction au projet Datapride
Introduction au projet Datapridedatapride
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Philippe METAYER
 
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioComment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioHervé Bourdon
 

Similaire à 02 big data definition (20)

Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
 
Open Data - Rencontre Bi-départementale des EPN 26-07
Open Data - Rencontre Bi-départementale des EPN 26-07Open Data - Rencontre Bi-départementale des EPN 26-07
Open Data - Rencontre Bi-départementale des EPN 26-07
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence Artificielle
 
Big data
Big dataBig data
Big data
 
Analyse spatiale en Big data
Analyse spatiale en Big dataAnalyse spatiale en Big data
Analyse spatiale en Big data
 
3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data
 
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfuyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
 
Regard prospectif sur la R&D en IA avec Bertrand Braunschweig
Regard prospectif sur la R&D en IA avec Bertrand BraunschweigRegard prospectif sur la R&D en IA avec Bertrand Braunschweig
Regard prospectif sur la R&D en IA avec Bertrand Braunschweig
 
CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?
 
Bigdata, small decision and smart organisation
Bigdata, small decision and smart organisationBigdata, small decision and smart organisation
Bigdata, small decision and smart organisation
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Festival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tousFestival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tous
 
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
 
Le Big Data : Une Révolution Numérique
Le Big Data : Une Révolution NumériqueLe Big Data : Une Révolution Numérique
Le Big Data : Une Révolution Numérique
 
Introduction au projet Datapride
Introduction au projet DataprideIntroduction au projet Datapride
Introduction au projet Datapride
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioComment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
 

Plus de Patrick Bury

16 graph databases
16 graph databases16 graph databases
16 graph databasesPatrick Bury
 
15 map reduce on azure
15 map reduce on azure15 map reduce on azure
15 map reduce on azurePatrick Bury
 
14 big data gitlab
14 big data gitlab14 big data gitlab
14 big data gitlabPatrick Bury
 
13 big data docker
13 big data docker13 big data docker
13 big data dockerPatrick Bury
 
10 big data hadoop
10 big data hadoop10 big data hadoop
10 big data hadoopPatrick Bury
 
08 big data dataviz
08 big data dataviz08 big data dataviz
08 big data datavizPatrick Bury
 
09 big data mapreduce
09 big data mapreduce09 big data mapreduce
09 big data mapreducePatrick Bury
 
06 cloud souverain
06 cloud souverain06 cloud souverain
06 cloud souverainPatrick Bury
 
05 creation instance ovh
05 creation instance ovh05 creation instance ovh
05 creation instance ovhPatrick Bury
 
04 big data fournisseurs
04 big data fournisseurs04 big data fournisseurs
04 big data fournisseursPatrick Bury
 
03 big data stockage
03 big data stockage03 big data stockage
03 big data stockagePatrick Bury
 
03 big data échelle
03 big data échelle03 big data échelle
03 big data échellePatrick Bury
 
02 big data definition
02 big data definition02 big data definition
02 big data definitionPatrick Bury
 
01 big data introduction
01 big data introduction01 big data introduction
01 big data introductionPatrick Bury
 
16 graph databases
16 graph databases16 graph databases
16 graph databasesPatrick Bury
 

Plus de Patrick Bury (20)

100 évaluation
100 évaluation100 évaluation
100 évaluation
 
16 graph databases
16 graph databases16 graph databases
16 graph databases
 
15 map reduce on azure
15 map reduce on azure15 map reduce on azure
15 map reduce on azure
 
11 big data aws
11 big data aws11 big data aws
11 big data aws
 
14 big data gitlab
14 big data gitlab14 big data gitlab
14 big data gitlab
 
13 big data docker
13 big data docker13 big data docker
13 big data docker
 
10 big data hadoop
10 big data hadoop10 big data hadoop
10 big data hadoop
 
08 big data dataviz
08 big data dataviz08 big data dataviz
08 big data dataviz
 
12 big data azure
12 big data azure12 big data azure
12 big data azure
 
09 big data mapreduce
09 big data mapreduce09 big data mapreduce
09 big data mapreduce
 
07 big data sgbd
07 big data sgbd07 big data sgbd
07 big data sgbd
 
06 cloud souverain
06 cloud souverain06 cloud souverain
06 cloud souverain
 
05 creation instance ovh
05 creation instance ovh05 creation instance ovh
05 creation instance ovh
 
04 big data fournisseurs
04 big data fournisseurs04 big data fournisseurs
04 big data fournisseurs
 
03 big data stockage
03 big data stockage03 big data stockage
03 big data stockage
 
03 big data échelle
03 big data échelle03 big data échelle
03 big data échelle
 
02 big data definition
02 big data definition02 big data definition
02 big data definition
 
01 open data
01 open data01 open data
01 open data
 
01 big data introduction
01 big data introduction01 big data introduction
01 big data introduction
 
16 graph databases
16 graph databases16 graph databases
16 graph databases
 

Dernier

Présentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptxPrésentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptxpopzair
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxssuserbd075f
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...Faga1939
 
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdfMICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdfssuser40e112
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptxSAID MASHATE
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprisesMajdaKtiri2
 
Cours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptxCours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptxlamourfrantz
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxssusercbaa22
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertChristianMbip
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.Txaruka
 
presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptxMalikaIdseaid1
 
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptssusercbaa22
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptxTxaruka
 
Formation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipFormation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipM2i Formation
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...M2i Formation
 
MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptssusercbaa22
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film françaisTxaruka
 
présentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteurprésentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteurdinaelchaine
 
Grammaire pour les élèves de la 6ème.doc
Grammaire pour les élèves de la  6ème.docGrammaire pour les élèves de la  6ème.doc
Grammaire pour les élèves de la 6ème.docKarimKhrifech
 

Dernier (20)

Présentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptxPrésentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptx
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
 
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdfMICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprises
 
Cours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptxCours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptx
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expert
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptx
 
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptx
 
Evaluación Alumnos de Ecole Victor Hugo
Evaluación Alumnos de Ecole  Victor HugoEvaluación Alumnos de Ecole  Victor Hugo
Evaluación Alumnos de Ecole Victor Hugo
 
Formation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipFormation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadership
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
 
MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.ppt
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
présentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteurprésentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteur
 
Grammaire pour les élèves de la 6ème.doc
Grammaire pour les élèves de la  6ème.docGrammaire pour les élèves de la  6ème.doc
Grammaire pour les élèves de la 6ème.doc
 

02 big data definition

  • 2. C’est quoi une donnée ? Et le reste ?  Data (donnée) : enregistrement numérique d’un fait du monde réel  Objet  Transaction  Observation  Information :  ce que je peux déduire d’un certain nombre de données et de règles  Le résultat de la rencontre d’une donnée et d’un problème 2
  • 3. De la donnée à l’information  Un duo concept – mesure  1/1/2001  Cela devient une information lorsque qu’un humain l’interprête  1/1/2001 est une date, le premier janvier 2001  On met cette information en relation avec d’autres  Facebook m’indique qu’il s’agit de la date de naissance de Pierre  Cette nouvelle information permet une prise de décision éclairée  Je programme une alerte dans mon agenda pour l’année prochaine  Google le fait pour TOUS ses clients identifiés 3
  • 4. Définition 1  Le Big Data c’est quand les ennuis commencent  Trop de données  Pas assez de ressources  Les outils habituels ne fonctionnent plus ou mal  Pourtant, il y a 30 ans, on traitait déjà des gros volumes de données  C’était cher, mais vraiment cher  C’était très spécifique (le code adapté à la machine)  Hors de portée du secteur privé (sauf Total) 4
  • 5. Buzz  Big Data is like teenage sex:  Everyone talk about it  Nobody really knoxs how to do it  Everyone thinks everyone else is doing it  So everyone claims they are doing it … 5
  • 6. Les piliers du Big Data  Innovations  Objets connectés  Infrastructure dématérialisée (Cloud)  Data Science  Data Viz  Evolutions sociétales  Partage d’information personnelles à grande échelle  Evolutions des usages, du business  Connaissance du client  Amélioration des process 6
  • 7. Quelques exemples  Customer centric : l’expérience client  Amazon : algorithmes de recommandation  SNCF : Yield management  Process centric : amélioration de la performance opérationnelle  Gefco : optimisation des trajets, prévision de la demande  Airbus industries : maintenance prédictive (stade R&D)  Panama Papers : exploration d’un volume de données impossibles à traiter par un groupe de journalistes  Diversification du business model  IPD : passage d’un groupe de presse B2B à de la vente de donnée (2500 pers, 50% du CA vient de la data) 7
  • 8. Les 3V … ou presque  Volume  Qui dit Big Data dit Big  Des catalogues de 10 millions de produits sont courants  Les logs de milliards de lignes aussi  Vitesse  Les données sont générées, capturées et traitées rapidement  Les cycle de production des données fait que le batch quotidien intervient trop tard (p.ex. personnalisation des ventes)  Variété  Plus une source unique  Vente, géolocalisation, logs 8
  • 9. + 2V  Véracité  Dimension qualitative des données  Au-delà de l’intégrité  Garbage In – Garbage Out  Visibilité  Les données doivent être accessibles, manipulables  Par les gens du métier, pas ceux de la technique  Avec des moyens d’exploration et d’analyse ou delà de la BI 9
  • 10. De la donnée à l’information  Collecte (3V)  Traitements  Analyses  Mise à disposition (Data Warehouse)  Cibles (diffusion) 10
  • 11. 11
  • 12. Premier V : volume  Exemples  Coûts 12
  • 13. Les unités  Octet : 8 bits, de quoi stocker un caractère non accentué ou un chiffre  Kilooctet : 1 000 octets (103), une demi-page A4 de texte  Megaoctet: 106 octets, une nouvelle courte, 5 Mo : l’œuvre intégrale de Shakespeare  Gigaoctet : 109 octets, une symphonie enregistrée en haute qualité  Teraoctet : 1012 octets, 5 000 arbres transformés en feuilles de papier  Petaoctet : 1015 octets, 10% de l’information disponible sur le WEB (20 Petas : production de disques durs en 1995)  Exaoctet : 1018 octets 13
  • 14. Unités  Attention aux définitions  Ko = 1000 octets  Kio = 1024 octets  Introduit en 1998 pour les unités informatiques (par multiple de 210) qui ne respectent pas la norme du Système International  Kibi : kilo binaire  Mébi : méga binaire  Etc…  Pour les gros volumes de données, cela ne change pas grand-chose en vrai 14
  • 15. Evolution solutions de stockage  Invention de la carte perforée (1725 pour les métiers à tisser) et surtout d’une machine pour les lire (1890) par Herman Hollerith, qui grâce a cela va diviser les temps de traitement d’un recensement US par 10, et … fonder IBM  Etape suivante : la bande magnétique (lent, faible densité d’information, mais super fiable si bien entretenue)  Sous forme de bande 1’’  Sous forme de K7, DAT, … (de quelques Ko à quelques Go)  A plat : le disque dur  Enregistrement optique  CD-ROM/RW : 680Mo  DVD: 4,7Go 15
  • 16. Explosion de volume de données disponible  Début des années 2000, la tendance est à tout stocker, sans savoir ce qu’ l’on va faire de cela  On commence à analyser les choses avec des outils de BI (Business Intelligence)  Pratiques pour fournir quelques KPI au top management  Aident le management à piloter son activité  Les défauts de la BI  Analyses prédictives très difficiles  Les volumes de données commencent à être trop importants pour ces outils 16
  • 17. Ordres de grandeur  5 Milliards de Go (Exa Octets)  L’humanité jusqu’en 2003  1 jour en 2011  10 minutes en 2013  90% des données existantes ont été produites ces deux dernières années 17
  • 18. Exemples  Compteur Linky  1 mesure par demi-heure  Environ un million de compteurs actifs début 2019  48 000 000 mesures par jour (48 millions)  17 520 000 000 mesures par an (17 milliards)  Cotation véhicules  7 millions de pages crawlées par jour  10 milliards de relevés de prix en 10 ans 18
  • 19. Exemples  Facebook  250 milliards d’images stockées (combien de chats ??)  350 millions de nouvelle photos … par jour  Google  Gmail : 6 Exa Octets  Données manipulées : 24 Po par jour, 9 Exa par an  0,01% de l’électricité mondiale  100 requêtes  un repassage de T-shirt  7,3 milliards de dollars dépensés par an dans les datacenter  2 millions de serveurs, 2% du parc mondial 19
  • 20. Exemples  Sloan digital Sky Survey (carte du ciel numérique)  Carte 3D  470 millions d’étoiles  2 millions de galaxies  10 ans  1 image : 1 Petapixel (500 000 écrans HD)  71 PetaOctets de données 20
  • 21.  Prix du Mo :  1950 : 10 000 $  1980 : 193 $  1987 : 90 $  1988 : 53 $  1989 : 12 $  1990 : 9 $  1995: 0,9 $  1999 : 0,02 $  Prix du Go :  2000 : 20 $  2005 : 0,72 $  2007 : 0,31 $  2010 : 0,08 $ 21
  • 22. Prix du Go (en $ relatif à 2017) 1 10 100 1000 10000 100000 1000000 10000000 100000000 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 2016 2018 Ratio 2017 22
  • 23. Vélocité  Les résultats de l’analyse de données doivent être fournies en temps réel  P.ex. Amazon : ceux qui ont acheté ce produit ont aussi acheté celui-là  Suivi des ventes par un manager de point de vente  Bourse de New York : 1 TB de transaction / jour  Les gros batch qui tournent la nuit ou une fois par heure ne sont pas adaptés à ce besoin  On parle de flux de données 23
  • 24. Puissance de calcul (Mflops Linpack) 1 10 100 1000 10000 100000 1000000 10000000 100000000 1000000000 10000000000 100000000000 1964 - CDC 6600 1985 - Cray 2 1997 - ASCI Red 2012 - Cray Titan 2016 - Xeon E5 24 2013 – I7 3770 60 – 90 M$ 2010 – Iphone 4
  • 25. Puissance de calcul (Tflops Linpack) 1 1 3 137 0 20 40 60 80 100 120 140 160 1997 ASCI Red 2015 Intel I7 3770 2016 Xeon E5 2016 Nvidia GDX-1 25 60 M$ 0,2 k$ 0,4 k$ 125 k$
  • 26. Variété  De la donnée structurée mais pas seulement  Des géolocalisations  Des mesures  Des données RFID  Traffic WEB  Du texte  Des photos  De la vidéo  IOT  … 26
  • 27. Véracité  On parle ici de qualité, pas de quantité  Seule une donnée de qualité peut produire une information réaliste et définir un levier d’action  P.ex marques de voitures : Peugeot et peugeot sont différents, or ce devrait être pareil Garbage in … garbage out 27
  • 28. Visibilité  Les analyses doivent être visibles  Les utilisateurs doivent les comprendre  On parle métier ici, pas data ou maths !!  Il faut former les utilisateurs à comprendre la donnée  Il faut les aider à fouiller la donnée par eux même 28