SlideShare une entreprise Scribd logo
1  sur  28
Big Data
UNE INTRODUCTION SUR LE SUJET
C’est quoi une donnée ? Et le reste ?
 Data (donnée) : enregistrement numérique d’un fait du monde réel
 Objet
 Transaction
 Observation
 Information :
 ce que je peux déduire d’un certain nombre de données et de règles
 Le résultat de la rencontre d’une donnée et d’un problème
2
De la donnée à l’information
 Un duo concept – mesure
 1/1/2001
 Cela devient une information lorsque qu’un humain l’interprête
 1/1/2001 est une date, le premier janvier 2001
 On met cette information en relation avec d’autres
 Facebook m’indique qu’il s’agit de la date de naissance de Pierre
 Cette nouvelle information permet une prise de décision éclairée
 Je programme une alerte dans mon agenda pour l’année prochaine
 Google le fait pour TOUS ses clients identifiés
3
Définition 1
 Le Big Data c’est quand les ennuis commencent
 Trop de données
 Pas assez de ressources
 Les outils habituels ne fonctionnent plus ou mal
 Pourtant, il y a 30 ans, on traitait déjà des gros volumes de données
 C’était cher, mais vraiment cher
 C’était très spécifique (le code adapté à la machine)
 Hors de portée du secteur privé (sauf Total)
4
Buzz
 Big Data is like teenage sex:
 Everyone talk about it
 Nobody really knoxs how to do it
 Everyone thinks everyone else is doing it
 So everyone claims they are doing it …
5
Les piliers du Big Data
 Innovations
 Objets connectés
 Infrastructure dématérialisée (Cloud)
 Data Science
 Data Viz
 Evolutions sociétales
 Partage d’information personnelles à grande échelle
 Evolutions des usages, du business
 Connaissance du client
 Amélioration des process
6
Quelques exemples
 Customer centric : l’expérience client
 Amazon : algorithmes de recommandation
 SNCF : Yield management
 Process centric : amélioration de la performance opérationnelle
 Gefco : optimisation des trajets, prévision de la demande
 Airbus industries : maintenance prédictive (stade R&D)
 Panama Papers : exploration d’un volume de données impossibles à traiter par
un groupe de journalistes
 Diversification du business model
 IPD : passage d’un groupe de presse B2B à de la vente de donnée (2500 pers,
50% du CA vient de la data)
7
Les 3V … ou presque
 Volume
 Qui dit Big Data dit Big
 Des catalogues de 10 millions de produits sont courants
 Les logs de milliards de lignes aussi
 Vitesse
 Les données sont générées, capturées et traitées rapidement
 Les cycle de production des données fait que le batch quotidien intervient trop
tard (p.ex. personnalisation des ventes)
 Variété
 Plus une source unique
 Vente, géolocalisation, logs
8
+ 2V
 Véracité
 Dimension qualitative des données
 Au-delà de l’intégrité
 Garbage In – Garbage Out
 Visibilité
 Les données doivent être accessibles, manipulables
 Par les gens du métier, pas ceux de la technique
 Avec des moyens d’exploration et d’analyse ou delà de la BI
9
De la donnée à l’information
 Collecte (3V)
 Traitements
 Analyses
 Mise à disposition (Data Warehouse)
 Cibles (diffusion)
10
11
Premier V : volume
 Exemples
 Coûts
12
Les unités
 Octet : 8 bits, de quoi stocker un caractère non accentué ou un chiffre
 Kilooctet : 1 000 octets (103), une demi-page A4 de texte
 Megaoctet: 106 octets, une nouvelle courte, 5 Mo : l’œuvre intégrale de
Shakespeare
 Gigaoctet : 109 octets, une symphonie enregistrée en haute qualité
 Teraoctet : 1012 octets, 5 000 arbres transformés en feuilles de papier
 Petaoctet : 1015 octets, 10% de l’information disponible sur le WEB (20
Petas : production de disques durs en 1995)
 Exaoctet : 1018 octets
13
Unités
 Attention aux définitions
 Ko = 1000 octets
 Kio = 1024 octets
 Introduit en 1998 pour les unités informatiques (par multiple de 210) qui
ne respectent pas la norme du Système International
 Kibi : kilo binaire
 Mébi : méga binaire
 Etc…
 Pour les gros volumes de données, cela ne change pas grand-chose en vrai
14
Evolution solutions de stockage
 Invention de la carte perforée (1725 pour les métiers à tisser) et surtout
d’une machine pour les lire (1890) par Herman Hollerith, qui grâce a cela
va diviser les temps de traitement d’un recensement US par 10, et …
fonder IBM
 Etape suivante : la bande magnétique (lent, faible densité d’information,
mais super fiable si bien entretenue)
 Sous forme de bande 1’’
 Sous forme de K7, DAT, … (de quelques Ko à quelques Go)
 A plat : le disque dur
 Enregistrement optique
 CD-ROM/RW : 680Mo
 DVD: 4,7Go
15
Explosion de volume de données
disponible
 Début des années 2000, la tendance est à tout stocker, sans savoir ce qu’
l’on va faire de cela
 On commence à analyser les choses avec des outils de BI (Business
Intelligence)
 Pratiques pour fournir quelques KPI au top management
 Aident le management à piloter son activité
 Les défauts de la BI
 Analyses prédictives très difficiles
 Les volumes de données commencent à être trop importants pour ces outils
16
Ordres de grandeur
 5 Milliards de Go (Exa Octets)
 L’humanité jusqu’en 2003
 1 jour en 2011
 10 minutes en 2013
 90% des données existantes ont été produites ces deux dernières années
17
Exemples
 Compteur Linky
 1 mesure par demi-heure
 Environ un million de compteurs actifs début 2019
 48 000 000 mesures par jour (48 millions)
 17 520 000 000 mesures par an (17 milliards)
 Cotation véhicules
 7 millions de pages crawlées par jour
 10 milliards de relevés de prix en 10 ans
18
Exemples
 Facebook
 250 milliards d’images stockées (combien de chats ??)
 350 millions de nouvelle photos … par jour
 Google
 Gmail : 6 Exa Octets
 Données manipulées : 24 Po par jour, 9 Exa par an
 0,01% de l’électricité mondiale
 100 requêtes  un repassage de T-shirt
 7,3 milliards de dollars dépensés par an dans les datacenter
 2 millions de serveurs, 2% du parc mondial
19
Exemples
 Sloan digital Sky Survey (carte du ciel numérique)
 Carte 3D
 470 millions d’étoiles
 2 millions de galaxies
 10 ans
 1 image : 1 Petapixel (500 000 écrans HD)
 71 PetaOctets de données
20
 Prix du Mo :
 1950 : 10 000 $
 1980 : 193 $
 1987 : 90 $
 1988 : 53 $
 1989 : 12 $
 1990 : 9 $
 1995: 0,9 $
 1999 : 0,02 $
 Prix du Go :
 2000 : 20 $
 2005 : 0,72 $
 2007 : 0,31 $
 2010 : 0,08 $
21
Prix du Go (en $ relatif à 2017)
1
10
100
1000
10000
100000
1000000
10000000
100000000
1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 2016 2018
Ratio 2017
22
Vélocité
 Les résultats de l’analyse de données doivent être fournies en temps réel
 P.ex. Amazon : ceux qui ont acheté ce produit ont aussi acheté celui-là
 Suivi des ventes par un manager de point de vente
 Bourse de New York : 1 TB de transaction / jour
 Les gros batch qui tournent la nuit ou une fois par heure ne sont pas
adaptés à ce besoin
 On parle de flux de données
23
Puissance de calcul (Mflops Linpack)
1
10
100
1000
10000
100000
1000000
10000000
100000000
1000000000
10000000000
100000000000
1964 - CDC 6600 1985 - Cray 2 1997 - ASCI Red 2012 - Cray Titan 2016 - Xeon E5
24
2013 – I7 3770
60 – 90 M$
2010 – Iphone 4
Puissance de calcul (Tflops Linpack)
1 1 3
137
0
20
40
60
80
100
120
140
160
1997 ASCI Red 2015 Intel I7 3770 2016 Xeon E5 2016 Nvidia GDX-1
25
60 M$ 0,2 k$ 0,4 k$
125 k$
Variété
 De la donnée structurée mais pas seulement
 Des géolocalisations
 Des mesures
 Des données RFID
 Traffic WEB
 Du texte
 Des photos
 De la vidéo
 IOT
 …
26
Véracité
 On parle ici de qualité, pas de quantité
 Seule une donnée de qualité peut produire une information réaliste et
définir un levier d’action
 P.ex marques de voitures : Peugeot et peugeot sont différents, or ce
devrait être pareil
Garbage in … garbage out
27
Visibilité
 Les analyses doivent être visibles
 Les utilisateurs doivent les comprendre
 On parle métier ici, pas data ou maths !!
 Il faut former les utilisateurs à comprendre la donnée
 Il faut les aider à fouiller la donnée par eux même
28

Contenu connexe

Similaire à 02 big data definition

Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesOCTO Technology Suisse
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 OCTO Technology
 
Open Data - Rencontre Bi-départementale des EPN 26-07
Open Data - Rencontre Bi-départementale des EPN 26-07Open Data - Rencontre Bi-départementale des EPN 26-07
Open Data - Rencontre Bi-départementale des EPN 26-07Garlann Nizon
 
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfuyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfNajlaAllouche
 
Regard prospectif sur la R&D en IA avec Bertrand Braunschweig
Regard prospectif sur la R&D en IA avec Bertrand BraunschweigRegard prospectif sur la R&D en IA avec Bertrand Braunschweig
Regard prospectif sur la R&D en IA avec Bertrand BraunschweigLiving Things
 
CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?Cap'Com
 
Bigdata, small decision and smart organisation
Bigdata, small decision and smart organisationBigdata, small decision and smart organisation
Bigdata, small decision and smart organisationChristophe Benavent
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
Festival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tousFestival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tousAlexandra Loria
 
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...Altares D&B
 
Le Big Data : Une Révolution Numérique
Le Big Data : Une Révolution NumériqueLe Big Data : Une Révolution Numérique
Le Big Data : Une Révolution NumériqueRoland Coma
 
Introduction au projet Datapride
Introduction au projet DataprideIntroduction au projet Datapride
Introduction au projet Datapridedatapride
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Philippe METAYER
 
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioComment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioHervé Bourdon
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusCHAKER ALLAOUI
 
Big data et open data
Big data et open dataBig data et open data
Big data et open dataBart Hanssens
 

Similaire à 02 big data definition (20)

Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
 
Open Data - Rencontre Bi-départementale des EPN 26-07
Open Data - Rencontre Bi-départementale des EPN 26-07Open Data - Rencontre Bi-départementale des EPN 26-07
Open Data - Rencontre Bi-départementale des EPN 26-07
 
Analyse spatiale en Big data
Analyse spatiale en Big dataAnalyse spatiale en Big data
Analyse spatiale en Big data
 
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfuyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
 
Regard prospectif sur la R&D en IA avec Bertrand Braunschweig
Regard prospectif sur la R&D en IA avec Bertrand BraunschweigRegard prospectif sur la R&D en IA avec Bertrand Braunschweig
Regard prospectif sur la R&D en IA avec Bertrand Braunschweig
 
CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?
 
Bigdata, small decision and smart organisation
Bigdata, small decision and smart organisationBigdata, small decision and smart organisation
Bigdata, small decision and smart organisation
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Festival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tousFestival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tous
 
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
 
Le Big Data : Une Révolution Numérique
Le Big Data : Une Révolution NumériqueLe Big Data : Une Révolution Numérique
Le Big Data : Une Révolution Numérique
 
Introduction au projet Datapride
Introduction au projet DataprideIntroduction au projet Datapride
Introduction au projet Datapride
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioComment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processus
 
BigData et Hadoop
BigData et HadoopBigData et Hadoop
BigData et Hadoop
 
Big data et open data
Big data et open dataBig data et open data
Big data et open data
 

Plus de Patrick Bury

16 graph databases
16 graph databases16 graph databases
16 graph databasesPatrick Bury
 
15 map reduce on azure
15 map reduce on azure15 map reduce on azure
15 map reduce on azurePatrick Bury
 
14 big data gitlab
14 big data gitlab14 big data gitlab
14 big data gitlabPatrick Bury
 
13 big data docker
13 big data docker13 big data docker
13 big data dockerPatrick Bury
 
10 big data hadoop
10 big data hadoop10 big data hadoop
10 big data hadoopPatrick Bury
 
08 big data dataviz
08 big data dataviz08 big data dataviz
08 big data datavizPatrick Bury
 
09 big data mapreduce
09 big data mapreduce09 big data mapreduce
09 big data mapreducePatrick Bury
 
06 cloud souverain
06 cloud souverain06 cloud souverain
06 cloud souverainPatrick Bury
 
05 creation instance ovh
05 creation instance ovh05 creation instance ovh
05 creation instance ovhPatrick Bury
 
04 big data fournisseurs
04 big data fournisseurs04 big data fournisseurs
04 big data fournisseursPatrick Bury
 
03 big data stockage
03 big data stockage03 big data stockage
03 big data stockagePatrick Bury
 
03 big data échelle
03 big data échelle03 big data échelle
03 big data échellePatrick Bury
 
01 big data introduction
01 big data introduction01 big data introduction
01 big data introductionPatrick Bury
 
16 graph databases
16 graph databases16 graph databases
16 graph databasesPatrick Bury
 
15 map reduce on azure
15 map reduce on azure15 map reduce on azure
15 map reduce on azurePatrick Bury
 

Plus de Patrick Bury (20)

100 évaluation
100 évaluation100 évaluation
100 évaluation
 
16 graph databases
16 graph databases16 graph databases
16 graph databases
 
15 map reduce on azure
15 map reduce on azure15 map reduce on azure
15 map reduce on azure
 
11 big data aws
11 big data aws11 big data aws
11 big data aws
 
14 big data gitlab
14 big data gitlab14 big data gitlab
14 big data gitlab
 
13 big data docker
13 big data docker13 big data docker
13 big data docker
 
10 big data hadoop
10 big data hadoop10 big data hadoop
10 big data hadoop
 
08 big data dataviz
08 big data dataviz08 big data dataviz
08 big data dataviz
 
12 big data azure
12 big data azure12 big data azure
12 big data azure
 
09 big data mapreduce
09 big data mapreduce09 big data mapreduce
09 big data mapreduce
 
07 big data sgbd
07 big data sgbd07 big data sgbd
07 big data sgbd
 
06 cloud souverain
06 cloud souverain06 cloud souverain
06 cloud souverain
 
05 creation instance ovh
05 creation instance ovh05 creation instance ovh
05 creation instance ovh
 
04 big data fournisseurs
04 big data fournisseurs04 big data fournisseurs
04 big data fournisseurs
 
03 big data stockage
03 big data stockage03 big data stockage
03 big data stockage
 
03 big data échelle
03 big data échelle03 big data échelle
03 big data échelle
 
01 open data
01 open data01 open data
01 open data
 
01 big data introduction
01 big data introduction01 big data introduction
01 big data introduction
 
16 graph databases
16 graph databases16 graph databases
16 graph databases
 
15 map reduce on azure
15 map reduce on azure15 map reduce on azure
15 map reduce on azure
 

02 big data definition

  • 2. C’est quoi une donnée ? Et le reste ?  Data (donnée) : enregistrement numérique d’un fait du monde réel  Objet  Transaction  Observation  Information :  ce que je peux déduire d’un certain nombre de données et de règles  Le résultat de la rencontre d’une donnée et d’un problème 2
  • 3. De la donnée à l’information  Un duo concept – mesure  1/1/2001  Cela devient une information lorsque qu’un humain l’interprête  1/1/2001 est une date, le premier janvier 2001  On met cette information en relation avec d’autres  Facebook m’indique qu’il s’agit de la date de naissance de Pierre  Cette nouvelle information permet une prise de décision éclairée  Je programme une alerte dans mon agenda pour l’année prochaine  Google le fait pour TOUS ses clients identifiés 3
  • 4. Définition 1  Le Big Data c’est quand les ennuis commencent  Trop de données  Pas assez de ressources  Les outils habituels ne fonctionnent plus ou mal  Pourtant, il y a 30 ans, on traitait déjà des gros volumes de données  C’était cher, mais vraiment cher  C’était très spécifique (le code adapté à la machine)  Hors de portée du secteur privé (sauf Total) 4
  • 5. Buzz  Big Data is like teenage sex:  Everyone talk about it  Nobody really knoxs how to do it  Everyone thinks everyone else is doing it  So everyone claims they are doing it … 5
  • 6. Les piliers du Big Data  Innovations  Objets connectés  Infrastructure dématérialisée (Cloud)  Data Science  Data Viz  Evolutions sociétales  Partage d’information personnelles à grande échelle  Evolutions des usages, du business  Connaissance du client  Amélioration des process 6
  • 7. Quelques exemples  Customer centric : l’expérience client  Amazon : algorithmes de recommandation  SNCF : Yield management  Process centric : amélioration de la performance opérationnelle  Gefco : optimisation des trajets, prévision de la demande  Airbus industries : maintenance prédictive (stade R&D)  Panama Papers : exploration d’un volume de données impossibles à traiter par un groupe de journalistes  Diversification du business model  IPD : passage d’un groupe de presse B2B à de la vente de donnée (2500 pers, 50% du CA vient de la data) 7
  • 8. Les 3V … ou presque  Volume  Qui dit Big Data dit Big  Des catalogues de 10 millions de produits sont courants  Les logs de milliards de lignes aussi  Vitesse  Les données sont générées, capturées et traitées rapidement  Les cycle de production des données fait que le batch quotidien intervient trop tard (p.ex. personnalisation des ventes)  Variété  Plus une source unique  Vente, géolocalisation, logs 8
  • 9. + 2V  Véracité  Dimension qualitative des données  Au-delà de l’intégrité  Garbage In – Garbage Out  Visibilité  Les données doivent être accessibles, manipulables  Par les gens du métier, pas ceux de la technique  Avec des moyens d’exploration et d’analyse ou delà de la BI 9
  • 10. De la donnée à l’information  Collecte (3V)  Traitements  Analyses  Mise à disposition (Data Warehouse)  Cibles (diffusion) 10
  • 11. 11
  • 12. Premier V : volume  Exemples  Coûts 12
  • 13. Les unités  Octet : 8 bits, de quoi stocker un caractère non accentué ou un chiffre  Kilooctet : 1 000 octets (103), une demi-page A4 de texte  Megaoctet: 106 octets, une nouvelle courte, 5 Mo : l’œuvre intégrale de Shakespeare  Gigaoctet : 109 octets, une symphonie enregistrée en haute qualité  Teraoctet : 1012 octets, 5 000 arbres transformés en feuilles de papier  Petaoctet : 1015 octets, 10% de l’information disponible sur le WEB (20 Petas : production de disques durs en 1995)  Exaoctet : 1018 octets 13
  • 14. Unités  Attention aux définitions  Ko = 1000 octets  Kio = 1024 octets  Introduit en 1998 pour les unités informatiques (par multiple de 210) qui ne respectent pas la norme du Système International  Kibi : kilo binaire  Mébi : méga binaire  Etc…  Pour les gros volumes de données, cela ne change pas grand-chose en vrai 14
  • 15. Evolution solutions de stockage  Invention de la carte perforée (1725 pour les métiers à tisser) et surtout d’une machine pour les lire (1890) par Herman Hollerith, qui grâce a cela va diviser les temps de traitement d’un recensement US par 10, et … fonder IBM  Etape suivante : la bande magnétique (lent, faible densité d’information, mais super fiable si bien entretenue)  Sous forme de bande 1’’  Sous forme de K7, DAT, … (de quelques Ko à quelques Go)  A plat : le disque dur  Enregistrement optique  CD-ROM/RW : 680Mo  DVD: 4,7Go 15
  • 16. Explosion de volume de données disponible  Début des années 2000, la tendance est à tout stocker, sans savoir ce qu’ l’on va faire de cela  On commence à analyser les choses avec des outils de BI (Business Intelligence)  Pratiques pour fournir quelques KPI au top management  Aident le management à piloter son activité  Les défauts de la BI  Analyses prédictives très difficiles  Les volumes de données commencent à être trop importants pour ces outils 16
  • 17. Ordres de grandeur  5 Milliards de Go (Exa Octets)  L’humanité jusqu’en 2003  1 jour en 2011  10 minutes en 2013  90% des données existantes ont été produites ces deux dernières années 17
  • 18. Exemples  Compteur Linky  1 mesure par demi-heure  Environ un million de compteurs actifs début 2019  48 000 000 mesures par jour (48 millions)  17 520 000 000 mesures par an (17 milliards)  Cotation véhicules  7 millions de pages crawlées par jour  10 milliards de relevés de prix en 10 ans 18
  • 19. Exemples  Facebook  250 milliards d’images stockées (combien de chats ??)  350 millions de nouvelle photos … par jour  Google  Gmail : 6 Exa Octets  Données manipulées : 24 Po par jour, 9 Exa par an  0,01% de l’électricité mondiale  100 requêtes  un repassage de T-shirt  7,3 milliards de dollars dépensés par an dans les datacenter  2 millions de serveurs, 2% du parc mondial 19
  • 20. Exemples  Sloan digital Sky Survey (carte du ciel numérique)  Carte 3D  470 millions d’étoiles  2 millions de galaxies  10 ans  1 image : 1 Petapixel (500 000 écrans HD)  71 PetaOctets de données 20
  • 21.  Prix du Mo :  1950 : 10 000 $  1980 : 193 $  1987 : 90 $  1988 : 53 $  1989 : 12 $  1990 : 9 $  1995: 0,9 $  1999 : 0,02 $  Prix du Go :  2000 : 20 $  2005 : 0,72 $  2007 : 0,31 $  2010 : 0,08 $ 21
  • 22. Prix du Go (en $ relatif à 2017) 1 10 100 1000 10000 100000 1000000 10000000 100000000 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 2016 2018 Ratio 2017 22
  • 23. Vélocité  Les résultats de l’analyse de données doivent être fournies en temps réel  P.ex. Amazon : ceux qui ont acheté ce produit ont aussi acheté celui-là  Suivi des ventes par un manager de point de vente  Bourse de New York : 1 TB de transaction / jour  Les gros batch qui tournent la nuit ou une fois par heure ne sont pas adaptés à ce besoin  On parle de flux de données 23
  • 24. Puissance de calcul (Mflops Linpack) 1 10 100 1000 10000 100000 1000000 10000000 100000000 1000000000 10000000000 100000000000 1964 - CDC 6600 1985 - Cray 2 1997 - ASCI Red 2012 - Cray Titan 2016 - Xeon E5 24 2013 – I7 3770 60 – 90 M$ 2010 – Iphone 4
  • 25. Puissance de calcul (Tflops Linpack) 1 1 3 137 0 20 40 60 80 100 120 140 160 1997 ASCI Red 2015 Intel I7 3770 2016 Xeon E5 2016 Nvidia GDX-1 25 60 M$ 0,2 k$ 0,4 k$ 125 k$
  • 26. Variété  De la donnée structurée mais pas seulement  Des géolocalisations  Des mesures  Des données RFID  Traffic WEB  Du texte  Des photos  De la vidéo  IOT  … 26
  • 27. Véracité  On parle ici de qualité, pas de quantité  Seule une donnée de qualité peut produire une information réaliste et définir un levier d’action  P.ex marques de voitures : Peugeot et peugeot sont différents, or ce devrait être pareil Garbage in … garbage out 27
  • 28. Visibilité  Les analyses doivent être visibles  Les utilisateurs doivent les comprendre  On parle métier ici, pas data ou maths !!  Il faut former les utilisateurs à comprendre la donnée  Il faut les aider à fouiller la donnée par eux même 28