2. C’est quoi une donnée ? Et le reste ?
Data (donnée) : enregistrement numérique d’un fait du monde réel
Objet
Transaction
Observation
Information :
ce que je peux déduire d’un certain nombre de données et de règles
Le résultat de la rencontre d’une donnée et d’un problème
2
3. De la donnée à l’information
Un duo concept – mesure
1/1/2001
Cela devient une information lorsque qu’un humain l’interprête
1/1/2001 est une date, le premier janvier 2001
On met cette information en relation avec d’autres
Facebook m’indique qu’il s’agit de la date de naissance de Pierre
Cette nouvelle information permet une prise de décision éclairée
Je programme une alerte dans mon agenda pour l’année prochaine
Google le fait pour TOUS ses clients identifiés
3
4. Définition 1
Le Big Data c’est quand les ennuis commencent
Trop de données
Pas assez de ressources
Les outils habituels ne fonctionnent plus ou mal
Pourtant, il y a 30 ans, on traitait déjà des gros volumes de données
C’était cher, mais vraiment cher
C’était très spécifique (le code adapté à la machine)
Hors de portée du secteur privé (sauf Total)
4
5. Buzz
Big Data is like teenage sex:
Everyone talk about it
Nobody really knoxs how to do it
Everyone thinks everyone else is doing it
So everyone claims they are doing it …
5
6. Les piliers du Big Data
Innovations
Objets connectés
Infrastructure dématérialisée (Cloud)
Data Science
Data Viz
Evolutions sociétales
Partage d’information personnelles à grande échelle
Evolutions des usages, du business
Connaissance du client
Amélioration des process
6
7. Quelques exemples
Customer centric : l’expérience client
Amazon : algorithmes de recommandation
SNCF : Yield management
Process centric : amélioration de la performance opérationnelle
Gefco : optimisation des trajets, prévision de la demande
Airbus industries : maintenance prédictive (stade R&D)
Panama Papers : exploration d’un volume de données impossibles à traiter par
un groupe de journalistes
Diversification du business model
IPD : passage d’un groupe de presse B2B à de la vente de donnée (2500 pers,
50% du CA vient de la data)
7
8. Les 3V … ou presque
Volume
Qui dit Big Data dit Big
Des catalogues de 10 millions de produits sont courants
Les logs de milliards de lignes aussi
Vitesse
Les données sont générées, capturées et traitées rapidement
Les cycle de production des données fait que le batch quotidien intervient trop
tard (p.ex. personnalisation des ventes)
Variété
Plus une source unique
Vente, géolocalisation, logs
8
9. + 2V
Véracité
Dimension qualitative des données
Au-delà de l’intégrité
Garbage In – Garbage Out
Visibilité
Les données doivent être accessibles, manipulables
Par les gens du métier, pas ceux de la technique
Avec des moyens d’exploration et d’analyse ou delà de la BI
9
10. De la donnée à l’information
Collecte (3V)
Traitements
Analyses
Mise à disposition (Data Warehouse)
Cibles (diffusion)
10
13. Les unités
Octet : 8 bits, de quoi stocker un caractère non accentué ou un chiffre
Kilooctet : 1 000 octets (103), une demi-page A4 de texte
Megaoctet: 106 octets, une nouvelle courte, 5 Mo : l’œuvre intégrale de
Shakespeare
Gigaoctet : 109 octets, une symphonie enregistrée en haute qualité
Teraoctet : 1012 octets, 5 000 arbres transformés en feuilles de papier
Petaoctet : 1015 octets, 10% de l’information disponible sur le WEB (20
Petas : production de disques durs en 1995)
Exaoctet : 1018 octets
13
14. Unités
Attention aux définitions
Ko = 1000 octets
Kio = 1024 octets
Introduit en 1998 pour les unités informatiques (par multiple de 210) qui
ne respectent pas la norme du Système International
Kibi : kilo binaire
Mébi : méga binaire
Etc…
Pour les gros volumes de données, cela ne change pas grand-chose en vrai
14
15. Evolution solutions de stockage
Invention de la carte perforée (1725 pour les métiers à tisser) et surtout
d’une machine pour les lire (1890) par Herman Hollerith, qui grâce a cela
va diviser les temps de traitement d’un recensement US par 10, et …
fonder IBM
Etape suivante : la bande magnétique (lent, faible densité d’information,
mais super fiable si bien entretenue)
Sous forme de bande 1’’
Sous forme de K7, DAT, … (de quelques Ko à quelques Go)
A plat : le disque dur
Enregistrement optique
CD-ROM/RW : 680Mo
DVD: 4,7Go
15
16. Explosion de volume de données
disponible
Début des années 2000, la tendance est à tout stocker, sans savoir ce qu’
l’on va faire de cela
On commence à analyser les choses avec des outils de BI (Business
Intelligence)
Pratiques pour fournir quelques KPI au top management
Aident le management à piloter son activité
Les défauts de la BI
Analyses prédictives très difficiles
Les volumes de données commencent à être trop importants pour ces outils
16
17. Ordres de grandeur
5 Milliards de Go (Exa Octets)
L’humanité jusqu’en 2003
1 jour en 2011
10 minutes en 2013
90% des données existantes ont été produites ces deux dernières années
17
18. Exemples
Compteur Linky
1 mesure par demi-heure
Environ un million de compteurs actifs début 2019
48 000 000 mesures par jour (48 millions)
17 520 000 000 mesures par an (17 milliards)
Cotation véhicules
7 millions de pages crawlées par jour
10 milliards de relevés de prix en 10 ans
18
19. Exemples
Facebook
250 milliards d’images stockées (combien de chats ??)
350 millions de nouvelle photos … par jour
Google
Gmail : 6 Exa Octets
Données manipulées : 24 Po par jour, 9 Exa par an
0,01% de l’électricité mondiale
100 requêtes un repassage de T-shirt
7,3 milliards de dollars dépensés par an dans les datacenter
2 millions de serveurs, 2% du parc mondial
19
20. Exemples
Sloan digital Sky Survey (carte du ciel numérique)
Carte 3D
470 millions d’étoiles
2 millions de galaxies
10 ans
1 image : 1 Petapixel (500 000 écrans HD)
71 PetaOctets de données
20
22. Prix du Go (en $ relatif à 2017)
1
10
100
1000
10000
100000
1000000
10000000
100000000
1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 2016 2018
Ratio 2017
22
23. Vélocité
Les résultats de l’analyse de données doivent être fournies en temps réel
P.ex. Amazon : ceux qui ont acheté ce produit ont aussi acheté celui-là
Suivi des ventes par un manager de point de vente
Bourse de New York : 1 TB de transaction / jour
Les gros batch qui tournent la nuit ou une fois par heure ne sont pas
adaptés à ce besoin
On parle de flux de données
23
26. Variété
De la donnée structurée mais pas seulement
Des géolocalisations
Des mesures
Des données RFID
Traffic WEB
Du texte
Des photos
De la vidéo
IOT
…
26
27. Véracité
On parle ici de qualité, pas de quantité
Seule une donnée de qualité peut produire une information réaliste et
définir un levier d’action
P.ex marques de voitures : Peugeot et peugeot sont différents, or ce
devrait être pareil
Garbage in … garbage out
27
28. Visibilité
Les analyses doivent être visibles
Les utilisateurs doivent les comprendre
On parle métier ici, pas data ou maths !!
Il faut former les utilisateurs à comprendre la donnée
Il faut les aider à fouiller la donnée par eux même
28