1
Tél : +41 21 312 94 15
www.octo.com
© OCTO 2015
Avenue du théâtre 7
CH-1005 Lausanne - SUISSE
Des small data aux big dat...
2
Tél : +41 21 312 94 15
www.octo.com
© OCTO 2015
Avenue du théâtre 7
CH-1005 Lausanne - SUISSE
Benoît Béraud
Consultant
O...
3
Pourquoi les bigdata ?
De la statistique à l’apprentissage
Aperçu des technologies
Cas client
Conclusion
4
Pourquoi les big data ?
5
Source : Intel Free Press
6
Source : Intel Free Press
7
Source : Intel Free Press
8
Un monde qui change
Plus de Volume Plus de Vitesse Plus de diVersité
Ceci est un constat (les 3V) mais pas une définitio...
9
10
Moore à la rescousse
Mais pas partout …
Vive la loi de Moore
Des disques dur
plus volumineux
Des CPUs plus
rapides
De l...
11
Tout augmente ! Sauf…
0
10
20
30
40
50
60
70
1991 1996 1998 2001 2006
Débit(MB/s)
Gain : x91
64 MB/s
0,7 MB/s
Seagate
B...
12
On a besoin de nouveaux outils pour
Adresser les
limitations d’IO
Traiter des
volumes
gigantesques
Réagir de plus
en pl...
13
De la statistique à l’apprentissage
14
« Science et techniques d'interprétation mathématique
de données complexes et nombreuses» définition LeRobert
La Statis...
15
De 1900 à 1950
Décrire des « grands »
ensembles de données
Les sondages
Les Tests
Les intervalles de confiance
Extrapol...
16
Evolution du contexte technologique
Des small Data … Au Big Data
1970 -1980
Taille : Ko
Les premiers outils
informatiqu...
17
Les limites de la statistique inférentielle
Risque de conclure à des
liens artificiels
  Corrélation fallacieuse
  Régr...
18
Un autre paradigme : l’apprentissage statistique
Statistique
inférentielle
Statistique
exploratoire
Théorie de l’appren...
19
Un autre paradigme : l’apprentissage statistique
Théorie de l’apprentissage
statistique
Apprentissage non
supervisé
App...
20
Validation croisée
  Objectif : on veut vérifier que notre modèle s’applique à de nouvelles données
Besoin de données p...
21
Les méthodes ensemblistes
  Objectif : Prédire ! Au risque de complexifier le modèle…
Besoin de données pour le rééchan...
22
Besoin de données pour le rééchantillonnage
les méthodes ensemblistes
X1 X2 X3 X4 X5
Individu 1 3 1 4 0 2
Individu 2 2 ...
23
​
𝑤
↓
1 
​
𝑤
↓
2 
​
𝑤
↓
𝑃 
Le retour des réseaux de neurones
​
𝑋
↓
1 
​
𝑋
↓
2 ​
𝑋
↓
𝑝 
…
Un neurone
Un réseau de neuron...
24
Layer 4Layer 3Layer 2Layer 1
Années 1980 : « à l’époque, c’était bien difficile. Nous n’avions pas de grands
ensembles ...
25
Description d’images grâce au Deep Learning
GoogLeNET, ça c’est du Deep Learning :
A group of young people
playing a ga...
26
Jusqu’à présent, on avait besoin d’énorme base de données supervisée
Mais en 2012, « Google Brain » découvre par lui-mê...
27
Pour tirer vraiment parti de la puissance de l’apprentissage statistique,
il faut entrer pleinement dans l’ère des big ...
28
Aperçu des technologies
29
Comment faire encore plus ?
Stratégies de montée en
puissance
Scale-up Scale-out
30
Nouveaux problèmes
Toute solution amène de nouveaux problèmes. Loi de Murphy
Pas ACID
Atomicity
Coherency
Isolation
Dur...
31Image from - http://mm-tom.s3.amazonaws.com/blog/MapReduce.png
3 étapes :
  Une étape « Map » où les données au format d...
32
Application orientée
Flux évènementiel
Application orientée
Transaction
Application
orientée Calculs
Application orient...
33
Application orientée
Flux évènementiel
Application orientée
Transaction
Application
orientée Calculs
Application orient...
34
Technologies vs solutions
Les technologies sont au service du métier et non l’inverse,
à nous de faire le bon choix.
Ch...
35
Cas client – analyse de signaux faibles
36
Le web…
37
38
Données à prédire : prestations de mutuelle
39
Traitement des données client
EXEMPLE DE COURBE DISCRETISÉE
40
Modèle prédictif
Séries
Google
Trends
exogènes
Série à
modéliser
41
Modèle prédictif
RECHERCHE DE PRÉDICTEURS
Calculs de
similarité
10.8
12.6
12.4
12.6
Séries
Google
Trends
exogènes
Série...
42
Champ sémantique Client
CROISEMENT DES DONNÉES CLIENT ET EXOGÈNES
Construction pour un type d’acte (Hospitalisation, Ph...
43
Modèle prédictif
APPRENTISSAGE DU MODÈLE
Le modèle de prédiction des dépenses de santé est une combinaison linéaire
des...
44
Quelle capacité du modèle à prédire de nouvelles données ?
Client
45
Quelle capacité du modèle à prédire de nouvelles données ?
Client
46
Cette approche est universelle.
Elle s’applique à chaque série temporelle pouvant être reliée à la
sphère digitale par ...
47
Est-ce fiable ?
Quelle confiance
peut-on avoir
dans ces
nouveaux
systèmes ?
48
49
Un système complexe, nécessitant une attention particulière
Des boucles de feedback pouvant fausser le système
Un monde...
50
Un nouveau regard sur le monde
51
52
Jakob von Uexküll : le « savoir » d’une espèce dépend de ses
capacités perceptives
Un monde de plus en plus multidimens...
53
Chaque année, 2 exabytes de données sont générés dans le
monde
Avec le cloud, l’accès à la donnée s’affranchit potentie...
54
Les algorithmes d’apprentissages statistiques sont de plus en
plus puissants, s’appliquent à tout type de données
Grâce...
Prochain SlideShare
Chargement dans…5
×

Softshake 2015 - Des small data aux big data - Méthodes et Technologies

776 vues

Publié le

L'importance de la donnée et les informations que nous pouvons en tirer sont en train de révolutionner notre monde. De plus en plus massives et hétérogènes, l'exploitation de ces données induit de faire appel à de nouvelles méthodes et technologies. Ces évolutions récentes en termes de moyens de stockage, de capacités de calcul et de méthodes d'analyse donnent une nouvelle place aux données dans notre quotidien.

Cette présentation offre une découverte du monde du big data en introduisant les différentes méthodes et technologies utilisées et en les illustrant de plusieurs cas pratiques.

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
776
Sur SlideShare
0
Issues des intégrations
0
Intégrations
14
Actions
Partages
0
Téléchargements
41
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Softshake 2015 - Des small data aux big data - Méthodes et Technologies

  1. 1. 1 Tél : +41 21 312 94 15 www.octo.com © OCTO 2015 Avenue du théâtre 7 CH-1005 Lausanne - SUISSE Des small data aux big data Méthodes et technologies
  2. 2. 2 Tél : +41 21 312 94 15 www.octo.com © OCTO 2015 Avenue du théâtre 7 CH-1005 Lausanne - SUISSE Benoît Béraud Consultant OCTO Suisse bberaud@octo.com Nicolas Cavallo Consultant OCTO France ncavallo@octo.com
  3. 3. 3 Pourquoi les bigdata ? De la statistique à l’apprentissage Aperçu des technologies Cas client Conclusion
  4. 4. 4 Pourquoi les big data ?
  5. 5. 5 Source : Intel Free Press
  6. 6. 6 Source : Intel Free Press
  7. 7. 7 Source : Intel Free Press
  8. 8. 8 Un monde qui change Plus de Volume Plus de Vitesse Plus de diVersité Ceci est un constat (les 3V) mais pas une définition du bigdata Quid de la production de valeur ?
  9. 9. 9
  10. 10. 10 Moore à la rescousse Mais pas partout … Vive la loi de Moore Des disques dur plus volumineux Des CPUs plus rapides De la RAM de moins en moins chère
  11. 11. 11 Tout augmente ! Sauf… 0 10 20 30 40 50 60 70 1991 1996 1998 2001 2006 Débit(MB/s) Gain : x91 64 MB/s 0,7 MB/s Seagate Barracuda 7200.10 Seagate Barracuda ATA IV IBM DTTA 35010 Gain : x100 000 1990 2010Lire l’intégralité d’un disque prend aujourd’hui 100 à 1000 fois plus de temps qu’il y a 30 ans
  12. 12. 12 On a besoin de nouveaux outils pour Adresser les limitations d’IO Traiter des volumes gigantesques Réagir de plus en plus vite
  13. 13. 13 De la statistique à l’apprentissage
  14. 14. 14 « Science et techniques d'interprétation mathématique de données complexes et nombreuses» définition LeRobert La Statistique STATISTIQUE Activité qui consiste à réunir des données Méthode de traitement et d’interprétation des données
  15. 15. 15 De 1900 à 1950 Décrire des « grands » ensembles de données Les sondages Les Tests Les intervalles de confiance Extrapoler un échantillon à une population mère Statistique descriptive Statistique inférentielle Statistique exploratoire unidimensionnelles bidimensionnelles La méthodologie statistique n’apparait véritablement qu’en 1900. Deux grandes familles émergent alors :
  16. 16. 16 Evolution du contexte technologique Des small Data … Au Big Data 1970 -1980 Taille : Ko Les premiers outils informatiques, l’analyse de données se développe (ACP AFC). On explore les données 1980 -1990 Taille : Mo Début de l’intelligence artificielle. Apprentissage des « réseaux de neurones » 1990 -2000 Taille : Go On stocke les données (DataWarehouse), on commence à s’en servir pour l’aide à la décision grâce à la fouille de données (Data Mining ) 2000 - … Taille : To Le nombre de données explose. Le fléau de la dimension oblige la statistique à évoluer 1940 -1970 Taille : Octets <100 individus, <10 variables Modèle linéaire Test
  17. 17. 17 Les limites de la statistique inférentielle Risque de conclure à des liens artificiels   Corrélation fallacieuse   Régression fallacieuse   p-value concluant systématiquement à une significativité statistique Limites de l’analyse statistique « classique » lorsque les données sont volumineuses Statistique inférentielle Conséquence : la prédiction deviendrait impossible ?
  18. 18. 18 Un autre paradigme : l’apprentissage statistique Statistique inférentielle Statistique exploratoire Théorie de l’apprentissage statistique •  On n’extrapole plus à une population mère : le modèle suit les données, et non plus l’inverse •  La découverte de régularités dans les données permettent de comprendre et/ou de prédire •  L’objectif de qualité de la prédiction l’emporte sur la réalité du modèle devenu « boite noire » •  Le rééchantillonnage permet de valider les structures
  19. 19. 19 Un autre paradigme : l’apprentissage statistique Théorie de l’apprentissage statistique Apprentissage non supervisé Apprentissage supervisé
  20. 20. 20 Validation croisée   Objectif : on veut vérifier que notre modèle s’applique à de nouvelles données Besoin de données pour le rééchantillonnage validation croisée Base initiale On crée notre modèle On le teste L’efficacité de notre modèle est mesurée sur des nouvelles donnéesX 10 Validation croisée
  21. 21. 21 Les méthodes ensemblistes   Objectif : Prédire ! Au risque de complexifier le modèle… Besoin de données pour le rééchantillonnage les méthodes ensemblistes X1 X2 X3 X4 X5 Individu 1 3 1 4 0 2 Individu 2 2 2 7 0 1 Individu 3 5 5 4 1 4 Individu 4 3 4 3 1 2 Individu 5 2 6 1 0 3 Vote ou moyenne Prédiction Modèle 1 Modèle 2 Modèle 3 Exemple : les Random Forest Bagging : constitution de plusieurs arbres par tirages aléatoires successifs d’individus
  22. 22. 22 Besoin de données pour le rééchantillonnage les méthodes ensemblistes X1 X2 X3 X4 X5 Individu 1 3 1 4 0 2 Individu 2 2 2 7 0 1 Individu 3 5 5 4 1 4 Individu 4 3 4 3 1 2 Individu 5 2 6 1 0 3 Vote ou moyenne Prédiction Modèle 1 Modèle 2Modèle 3 Exemple : les Random Forest Feature sampling : constitution de plusieurs arbres par tirages aléatoires successifs de variables ATTENTION Les modèles deviennent souvent des « boites noires » POUR EN SAVOIR PLUS Data Science : fondamentaux et études de cas livre OCTO (EYROLLES)
  23. 23. 23 ​ 𝑤 ↓ 1  ​ 𝑤 ↓ 2  ​ 𝑤 ↓ 𝑃  Le retour des réseaux de neurones ​ 𝑋 ↓ 1  ​ 𝑋 ↓ 2 ​ 𝑋 ↓ 𝑝  … Un neurone Un réseau de neurones (perceptron) Couche cachée Couche de sortieCouche d’entrée y∑ |   𝑓 ∑ |   𝑓 ∑ |   𝑓 ∑ |   𝑓 … 𝑓 𝑓 𝑓 𝑓 ​ 𝑋 ↓ 1 ​ 𝑋 ↓ 2  ​ 𝑋 ↓ 𝑝  ​ 𝑋 ↓ 𝑗 
  24. 24. 24 Layer 4Layer 3Layer 2Layer 1 Années 1980 : « à l’époque, c’était bien difficile. Nous n’avions pas de grands ensembles de données, ni d’ordinateurs rapides » (Yann Lecun) De plus en plus utilisé :   Reconnaissance vocal : Siri, Cortana, google now,   Reconnaissance d’images : google maps (déchiffrer les textes dans le paysage), Deep Face (facebook), googLeNet L’avènement du Deep Learning Le deep learning, un fonctionnement multi-couche
  25. 25. 25 Description d’images grâce au Deep Learning GoogLeNET, ça c’est du Deep Learning : A group of young people playing a game of frisbee A yellow school bus parked in a parking lot
  26. 26. 26 Jusqu’à présent, on avait besoin d’énorme base de données supervisée Mais en 2012, « Google Brain » découvre par lui-même le concept de chat… …. En visionnant 10 millions de captures d’écrans de Youtube… non étiquetées ! L’apprentissage non supervisé, plus proche encore de l’apprentissage humain L’apprentissage non supervisé On détecte les objets Avec une seule image, on les nomme Nuage Eléphant Etoile Chat Apprentissage non supervisé Apprentissage supervisé On observe notre environnement
  27. 27. 27 Pour tirer vraiment parti de la puissance de l’apprentissage statistique, il faut entrer pleinement dans l’ère des big data : plus on a de données, plus les apprentissages peuvent être fins En conséquence, les exigences en termes de stockage et de capacité de traitement sont fortes L’apprentissage a besoin de données Il faut donc maitriser les technologies, et il n’est pas étonnant que les leaders actuels dans la R&D en machine learning soient aussi des leaders technologiques : Google, Facebook…
  28. 28. 28 Aperçu des technologies
  29. 29. 29 Comment faire encore plus ? Stratégies de montée en puissance Scale-up Scale-out
  30. 30. 30 Nouveaux problèmes Toute solution amène de nouveaux problèmes. Loi de Murphy Pas ACID Atomicity Coherency Isolation Durability Théorème CAP Coherency Availability Partition Nouveaux paradigmes Drivers Tests MapReduce
  31. 31. 31Image from - http://mm-tom.s3.amazonaws.com/blog/MapReduce.png 3 étapes :   Une étape « Map » où les données au format d’entrée sont découpées au format clef/valeur   Une étape « Shuffle » qui opère une passe de tri et regroupe les données par clef   Une étape « Reduce » qui agrège les différents résultats par clef et produit le résultat final MapReduce MapReduce est une façon de formaliser un traitement pour être efficace lors d’une exécution distribuée. Ce n’est pas une technologie, ni un algorithme, ni une implémentation
  32. 32. 32 Application orientée Flux évènementiel Application orientée Transaction Application orientée Calculs Application orientée Stockage Stockage distribué Share nothing eXtreme Transaction Processing Programmation parallèle Event Stream Processing Univers « standard » SGBDR, Serveur d’application, ETL, ESB Le diamant Big Data (1/2) 10 To en ligne 3.000 TPS 10 threads/core1.000 évts/s
  33. 33. 33 Application orientée Flux évènementiel Application orientée Transaction Application orientée Calculs Application orientée Stockage Le diamant Big Data (2/2) In Memory Redis. Memcached, GemFire/Geode, Spark NoSQL NewSQL MongoDB, CouchDB, Cassandra, Hbase, Neo4j. CEP, ESP Spark Streaming, Storm, Flink, Samza, Heron Parrallel database Teradata, Vertica
  34. 34. 34 Technologies vs solutions Les technologies sont au service du métier et non l’inverse, à nous de faire le bon choix. Chacune de ces technologies ont été pensées pour répondre à un problème métier.
  35. 35. 35 Cas client – analyse de signaux faibles
  36. 36. 36 Le web…
  37. 37. 37
  38. 38. 38 Données à prédire : prestations de mutuelle
  39. 39. 39 Traitement des données client EXEMPLE DE COURBE DISCRETISÉE
  40. 40. 40 Modèle prédictif Séries Google Trends exogènes Série à modéliser
  41. 41. 41 Modèle prédictif RECHERCHE DE PRÉDICTEURS Calculs de similarité 10.8 12.6 12.4 12.6 Séries Google Trends exogènes Série à modéliser
  42. 42. 42 Champ sémantique Client CROISEMENT DES DONNÉES CLIENT ET EXOGÈNES Construction pour un type d’acte (Hospitalisation, Pharmacie, Optique ou Dentaire) Caractéristiques : Noeuds : mots-clefs les plus corrélés à la série client   Liens : mots-clefs liés   Force des liens : corrélations entre mots-clefs Optique Santé Evénements de vie
  43. 43. 43 Modèle prédictif APPRENTISSAGE DU MODÈLE Le modèle de prédiction des dépenses de santé est une combinaison linéaire des séries exogènes les plus corrélées.
  44. 44. 44 Quelle capacité du modèle à prédire de nouvelles données ? Client
  45. 45. 45 Quelle capacité du modèle à prédire de nouvelles données ? Client
  46. 46. 46 Cette approche est universelle. Elle s’applique à chaque série temporelle pouvant être reliée à la sphère digitale par les recherches sur les moteurs de recherche.
  47. 47. 47 Est-ce fiable ? Quelle confiance peut-on avoir dans ces nouveaux systèmes ?
  48. 48. 48
  49. 49. 49 Un système complexe, nécessitant une attention particulière Des boucles de feedback pouvant fausser le système Un monde en constante évolution
  50. 50. 50 Un nouveau regard sur le monde
  51. 51. 51
  52. 52. 52 Jakob von Uexküll : le « savoir » d’une espèce dépend de ses capacités perceptives Un monde de plus en plus multidimensionnel vision de l’hommevision de la mouchevision du mollusque La technologie accroît notre capacité de perception des phénomènes physiques, chimiques, sociaux : accéléromètre, oxymètre, activité sur les réseaux sociaux… sont autant de moyens de perception, de moins en moins coûteux vision grâce aux machines
  53. 53. 53 Chaque année, 2 exabytes de données sont générés dans le monde Avec le cloud, l’accès à la donnée s’affranchit potentiellement de toute contrainte géographique La constitution d’une mémoire collective numérique ? Evoque la constitution d’une mémoire collective numérique ubiquitaire, qui dépasse largement nos capacités de mémorisation individuelles
  54. 54. 54 Les algorithmes d’apprentissages statistiques sont de plus en plus puissants, s’appliquent à tout type de données Grâce à la technologie, l’accès à la donnée est de plus en plus aisée et nous disposons d’une puissance de calcul incroyable Conclusion Les capacités d’apprentissage apportent un nouveau regard sur le monde

×