Softshake 2015 - Des small data aux big data - Méthodes et Technologies

1
Tél : +41 21 312 94 15
www.octo.com
© OCTO 2015
Avenue du théâtre 7
CH-1005 Lausanne - SUISSE
Des small data aux big data
Méthodes et technologies

2
Tél : +41 21 312 94 15
www.octo.com
© OCTO 2015
Avenue du théâtre 7
CH-1005 Lausanne - SUISSE
Benoît Béraud
Consultant
OCTO Suisse
bberaud@octo.com
Nicolas Cavallo
Consultant
OCTO France
ncavallo@octo.com

3
Pourquoi les bigdata ?
De la statistique à l’apprentissage
Aperçu des technologies
Cas client
Conclusion

8
Un monde qui change
Plus de Volume Plus de Vitesse Plus de diVersité
Ceci est un constat (les 3V) mais pas une définition du bigdata
Quid de la production de valeur ?

10
Moore à la rescousse
Mais pas partout …
Vive la loi de Moore
Des disques dur
plus volumineux
Des CPUs plus
rapides
De la RAM de
moins en moins
chère

11
Tout augmente ! Sauf…
0
10
20
30
40
50
60
70
1991 1996 1998 2001 2006
Débit(MB/s)
Gain : x91
64 MB/s
0,7 MB/s
Seagate
Barracuda
7200.10
Seagate
Barracuda
ATA IV
IBM DTTA
35010
Gain : x100 000
1990 2010Lire l’intégralité d’un disque prend aujourd’hui 100 à 1000 fois
plus de temps qu’il y a 30 ans

12
On a besoin de nouveaux outils pour
Adresser les
limitations d’IO
Traiter des
volumes
gigantesques
Réagir de plus
en plus vite

13
De la statistique à l’apprentissage

14
« Science et techniques d'interprétation mathématique
de données complexes et nombreuses» définition LeRobert
La Statistique
STATISTIQUE
Activité qui consiste à
réunir des données
Méthode de traitement
et d’interprétation des
données

15
De 1900 à 1950
Décrire des « grands »
ensembles de données
Les sondages
Les Tests
Les intervalles de confiance
Extrapoler un échantillon à une
population mère
Statistique descriptive
Statistique inférentielle Statistique exploratoire
unidimensionnelles
bidimensionnelles
La méthodologie statistique n’apparait véritablement qu’en
1900. Deux grandes familles émergent alors :

16
Evolution du contexte technologique
Des small Data … Au Big Data
1970 -1980
Taille : Ko
Les premiers outils
informatiques,
l’analyse de données
se développe (ACP
AFC). On explore les
données
1980 -1990
Taille : Mo
Début de l’intelligence
artificielle.
Apprentissage des
« réseaux de
neurones »
1990 -2000
Taille : Go
On stocke les données
(DataWarehouse), on
commence à s’en servir pour
l’aide à la décision grâce à la
fouille de données (Data
Mining )
2000 - …
Taille : To
Le nombre de
données explose. Le
fléau de la
dimension oblige la
statistique à évoluer
1940 -1970
Taille : Octets
<100 individus,
<10 variables
Modèle linéaire
Test

17
Les limites de la statistique inférentielle
Risque de conclure à des
liens artificiels
  Corrélation fallacieuse
  Régression fallacieuse
  p-value concluant
systématiquement à une
significativité statistique
Limites de l’analyse statistique « classique » lorsque les données sont
volumineuses
Statistique inférentielle
Conséquence : la prédiction deviendrait impossible ?

18
Un autre paradigme : l’apprentissage statistique
Statistique
inférentielle
Statistique
exploratoire
Théorie de l’apprentissage statistique
•  On n’extrapole plus à une population mère : le
modèle suit les données, et non plus l’inverse
•  La découverte de régularités dans les données
permettent de comprendre et/ou de prédire
•  L’objectif de qualité de la prédiction l’emporte
sur la réalité du modèle devenu « boite noire »
•  Le rééchantillonnage permet de valider les
structures

19
Un autre paradigme : l’apprentissage statistique
Théorie de l’apprentissage
statistique
Apprentissage non
supervisé
Apprentissage
supervisé

20
Validation croisée
  Objectif : on veut vérifier que notre modèle s’applique à de nouvelles données
Besoin de données pour le rééchantillonnage
validation croisée
Base initiale
On crée notre modèle On le teste
L’efficacité de
notre modèle est
mesurée sur des
nouvelles donnéesX 10
Validation
croisée

21
Les méthodes ensemblistes
  Objectif : Prédire ! Au risque de complexifier le modèle…
les méthodes ensemblistes
X1 X2 X3 X4 X5
Individu 1 3 1 4 0 2
Vote ou moyenne
Prédiction
Modèle 1
Modèle 2
Modèle 3
Exemple : les Random Forest
Bagging : constitution de plusieurs arbres par
tirages aléatoires successifs d’individus

22
les méthodes ensemblistes
X1 X2 X3 X4 X5
Vote
ou
moyenne
Prédiction
Modèle 1
Modèle 2Modèle 3
Exemple : les Random Forest
Feature sampling : constitution de plusieurs arbres
par tirages aléatoires successifs de variables
ATTENTION
Les modèles deviennent
souvent des « boites noires »
POUR EN SAVOIR PLUS
Data Science : fondamentaux et
études de cas
livre OCTO (EYROLLES)

23

𝑤
↓
1 

𝑤
↓
2 

𝑤
↓
𝑃 
Le retour des réseaux de neurones

𝑋
↓
1 

𝑋
↓
2 
𝑋
↓
𝑝 
…
Un neurone
Un réseau de neurones (perceptron)
Couche cachée Couche de sortieCouche d’entrée
y∑ | 𝑓
∑ | 𝑓
∑ | 𝑓
∑ | 𝑓
…
𝑓
𝑓
𝑓
𝑓

𝑋
↓
1 
𝑋
↓
2 

𝑋
↓
𝑝 

𝑋
↓
𝑗

24
Layer 4Layer 3Layer 2Layer 1
Années 1980 : « à l’époque, c’était bien difficile. Nous n’avions pas de grands
ensembles de données, ni d’ordinateurs rapides » (Yann Lecun)
De plus en plus utilisé :
  Reconnaissance vocal : Siri, Cortana, google now,
  Reconnaissance d’images : google maps (déchiffrer les textes dans le paysage),
Deep Face (facebook), googLeNet
L’avènement du Deep Learning
Le deep learning, un fonctionnement multi-couche

25
Description d’images grâce au Deep Learning
GoogLeNET, ça c’est du Deep Learning :
A group of young people
playing a game of frisbee
A yellow school bus
parked in a parking lot

26
Jusqu’à présent, on avait besoin d’énorme base de données supervisée
Mais en 2012, « Google Brain » découvre par lui-même le concept de chat…
…. En visionnant 10 millions de captures d’écrans de Youtube… non étiquetées !
L’apprentissage non supervisé, plus proche encore de l’apprentissage humain
L’apprentissage non supervisé
On détecte les objets Avec une seule
image, on les nomme
Nuage Eléphant
Etoile Chat
Apprentissage non supervisé Apprentissage supervisé
On observe notre
environnement

27
Pour tirer vraiment parti de la puissance de l’apprentissage statistique,
il faut entrer pleinement dans l’ère des big data : plus on a de
données, plus les apprentissages peuvent être fins
En conséquence, les exigences en termes de stockage et de
capacité de traitement sont fortes
L’apprentissage a besoin de données
Il faut donc maitriser les technologies, et il n’est pas étonnant que
les leaders actuels dans la R&D en machine learning soient aussi
des leaders technologiques : Google, Facebook…

29
Comment faire encore plus ?
Stratégies de montée en
puissance
Scale-up Scale-out

30
Nouveaux problèmes
Toute solution amène de nouveaux problèmes. Loi de Murphy
Pas ACID
Atomicity
Coherency
Isolation
Durability
Théorème CAP
Coherency
Availability
Partition
Nouveaux
paradigmes
Drivers
Tests
MapReduce

31Image from - http://mm-tom.s3.amazonaws.com/blog/MapReduce.png
3 étapes :
  Une étape « Map » où les données au format d’entrée sont découpées au
format clef/valeur
  Une étape « Shuffle » qui opère une passe de tri et regroupe les données par clef
  Une étape « Reduce » qui agrège les différents résultats par clef et produit le résultat
final
MapReduce
MapReduce est une façon de formaliser un traitement pour être
efficace lors d’une exécution distribuée.
Ce n’est pas une technologie, ni un algorithme, ni une implémentation

32
Application orientée
Flux évènementiel
Transaction
Application
orientée Calculs
Stockage
Stockage
distribué
Share
nothing
eXtreme
Transaction
Processing
Programmation
parallèle
Event Stream
Processing
Univers « standard »
SGBDR,
Serveur d’application,
ETL, ESB
Le diamant Big Data (1/2)
10 To en ligne 3.000 TPS
10 threads/core1.000 évts/s

33
Flux évènementiel
Transaction
Application
orientée Calculs
Stockage
Le diamant Big Data (2/2)
In Memory
Redis. Memcached,
GemFire/Geode, Spark
NoSQL
NewSQL
MongoDB, CouchDB,
Cassandra, Hbase, Neo4j.
CEP, ESP
Spark Streaming, Storm,
Flink, Samza, Heron Parrallel database
Teradata, Vertica

34
Technologies vs solutions
Les technologies sont au service du métier et non l’inverse,
à nous de faire le bon choix.
Chacune de ces technologies ont été pensées pour
répondre à un problème métier.

35
Cas client – analyse de signaux faibles

38
Données à prédire : prestations de mutuelle

39
Traitement des données client
EXEMPLE DE COURBE DISCRETISÉE

40
Modèle prédictif
Séries
Google
Trends
exogènes
Série à
modéliser

41
Modèle prédictif
RECHERCHE DE PRÉDICTEURS
Calculs de
similarité
10.8
12.6
12.4
12.6
Séries
Google
Trends
exogènes
Série à
modéliser

42
Champ sémantique Client
CROISEMENT DES DONNÉES CLIENT ET EXOGÈNES
Construction pour un type d’acte (Hospitalisation, Pharmacie, Optique ou
Dentaire)
Caractéristiques :
Noeuds : mots-clefs les plus corrélés à la série client
  Liens : mots-clefs liés
  Force des liens : corrélations entre mots-clefs
Optique
Santé
Evénements
de vie

43
Modèle prédictif
APPRENTISSAGE DU MODÈLE
Le modèle de prédiction des dépenses de santé est une combinaison linéaire
des séries exogènes les plus corrélées.

44
Quelle capacité du modèle à prédire de nouvelles données ?
Client

45
Quelle capacité du modèle à prédire de nouvelles données ?
Client

46
Cette approche est universelle.
Elle s’applique à chaque série temporelle pouvant être reliée à la
sphère digitale par les recherches sur les moteurs de recherche.

47
Est-ce fiable ?
Quelle confiance
peut-on avoir
dans ces
nouveaux
systèmes ?

49
Un système complexe, nécessitant une attention particulière
Des boucles de feedback pouvant fausser le système
Un monde en constante évolution

50
Un nouveau regard sur le monde

52
Jakob von Uexküll : le « savoir » d’une espèce dépend de ses
capacités perceptives
Un monde de plus en plus multidimensionnel
vision de l’hommevision de la mouchevision du mollusque
La technologie accroît notre capacité de perception des
phénomènes physiques, chimiques, sociaux :
accéléromètre, oxymètre, activité sur les réseaux sociaux… sont
autant de moyens de perception, de moins en moins coûteux
vision grâce
aux machines

53
Chaque année, 2 exabytes de données sont générés dans le
monde
Avec le cloud, l’accès à la donnée s’affranchit potentiellement
de toute contrainte géographique
La constitution d’une mémoire collective numérique ?
Evoque la constitution d’une mémoire collective numérique
ubiquitaire, qui dépasse largement nos capacités de
mémorisation individuelles

54
Les algorithmes d’apprentissages statistiques sont de plus en
plus puissants, s’appliquent à tout type de données
Grâce à la technologie, l’accès à la donnée est de plus en plus
aisée et nous disposons d’une puissance de calcul incroyable
Conclusion
Les capacités d’apprentissage apportent
un nouveau regard sur le monde

Softshake 2015 - Des small data aux big data - Méthodes et Technologies

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (6)

Similaire à Softshake 2015 - Des small data aux big data - Méthodes et Technologies

Similaire à Softshake 2015 - Des small data aux big data - Méthodes et Technologies (20)

Plus de OCTO Technology Suisse

Plus de OCTO Technology Suisse (18)

Softshake 2015 - Des small data aux big data - Méthodes et Technologies