SlideShare une entreprise Scribd logo
1  sur  54
Télécharger pour lire hors ligne
1
Tél : +41 21 312 94 15
www.octo.com
© OCTO 2015
Avenue du théâtre 7
CH-1005 Lausanne - SUISSE
Des small data aux big data
Méthodes et technologies
2
Tél : +41 21 312 94 15
www.octo.com
© OCTO 2015
Avenue du théâtre 7
CH-1005 Lausanne - SUISSE
Benoît Béraud
Consultant
OCTO Suisse
bberaud@octo.com
Nicolas Cavallo
Consultant
OCTO France
ncavallo@octo.com
3
Pourquoi les bigdata ?
De la statistique à l’apprentissage
Aperçu des technologies
Cas client
Conclusion
4
Pourquoi les big data ?
5
Source : Intel Free Press
6
Source : Intel Free Press
7
Source : Intel Free Press
8
Un monde qui change
Plus de Volume Plus de Vitesse Plus de diVersité
Ceci est un constat (les 3V) mais pas une définition du bigdata
Quid de la production de valeur ?
9
10
Moore à la rescousse
Mais pas partout …
Vive la loi de Moore
Des disques dur
plus volumineux
Des CPUs plus
rapides
De la RAM de
moins en moins
chère
11
Tout augmente ! Sauf…
0
10
20
30
40
50
60
70
1991 1996 1998 2001 2006
Débit(MB/s)
Gain : x91
64 MB/s
0,7 MB/s
Seagate
Barracuda
7200.10
Seagate
Barracuda
ATA IV
IBM DTTA
35010
Gain : x100 000
1990 2010Lire l’intégralité d’un disque prend aujourd’hui 100 à 1000 fois
plus de temps qu’il y a 30 ans
12
On a besoin de nouveaux outils pour
Adresser les
limitations d’IO
Traiter des
volumes
gigantesques
Réagir de plus
en plus vite
13
De la statistique à l’apprentissage
14
« Science et techniques d'interprétation mathématique
de données complexes et nombreuses» définition LeRobert
La Statistique
STATISTIQUE
Activité qui consiste à
réunir des données
Méthode de traitement
et d’interprétation des
données
15
De 1900 à 1950
Décrire des « grands »
ensembles de données
Les sondages
Les Tests
Les intervalles de confiance
Extrapoler un échantillon à une
population mère
Statistique descriptive
Statistique inférentielle Statistique exploratoire
unidimensionnelles
bidimensionnelles
La méthodologie statistique n’apparait véritablement qu’en
1900. Deux grandes familles émergent alors :
16
Evolution du contexte technologique
Des small Data … Au Big Data
1970 -1980
Taille : Ko
Les premiers outils
informatiques,
l’analyse de données
se développe (ACP
AFC). On explore les
données
1980 -1990
Taille : Mo
Début de l’intelligence
artificielle.
Apprentissage des
« réseaux de
neurones »
1990 -2000
Taille : Go
On stocke les données
(DataWarehouse), on
commence à s’en servir pour
l’aide à la décision grâce à la
fouille de données (Data
Mining )
2000 - …
Taille : To
Le nombre de
données explose. Le
fléau de la
dimension oblige la
statistique à évoluer
1940 -1970
Taille : Octets
<100 individus,
<10 variables
Modèle linéaire
Test
17
Les limites de la statistique inférentielle
Risque de conclure à des
liens artificiels
  Corrélation fallacieuse
  Régression fallacieuse
  p-value concluant
systématiquement à une
significativité statistique
Limites de l’analyse statistique « classique » lorsque les données sont
volumineuses
Statistique inférentielle
Conséquence : la prédiction deviendrait impossible ?
18
Un autre paradigme : l’apprentissage statistique
Statistique
inférentielle
Statistique
exploratoire
Théorie de l’apprentissage statistique
•  On n’extrapole plus à une population mère : le
modèle suit les données, et non plus l’inverse
•  La découverte de régularités dans les données
permettent de comprendre et/ou de prédire
•  L’objectif de qualité de la prédiction l’emporte
sur la réalité du modèle devenu « boite noire »
•  Le rééchantillonnage permet de valider les
structures
19
Un autre paradigme : l’apprentissage statistique
Théorie de l’apprentissage
statistique
Apprentissage non
supervisé
Apprentissage
supervisé
20
Validation croisée
  Objectif : on veut vérifier que notre modèle s’applique à de nouvelles données
Besoin de données pour le rééchantillonnage
validation croisée
Base initiale
On crée notre modèle On le teste
L’efficacité de
notre modèle est
mesurée sur des
nouvelles donnéesX 10
Validation
croisée
21
Les méthodes ensemblistes
  Objectif : Prédire ! Au risque de complexifier le modèle…
Besoin de données pour le rééchantillonnage
les méthodes ensemblistes
X1 X2 X3 X4 X5
Individu 1 3 1 4 0 2
Individu 2 2 2 7 0 1
Individu 3 5 5 4 1 4
Individu 4 3 4 3 1 2
Individu 5 2 6 1 0 3
Vote ou moyenne
Prédiction
Modèle 1
Modèle 2
Modèle 3
Exemple : les Random Forest
Bagging : constitution de plusieurs arbres par
tirages aléatoires successifs d’individus
22
Besoin de données pour le rééchantillonnage
les méthodes ensemblistes
X1 X2 X3 X4 X5
Individu 1 3 1 4 0 2
Individu 2 2 2 7 0 1
Individu 3 5 5 4 1 4
Individu 4 3 4 3 1 2
Individu 5 2 6 1 0 3
Vote
ou
moyenne
Prédiction
Modèle 1
Modèle 2Modèle 3
Exemple : les Random Forest
Feature sampling : constitution de plusieurs arbres
par tirages aléatoires successifs de variables
ATTENTION
Les modèles deviennent
souvent des « boites noires »
POUR EN SAVOIR PLUS
Data Science : fondamentaux et
études de cas
livre OCTO (EYROLLES)
23
​
𝑤
↓
1 
​
𝑤
↓
2 
​
𝑤
↓
𝑃 
Le retour des réseaux de neurones
​
𝑋
↓
1 
​
𝑋
↓
2 ​
𝑋
↓
𝑝 
…
Un neurone
Un réseau de neurones (perceptron)
Couche cachée Couche de sortieCouche d’entrée
y∑ |   𝑓
∑ |   𝑓
∑ |   𝑓
∑ |   𝑓
…
𝑓
𝑓
𝑓
𝑓
​
𝑋
↓
1 ​
𝑋
↓
2 
​
𝑋
↓
𝑝 
​
𝑋
↓
𝑗 
24
Layer 4Layer 3Layer 2Layer 1
Années 1980 : « à l’époque, c’était bien difficile. Nous n’avions pas de grands
ensembles de données, ni d’ordinateurs rapides » (Yann Lecun)
De plus en plus utilisé :
  Reconnaissance vocal : Siri, Cortana, google now,
  Reconnaissance d’images : google maps (déchiffrer les textes dans le paysage),
Deep Face (facebook), googLeNet
L’avènement du Deep Learning
Le deep learning, un fonctionnement multi-couche
25
Description d’images grâce au Deep Learning
GoogLeNET, ça c’est du Deep Learning :
A group of young people
playing a game of frisbee
A yellow school bus
parked in a parking lot
26
Jusqu’à présent, on avait besoin d’énorme base de données supervisée
Mais en 2012, « Google Brain » découvre par lui-même le concept de chat…
…. En visionnant 10 millions de captures d’écrans de Youtube… non étiquetées !
L’apprentissage non supervisé, plus proche encore de l’apprentissage humain
L’apprentissage non supervisé
On détecte les objets Avec une seule
image, on les nomme
Nuage Eléphant
Etoile Chat
Apprentissage non supervisé Apprentissage supervisé
On observe notre
environnement
27
Pour tirer vraiment parti de la puissance de l’apprentissage statistique,
il faut entrer pleinement dans l’ère des big data : plus on a de
données, plus les apprentissages peuvent être fins
En conséquence, les exigences en termes de stockage et de
capacité de traitement sont fortes
L’apprentissage a besoin de données
Il faut donc maitriser les technologies, et il n’est pas étonnant que
les leaders actuels dans la R&D en machine learning soient aussi
des leaders technologiques : Google, Facebook…
28
Aperçu des technologies
29
Comment faire encore plus ?
Stratégies de montée en
puissance
Scale-up Scale-out
30
Nouveaux problèmes
Toute solution amène de nouveaux problèmes. Loi de Murphy
Pas ACID
Atomicity
Coherency
Isolation
Durability
Théorème CAP
Coherency
Availability
Partition
Nouveaux
paradigmes
Drivers
Tests
MapReduce
31Image from - http://mm-tom.s3.amazonaws.com/blog/MapReduce.png
3 étapes :
  Une étape « Map » où les données au format d’entrée sont découpées au
format clef/valeur
  Une étape « Shuffle » qui opère une passe de tri et regroupe les données par clef
  Une étape « Reduce » qui agrège les différents résultats par clef et produit le résultat
final
MapReduce
MapReduce est une façon de formaliser un traitement pour être
efficace lors d’une exécution distribuée.
Ce n’est pas une technologie, ni un algorithme, ni une implémentation
32
Application orientée
Flux évènementiel
Application orientée
Transaction
Application
orientée Calculs
Application orientée
Stockage
Stockage
distribué
Share
nothing
eXtreme
Transaction
Processing
Programmation
parallèle
Event Stream
Processing
Univers « standard »
SGBDR,
Serveur d’application,
ETL, ESB
Le diamant Big Data (1/2)
10 To en ligne 3.000 TPS
10 threads/core1.000 évts/s
33
Application orientée
Flux évènementiel
Application orientée
Transaction
Application
orientée Calculs
Application orientée
Stockage
Le diamant Big Data (2/2)
In Memory
Redis. Memcached,
GemFire/Geode, Spark
NoSQL
NewSQL
MongoDB, CouchDB,
Cassandra, Hbase, Neo4j.
CEP, ESP
Spark Streaming, Storm,
Flink, Samza, Heron Parrallel database
Teradata, Vertica
34
Technologies vs solutions
Les technologies sont au service du métier et non l’inverse,
à nous de faire le bon choix.
Chacune de ces technologies ont été pensées pour
répondre à un problème métier.
35
Cas client – analyse de signaux faibles
36
Le web…
37
38
Données à prédire : prestations de mutuelle
39
Traitement des données client
EXEMPLE DE COURBE DISCRETISÉE
40
Modèle prédictif
Séries
Google
Trends
exogènes
Série à
modéliser
41
Modèle prédictif
RECHERCHE DE PRÉDICTEURS
Calculs de
similarité
10.8
12.6
12.4
12.6
Séries
Google
Trends
exogènes
Série à
modéliser
42
Champ sémantique Client
CROISEMENT DES DONNÉES CLIENT ET EXOGÈNES
Construction pour un type d’acte (Hospitalisation, Pharmacie, Optique ou
Dentaire)
Caractéristiques :
Noeuds : mots-clefs les plus corrélés à la série client
  Liens : mots-clefs liés
  Force des liens : corrélations entre mots-clefs
Optique
Santé
Evénements
de vie
43
Modèle prédictif
APPRENTISSAGE DU MODÈLE
Le modèle de prédiction des dépenses de santé est une combinaison linéaire
des séries exogènes les plus corrélées.
44
Quelle capacité du modèle à prédire de nouvelles données ?
Client
45
Quelle capacité du modèle à prédire de nouvelles données ?
Client
46
Cette approche est universelle.
Elle s’applique à chaque série temporelle pouvant être reliée à la
sphère digitale par les recherches sur les moteurs de recherche.
47
Est-ce fiable ?
Quelle confiance
peut-on avoir
dans ces
nouveaux
systèmes ?
48
49
Un système complexe, nécessitant une attention particulière
Des boucles de feedback pouvant fausser le système
Un monde en constante évolution
50
Un nouveau regard sur le monde
51
52
Jakob von Uexküll : le « savoir » d’une espèce dépend de ses
capacités perceptives
Un monde de plus en plus multidimensionnel
vision de l’hommevision de la mouchevision du mollusque
La technologie accroît notre capacité de perception des
phénomènes physiques, chimiques, sociaux :
accéléromètre, oxymètre, activité sur les réseaux sociaux… sont
autant de moyens de perception, de moins en moins coûteux
vision grâce
aux machines
53
Chaque année, 2 exabytes de données sont générés dans le
monde
Avec le cloud, l’accès à la donnée s’affranchit potentiellement
de toute contrainte géographique
La constitution d’une mémoire collective numérique ?
Evoque la constitution d’une mémoire collective numérique
ubiquitaire, qui dépasse largement nos capacités de
mémorisation individuelles
54
Les algorithmes d’apprentissages statistiques sont de plus en
plus puissants, s’appliquent à tout type de données
Grâce à la technologie, l’accès à la donnée est de plus en plus
aisée et nous disposons d’une puissance de calcul incroyable
Conclusion
Les capacités d’apprentissage apportent
un nouveau regard sur le monde

Contenu connexe

Tendances

Soft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMPSoft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMPSoft Computing
 
Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Antidot
 
Data visualization: enjeux pour le business
Data visualization: enjeux pour le businessData visualization: enjeux pour le business
Data visualization: enjeux pour le businessClement Levallois
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayetKezhan SHI
 
Agilille 2021 - ceci n'est pas une révolution organisationelle
Agilille 2021 - ceci n'est pas une révolution organisationelleAgilille 2021 - ceci n'est pas une révolution organisationelle
Agilille 2021 - ceci n'est pas une révolution organisationelleOCTO Technology
 
Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGMargarita Zlatkova
 
Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...
Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...
Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...Business & Decision
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Philippe METAYER
 
EBG - Livret de synthèse 2017
EBG - Livret de synthèse 2017EBG - Livret de synthèse 2017
EBG - Livret de synthèse 201755 | fifty-five
 
Présentation Big Data DFCG
Présentation Big Data DFCGPrésentation Big Data DFCG
Présentation Big Data DFCGMicropole Group
 
Dataviz & BigData :Mythes & réalités
Dataviz & BigData :Mythes & réalitésDataviz & BigData :Mythes & réalités
Dataviz & BigData :Mythes & réalitésMicrosoft
 
Présentation PFE Hachem Selmi et Ahmed Dridi Big data
Présentation PFE Hachem Selmi et Ahmed Dridi Big data Présentation PFE Hachem Selmi et Ahmed Dridi Big data
Présentation PFE Hachem Selmi et Ahmed Dridi Big data HaShem Selmi
 
27/04/17 Séminaire Données Personnelles
27/04/17 Séminaire Données Personnelles27/04/17 Séminaire Données Personnelles
27/04/17 Séminaire Données PersonnellesSoft Computing
 
La dataviz, outil de performance pour les entreprises ?
La dataviz, outil de performance pour les entreprises ?La dataviz, outil de performance pour les entreprises ?
La dataviz, outil de performance pour les entreprises ?Smartwords
 
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIPrésentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIHaShem Selmi
 
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIEAtelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIEGroupe IDAIA
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungenGalsungen
 
Big data démystifié td2014
Big data démystifié td2014Big data démystifié td2014
Big data démystifié td2014Romain Casteres
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data ScienceAshraf Grioute
 

Tendances (20)

Soft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMPSoft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMP
 
Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...
 
Data visualization: enjeux pour le business
Data visualization: enjeux pour le businessData visualization: enjeux pour le business
Data visualization: enjeux pour le business
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayet
 
Agilille 2021 - ceci n'est pas une révolution organisationelle
Agilille 2021 - ceci n'est pas une révolution organisationelleAgilille 2021 - ceci n'est pas une révolution organisationelle
Agilille 2021 - ceci n'est pas une révolution organisationelle
 
Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBG
 
Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...
Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...
Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
EBG - Livret de synthèse 2017
EBG - Livret de synthèse 2017EBG - Livret de synthèse 2017
EBG - Livret de synthèse 2017
 
Présentation Big Data DFCG
Présentation Big Data DFCGPrésentation Big Data DFCG
Présentation Big Data DFCG
 
Dataviz & BigData :Mythes & réalités
Dataviz & BigData :Mythes & réalitésDataviz & BigData :Mythes & réalités
Dataviz & BigData :Mythes & réalités
 
Présentation PFE Hachem Selmi et Ahmed Dridi Big data
Présentation PFE Hachem Selmi et Ahmed Dridi Big data Présentation PFE Hachem Selmi et Ahmed Dridi Big data
Présentation PFE Hachem Selmi et Ahmed Dridi Big data
 
27/04/17 Séminaire Données Personnelles
27/04/17 Séminaire Données Personnelles27/04/17 Séminaire Données Personnelles
27/04/17 Séminaire Données Personnelles
 
La dataviz, outil de performance pour les entreprises ?
La dataviz, outil de performance pour les entreprises ?La dataviz, outil de performance pour les entreprises ?
La dataviz, outil de performance pour les entreprises ?
 
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIPrésentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
 
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIEAtelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIE
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
 
Big data démystifié td2014
Big data démystifié td2014Big data démystifié td2014
Big data démystifié td2014
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data Science
 

En vedette

Weka presentation
Weka presentationWeka presentation
Weka presentationSaeed Iqbal
 
Fintech demain comment travailler ensemble
Fintech   demain comment travailler ensembleFintech   demain comment travailler ensemble
Fintech demain comment travailler ensembleOCTO Technology Suisse
 
L'ADN d'un développement produit réussi
L'ADN d'un développement produit réussiL'ADN d'un développement produit réussi
L'ADN d'un développement produit réussiOCTO Technology Suisse
 
Digital Transformation Manifesto - Par Emakina (extrait)
Digital Transformation Manifesto - Par Emakina (extrait)Digital Transformation Manifesto - Par Emakina (extrait)
Digital Transformation Manifesto - Par Emakina (extrait)Emakina.FR
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeJean Roger Mably
 

En vedette (6)

Agile & Top Management
Agile & Top ManagementAgile & Top Management
Agile & Top Management
 
Weka presentation
Weka presentationWeka presentation
Weka presentation
 
Fintech demain comment travailler ensemble
Fintech   demain comment travailler ensembleFintech   demain comment travailler ensemble
Fintech demain comment travailler ensemble
 
L'ADN d'un développement produit réussi
L'ADN d'un développement produit réussiL'ADN d'un développement produit réussi
L'ADN d'un développement produit réussi
 
Digital Transformation Manifesto - Par Emakina (extrait)
Digital Transformation Manifesto - Par Emakina (extrait)Digital Transformation Manifesto - Par Emakina (extrait)
Digital Transformation Manifesto - Par Emakina (extrait)
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 

Similaire à Softshake 2015 - Des small data aux big data - Méthodes et Technologies

La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 OCTO Technology
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataData2B
 
Mise en place d'une stratégie data
Mise en place d'une stratégie dataMise en place d'une stratégie data
Mise en place d'une stratégie dataData2B
 
02 big data definition
02 big data definition02 big data definition
02 big data definitionPatrick Bury
 
02 big data definition
02 big data definition02 big data definition
02 big data definitionPatrick Bury
 
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelmanslides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelmanshuai wang
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
Valtech - Big Data en action
Valtech - Big Data en actionValtech - Big Data en action
Valtech - Big Data en actionValtech
 
WygDay - Session Innovation xBrainLab
WygDay - Session Innovation xBrainLabWygDay - Session Innovation xBrainLab
WygDay - Session Innovation xBrainLabGregory Renard
 
WygDay 2010 - Start Up : xbrainlab
WygDay 2010 - Start Up : xbrainlabWygDay 2010 - Start Up : xbrainlab
WygDay 2010 - Start Up : xbrainlabWygwam
 
Comment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la scienceComment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la sciencehabib200
 
Vers une technologie invisible et une intelligence omniprésente ?
Vers une technologie invisible et une intelligence omniprésente ?Vers une technologie invisible et une intelligence omniprésente ?
Vers une technologie invisible et une intelligence omniprésente ?Microsoft Ideas
 
Regard prospectif sur la R&D en IA avec Bertrand Braunschweig
Regard prospectif sur la R&D en IA avec Bertrand BraunschweigRegard prospectif sur la R&D en IA avec Bertrand Braunschweig
Regard prospectif sur la R&D en IA avec Bertrand BraunschweigLiving Things
 
Euratech'trends - l’informatique neuro-inspiré.
Euratech'trends - l’informatique neuro-inspiré.Euratech'trends - l’informatique neuro-inspiré.
Euratech'trends - l’informatique neuro-inspiré.EuraTechnologies
 
L’intelligence artificielle aujourd’hui (FR)
L’intelligence artificielle aujourd’hui (FR)L’intelligence artificielle aujourd’hui (FR)
L’intelligence artificielle aujourd’hui (FR)thierry tranchina
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurMicrosoft Ideas
 
Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Micropole Group
 
First step about IA and business
First step about IA and businessFirst step about IA and business
First step about IA and businessDavid Argellies
 
Introduction au projet Datapride
Introduction au projet DataprideIntroduction au projet Datapride
Introduction au projet Datapridedatapride
 
CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?Cap'Com
 

Similaire à Softshake 2015 - Des small data aux big data - Méthodes et Technologies (20)

La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big data
 
Mise en place d'une stratégie data
Mise en place d'une stratégie dataMise en place d'une stratégie data
Mise en place d'une stratégie data
 
02 big data definition
02 big data definition02 big data definition
02 big data definition
 
02 big data definition
02 big data definition02 big data definition
02 big data definition
 
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelmanslides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Valtech - Big Data en action
Valtech - Big Data en actionValtech - Big Data en action
Valtech - Big Data en action
 
WygDay - Session Innovation xBrainLab
WygDay - Session Innovation xBrainLabWygDay - Session Innovation xBrainLab
WygDay - Session Innovation xBrainLab
 
WygDay 2010 - Start Up : xbrainlab
WygDay 2010 - Start Up : xbrainlabWygDay 2010 - Start Up : xbrainlab
WygDay 2010 - Start Up : xbrainlab
 
Comment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la scienceComment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la science
 
Vers une technologie invisible et une intelligence omniprésente ?
Vers une technologie invisible et une intelligence omniprésente ?Vers une technologie invisible et une intelligence omniprésente ?
Vers une technologie invisible et une intelligence omniprésente ?
 
Regard prospectif sur la R&D en IA avec Bertrand Braunschweig
Regard prospectif sur la R&D en IA avec Bertrand BraunschweigRegard prospectif sur la R&D en IA avec Bertrand Braunschweig
Regard prospectif sur la R&D en IA avec Bertrand Braunschweig
 
Euratech'trends - l’informatique neuro-inspiré.
Euratech'trends - l’informatique neuro-inspiré.Euratech'trends - l’informatique neuro-inspiré.
Euratech'trends - l’informatique neuro-inspiré.
 
L’intelligence artificielle aujourd’hui (FR)
L’intelligence artificielle aujourd’hui (FR)L’intelligence artificielle aujourd’hui (FR)
L’intelligence artificielle aujourd’hui (FR)
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeur
 
Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017
 
First step about IA and business
First step about IA and businessFirst step about IA and business
First step about IA and business
 
Introduction au projet Datapride
Introduction au projet DataprideIntroduction au projet Datapride
Introduction au projet Datapride
 
CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?
 

Plus de OCTO Technology Suisse

An afterwork on Microservices by @OCTO Technology Switzerland
An afterwork on Microservices  by @OCTO Technology SwitzerlandAn afterwork on Microservices  by @OCTO Technology Switzerland
An afterwork on Microservices by @OCTO Technology SwitzerlandOCTO Technology Suisse
 
Afterwork Devops : vision et pratiques
Afterwork Devops : vision et pratiquesAfterwork Devops : vision et pratiques
Afterwork Devops : vision et pratiquesOCTO Technology Suisse
 
Êtes-vous API dans votre organisation ?
Êtes-vous API dans votre organisation ?Êtes-vous API dans votre organisation ?
Êtes-vous API dans votre organisation ?OCTO Technology Suisse
 
big data et data viz - du lac à votre écran - afterwork
big data et data viz - du lac à votre écran - afterwork big data et data viz - du lac à votre écran - afterwork
big data et data viz - du lac à votre écran - afterwork OCTO Technology Suisse
 
Dev wednesday-swiss-transport-realtime
Dev wednesday-swiss-transport-realtimeDev wednesday-swiss-transport-realtime
Dev wednesday-swiss-transport-realtimeOCTO Technology Suisse
 
Polar Expeditions and Agility: the 1910 Race to the South Pole and Modern Tales
Polar Expeditions and Agility: the 1910 Race to the South Pole and Modern TalesPolar Expeditions and Agility: the 1910 Race to the South Pole and Modern Tales
Polar Expeditions and Agility: the 1910 Race to the South Pole and Modern TalesOCTO Technology Suisse
 
Afterwork Big Data - Data Science & Machine Learning : explorer, comprendre e...
Afterwork Big Data - Data Science & Machine Learning : explorer, comprendre e...Afterwork Big Data - Data Science & Machine Learning : explorer, comprendre e...
Afterwork Big Data - Data Science & Machine Learning : explorer, comprendre e...OCTO Technology Suisse
 
Afterwork Blockchain : la prochaine technologie disruptive ?
Afterwork Blockchain : la prochaine technologie disruptive ?Afterwork Blockchain : la prochaine technologie disruptive ?
Afterwork Blockchain : la prochaine technologie disruptive ?OCTO Technology Suisse
 
Réussissez le développement de votre prochaine application web ou mobile
Réussissez le développement de votre prochaine application web ou mobileRéussissez le développement de votre prochaine application web ou mobile
Réussissez le développement de votre prochaine application web ou mobileOCTO Technology Suisse
 
Fintech : concurrents ou partenaires ?
Fintech : concurrents ou partenaires ?Fintech : concurrents ou partenaires ?
Fintech : concurrents ou partenaires ?OCTO Technology Suisse
 
De la pensée projet à la pensée produit
De la pensée projet à la pensée produitDe la pensée projet à la pensée produit
De la pensée projet à la pensée produitOCTO Technology Suisse
 
Les Business Analysts face à l'agilité : de nouveaux challenges à relever
Les Business Analysts face à l'agilité : de nouveaux challenges à releverLes Business Analysts face à l'agilité : de nouveaux challenges à relever
Les Business Analysts face à l'agilité : de nouveaux challenges à releverOCTO Technology Suisse
 

Plus de OCTO Technology Suisse (18)

An afterwork on Microservices by @OCTO Technology Switzerland
An afterwork on Microservices  by @OCTO Technology SwitzerlandAn afterwork on Microservices  by @OCTO Technology Switzerland
An afterwork on Microservices by @OCTO Technology Switzerland
 
Afterwork Devops : vision et pratiques
Afterwork Devops : vision et pratiquesAfterwork Devops : vision et pratiques
Afterwork Devops : vision et pratiques
 
Êtes-vous API dans votre organisation ?
Êtes-vous API dans votre organisation ?Êtes-vous API dans votre organisation ?
Êtes-vous API dans votre organisation ?
 
Afterwork "Décollez vers le Cloud"
Afterwork "Décollez vers le Cloud"Afterwork "Décollez vers le Cloud"
Afterwork "Décollez vers le Cloud"
 
big data et data viz - du lac à votre écran - afterwork
big data et data viz - du lac à votre écran - afterwork big data et data viz - du lac à votre écran - afterwork
big data et data viz - du lac à votre écran - afterwork
 
2017 03-29-elastic-meetup-kibana
2017 03-29-elastic-meetup-kibana2017 03-29-elastic-meetup-kibana
2017 03-29-elastic-meetup-kibana
 
Dev wednesday-swiss-transport-realtime
Dev wednesday-swiss-transport-realtimeDev wednesday-swiss-transport-realtime
Dev wednesday-swiss-transport-realtime
 
Cloud : en 2017, sortez du stratus !
Cloud : en 2017, sortez du stratus !Cloud : en 2017, sortez du stratus !
Cloud : en 2017, sortez du stratus !
 
Polar Expeditions and Agility: the 1910 Race to the South Pole and Modern Tales
Polar Expeditions and Agility: the 1910 Race to the South Pole and Modern TalesPolar Expeditions and Agility: the 1910 Race to the South Pole and Modern Tales
Polar Expeditions and Agility: the 1910 Race to the South Pole and Modern Tales
 
Afterwork Big Data - Data Science & Machine Learning : explorer, comprendre e...
Afterwork Big Data - Data Science & Machine Learning : explorer, comprendre e...Afterwork Big Data - Data Science & Machine Learning : explorer, comprendre e...
Afterwork Big Data - Data Science & Machine Learning : explorer, comprendre e...
 
Afterwork Blockchain : la prochaine technologie disruptive ?
Afterwork Blockchain : la prochaine technologie disruptive ?Afterwork Blockchain : la prochaine technologie disruptive ?
Afterwork Blockchain : la prochaine technologie disruptive ?
 
Afterwork hadoop
Afterwork hadoopAfterwork hadoop
Afterwork hadoop
 
Réussissez le développement de votre prochaine application web ou mobile
Réussissez le développement de votre prochaine application web ou mobileRéussissez le développement de votre prochaine application web ou mobile
Réussissez le développement de votre prochaine application web ou mobile
 
Fintech : concurrents ou partenaires ?
Fintech : concurrents ou partenaires ?Fintech : concurrents ou partenaires ?
Fintech : concurrents ou partenaires ?
 
Démystifions l'API-culture!
Démystifions l'API-culture!Démystifions l'API-culture!
Démystifions l'API-culture!
 
Brochure Vers l'entreprise Agile
Brochure Vers l'entreprise AgileBrochure Vers l'entreprise Agile
Brochure Vers l'entreprise Agile
 
De la pensée projet à la pensée produit
De la pensée projet à la pensée produitDe la pensée projet à la pensée produit
De la pensée projet à la pensée produit
 
Les Business Analysts face à l'agilité : de nouveaux challenges à relever
Les Business Analysts face à l'agilité : de nouveaux challenges à releverLes Business Analysts face à l'agilité : de nouveaux challenges à relever
Les Business Analysts face à l'agilité : de nouveaux challenges à relever
 

Dernier

LA SUPERINTELLIGENCE ARTIFICIELLE, SES BÉNÉFICES ET NUIRES ET QUE FAIRE POUR ...
LA SUPERINTELLIGENCE ARTIFICIELLE, SES BÉNÉFICES ET NUIRES ET QUE FAIRE POUR ...LA SUPERINTELLIGENCE ARTIFICIELLE, SES BÉNÉFICES ET NUIRES ET QUE FAIRE POUR ...
LA SUPERINTELLIGENCE ARTIFICIELLE, SES BÉNÉFICES ET NUIRES ET QUE FAIRE POUR ...Faga1939
 
Etude_Bpifrance_-_Les_Greentech_francaises_-_3eme_edition_annuelle_2024.pdf
Etude_Bpifrance_-_Les_Greentech_francaises_-_3eme_edition_annuelle_2024.pdfEtude_Bpifrance_-_Les_Greentech_francaises_-_3eme_edition_annuelle_2024.pdf
Etude_Bpifrance_-_Les_Greentech_francaises_-_3eme_edition_annuelle_2024.pdfsnapierala
 
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...OCTO Technology
 
Intelligence Artificielle: Vers l'ère de l'imagination
Intelligence Artificielle: Vers l'ère de l'imaginationIntelligence Artificielle: Vers l'ère de l'imagination
Intelligence Artificielle: Vers l'ère de l'imaginationTony Aubé
 
Milo-AI Milo AI Congress est conçu pour transformer votre compréhension de l'IA
Milo-AI Milo AI Congress est conçu pour transformer votre compréhension de l'IAMilo-AI Milo AI Congress est conçu pour transformer votre compréhension de l'IA
Milo-AI Milo AI Congress est conçu pour transformer votre compréhension de l'IAUGAIA
 
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloudLe Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloudOCTO Technology
 
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...OCTO Technology
 
GUM365 - Rencontre mensuelle Avril 2024 - Montréal
GUM365 - Rencontre mensuelle Avril 2024 - MontréalGUM365 - Rencontre mensuelle Avril 2024 - Montréal
GUM365 - Rencontre mensuelle Avril 2024 - MontréalNicolas Georgeault
 

Dernier (8)

LA SUPERINTELLIGENCE ARTIFICIELLE, SES BÉNÉFICES ET NUIRES ET QUE FAIRE POUR ...
LA SUPERINTELLIGENCE ARTIFICIELLE, SES BÉNÉFICES ET NUIRES ET QUE FAIRE POUR ...LA SUPERINTELLIGENCE ARTIFICIELLE, SES BÉNÉFICES ET NUIRES ET QUE FAIRE POUR ...
LA SUPERINTELLIGENCE ARTIFICIELLE, SES BÉNÉFICES ET NUIRES ET QUE FAIRE POUR ...
 
Etude_Bpifrance_-_Les_Greentech_francaises_-_3eme_edition_annuelle_2024.pdf
Etude_Bpifrance_-_Les_Greentech_francaises_-_3eme_edition_annuelle_2024.pdfEtude_Bpifrance_-_Les_Greentech_francaises_-_3eme_edition_annuelle_2024.pdf
Etude_Bpifrance_-_Les_Greentech_francaises_-_3eme_edition_annuelle_2024.pdf
 
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
 
Intelligence Artificielle: Vers l'ère de l'imagination
Intelligence Artificielle: Vers l'ère de l'imaginationIntelligence Artificielle: Vers l'ère de l'imagination
Intelligence Artificielle: Vers l'ère de l'imagination
 
Milo-AI Milo AI Congress est conçu pour transformer votre compréhension de l'IA
Milo-AI Milo AI Congress est conçu pour transformer votre compréhension de l'IAMilo-AI Milo AI Congress est conçu pour transformer votre compréhension de l'IA
Milo-AI Milo AI Congress est conçu pour transformer votre compréhension de l'IA
 
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloudLe Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
 
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
 
GUM365 - Rencontre mensuelle Avril 2024 - Montréal
GUM365 - Rencontre mensuelle Avril 2024 - MontréalGUM365 - Rencontre mensuelle Avril 2024 - Montréal
GUM365 - Rencontre mensuelle Avril 2024 - Montréal
 

Softshake 2015 - Des small data aux big data - Méthodes et Technologies

  • 1. 1 Tél : +41 21 312 94 15 www.octo.com © OCTO 2015 Avenue du théâtre 7 CH-1005 Lausanne - SUISSE Des small data aux big data Méthodes et technologies
  • 2. 2 Tél : +41 21 312 94 15 www.octo.com © OCTO 2015 Avenue du théâtre 7 CH-1005 Lausanne - SUISSE Benoît Béraud Consultant OCTO Suisse bberaud@octo.com Nicolas Cavallo Consultant OCTO France ncavallo@octo.com
  • 3. 3 Pourquoi les bigdata ? De la statistique à l’apprentissage Aperçu des technologies Cas client Conclusion
  • 5. 5 Source : Intel Free Press
  • 6. 6 Source : Intel Free Press
  • 7. 7 Source : Intel Free Press
  • 8. 8 Un monde qui change Plus de Volume Plus de Vitesse Plus de diVersité Ceci est un constat (les 3V) mais pas une définition du bigdata Quid de la production de valeur ?
  • 9. 9
  • 10. 10 Moore à la rescousse Mais pas partout … Vive la loi de Moore Des disques dur plus volumineux Des CPUs plus rapides De la RAM de moins en moins chère
  • 11. 11 Tout augmente ! Sauf… 0 10 20 30 40 50 60 70 1991 1996 1998 2001 2006 Débit(MB/s) Gain : x91 64 MB/s 0,7 MB/s Seagate Barracuda 7200.10 Seagate Barracuda ATA IV IBM DTTA 35010 Gain : x100 000 1990 2010Lire l’intégralité d’un disque prend aujourd’hui 100 à 1000 fois plus de temps qu’il y a 30 ans
  • 12. 12 On a besoin de nouveaux outils pour Adresser les limitations d’IO Traiter des volumes gigantesques Réagir de plus en plus vite
  • 13. 13 De la statistique à l’apprentissage
  • 14. 14 « Science et techniques d'interprétation mathématique de données complexes et nombreuses» définition LeRobert La Statistique STATISTIQUE Activité qui consiste à réunir des données Méthode de traitement et d’interprétation des données
  • 15. 15 De 1900 à 1950 Décrire des « grands » ensembles de données Les sondages Les Tests Les intervalles de confiance Extrapoler un échantillon à une population mère Statistique descriptive Statistique inférentielle Statistique exploratoire unidimensionnelles bidimensionnelles La méthodologie statistique n’apparait véritablement qu’en 1900. Deux grandes familles émergent alors :
  • 16. 16 Evolution du contexte technologique Des small Data … Au Big Data 1970 -1980 Taille : Ko Les premiers outils informatiques, l’analyse de données se développe (ACP AFC). On explore les données 1980 -1990 Taille : Mo Début de l’intelligence artificielle. Apprentissage des « réseaux de neurones » 1990 -2000 Taille : Go On stocke les données (DataWarehouse), on commence à s’en servir pour l’aide à la décision grâce à la fouille de données (Data Mining ) 2000 - … Taille : To Le nombre de données explose. Le fléau de la dimension oblige la statistique à évoluer 1940 -1970 Taille : Octets <100 individus, <10 variables Modèle linéaire Test
  • 17. 17 Les limites de la statistique inférentielle Risque de conclure à des liens artificiels   Corrélation fallacieuse   Régression fallacieuse   p-value concluant systématiquement à une significativité statistique Limites de l’analyse statistique « classique » lorsque les données sont volumineuses Statistique inférentielle Conséquence : la prédiction deviendrait impossible ?
  • 18. 18 Un autre paradigme : l’apprentissage statistique Statistique inférentielle Statistique exploratoire Théorie de l’apprentissage statistique •  On n’extrapole plus à une population mère : le modèle suit les données, et non plus l’inverse •  La découverte de régularités dans les données permettent de comprendre et/ou de prédire •  L’objectif de qualité de la prédiction l’emporte sur la réalité du modèle devenu « boite noire » •  Le rééchantillonnage permet de valider les structures
  • 19. 19 Un autre paradigme : l’apprentissage statistique Théorie de l’apprentissage statistique Apprentissage non supervisé Apprentissage supervisé
  • 20. 20 Validation croisée   Objectif : on veut vérifier que notre modèle s’applique à de nouvelles données Besoin de données pour le rééchantillonnage validation croisée Base initiale On crée notre modèle On le teste L’efficacité de notre modèle est mesurée sur des nouvelles donnéesX 10 Validation croisée
  • 21. 21 Les méthodes ensemblistes   Objectif : Prédire ! Au risque de complexifier le modèle… Besoin de données pour le rééchantillonnage les méthodes ensemblistes X1 X2 X3 X4 X5 Individu 1 3 1 4 0 2 Individu 2 2 2 7 0 1 Individu 3 5 5 4 1 4 Individu 4 3 4 3 1 2 Individu 5 2 6 1 0 3 Vote ou moyenne Prédiction Modèle 1 Modèle 2 Modèle 3 Exemple : les Random Forest Bagging : constitution de plusieurs arbres par tirages aléatoires successifs d’individus
  • 22. 22 Besoin de données pour le rééchantillonnage les méthodes ensemblistes X1 X2 X3 X4 X5 Individu 1 3 1 4 0 2 Individu 2 2 2 7 0 1 Individu 3 5 5 4 1 4 Individu 4 3 4 3 1 2 Individu 5 2 6 1 0 3 Vote ou moyenne Prédiction Modèle 1 Modèle 2Modèle 3 Exemple : les Random Forest Feature sampling : constitution de plusieurs arbres par tirages aléatoires successifs de variables ATTENTION Les modèles deviennent souvent des « boites noires » POUR EN SAVOIR PLUS Data Science : fondamentaux et études de cas livre OCTO (EYROLLES)
  • 23. 23 ​ 𝑤 ↓ 1  ​ 𝑤 ↓ 2  ​ 𝑤 ↓ 𝑃  Le retour des réseaux de neurones ​ 𝑋 ↓ 1  ​ 𝑋 ↓ 2 ​ 𝑋 ↓ 𝑝  … Un neurone Un réseau de neurones (perceptron) Couche cachée Couche de sortieCouche d’entrée y∑ |   𝑓 ∑ |   𝑓 ∑ |   𝑓 ∑ |   𝑓 … 𝑓 𝑓 𝑓 𝑓 ​ 𝑋 ↓ 1 ​ 𝑋 ↓ 2  ​ 𝑋 ↓ 𝑝  ​ 𝑋 ↓ 𝑗 
  • 24. 24 Layer 4Layer 3Layer 2Layer 1 Années 1980 : « à l’époque, c’était bien difficile. Nous n’avions pas de grands ensembles de données, ni d’ordinateurs rapides » (Yann Lecun) De plus en plus utilisé :   Reconnaissance vocal : Siri, Cortana, google now,   Reconnaissance d’images : google maps (déchiffrer les textes dans le paysage), Deep Face (facebook), googLeNet L’avènement du Deep Learning Le deep learning, un fonctionnement multi-couche
  • 25. 25 Description d’images grâce au Deep Learning GoogLeNET, ça c’est du Deep Learning : A group of young people playing a game of frisbee A yellow school bus parked in a parking lot
  • 26. 26 Jusqu’à présent, on avait besoin d’énorme base de données supervisée Mais en 2012, « Google Brain » découvre par lui-même le concept de chat… …. En visionnant 10 millions de captures d’écrans de Youtube… non étiquetées ! L’apprentissage non supervisé, plus proche encore de l’apprentissage humain L’apprentissage non supervisé On détecte les objets Avec une seule image, on les nomme Nuage Eléphant Etoile Chat Apprentissage non supervisé Apprentissage supervisé On observe notre environnement
  • 27. 27 Pour tirer vraiment parti de la puissance de l’apprentissage statistique, il faut entrer pleinement dans l’ère des big data : plus on a de données, plus les apprentissages peuvent être fins En conséquence, les exigences en termes de stockage et de capacité de traitement sont fortes L’apprentissage a besoin de données Il faut donc maitriser les technologies, et il n’est pas étonnant que les leaders actuels dans la R&D en machine learning soient aussi des leaders technologiques : Google, Facebook…
  • 29. 29 Comment faire encore plus ? Stratégies de montée en puissance Scale-up Scale-out
  • 30. 30 Nouveaux problèmes Toute solution amène de nouveaux problèmes. Loi de Murphy Pas ACID Atomicity Coherency Isolation Durability Théorème CAP Coherency Availability Partition Nouveaux paradigmes Drivers Tests MapReduce
  • 31. 31Image from - http://mm-tom.s3.amazonaws.com/blog/MapReduce.png 3 étapes :   Une étape « Map » où les données au format d’entrée sont découpées au format clef/valeur   Une étape « Shuffle » qui opère une passe de tri et regroupe les données par clef   Une étape « Reduce » qui agrège les différents résultats par clef et produit le résultat final MapReduce MapReduce est une façon de formaliser un traitement pour être efficace lors d’une exécution distribuée. Ce n’est pas une technologie, ni un algorithme, ni une implémentation
  • 32. 32 Application orientée Flux évènementiel Application orientée Transaction Application orientée Calculs Application orientée Stockage Stockage distribué Share nothing eXtreme Transaction Processing Programmation parallèle Event Stream Processing Univers « standard » SGBDR, Serveur d’application, ETL, ESB Le diamant Big Data (1/2) 10 To en ligne 3.000 TPS 10 threads/core1.000 évts/s
  • 33. 33 Application orientée Flux évènementiel Application orientée Transaction Application orientée Calculs Application orientée Stockage Le diamant Big Data (2/2) In Memory Redis. Memcached, GemFire/Geode, Spark NoSQL NewSQL MongoDB, CouchDB, Cassandra, Hbase, Neo4j. CEP, ESP Spark Streaming, Storm, Flink, Samza, Heron Parrallel database Teradata, Vertica
  • 34. 34 Technologies vs solutions Les technologies sont au service du métier et non l’inverse, à nous de faire le bon choix. Chacune de ces technologies ont été pensées pour répondre à un problème métier.
  • 35. 35 Cas client – analyse de signaux faibles
  • 37. 37
  • 38. 38 Données à prédire : prestations de mutuelle
  • 39. 39 Traitement des données client EXEMPLE DE COURBE DISCRETISÉE
  • 41. 41 Modèle prédictif RECHERCHE DE PRÉDICTEURS Calculs de similarité 10.8 12.6 12.4 12.6 Séries Google Trends exogènes Série à modéliser
  • 42. 42 Champ sémantique Client CROISEMENT DES DONNÉES CLIENT ET EXOGÈNES Construction pour un type d’acte (Hospitalisation, Pharmacie, Optique ou Dentaire) Caractéristiques : Noeuds : mots-clefs les plus corrélés à la série client   Liens : mots-clefs liés   Force des liens : corrélations entre mots-clefs Optique Santé Evénements de vie
  • 43. 43 Modèle prédictif APPRENTISSAGE DU MODÈLE Le modèle de prédiction des dépenses de santé est une combinaison linéaire des séries exogènes les plus corrélées.
  • 44. 44 Quelle capacité du modèle à prédire de nouvelles données ? Client
  • 45. 45 Quelle capacité du modèle à prédire de nouvelles données ? Client
  • 46. 46 Cette approche est universelle. Elle s’applique à chaque série temporelle pouvant être reliée à la sphère digitale par les recherches sur les moteurs de recherche.
  • 47. 47 Est-ce fiable ? Quelle confiance peut-on avoir dans ces nouveaux systèmes ?
  • 48. 48
  • 49. 49 Un système complexe, nécessitant une attention particulière Des boucles de feedback pouvant fausser le système Un monde en constante évolution
  • 50. 50 Un nouveau regard sur le monde
  • 51. 51
  • 52. 52 Jakob von Uexküll : le « savoir » d’une espèce dépend de ses capacités perceptives Un monde de plus en plus multidimensionnel vision de l’hommevision de la mouchevision du mollusque La technologie accroît notre capacité de perception des phénomènes physiques, chimiques, sociaux : accéléromètre, oxymètre, activité sur les réseaux sociaux… sont autant de moyens de perception, de moins en moins coûteux vision grâce aux machines
  • 53. 53 Chaque année, 2 exabytes de données sont générés dans le monde Avec le cloud, l’accès à la donnée s’affranchit potentiellement de toute contrainte géographique La constitution d’une mémoire collective numérique ? Evoque la constitution d’une mémoire collective numérique ubiquitaire, qui dépasse largement nos capacités de mémorisation individuelles
  • 54. 54 Les algorithmes d’apprentissages statistiques sont de plus en plus puissants, s’appliquent à tout type de données Grâce à la technologie, l’accès à la donnée est de plus en plus aisée et nous disposons d’une puissance de calcul incroyable Conclusion Les capacités d’apprentissage apportent un nouveau regard sur le monde