SlideShare une entreprise Scribd logo
BIG DATA l ANALYTICS l DATAVIZ
www.data-business.fr
Big Data l Analytics l
DataViz
Introduction to DATA SCIENCE
Denis Oblin
2Copyright © Data-Business.fr. BIG DATA – Janvier 2015
Machine learning ?
3BIG DATA – Meet Up – janvier 2015
Construire des modèles un peu plus proches du monde réel
Vue d’hélicoptère
La datascience part du résultat (les valeurs réellement observées dans le monde) et cherche à en
extraire une loi. Le modèle construit sera toujours une version simplifiée de la réalité
3
input X
function f
output Y = f(X)
Computer SciencesComputer
science
Model f
input X
output Y = f(X)
Computer SciencesData Science
4BIG DATA – Meet Up – janvier 2015
« Le chiffre est lâche. Torturez le il vous avouera ce que vous voulez »
• prenez en compte toutes les données au niveau
granulaire,
• Utilisez plusieurs recettes bien rodées
• Préférez celles qui savent s’en remettre (un
peu) au hasard
• Testez tous les réglages possibles pour choisir
ce qui marche le mieux pour vos données
• Mélangez vos différentes préparations entre
elles en fin de cuisson
• … ne pas rompre la chaine du froid
A la base des algorithmes : une alchimie … dont voici la recette
Les ‘recettes bien rodées’ sont disponibles gratuitement dans des packages
d’outils open sources (R, Python, …)
5BIG DATA – Meet Up – janvier 2015
Exemple d’approche : la régression
• Approcher une variable quantitative en fonction de chacun des paramètres disponibles
• Fonction d’un espace de Rp R,
Objectif de synthétiser le jeu de données dans l’espace des features
Cible Cible
feature
feature
6BIG DATA – Meet Up – janvier 2015
Idéalement …
régression
• Etre omniscient et avoir toutes les
observations possibles
• Pour chaque valeur possible des features
disponibles : prendre la moyenne des
observations (espérance) contexte
cible
La dispersion autour de cette valeur moyenne peut
être lié à plusieurs facteurs
Il manque des facteurs explicatifs toujours
Il y a des erreurs de mesure  toujours
Il y a du vrai hasard  là c’est de la philo
Principal
levier big data
7BIG DATA – Meet Up – janvier 2015
.. Hélas (et hélas bis)
régression
• Vous ne disposez que d’un jeu de données
partiel et si vous renouvelez les mesures
vous aurez chaque fois un autre jeu
d’observation
1er tirage
2è tirage
3è tirage …
Feature
Feature
Feature
?
• Vous avez beaucoup d’observations.. mais
encore plus de features pour chaque
observation : vos êtes atteint par la malédiction
de la dimension (« curse of dimensionality ») :
• dans un espace à haute dimension, vos
observations sont éclatées : il n’y a plus de
voisins ..
8BIG DATA – Meet Up – janvier 2015
Des astuces : Simplifier le passé
régression
Pour bien prévoir le futur
nous pouvons simplifier le
passé
Equivalent
• Distinguer
– le signal : « vraie » information apportée par les features disponibles
– du bruit : effet des informations (features) qui nous manquent
Feature
cible
Feature
cible
Feature
cible
Feature
cible
Complexe
- Parfaite description du passé
- Faible pouvoir prédictif
-  « overfitting »
Simple
- Grossière description du
passé
- Faible pouvoir prédictif
Un juste milieu ?
Données initiales Modélisation induite
9BIG DATA – Meet Up – janvier 2015
Des astuces : ne pas être juge et partie
régression
• L’évaluation de l’erreur d’interpolation des données connues n’est visiblement pas la métrique
pertinente (sinon on va systématiquement pencher du coté « overfitting »)
• Solution « on ne peut pas être juge et partie »: les données connues sont réparties en deux lots
– Un lot d’apprentissage
– Un lot d’évaluation
Exemple de répartition entre apprentissage et
test 2/3 apprentissage, 1/3 test
Plus sophistiqué : cross validation
Feature
cible Feature
Feature
‘Training set
‘test set
Données initiales
Construction d’un
modèle pur un
niveau de
complexité donné
Evaluation : le
modèle construit est
évalué avec les
points qui n’ont pas
servi à l construction
10BIG DATA – Meet Up – janvier 2015
Zoom : effet de la complexité sur l’erreur de prédiction (1/2)
régression
Echelle de complexité du modèle
(exemple degré de polynome d’interpolation)
Erreur
Cible
Feature
• Avec un jeu de données, 3 modèles sont représentés sur ce graphe
– Un modele complexe : s’approche de près des données observées
– Un modele plus simple
– Un modèle grossier (ligne droite)
Erreur sur
Données d’apprentissage
Erreur sur
données de
test
11BIG DATA – Meet Up – janvier 2015
Des astuces : choisir une forme générale de la solution puis l’ajuster
régression
• Ce choix de forme est un a priori, potentiellement guidé par la visualisation des données ou par l’expérience
(attention : expérience est une lanterne dans le dos !)
Choisir une gamme de formes, à priri, et s’y tenir
Forme a priori
Sans forme a
priori
Echelle de complexité
linéaire
Escalier
(step function)
KNN
(K nearest neihbour)
Arbre
polynomiale
NA : passer à la
page suivante !
Nombre
de marches
Nombre de
voisins pris en
compte
Profondeur de
l’arbre
Degré du
polynôme
Pour une valeur de feature :
prendre la valeur des k
voisins connus les plus
proches
La courbe complète n’est
en fait jamais dessinée …
Trouver un césure dans l’axe des features : de
part et d’autre, affecter la moyenne des données
disponible : ajuster la césure qui minimise l’erreur
globale. Recommencer sur chaque partition
2 feuilles 4 feuilles
Dans un
deuxième
temps élaguer
pour trouver la
bonne
complexité
12BIG DATA – Meet Up – janvier 2015
Et pour la classification ?
ClassificationB
• Ce choix de forme est un a priori, potentiellement guidé par la visualisation des données ou par l’expérience
(attention : expérience est une lanterne dans le dos !)
Choisir une gamme de formes, à proiri, et s’y tenir
Forme a priori
Sans forme a
priori
Echelle de complexité
linéaire
Escalier
(step function)
KNN
(K nearest neihbour)
Arbre
polynomiale
NA : passer à la
page suivante !
Nombre
de marches
Nombre de
voisins pris en
compte
Profondeur de
l’arbre
Degré du
polynôme
Pour une valeur de feature :
prendre la valeur des k
voisins connus les plus
proches
La courbe complète n’est
en fait jamais dessinée …
Trouver un césure dans l’axe des features : de
part et d’autre, affecter la moyenne des données
disponible : ajuster la césure qui minimise l’erreur
globale. Recommencer sur chaque partition
2 feuilles 4 feuilles
Dans un
deuxième
temps élaguer
pour trouver la
bonne
complexité
Les mêmes « formes a priori »
s’adaptent très bien à la
classification : les ligne tracées sont
des séparation et plus ds
interpolations
13BIG DATA – Meet Up – janvier 2015
K nearest neighbour
ClassificationB
Chaque nouveau pint est évalué en fonctin des k plu proches valeurs connues
K=1 K=10 K=100
Source : Stanford -
14BIG DATA – Meet Up – janvier 2015
Un vrai travail de créativité
Démarche opérationnelleC
Comprendre n’est pas une nécessité algorithmique.
Cela donne des idées d’enrichissement, facilite le dialogue
avec le client final et accensement donne de l’intérêt
Comprendre les données
: contenu et signification
Définir la
fonction de coût
La fonction de coût peut être étalonnée sur une
prédiction naïve : permettra d’évaluer le gain réel de vos
efforts. Vous pouvez aussi en choisir deux
Tester des modélisations
Complexifiez progressivement vos approche :
-> chaque modélisation reprend toutes les étapes
d’optimisation détaillées dans ce support
Enrichir le data set
Enrichissement :
- Depuis le datasset lui mêle :
- calcul de durée, flux,
autorégression
- Composition de variables
- Avec des données externes
Nettoyer / compléter
Un data set n’est jamais complet, et nombre de modèles
ne supportent pas les « trous » … à vous de les combler
!
Présenter des résultats
actionables
Une courbe de ROC n’est pas forcément un livrable
explicite pour une direction métier …
Comprendre le problème
Le machine learning trouve des réponses à des questions
précise. Aucun algorithme n’aide à trouver cette question
15BIG DATA – Meet Up – janvier 2015
Le cours focalise sur les phases les plus
techniques de la démarche projet
Plan du coursD
Classification
Regression
Clustering
Completion
optimization
Reinforcement
Apprentissage
supervisé : faire
des prévisions
Apprentissage par
renforcement
Apprentissage non
supervisé :
comprendre
• Spam detection
• biology/medicine
• fraud detection
• scoring (Google, Meetic)
• Weather prediction
• stock prediction
• speech recognition
• e-marketing
• sentiment mining
• recommendation system
• rare event detection
• Obama’s campaign
• automatic investment on
financial markets
• game playing
• Yield management
• Pavlov’s dog
• funny things :
https://www.youtube.com/watch?v=Lt-KLtkDlh8
Analyse exploratoire
Données non
structurées :
exemple du text
mining
Comprendre les
données : contenu et
signification
Définir la
fonction de coût
Tester des
modélisations
Nettoyer / compléter
Présenter des résultats
actionables
Comprendre le
problème
Rappel de la
démarche
1
2 3
4
16BIG DATA – Meet Up – janvier 2015
Des questions ?
• General : http://www.datasciencecentral.com/
• Courses : https://www.coursera.org/course/artificialvision/
• Material : http://www.di.ens.fr/~fbach/
• Machine Learning competitions : http://www.kaggle.com/
17BIG DATA – Meet Up – janvier 2015
p://peekaboo-vision.blogspot.fr/2013/01/machine-learning-cheat-sheet-for-scikit.html
18BIG DATA – Janvier 2015
Notre programme de formation
• Stratégie Big Data
– Maîtrise des usages
– Connaissance de l’écosystéme
– Sensibilisation à la Transformation et Gouvernance
– Introduction à la Data Science et aux outils Big Data : Data Science Studio, Tableau
• Sensibilisation au Big Data (en partenariat avec le GFII)
– Fondamentaux et applications sectorielles
– Ecosystème Big Data
• Pour les entreprises :
– Identification des opportunités
– Définition d’une roadmap Big Data
formation@data-business.fr
• Formule Full Time : 5 jours
• Formule Executive : 3 x 1,5 jours
• Sessions de 2 jours
• Ateliers de sensibilisation
• Séminaires de formation
BIG DATA l ANALYTICS l DATAVIZ
www.data-business.fr
MERCI
vincent@data-business.fr
06.72.48.39.84

Contenu connexe

Tendances

Euratech'trends : Machine Learning
Euratech'trends : Machine LearningEuratech'trends : Machine Learning
Euratech'trends : Machine Learning
EuraTechnologies
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
Stéphane Traumat
 
First step about IA and business
First step about IA and businessFirst step about IA and business
First step about IA and business
David Argellies
 
EuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTech Trends : Big Data
EuraTech Trends : Big Data
EuraTechnologies
 
Aaf archivistes these
Aaf archivistes   theseAaf archivistes   these
Aaf archivistes these
AssociationAF
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012
datasio
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
Mouna Torjmen
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
Valtech
 
04Juin2015_Symposium_Présentation_Coyote_Dataiku
04Juin2015_Symposium_Présentation_Coyote_Dataiku 04Juin2015_Symposium_Présentation_Coyote_Dataiku
04Juin2015_Symposium_Présentation_Coyote_Dataiku
Dataiku
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
Nexialog Consulting
 

Tendances (10)

Euratech'trends : Machine Learning
Euratech'trends : Machine LearningEuratech'trends : Machine Learning
Euratech'trends : Machine Learning
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
 
First step about IA and business
First step about IA and businessFirst step about IA and business
First step about IA and business
 
EuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTech Trends : Big Data
EuraTech Trends : Big Data
 
Aaf archivistes these
Aaf archivistes   theseAaf archivistes   these
Aaf archivistes these
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
 
04Juin2015_Symposium_Présentation_Coyote_Dataiku
04Juin2015_Symposium_Présentation_Coyote_Dataiku 04Juin2015_Symposium_Présentation_Coyote_Dataiku
04Juin2015_Symposium_Présentation_Coyote_Dataiku
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 

En vedette

Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
Vincent de Stoecklin
 
How to Build Successful Data Team - Dataiku ?
How to Build Successful Data Team -  Dataiku ? How to Build Successful Data Team -  Dataiku ?
How to Build Successful Data Team - Dataiku ?
Dataiku
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
Jean-Michel Franco
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
Lilia Sfaxi
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
Lilia Sfaxi
 
Du Data Mining à la Data Science
Du Data Mining à la Data ScienceDu Data Mining à la Data Science
Du Data Mining à la Data Science
Soft Computing
 
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Jean-Pierre Riehl
 
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Jean-Pierre Riehl
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
Boris Guarisma
 
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistique
Boris Guarisma
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4j
Boris Guarisma
 
Données pour la DataScience : opérer une sélection ou se lancer tous azimuts ?
Données pour la DataScience : opérer une sélection ou se lancer tous azimuts ?Données pour la DataScience : opérer une sélection ou se lancer tous azimuts ?
Données pour la DataScience : opérer une sélection ou se lancer tous azimuts ?
Stéphane Chappellier
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Pierre Robentz Cassion
 
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Le_GFII
 
Elasticmeetup curiosity 20141113
Elasticmeetup curiosity 20141113Elasticmeetup curiosity 20141113
Elasticmeetup curiosity 20141113
Erwan Pigneul
 
Implications of 4G Deployments (MEF for MPLS World Congress Ethernet Wholesa...
Implications of 4G Deployments (MEF for MPLS World Congress  Ethernet Wholesa...Implications of 4G Deployments (MEF for MPLS World Congress  Ethernet Wholesa...
Implications of 4G Deployments (MEF for MPLS World Congress Ethernet Wholesa...
Javier Gonzalez
 
CogLab | Imaginove | UI#02 – BCI : Usages et enjeux pour l’innovation et la c...
CogLab | Imaginove | UI#02 – BCI : Usages et enjeux pour l’innovation et la c...CogLab | Imaginove | UI#02 – BCI : Usages et enjeux pour l’innovation et la c...
CogLab | Imaginove | UI#02 – BCI : Usages et enjeux pour l’innovation et la c...
af83
 
TIBCO Loyalty Lab paris event
TIBCO Loyalty Lab paris eventTIBCO Loyalty Lab paris event
TIBCO Loyalty Lab paris event
Gerald Guigui
 
Brand Positioning, a component of INDIGITAL BRANDING MODEL©
Brand Positioning, a component of INDIGITAL BRANDING MODEL©Brand Positioning, a component of INDIGITAL BRANDING MODEL©
Brand Positioning, a component of INDIGITAL BRANDING MODEL©
Alfredo Escobar
 
CANDDi Insights
CANDDi InsightsCANDDi Insights
CANDDi Insights
Frederic Abrard
 

En vedette (20)

Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
How to Build Successful Data Team - Dataiku ?
How to Build Successful Data Team -  Dataiku ? How to Build Successful Data Team -  Dataiku ?
How to Build Successful Data Team - Dataiku ?
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Du Data Mining à la Data Science
Du Data Mining à la Data ScienceDu Data Mining à la Data Science
Du Data Mining à la Data Science
 
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
 
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
 
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistique
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4j
 
Données pour la DataScience : opérer une sélection ou se lancer tous azimuts ?
Données pour la DataScience : opérer une sélection ou se lancer tous azimuts ?Données pour la DataScience : opérer une sélection ou se lancer tous azimuts ?
Données pour la DataScience : opérer une sélection ou se lancer tous azimuts ?
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)
 
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
 
Elasticmeetup curiosity 20141113
Elasticmeetup curiosity 20141113Elasticmeetup curiosity 20141113
Elasticmeetup curiosity 20141113
 
Implications of 4G Deployments (MEF for MPLS World Congress Ethernet Wholesa...
Implications of 4G Deployments (MEF for MPLS World Congress  Ethernet Wholesa...Implications of 4G Deployments (MEF for MPLS World Congress  Ethernet Wholesa...
Implications of 4G Deployments (MEF for MPLS World Congress Ethernet Wholesa...
 
CogLab | Imaginove | UI#02 – BCI : Usages et enjeux pour l’innovation et la c...
CogLab | Imaginove | UI#02 – BCI : Usages et enjeux pour l’innovation et la c...CogLab | Imaginove | UI#02 – BCI : Usages et enjeux pour l’innovation et la c...
CogLab | Imaginove | UI#02 – BCI : Usages et enjeux pour l’innovation et la c...
 
TIBCO Loyalty Lab paris event
TIBCO Loyalty Lab paris eventTIBCO Loyalty Lab paris event
TIBCO Loyalty Lab paris event
 
Brand Positioning, a component of INDIGITAL BRANDING MODEL©
Brand Positioning, a component of INDIGITAL BRANDING MODEL©Brand Positioning, a component of INDIGITAL BRANDING MODEL©
Brand Positioning, a component of INDIGITAL BRANDING MODEL©
 
CANDDi Insights
CANDDi InsightsCANDDi Insights
CANDDi Insights
 

Similaire à Introduction à la Data Science l data business

Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation Numérique
Didier Girard
 
Marketing et Big Data
Marketing et Big DataMarketing et Big Data
Marketing et Big Data
Jeremy Greze
 
Aiguille dans botte de foin: scikit-learn et joblib
Aiguille dans botte de foin: scikit-learn et joblibAiguille dans botte de foin: scikit-learn et joblib
Aiguille dans botte de foin: scikit-learn et joblib
Gael Varoquaux
 
Quel algo ml_pour_mon_probleme
Quel algo ml_pour_mon_problemeQuel algo ml_pour_mon_probleme
Quel algo ml_pour_mon_probleme
Paul Blondel
 
Quel algo ml_pour_mon_probleme
Quel algo ml_pour_mon_problemeQuel algo ml_pour_mon_probleme
Quel algo ml_pour_mon_probleme
Paul Blondel
 
Herve aide-memoire-statistique r
Herve aide-memoire-statistique rHerve aide-memoire-statistique r
Herve aide-memoire-statistique r
Dies Diassa
 
TP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage MachineTP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage Machine
Boubaker KHMILI
 
Comment devenir Data Scientist ?
Comment devenir Data Scientist ?Comment devenir Data Scientist ?
Comment devenir Data Scientist ?
Jedha Bootcamp
 
FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretjfeudeline
 
Datajob 2013 - Construire un système de recommandation
Datajob 2013 - Construire un système de recommandationDatajob 2013 - Construire un système de recommandation
Datajob 2013 - Construire un système de recommandationDjamel Zouaoui
 
Overview of Interpretability Approaches in Deep learning: Focus on Convnet ar...
Overview of Interpretability Approaches in Deep learning: Focus on Convnet ar...Overview of Interpretability Approaches in Deep learning: Focus on Convnet ar...
Overview of Interpretability Approaches in Deep learning: Focus on Convnet ar...
Dr Hajji Hicham
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
Novagen Conseil
 
cours_4.pdf
cours_4.pdfcours_4.pdf
cours_4.pdf
nona298823
 
L1 TD Numérique et Société
L1 TD Numérique et SociétéL1 TD Numérique et Société
L1 TD Numérique et Société
Amar LAKEL, PhD
 
Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...
Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...
Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...
Minitab, LLC
 
Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...
Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...
Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...
TelecomValley
 
Fondements du machine learning
Fondements du machine learningFondements du machine learning
Fondements du machine learning
Frederic Simard
 
En 2016 : Faire du SEO face à une intelligence artificielle
En 2016 : Faire du SEO face à une intelligence artificielleEn 2016 : Faire du SEO face à une intelligence artificielle
En 2016 : Faire du SEO face à une intelligence artificielle
Peak Ace
 
Techniques de programmation avancée LabVIEW : gestion des données de la local...
Techniques de programmation avancée LabVIEW : gestion des données de la local...Techniques de programmation avancée LabVIEW : gestion des données de la local...
Techniques de programmation avancée LabVIEW : gestion des données de la local...
Luc Desruelle
 

Similaire à Introduction à la Data Science l data business (20)

Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation Numérique
 
Marketing et Big Data
Marketing et Big DataMarketing et Big Data
Marketing et Big Data
 
Aiguille dans botte de foin: scikit-learn et joblib
Aiguille dans botte de foin: scikit-learn et joblibAiguille dans botte de foin: scikit-learn et joblib
Aiguille dans botte de foin: scikit-learn et joblib
 
Quel algo ml_pour_mon_probleme
Quel algo ml_pour_mon_problemeQuel algo ml_pour_mon_probleme
Quel algo ml_pour_mon_probleme
 
Quel algo ml_pour_mon_probleme
Quel algo ml_pour_mon_problemeQuel algo ml_pour_mon_probleme
Quel algo ml_pour_mon_probleme
 
Herve aide-memoire-statistique r
Herve aide-memoire-statistique rHerve aide-memoire-statistique r
Herve aide-memoire-statistique r
 
TP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage MachineTP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage Machine
 
Comment devenir Data Scientist ?
Comment devenir Data Scientist ?Comment devenir Data Scientist ?
Comment devenir Data Scientist ?
 
FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caret
 
Datajob 2013 - Construire un système de recommandation
Datajob 2013 - Construire un système de recommandationDatajob 2013 - Construire un système de recommandation
Datajob 2013 - Construire un système de recommandation
 
Overview of Interpretability Approaches in Deep learning: Focus on Convnet ar...
Overview of Interpretability Approaches in Deep learning: Focus on Convnet ar...Overview of Interpretability Approaches in Deep learning: Focus on Convnet ar...
Overview of Interpretability Approaches in Deep learning: Focus on Convnet ar...
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
cours_4.pdf
cours_4.pdfcours_4.pdf
cours_4.pdf
 
L1 TD Numérique et Société
L1 TD Numérique et SociétéL1 TD Numérique et Société
L1 TD Numérique et Société
 
Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...
Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...
Nouveautes Minitab-Integration Python, Arbres de decision, Validation de mode...
 
Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...
Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...
Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...
 
Fondements du machine learning
Fondements du machine learningFondements du machine learning
Fondements du machine learning
 
En 2016 : Faire du SEO face à une intelligence artificielle
En 2016 : Faire du SEO face à une intelligence artificielleEn 2016 : Faire du SEO face à une intelligence artificielle
En 2016 : Faire du SEO face à une intelligence artificielle
 
R versur Python
R versur PythonR versur Python
R versur Python
 
Techniques de programmation avancée LabVIEW : gestion des données de la local...
Techniques de programmation avancée LabVIEW : gestion des données de la local...Techniques de programmation avancée LabVIEW : gestion des données de la local...
Techniques de programmation avancée LabVIEW : gestion des données de la local...
 

Introduction à la Data Science l data business

  • 1. BIG DATA l ANALYTICS l DATAVIZ www.data-business.fr Big Data l Analytics l DataViz Introduction to DATA SCIENCE Denis Oblin
  • 2. 2Copyright © Data-Business.fr. BIG DATA – Janvier 2015 Machine learning ?
  • 3. 3BIG DATA – Meet Up – janvier 2015 Construire des modèles un peu plus proches du monde réel Vue d’hélicoptère La datascience part du résultat (les valeurs réellement observées dans le monde) et cherche à en extraire une loi. Le modèle construit sera toujours une version simplifiée de la réalité 3 input X function f output Y = f(X) Computer SciencesComputer science Model f input X output Y = f(X) Computer SciencesData Science
  • 4. 4BIG DATA – Meet Up – janvier 2015 « Le chiffre est lâche. Torturez le il vous avouera ce que vous voulez » • prenez en compte toutes les données au niveau granulaire, • Utilisez plusieurs recettes bien rodées • Préférez celles qui savent s’en remettre (un peu) au hasard • Testez tous les réglages possibles pour choisir ce qui marche le mieux pour vos données • Mélangez vos différentes préparations entre elles en fin de cuisson • … ne pas rompre la chaine du froid A la base des algorithmes : une alchimie … dont voici la recette Les ‘recettes bien rodées’ sont disponibles gratuitement dans des packages d’outils open sources (R, Python, …)
  • 5. 5BIG DATA – Meet Up – janvier 2015 Exemple d’approche : la régression • Approcher une variable quantitative en fonction de chacun des paramètres disponibles • Fonction d’un espace de Rp R, Objectif de synthétiser le jeu de données dans l’espace des features Cible Cible feature feature
  • 6. 6BIG DATA – Meet Up – janvier 2015 Idéalement … régression • Etre omniscient et avoir toutes les observations possibles • Pour chaque valeur possible des features disponibles : prendre la moyenne des observations (espérance) contexte cible La dispersion autour de cette valeur moyenne peut être lié à plusieurs facteurs Il manque des facteurs explicatifs toujours Il y a des erreurs de mesure  toujours Il y a du vrai hasard  là c’est de la philo Principal levier big data
  • 7. 7BIG DATA – Meet Up – janvier 2015 .. Hélas (et hélas bis) régression • Vous ne disposez que d’un jeu de données partiel et si vous renouvelez les mesures vous aurez chaque fois un autre jeu d’observation 1er tirage 2è tirage 3è tirage … Feature Feature Feature ? • Vous avez beaucoup d’observations.. mais encore plus de features pour chaque observation : vos êtes atteint par la malédiction de la dimension (« curse of dimensionality ») : • dans un espace à haute dimension, vos observations sont éclatées : il n’y a plus de voisins ..
  • 8. 8BIG DATA – Meet Up – janvier 2015 Des astuces : Simplifier le passé régression Pour bien prévoir le futur nous pouvons simplifier le passé Equivalent • Distinguer – le signal : « vraie » information apportée par les features disponibles – du bruit : effet des informations (features) qui nous manquent Feature cible Feature cible Feature cible Feature cible Complexe - Parfaite description du passé - Faible pouvoir prédictif -  « overfitting » Simple - Grossière description du passé - Faible pouvoir prédictif Un juste milieu ? Données initiales Modélisation induite
  • 9. 9BIG DATA – Meet Up – janvier 2015 Des astuces : ne pas être juge et partie régression • L’évaluation de l’erreur d’interpolation des données connues n’est visiblement pas la métrique pertinente (sinon on va systématiquement pencher du coté « overfitting ») • Solution « on ne peut pas être juge et partie »: les données connues sont réparties en deux lots – Un lot d’apprentissage – Un lot d’évaluation Exemple de répartition entre apprentissage et test 2/3 apprentissage, 1/3 test Plus sophistiqué : cross validation Feature cible Feature Feature ‘Training set ‘test set Données initiales Construction d’un modèle pur un niveau de complexité donné Evaluation : le modèle construit est évalué avec les points qui n’ont pas servi à l construction
  • 10. 10BIG DATA – Meet Up – janvier 2015 Zoom : effet de la complexité sur l’erreur de prédiction (1/2) régression Echelle de complexité du modèle (exemple degré de polynome d’interpolation) Erreur Cible Feature • Avec un jeu de données, 3 modèles sont représentés sur ce graphe – Un modele complexe : s’approche de près des données observées – Un modele plus simple – Un modèle grossier (ligne droite) Erreur sur Données d’apprentissage Erreur sur données de test
  • 11. 11BIG DATA – Meet Up – janvier 2015 Des astuces : choisir une forme générale de la solution puis l’ajuster régression • Ce choix de forme est un a priori, potentiellement guidé par la visualisation des données ou par l’expérience (attention : expérience est une lanterne dans le dos !) Choisir une gamme de formes, à priri, et s’y tenir Forme a priori Sans forme a priori Echelle de complexité linéaire Escalier (step function) KNN (K nearest neihbour) Arbre polynomiale NA : passer à la page suivante ! Nombre de marches Nombre de voisins pris en compte Profondeur de l’arbre Degré du polynôme Pour une valeur de feature : prendre la valeur des k voisins connus les plus proches La courbe complète n’est en fait jamais dessinée … Trouver un césure dans l’axe des features : de part et d’autre, affecter la moyenne des données disponible : ajuster la césure qui minimise l’erreur globale. Recommencer sur chaque partition 2 feuilles 4 feuilles Dans un deuxième temps élaguer pour trouver la bonne complexité
  • 12. 12BIG DATA – Meet Up – janvier 2015 Et pour la classification ? ClassificationB • Ce choix de forme est un a priori, potentiellement guidé par la visualisation des données ou par l’expérience (attention : expérience est une lanterne dans le dos !) Choisir une gamme de formes, à proiri, et s’y tenir Forme a priori Sans forme a priori Echelle de complexité linéaire Escalier (step function) KNN (K nearest neihbour) Arbre polynomiale NA : passer à la page suivante ! Nombre de marches Nombre de voisins pris en compte Profondeur de l’arbre Degré du polynôme Pour une valeur de feature : prendre la valeur des k voisins connus les plus proches La courbe complète n’est en fait jamais dessinée … Trouver un césure dans l’axe des features : de part et d’autre, affecter la moyenne des données disponible : ajuster la césure qui minimise l’erreur globale. Recommencer sur chaque partition 2 feuilles 4 feuilles Dans un deuxième temps élaguer pour trouver la bonne complexité Les mêmes « formes a priori » s’adaptent très bien à la classification : les ligne tracées sont des séparation et plus ds interpolations
  • 13. 13BIG DATA – Meet Up – janvier 2015 K nearest neighbour ClassificationB Chaque nouveau pint est évalué en fonctin des k plu proches valeurs connues K=1 K=10 K=100 Source : Stanford -
  • 14. 14BIG DATA – Meet Up – janvier 2015 Un vrai travail de créativité Démarche opérationnelleC Comprendre n’est pas une nécessité algorithmique. Cela donne des idées d’enrichissement, facilite le dialogue avec le client final et accensement donne de l’intérêt Comprendre les données : contenu et signification Définir la fonction de coût La fonction de coût peut être étalonnée sur une prédiction naïve : permettra d’évaluer le gain réel de vos efforts. Vous pouvez aussi en choisir deux Tester des modélisations Complexifiez progressivement vos approche : -> chaque modélisation reprend toutes les étapes d’optimisation détaillées dans ce support Enrichir le data set Enrichissement : - Depuis le datasset lui mêle : - calcul de durée, flux, autorégression - Composition de variables - Avec des données externes Nettoyer / compléter Un data set n’est jamais complet, et nombre de modèles ne supportent pas les « trous » … à vous de les combler ! Présenter des résultats actionables Une courbe de ROC n’est pas forcément un livrable explicite pour une direction métier … Comprendre le problème Le machine learning trouve des réponses à des questions précise. Aucun algorithme n’aide à trouver cette question
  • 15. 15BIG DATA – Meet Up – janvier 2015 Le cours focalise sur les phases les plus techniques de la démarche projet Plan du coursD Classification Regression Clustering Completion optimization Reinforcement Apprentissage supervisé : faire des prévisions Apprentissage par renforcement Apprentissage non supervisé : comprendre • Spam detection • biology/medicine • fraud detection • scoring (Google, Meetic) • Weather prediction • stock prediction • speech recognition • e-marketing • sentiment mining • recommendation system • rare event detection • Obama’s campaign • automatic investment on financial markets • game playing • Yield management • Pavlov’s dog • funny things : https://www.youtube.com/watch?v=Lt-KLtkDlh8 Analyse exploratoire Données non structurées : exemple du text mining Comprendre les données : contenu et signification Définir la fonction de coût Tester des modélisations Nettoyer / compléter Présenter des résultats actionables Comprendre le problème Rappel de la démarche 1 2 3 4
  • 16. 16BIG DATA – Meet Up – janvier 2015 Des questions ? • General : http://www.datasciencecentral.com/ • Courses : https://www.coursera.org/course/artificialvision/ • Material : http://www.di.ens.fr/~fbach/ • Machine Learning competitions : http://www.kaggle.com/
  • 17. 17BIG DATA – Meet Up – janvier 2015 p://peekaboo-vision.blogspot.fr/2013/01/machine-learning-cheat-sheet-for-scikit.html
  • 18. 18BIG DATA – Janvier 2015 Notre programme de formation • Stratégie Big Data – Maîtrise des usages – Connaissance de l’écosystéme – Sensibilisation à la Transformation et Gouvernance – Introduction à la Data Science et aux outils Big Data : Data Science Studio, Tableau • Sensibilisation au Big Data (en partenariat avec le GFII) – Fondamentaux et applications sectorielles – Ecosystème Big Data • Pour les entreprises : – Identification des opportunités – Définition d’une roadmap Big Data formation@data-business.fr • Formule Full Time : 5 jours • Formule Executive : 3 x 1,5 jours • Sessions de 2 jours • Ateliers de sensibilisation • Séminaires de formation
  • 19. BIG DATA l ANALYTICS l DATAVIZ www.data-business.fr MERCI vincent@data-business.fr 06.72.48.39.84

Notes de l'éditeur

  1. Melange de fantasmes … une réalité en fait imple