Le Machine
Learning, comment
ça marche?
Définition du Machine Learning
● Sous domaine de l’intelligence artificielle.
● Vise à “apprendre à une machine à apprendre” : en construisant un
algorithme qui va :
1. Analyser des données,
2. Etre capable d’adapter son comportement en fonction des conclusions
qu’il en aura tirées.
Offre une aide à la décision, dégage une
plus value des données rassemblées.
Machine Learning, les grands principes
Des données
massives
Une aide à la
décision
Des algorithmes qui
ajustent le modèle
À utiliser sur de
nouvelles données
Machine Learning, les grands principes
Des données
massives
● Qualitative / Quantitative
● Données structurées / Textes / Images / Son
● 1st Party / 2nd Party / Open Data
Machine Learning, les grands principes
Une aide à la
décision
● Un objectif :
Prédiction / Classification / Recommandation
● Des contraintes :
Corpus labellisé, données incomplètes, Manque de fiabilité
Machine Learning, les grands principes
Des algorithmes qui
ajustent le modèle
● Familles de méthodes : régression,
clustering, arbres, réseaux...
● Itérations pour meilleure estimation
● Possibilité de tester une multitude de
combinaison / Hyper Paramétrisation,
Machine Learning, les grands principes
À utiliser sur de
nouvelles données
● Evaluation de la pertinence du
moteur
● Surveillance des performances
(rapidité, scalabilité)
● Adaptativité : apprentissage en
ligne
Les problématiques auxquelles répond
le Machine Learning
DESCRIPTION / EXPLORATION
Comprendre mes données
PREDICTION
Prédire une valeur
CLASSIFICATION
SUPERVISÉE / NON SUPERVISÉE
Répartir les individus dans une ou plusieurs
familles
RECOMMANDATION
Déterminer l’action ou identifier le produit le plus
pertinent
Objectif : Mieux comprendre les données disponibles, identifier
les tendances et les liens qui existent à l’intérieur des données.
Permettre de visualiser, et de synthétiser les données. On
souhaite appréhender un nouveau jeu de données, afin de
trouver des pistes pour l’exploiter.
Exemple :
- Comprendre les mécanismes de consommation
dans une grande surface (Retail).
Les problématiques auxquelles répond
le Machine Learning
DESCRIPTION / EXPLORATION
Les problématiques auxquelles répond
le Machine Learning
Objectif : estimer une valeur numérique (CA, coût, nombre de
pannes…) ou la probabilité qu’un événement survienne.
Exemples :
- Prédire la probabilité qu’un équipement tombe en
panne.
- Prédire un délai de livraison.
PREDICTION
Les problématiques auxquelles répond
le Machine Learning
Objectif : Recommander l’action ou le produit le plus pertinent parmi
une liste de possibilités.
Exemples :
- Construire une newsletter personnalisée pour chaque
client.
- Conseiller de vendre un espace publicitaire à un client ou
bien d’attendre une autre demande.
RECOMMANDATION
Objectif : Répartir des individus ou des objets dans des classes ou
catégories. Les individus sont regroupés lorsqu’ils sont similaires.
2 cas :
- Classification supervisée : Le modèle rattache les nouveaux
individus aux catégories déjà existantes.
- Classification non supervisée : On interprète les catégories
après les avoir construites.
Exemples :
● Classer les rapports selon le type d’incident.
● Segmentation clients
Les problématiques auxquelles répond
le Machine Learning
CLASSIFICATION
supervisée / non supervisée
Les phases de R&D suivies par le Data
Scientist
Préparation des données
Exploration des données
Choix / Construction de(s) algorithme(s)
Apprentissage du modèle
Optimisation et validation du modèle final
Résultats
Prédictions /
Recommandations / Classes
De l’apprentissage du modèle à sa mise en prod
Construction
du modèle
Données
disponibles
Modèle
final
Performances du
modèle
(validation)
Rapports,
Notebooks...
Phase application
Modèle
final
Données
courantes Performances du
modèle
(veille)
Phase exploration/ apprentissage
Datalake / Export
Appli / Site
Tableau de bord
Rapports périodiques
Les prémices du projet
Les questions à se poser pour cerner
le besoin
QUOI ? POURQUOI ? QUI ? COMMENT ?
QUOI ?
✓ Quelles sont les données disponibles ?
✓ Sources de ces données ?
✓ Type de données : structurées, textes,
images…
Les questions à se poser pour cerner
le besoin
POURQUOI ?
✓ Objectif :
○ Expliquer (descriptif) ?
○ Prédire (prédictif) ?
○ Classer (descriptif/prédictif) ?
○ Recommander (prescriptif) ?
✓ Quelle erreur faut-il éviter : erreur
totale, faux positifs, faux négatifs ?
Les questions à se poser pour cerner
le besoin
QUI ?
✓ De qui vient le besoin ?
✓ Quels sont mes interlocuteurs (IT &
Métier)
Les questions à se poser pour cerner
le besoin
COMMENT ?
✓ Sous quelle forme doivent être
présentés les résultats ?
✓ Y a t-il déjà eu d’autres projets
similaires réalisés ?
Les questions à se poser pour cerner
le besoin
⇒ Posez-vous les bonnes questions avec nous !
Les bonnes pratiques
Veiller en permanence à la
qualité des données
Données complètes, limpides,
labellisées...
Environnement “bac à sable”
Pour plus de sécurité et de flexibilité
Être toujours capable d’évaluer le
modèle construit
Aussi bien pendant la phase de modélisation,
que pendant la phase d’application.
Dialogue entre IT et produit
Pour intégrer les objectifs et les
contraintes de chacun.
CHECK LIST : avant de commencer un projet
Autorisation
légale
d’utiliser les
données ?
READY ?
OUI
● GDPR : ☑
● Tiers Party : ☑
NON
Nous avons des plans d’action à vous
proposer !
CHECK LIST : avant de commencer un projet
Autorisation
légale
d’utiliser les
données ?
R
OUI
NON
Données
accessibles ?
● Présentes : ☑
● Exploitables : ☑
Nous avons des plans d’action à vous
proposer !
CHECK LIST : avant de commencer un projet
Autorisation
légale
d’utiliser les
données ?
R
NONDonnées
accessibles ?
● Documentées : ☑
● Significatives : ☑Données
compréhensi
bles?
OUI
Nous avons des plans d’action à vous
proposer !
CHECK LIST : avant de commencer un projet
Autorisation
légale
d’utiliser les
données ?
R
Données
accessibles ?
● Objectif Explicite : ☑
● Performances mesurables: ☑
Données
compréhensi
bles?
Problème
clair ?
OUI
NON
Nous avons des plans d’action à vous
proposer !
CHECK LIST : avant de commencer un projet
Autorisation
légale
d’utiliser les
données ?
R
Données
accessibles ?
Données
compréhensi
bles?
Problème
clair ?
Données
Fiables ?
NON
● Données complètes : ☑
● Données cohérentes : ☑
● ...
OUI
GO !
Nous avons des plans
d’action à vous proposer !
Non
START
+ de 100
observations
?
Oui
Attribuer
une classe
?
Nombre de
classes
connu ?
Prédire
une
quantité ?
Données
labellisées
? Recommander
un produit /
une stratégie ?
Explorer
les
données ?
Le modèle
doit être
interprété?
Il faut + de
données Random
Forest
Lasso/
Stepwise
Regression
OLS /
Decision
Tree
Variables à
sélectionner
?
Gradient
Boosting
Données en
très grandes
dimensions ?
Prédiction
Description
Recommandation
Classification
Non Supervisée
Classification Supervisée
Que des
données sur
les produits
à reco ?
KNN
/ méthodes
de voisinage
Que des
données sur les
interactions
users/produits
?
Collaborative
Filtering
(SVD, Markov Chain...)
Méthodes
Hybrides
Les 2 ?
+ de
10 000
observations
?
K-Means
/ Spectral
Clustering
MiniBatch
K-Means
Données
textuelles
?
LSA
(NMF)
+ de
10 000
observations
?
DBSCAN
MeanShift
Données
en très faibles
dimensions ?
CAH
ACP
Chercher
les
tendances
?
Chercher
les
“causes”
?
OLS
+ de 1 million
d’observations
Deep
Learning
Données
textuelles ?
Gaussian
Naive
Bayes
SVM /
Random
Forest
Le modèle
doit être
interprété ?
Régression
Logistique /
Multinomiale
Recommander
une stratégie ?
Markov
Decision
Process
Comment choisir l’algorithme utilisé ?
Le schéma précédent présente les principaux critères qui vont influencer le choix de
l’algorithme utilisé :
● Le type de problématique : prédiction, recommandation, exploration …
● La taille des données.
● Le type de données (numériques ou textuelles, user centric ou item centric)
● La volonté ou non d’interpréter le modèle.
A cela on peut ajouter d’autres critères :
● La simplicité désirée pour le modèle : un modèle avec peu ou beaucoup de paramètres ?
● La présence de connaissances “a priori” sur le contexte étudié.
● La répartition des données, et la présence d’outliers.
● Les algorithmes disponibles dans l’outil utilisé.
● La forme attendue pour le résultat.
● Etc…
Non
START
+ de 100
observations
?
Oui
Attribuer
une classe
?
Nombre de
classes
connu ?
Prédire
une
quantité ?
Données
labellisées
? Recommander
un produit /
une stratégie ?
Explorer
les
données ?
Le modèle
doit être
interprété?
Il faut + de
données Random
Forest
Lasso/
Stepwise
Regression
OLS /
Decision
Tree
Variables à
sélectionner
?
Gradient
Boosting
Données en
très grandes
dimensions ?
Prédiction
Description
Recommandation
Classification
Non Supervisée
Classification Supervisée
Que des
données sur
les produits
à reco ?
KNN
/ méthodes
de voisinage
Que des
données sur les
interactions
users/produits
?
Collaborative
Filtering
(SVD, Markov Chain...)
Méthodes
Hybrides
Les 2 ?
+ de
10 000
observations
?
K-Means
/ Spectral
Clustering
MiniBatch
K-Means
Données
textuelles
?
LSA
(NMF)
+ de
10 000
observations
?
DBSCAN
MeanShift
Données
en très faibles
dimensions ?
CAH
ACP
Chercher
les
tendances
?
Chercher
les
“causes”
?
OLS
+ de 1 million
d’observations
Deep
Learning
Données
textuelles ?
Gaussian
Naive
Bayes
SVM /
Random
Forest
Le modèle
doit être
interprété ?
Régression
Logistique /
Multinomiale
Recommander
une stratégie ?
Markov
Decision
Process
Pour adopter la stratégie Data Science la plus juste, il
faut un peu plus qu’un parcours fléché, aussi riche soit-il.
Nous vous accompagnons dans l’analyse spécifique de
votre contexte :
● La quantité et qualité de vos données,
● La prise en compte de la sensibilité de votre métier,
● La restitution des résultats aux utilisateurs,
● … et bien plus encore ...

Introduction au Machine Learning

  • 1.
  • 2.
    Définition du MachineLearning ● Sous domaine de l’intelligence artificielle. ● Vise à “apprendre à une machine à apprendre” : en construisant un algorithme qui va : 1. Analyser des données, 2. Etre capable d’adapter son comportement en fonction des conclusions qu’il en aura tirées. Offre une aide à la décision, dégage une plus value des données rassemblées.
  • 3.
    Machine Learning, lesgrands principes Des données massives Une aide à la décision Des algorithmes qui ajustent le modèle À utiliser sur de nouvelles données
  • 4.
    Machine Learning, lesgrands principes Des données massives ● Qualitative / Quantitative ● Données structurées / Textes / Images / Son ● 1st Party / 2nd Party / Open Data
  • 5.
    Machine Learning, lesgrands principes Une aide à la décision ● Un objectif : Prédiction / Classification / Recommandation ● Des contraintes : Corpus labellisé, données incomplètes, Manque de fiabilité
  • 6.
    Machine Learning, lesgrands principes Des algorithmes qui ajustent le modèle ● Familles de méthodes : régression, clustering, arbres, réseaux... ● Itérations pour meilleure estimation ● Possibilité de tester une multitude de combinaison / Hyper Paramétrisation,
  • 7.
    Machine Learning, lesgrands principes À utiliser sur de nouvelles données ● Evaluation de la pertinence du moteur ● Surveillance des performances (rapidité, scalabilité) ● Adaptativité : apprentissage en ligne
  • 8.
    Les problématiques auxquellesrépond le Machine Learning DESCRIPTION / EXPLORATION Comprendre mes données PREDICTION Prédire une valeur CLASSIFICATION SUPERVISÉE / NON SUPERVISÉE Répartir les individus dans une ou plusieurs familles RECOMMANDATION Déterminer l’action ou identifier le produit le plus pertinent
  • 9.
    Objectif : Mieuxcomprendre les données disponibles, identifier les tendances et les liens qui existent à l’intérieur des données. Permettre de visualiser, et de synthétiser les données. On souhaite appréhender un nouveau jeu de données, afin de trouver des pistes pour l’exploiter. Exemple : - Comprendre les mécanismes de consommation dans une grande surface (Retail). Les problématiques auxquelles répond le Machine Learning DESCRIPTION / EXPLORATION
  • 10.
    Les problématiques auxquellesrépond le Machine Learning Objectif : estimer une valeur numérique (CA, coût, nombre de pannes…) ou la probabilité qu’un événement survienne. Exemples : - Prédire la probabilité qu’un équipement tombe en panne. - Prédire un délai de livraison. PREDICTION
  • 11.
    Les problématiques auxquellesrépond le Machine Learning Objectif : Recommander l’action ou le produit le plus pertinent parmi une liste de possibilités. Exemples : - Construire une newsletter personnalisée pour chaque client. - Conseiller de vendre un espace publicitaire à un client ou bien d’attendre une autre demande. RECOMMANDATION
  • 12.
    Objectif : Répartirdes individus ou des objets dans des classes ou catégories. Les individus sont regroupés lorsqu’ils sont similaires. 2 cas : - Classification supervisée : Le modèle rattache les nouveaux individus aux catégories déjà existantes. - Classification non supervisée : On interprète les catégories après les avoir construites. Exemples : ● Classer les rapports selon le type d’incident. ● Segmentation clients Les problématiques auxquelles répond le Machine Learning CLASSIFICATION supervisée / non supervisée
  • 13.
    Les phases deR&D suivies par le Data Scientist Préparation des données Exploration des données Choix / Construction de(s) algorithme(s) Apprentissage du modèle Optimisation et validation du modèle final
  • 14.
    Résultats Prédictions / Recommandations /Classes De l’apprentissage du modèle à sa mise en prod Construction du modèle Données disponibles Modèle final Performances du modèle (validation) Rapports, Notebooks... Phase application Modèle final Données courantes Performances du modèle (veille) Phase exploration/ apprentissage Datalake / Export Appli / Site Tableau de bord Rapports périodiques
  • 15.
  • 16.
    Les questions àse poser pour cerner le besoin QUOI ? POURQUOI ? QUI ? COMMENT ?
  • 17.
    QUOI ? ✓ Quellessont les données disponibles ? ✓ Sources de ces données ? ✓ Type de données : structurées, textes, images… Les questions à se poser pour cerner le besoin
  • 18.
    POURQUOI ? ✓ Objectif: ○ Expliquer (descriptif) ? ○ Prédire (prédictif) ? ○ Classer (descriptif/prédictif) ? ○ Recommander (prescriptif) ? ✓ Quelle erreur faut-il éviter : erreur totale, faux positifs, faux négatifs ? Les questions à se poser pour cerner le besoin
  • 19.
    QUI ? ✓ Dequi vient le besoin ? ✓ Quels sont mes interlocuteurs (IT & Métier) Les questions à se poser pour cerner le besoin
  • 20.
    COMMENT ? ✓ Sousquelle forme doivent être présentés les résultats ? ✓ Y a t-il déjà eu d’autres projets similaires réalisés ? Les questions à se poser pour cerner le besoin ⇒ Posez-vous les bonnes questions avec nous !
  • 21.
    Les bonnes pratiques Veilleren permanence à la qualité des données Données complètes, limpides, labellisées... Environnement “bac à sable” Pour plus de sécurité et de flexibilité Être toujours capable d’évaluer le modèle construit Aussi bien pendant la phase de modélisation, que pendant la phase d’application. Dialogue entre IT et produit Pour intégrer les objectifs et les contraintes de chacun.
  • 22.
    CHECK LIST :avant de commencer un projet Autorisation légale d’utiliser les données ? READY ? OUI ● GDPR : ☑ ● Tiers Party : ☑ NON Nous avons des plans d’action à vous proposer !
  • 23.
    CHECK LIST :avant de commencer un projet Autorisation légale d’utiliser les données ? R OUI NON Données accessibles ? ● Présentes : ☑ ● Exploitables : ☑ Nous avons des plans d’action à vous proposer !
  • 24.
    CHECK LIST :avant de commencer un projet Autorisation légale d’utiliser les données ? R NONDonnées accessibles ? ● Documentées : ☑ ● Significatives : ☑Données compréhensi bles? OUI Nous avons des plans d’action à vous proposer !
  • 25.
    CHECK LIST :avant de commencer un projet Autorisation légale d’utiliser les données ? R Données accessibles ? ● Objectif Explicite : ☑ ● Performances mesurables: ☑ Données compréhensi bles? Problème clair ? OUI NON Nous avons des plans d’action à vous proposer !
  • 26.
    CHECK LIST :avant de commencer un projet Autorisation légale d’utiliser les données ? R Données accessibles ? Données compréhensi bles? Problème clair ? Données Fiables ? NON ● Données complètes : ☑ ● Données cohérentes : ☑ ● ... OUI GO ! Nous avons des plans d’action à vous proposer !
  • 27.
    Non START + de 100 observations ? Oui Attribuer uneclasse ? Nombre de classes connu ? Prédire une quantité ? Données labellisées ? Recommander un produit / une stratégie ? Explorer les données ? Le modèle doit être interprété? Il faut + de données Random Forest Lasso/ Stepwise Regression OLS / Decision Tree Variables à sélectionner ? Gradient Boosting Données en très grandes dimensions ? Prédiction Description Recommandation Classification Non Supervisée Classification Supervisée Que des données sur les produits à reco ? KNN / méthodes de voisinage Que des données sur les interactions users/produits ? Collaborative Filtering (SVD, Markov Chain...) Méthodes Hybrides Les 2 ? + de 10 000 observations ? K-Means / Spectral Clustering MiniBatch K-Means Données textuelles ? LSA (NMF) + de 10 000 observations ? DBSCAN MeanShift Données en très faibles dimensions ? CAH ACP Chercher les tendances ? Chercher les “causes” ? OLS + de 1 million d’observations Deep Learning Données textuelles ? Gaussian Naive Bayes SVM / Random Forest Le modèle doit être interprété ? Régression Logistique / Multinomiale Recommander une stratégie ? Markov Decision Process
  • 28.
    Comment choisir l’algorithmeutilisé ? Le schéma précédent présente les principaux critères qui vont influencer le choix de l’algorithme utilisé : ● Le type de problématique : prédiction, recommandation, exploration … ● La taille des données. ● Le type de données (numériques ou textuelles, user centric ou item centric) ● La volonté ou non d’interpréter le modèle. A cela on peut ajouter d’autres critères : ● La simplicité désirée pour le modèle : un modèle avec peu ou beaucoup de paramètres ? ● La présence de connaissances “a priori” sur le contexte étudié. ● La répartition des données, et la présence d’outliers. ● Les algorithmes disponibles dans l’outil utilisé. ● La forme attendue pour le résultat. ● Etc…
  • 29.
    Non START + de 100 observations ? Oui Attribuer uneclasse ? Nombre de classes connu ? Prédire une quantité ? Données labellisées ? Recommander un produit / une stratégie ? Explorer les données ? Le modèle doit être interprété? Il faut + de données Random Forest Lasso/ Stepwise Regression OLS / Decision Tree Variables à sélectionner ? Gradient Boosting Données en très grandes dimensions ? Prédiction Description Recommandation Classification Non Supervisée Classification Supervisée Que des données sur les produits à reco ? KNN / méthodes de voisinage Que des données sur les interactions users/produits ? Collaborative Filtering (SVD, Markov Chain...) Méthodes Hybrides Les 2 ? + de 10 000 observations ? K-Means / Spectral Clustering MiniBatch K-Means Données textuelles ? LSA (NMF) + de 10 000 observations ? DBSCAN MeanShift Données en très faibles dimensions ? CAH ACP Chercher les tendances ? Chercher les “causes” ? OLS + de 1 million d’observations Deep Learning Données textuelles ? Gaussian Naive Bayes SVM / Random Forest Le modèle doit être interprété ? Régression Logistique / Multinomiale Recommander une stratégie ? Markov Decision Process Pour adopter la stratégie Data Science la plus juste, il faut un peu plus qu’un parcours fléché, aussi riche soit-il. Nous vous accompagnons dans l’analyse spécifique de votre contexte : ● La quantité et qualité de vos données, ● La prise en compte de la sensibilité de votre métier, ● La restitution des résultats aux utilisateurs, ● … et bien plus encore ...