Introduction au Machine Learning

Le Machine
Learning, comment
ça marche?

Définition du Machine Learning
● Sous domaine de l’intelligence artificielle.
● Vise à “apprendre à une machine à apprendre” : en construisant un
algorithme qui va :
1. Analyser des données,
2. Etre capable d’adapter son comportement en fonction des conclusions
qu’il en aura tirées.
Offre une aide à la décision, dégage une
plus value des données rassemblées.

Machine Learning, les grands principes
Des données
massives
Une aide à la
décision
Des algorithmes qui
ajustent le modèle
À utiliser sur de
nouvelles données

Des données
massives
● Qualitative / Quantitative
● Données structurées / Textes / Images / Son
● 1st Party / 2nd Party / Open Data

Une aide à la
décision
● Un objectif :
Prédiction / Classification / Recommandation
● Des contraintes :
Corpus labellisé, données incomplètes, Manque de fiabilité

Des algorithmes qui
ajustent le modèle
● Familles de méthodes : régression,
clustering, arbres, réseaux...
● Itérations pour meilleure estimation
● Possibilité de tester une multitude de
combinaison / Hyper Paramétrisation,

À utiliser sur de
nouvelles données
● Evaluation de la pertinence du
moteur
● Surveillance des performances
(rapidité, scalabilité)
● Adaptativité : apprentissage en
ligne

Les problématiques auxquelles répond
le Machine Learning
DESCRIPTION / EXPLORATION
Comprendre mes données
PREDICTION
Prédire une valeur
CLASSIFICATION
SUPERVISÉE / NON SUPERVISÉE
Répartir les individus dans une ou plusieurs
familles
RECOMMANDATION
Déterminer l’action ou identifier le produit le plus
pertinent

Objectif : Mieux comprendre les données disponibles, identifier
les tendances et les liens qui existent à l’intérieur des données.
Permettre de visualiser, et de synthétiser les données. On
souhaite appréhender un nouveau jeu de données, afin de
trouver des pistes pour l’exploiter.
Exemple :
- Comprendre les mécanismes de consommation
dans une grande surface (Retail).
le Machine Learning
DESCRIPTION / EXPLORATION

le Machine Learning
Objectif : estimer une valeur numérique (CA, coût, nombre de
pannes…) ou la probabilité qu’un événement survienne.
Exemples :
- Prédire la probabilité qu’un équipement tombe en
panne.
- Prédire un délai de livraison.
PREDICTION

le Machine Learning
Objectif : Recommander l’action ou le produit le plus pertinent parmi
une liste de possibilités.
Exemples :
- Construire une newsletter personnalisée pour chaque
client.
- Conseiller de vendre un espace publicitaire à un client ou
bien d’attendre une autre demande.
RECOMMANDATION

Objectif : Répartir des individus ou des objets dans des classes ou
catégories. Les individus sont regroupés lorsqu’ils sont similaires.
2 cas :
- Classification supervisée : Le modèle rattache les nouveaux
individus aux catégories déjà existantes.
- Classification non supervisée : On interprète les catégories
après les avoir construites.
Exemples :
● Classer les rapports selon le type d’incident.
● Segmentation clients
le Machine Learning
CLASSIFICATION
supervisée / non supervisée

Les phases de R&D suivies par le Data
Scientist
Préparation des données
Exploration des données
Choix / Construction de(s) algorithme(s)
Apprentissage du modèle
Optimisation et validation du modèle final

Résultats
Prédictions /
Recommandations / Classes
De l’apprentissage du modèle à sa mise en prod
Construction
du modèle
Données
disponibles
Modèle
final
Performances du
modèle
(validation)
Rapports,
Notebooks...
Phase application
Modèle
final
Données
courantes Performances du
modèle
(veille)
Phase exploration/ apprentissage
Datalake / Export
Appli / Site
Tableau de bord
Rapports périodiques

Les questions à se poser pour cerner
le besoin
QUOI ? POURQUOI ? QUI ? COMMENT ?

QUOI ?
✓ Quelles sont les données disponibles ?
✓ Sources de ces données ?
✓ Type de données : structurées, textes,
images…
le besoin

POURQUOI ?
✓ Objectif :
○ Expliquer (descriptif) ?
○ Prédire (prédictif) ?
○ Classer (descriptif/prédictif) ?
○ Recommander (prescriptif) ?
✓ Quelle erreur faut-il éviter : erreur
totale, faux positifs, faux négatifs ?
le besoin

QUI ?
✓ De qui vient le besoin ?
✓ Quels sont mes interlocuteurs (IT &
Métier)
le besoin

COMMENT ?
✓ Sous quelle forme doivent être
présentés les résultats ?
✓ Y a t-il déjà eu d’autres projets
similaires réalisés ?
le besoin
⇒ Posez-vous les bonnes questions avec nous !

Les bonnes pratiques
Veiller en permanence à la
qualité des données
Données complètes, limpides,
labellisées...
Environnement “bac à sable”
Pour plus de sécurité et de flexibilité
Être toujours capable d’évaluer le
modèle construit
Aussi bien pendant la phase de modélisation,
que pendant la phase d’application.
Dialogue entre IT et produit
Pour intégrer les objectifs et les
contraintes de chacun.

CHECK LIST : avant de commencer un projet
Autorisation
légale
d’utiliser les
données ?
READY ?
OUI
● GDPR : ☑
● Tiers Party : ☑
NON
Nous avons des plans d’action à vous
proposer !

Autorisation
légale
d’utiliser les
données ?
R
OUI
NON
Données
accessibles ?
● Présentes : ☑
● Exploitables : ☑
proposer !

Autorisation
légale
d’utiliser les
données ?
R
NONDonnées
accessibles ?
● Documentées : ☑
● Significatives : ☑Données
compréhensi
bles?
OUI
proposer !

Autorisation
légale
d’utiliser les
données ?
R
Données
accessibles ?
● Objectif Explicite : ☑
● Performances mesurables: ☑
Données
compréhensi
bles?
Problème
clair ?
OUI
NON
proposer !

Autorisation
légale
d’utiliser les
données ?
R
Données
accessibles ?
Données
compréhensi
bles?
Problème
clair ?
Données
Fiables ?
NON
● Données complètes : ☑
● Données cohérentes : ☑
● ...
OUI
GO !
Nous avons des plans
d’action à vous proposer !

Non
START
+ de 100
observations
?
Oui
Attribuer
une classe
?
Nombre de
classes
connu ?
Prédire
une
quantité ?
Données
labellisées
? Recommander
un produit /
une stratégie ?
Explorer
les
données ?
Le modèle
doit être
interprété?
Il faut + de
données Random
Forest
Lasso/
Stepwise
Regression
OLS /
Decision
Tree
Variables à
sélectionner
?
Gradient
Boosting
Données en
très grandes
dimensions ?
Prédiction
Description
Recommandation
Classification
Non Supervisée
Classification Supervisée
Que des
données sur
les produits
à reco ?
KNN
/ méthodes
de voisinage
Que des
données sur les
interactions
users/produits
?
Collaborative
Filtering
(SVD, Markov Chain...)
Méthodes
Hybrides
Les 2 ?
+ de
10 000
observations
?
K-Means
/ Spectral
Clustering
MiniBatch
K-Means
Données
textuelles
?
LSA
(NMF)
+ de
10 000
observations
?
DBSCAN
MeanShift
Données
en très faibles
dimensions ?
CAH
ACP
Chercher
les
tendances
?
Chercher
les
“causes”
?
OLS
+ de 1 million
d’observations
Deep
Learning
Données
textuelles ?
Gaussian
Naive
Bayes
SVM /
Random
Forest
Le modèle
doit être
interprété ?
Régression
Logistique /
Multinomiale
Recommander
une stratégie ?
Markov
Decision
Process

Comment choisir l’algorithme utilisé ?
Le schéma précédent présente les principaux critères qui vont influencer le choix de
l’algorithme utilisé :
● Le type de problématique : prédiction, recommandation, exploration …
● La taille des données.
● Le type de données (numériques ou textuelles, user centric ou item centric)
● La volonté ou non d’interpréter le modèle.
A cela on peut ajouter d’autres critères :
● La simplicité désirée pour le modèle : un modèle avec peu ou beaucoup de paramètres ?
● La présence de connaissances “a priori” sur le contexte étudié.
● La répartition des données, et la présence d’outliers.
● Les algorithmes disponibles dans l’outil utilisé.
● La forme attendue pour le résultat.
● Etc…

Non
START
+ de 100
observations
?
Oui
Attribuer
une classe
?
Nombre de
classes
connu ?
Prédire
une
quantité ?
Données
labellisées
? Recommander
un produit /
une stratégie ?
Explorer
les
données ?
Le modèle
doit être
interprété?
Il faut + de
données Random
Forest
Lasso/
Stepwise
Regression
OLS /
Decision
Tree
Variables à
sélectionner
?
Gradient
Boosting
Données en
très grandes
dimensions ?
Prédiction
Description
Recommandation
Classification
Non Supervisée
Classification Supervisée
Que des
données sur
les produits
à reco ?
KNN
/ méthodes
de voisinage
Que des
données sur les
interactions
users/produits
?
Collaborative
Filtering
(SVD, Markov Chain...)
Méthodes
Hybrides
Les 2 ?
+ de
10 000
observations
?
K-Means
/ Spectral
Clustering
MiniBatch
K-Means
Données
textuelles
?
LSA
(NMF)
+ de
10 000
observations
?
DBSCAN
MeanShift
Données
en très faibles
dimensions ?
CAH
ACP
Chercher
les
tendances
?
Chercher
les
“causes”
?
OLS
+ de 1 million
d’observations
Deep
Learning
Données
textuelles ?
Gaussian
Naive
Bayes
SVM /
Random
Forest
Le modèle
doit être
interprété ?
Régression
Logistique /
Multinomiale
Recommander
une stratégie ?
Markov
Decision
Process
Pour adopter la stratégie Data Science la plus juste, il
faut un peu plus qu’un parcours fléché, aussi riche soit-il.
Nous vous accompagnons dans l’analyse spécifique de
votre contexte :
● La quantité et qualité de vos données,
● La prise en compte de la sensibilité de votre métier,
● La restitution des résultats aux utilisateurs,
● … et bien plus encore ...

Introduction au Machine Learning

Contenu connexe

Tendances

Similaire à Introduction au Machine Learning

Introduction au Machine Learning