SlideShare une entreprise Scribd logo
Le Machine
Learning, comment
ça marche?
Définition du Machine Learning
● Sous domaine de l’intelligence artificielle.
● Vise à “apprendre à une machine à apprendre” : en construisant un
algorithme qui va :
1. Analyser des données,
2. Etre capable d’adapter son comportement en fonction des conclusions
qu’il en aura tirées.
Offre une aide à la décision, dégage une
plus value des données rassemblées.
Machine Learning, les grands principes
Des données
massives
Une aide à la
décision
Des algorithmes qui
ajustent le modèle
À utiliser sur de
nouvelles données
Machine Learning, les grands principes
Des données
massives
● Qualitative / Quantitative
● Données structurées / Textes / Images / Son
● 1st Party / 2nd Party / Open Data
Machine Learning, les grands principes
Une aide à la
décision
● Un objectif :
Prédiction / Classification / Recommandation
● Des contraintes :
Corpus labellisé, données incomplètes, Manque de fiabilité
Machine Learning, les grands principes
Des algorithmes qui
ajustent le modèle
● Familles de méthodes : régression,
clustering, arbres, réseaux...
● Itérations pour meilleure estimation
● Possibilité de tester une multitude de
combinaison / Hyper Paramétrisation,
Machine Learning, les grands principes
À utiliser sur de
nouvelles données
● Evaluation de la pertinence du
moteur
● Surveillance des performances
(rapidité, scalabilité)
● Adaptativité : apprentissage en
ligne
Les problématiques auxquelles répond
le Machine Learning
DESCRIPTION / EXPLORATION
Comprendre mes données
PREDICTION
Prédire une valeur
CLASSIFICATION
SUPERVISÉE / NON SUPERVISÉE
Répartir les individus dans une ou plusieurs
familles
RECOMMANDATION
Déterminer l’action ou identifier le produit le plus
pertinent
Objectif : Mieux comprendre les données disponibles, identifier
les tendances et les liens qui existent à l’intérieur des données.
Permettre de visualiser, et de synthétiser les données. On
souhaite appréhender un nouveau jeu de données, afin de
trouver des pistes pour l’exploiter.
Exemple :
- Comprendre les mécanismes de consommation
dans une grande surface (Retail).
Les problématiques auxquelles répond
le Machine Learning
DESCRIPTION / EXPLORATION
Les problématiques auxquelles répond
le Machine Learning
Objectif : estimer une valeur numérique (CA, coût, nombre de
pannes…) ou la probabilité qu’un événement survienne.
Exemples :
- Prédire la probabilité qu’un équipement tombe en
panne.
- Prédire un délai de livraison.
PREDICTION
Les problématiques auxquelles répond
le Machine Learning
Objectif : Recommander l’action ou le produit le plus pertinent parmi
une liste de possibilités.
Exemples :
- Construire une newsletter personnalisée pour chaque
client.
- Conseiller de vendre un espace publicitaire à un client ou
bien d’attendre une autre demande.
RECOMMANDATION
Objectif : Répartir des individus ou des objets dans des classes ou
catégories. Les individus sont regroupés lorsqu’ils sont similaires.
2 cas :
- Classification supervisée : Le modèle rattache les nouveaux
individus aux catégories déjà existantes.
- Classification non supervisée : On interprète les catégories
après les avoir construites.
Exemples :
● Classer les rapports selon le type d’incident.
● Segmentation clients
Les problématiques auxquelles répond
le Machine Learning
CLASSIFICATION
supervisée / non supervisée
Les phases de R&D suivies par le Data
Scientist
Préparation des données
Exploration des données
Choix / Construction de(s) algorithme(s)
Apprentissage du modèle
Optimisation et validation du modèle final
Résultats
Prédictions /
Recommandations / Classes
De l’apprentissage du modèle à sa mise en prod
Construction
du modèle
Données
disponibles
Modèle
final
Performances du
modèle
(validation)
Rapports,
Notebooks...
Phase application
Modèle
final
Données
courantes Performances du
modèle
(veille)
Phase exploration/ apprentissage
Datalake / Export
Appli / Site
Tableau de bord
Rapports périodiques
Les prémices du projet
Les questions à se poser pour cerner
le besoin
QUOI ? POURQUOI ? QUI ? COMMENT ?
QUOI ?
✓ Quelles sont les données disponibles ?
✓ Sources de ces données ?
✓ Type de données : structurées, textes,
images…
Les questions à se poser pour cerner
le besoin
POURQUOI ?
✓ Objectif :
○ Expliquer (descriptif) ?
○ Prédire (prédictif) ?
○ Classer (descriptif/prédictif) ?
○ Recommander (prescriptif) ?
✓ Quelle erreur faut-il éviter : erreur
totale, faux positifs, faux négatifs ?
Les questions à se poser pour cerner
le besoin
QUI ?
✓ De qui vient le besoin ?
✓ Quels sont mes interlocuteurs (IT &
Métier)
Les questions à se poser pour cerner
le besoin
COMMENT ?
✓ Sous quelle forme doivent être
présentés les résultats ?
✓ Y a t-il déjà eu d’autres projets
similaires réalisés ?
Les questions à se poser pour cerner
le besoin
⇒ Posez-vous les bonnes questions avec nous !
Les bonnes pratiques
Veiller en permanence à la
qualité des données
Données complètes, limpides,
labellisées...
Environnement “bac à sable”
Pour plus de sécurité et de flexibilité
Être toujours capable d’évaluer le
modèle construit
Aussi bien pendant la phase de modélisation,
que pendant la phase d’application.
Dialogue entre IT et produit
Pour intégrer les objectifs et les
contraintes de chacun.
CHECK LIST : avant de commencer un projet
Autorisation
légale
d’utiliser les
données ?
READY ?
OUI
● GDPR : ☑
● Tiers Party : ☑
NON
Nous avons des plans d’action à vous
proposer !
CHECK LIST : avant de commencer un projet
Autorisation
légale
d’utiliser les
données ?
R
OUI
NON
Données
accessibles ?
● Présentes : ☑
● Exploitables : ☑
Nous avons des plans d’action à vous
proposer !
CHECK LIST : avant de commencer un projet
Autorisation
légale
d’utiliser les
données ?
R
NONDonnées
accessibles ?
● Documentées : ☑
● Significatives : ☑Données
compréhensi
bles?
OUI
Nous avons des plans d’action à vous
proposer !
CHECK LIST : avant de commencer un projet
Autorisation
légale
d’utiliser les
données ?
R
Données
accessibles ?
● Objectif Explicite : ☑
● Performances mesurables: ☑
Données
compréhensi
bles?
Problème
clair ?
OUI
NON
Nous avons des plans d’action à vous
proposer !
CHECK LIST : avant de commencer un projet
Autorisation
légale
d’utiliser les
données ?
R
Données
accessibles ?
Données
compréhensi
bles?
Problème
clair ?
Données
Fiables ?
NON
● Données complètes : ☑
● Données cohérentes : ☑
● ...
OUI
GO !
Nous avons des plans
d’action à vous proposer !
Non
START
+ de 100
observations
?
Oui
Attribuer
une classe
?
Nombre de
classes
connu ?
Prédire
une
quantité ?
Données
labellisées
? Recommander
un produit /
une stratégie ?
Explorer
les
données ?
Le modèle
doit être
interprété?
Il faut + de
données Random
Forest
Lasso/
Stepwise
Regression
OLS /
Decision
Tree
Variables à
sélectionner
?
Gradient
Boosting
Données en
très grandes
dimensions ?
Prédiction
Description
Recommandation
Classification
Non Supervisée
Classification Supervisée
Que des
données sur
les produits
à reco ?
KNN
/ méthodes
de voisinage
Que des
données sur les
interactions
users/produits
?
Collaborative
Filtering
(SVD, Markov Chain...)
Méthodes
Hybrides
Les 2 ?
+ de
10 000
observations
?
K-Means
/ Spectral
Clustering
MiniBatch
K-Means
Données
textuelles
?
LSA
(NMF)
+ de
10 000
observations
?
DBSCAN
MeanShift
Données
en très faibles
dimensions ?
CAH
ACP
Chercher
les
tendances
?
Chercher
les
“causes”
?
OLS
+ de 1 million
d’observations
Deep
Learning
Données
textuelles ?
Gaussian
Naive
Bayes
SVM /
Random
Forest
Le modèle
doit être
interprété ?
Régression
Logistique /
Multinomiale
Recommander
une stratégie ?
Markov
Decision
Process
Comment choisir l’algorithme utilisé ?
Le schéma précédent présente les principaux critères qui vont influencer le choix de
l’algorithme utilisé :
● Le type de problématique : prédiction, recommandation, exploration …
● La taille des données.
● Le type de données (numériques ou textuelles, user centric ou item centric)
● La volonté ou non d’interpréter le modèle.
A cela on peut ajouter d’autres critères :
● La simplicité désirée pour le modèle : un modèle avec peu ou beaucoup de paramètres ?
● La présence de connaissances “a priori” sur le contexte étudié.
● La répartition des données, et la présence d’outliers.
● Les algorithmes disponibles dans l’outil utilisé.
● La forme attendue pour le résultat.
● Etc…
Non
START
+ de 100
observations
?
Oui
Attribuer
une classe
?
Nombre de
classes
connu ?
Prédire
une
quantité ?
Données
labellisées
? Recommander
un produit /
une stratégie ?
Explorer
les
données ?
Le modèle
doit être
interprété?
Il faut + de
données Random
Forest
Lasso/
Stepwise
Regression
OLS /
Decision
Tree
Variables à
sélectionner
?
Gradient
Boosting
Données en
très grandes
dimensions ?
Prédiction
Description
Recommandation
Classification
Non Supervisée
Classification Supervisée
Que des
données sur
les produits
à reco ?
KNN
/ méthodes
de voisinage
Que des
données sur les
interactions
users/produits
?
Collaborative
Filtering
(SVD, Markov Chain...)
Méthodes
Hybrides
Les 2 ?
+ de
10 000
observations
?
K-Means
/ Spectral
Clustering
MiniBatch
K-Means
Données
textuelles
?
LSA
(NMF)
+ de
10 000
observations
?
DBSCAN
MeanShift
Données
en très faibles
dimensions ?
CAH
ACP
Chercher
les
tendances
?
Chercher
les
“causes”
?
OLS
+ de 1 million
d’observations
Deep
Learning
Données
textuelles ?
Gaussian
Naive
Bayes
SVM /
Random
Forest
Le modèle
doit être
interprété ?
Régression
Logistique /
Multinomiale
Recommander
une stratégie ?
Markov
Decision
Process
Pour adopter la stratégie Data Science la plus juste, il
faut un peu plus qu’un parcours fléché, aussi riche soit-il.
Nous vous accompagnons dans l’analyse spécifique de
votre contexte :
● La quantité et qualité de vos données,
● La prise en compte de la sensibilité de votre métier,
● La restitution des résultats aux utilisateurs,
● … et bien plus encore ...

Contenu connexe

Tendances

Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
Khanh Maudoux
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data mining
Donia Hammami
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
Lilia Sfaxi
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
hanamettali
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
Amal Abid
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
Mouna Torjmen
 
Apache SPARK ML : principes, concepts et mise en œuvre
Apache SPARK  ML : principes, concepts et  mise en œuvre Apache SPARK  ML : principes, concepts et  mise en œuvre
Apache SPARK ML : principes, concepts et mise en œuvre
MICHRAFY MUSTAFA
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
Minyar Sassi Hidri
 
Installation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidInstallation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abid
Amal Abid
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
Lilia Sfaxi
 
Data mining - Associativité
Data mining - AssociativitéData mining - Associativité
Data mining - Associativité
Mohamed Heny SELMI
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
Alexia Audevart
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning
Niji
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
Jean-Michel Franco
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5
Amal Abid
 
Hive ppt (1)
Hive ppt (1)Hive ppt (1)
Hive ppt (1)
marwa baich
 
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Hatim CHAHDI
 
Une introduction à MapReduce
Une introduction à MapReduceUne introduction à MapReduce
Une introduction à MapReduce
Modern Data Stack France
 
La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce
Nour El Houda Megherbi
 

Tendances (20)

Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data mining
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
 
clustering
clusteringclustering
clustering
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 
Apache SPARK ML : principes, concepts et mise en œuvre
Apache SPARK  ML : principes, concepts et  mise en œuvre Apache SPARK  ML : principes, concepts et  mise en œuvre
Apache SPARK ML : principes, concepts et mise en œuvre
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Installation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidInstallation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abid
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Data mining - Associativité
Data mining - AssociativitéData mining - Associativité
Data mining - Associativité
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5
 
Hive ppt (1)
Hive ppt (1)Hive ppt (1)
Hive ppt (1)
 
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
 
Une introduction à MapReduce
Une introduction à MapReduceUne introduction à MapReduce
Une introduction à MapReduce
 
La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce
 

Similaire à Introduction au Machine Learning

Data Mining
Data MiningData Mining
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
OuailChoukhairi
 
Diginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NETDiginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NET
Julien Chable
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
sarah Benmerzouk
 
Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?
Jeremy Greze
 
#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !
#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !
#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !
Camp de Bases (Webedia Data Services)
 
Parkour3- L’importance de la collecte et de l’analyse de données pour votre e...
Parkour3- L’importance de la collecte et de l’analyse de données pour votre e...Parkour3- L’importance de la collecte et de l’analyse de données pour votre e...
Parkour3- L’importance de la collecte et de l’analyse de données pour votre e...
Parkour3
 
Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire] Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire]
Technologia Formation
 
Web Analytics : L’importance de la collecte et de l’analyse de données pour v...
Web Analytics : L’importance de la collecte et de l’analyse de données pour v...Web Analytics : L’importance de la collecte et de l’analyse de données pour v...
Web Analytics : L’importance de la collecte et de l’analyse de données pour v...
AQT-presentations
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
ORSYS
 
Intelligence artificielle, l'avènement du marketing augmenté
Intelligence artificielle, l'avènement du marketing augmentéIntelligence artificielle, l'avènement du marketing augmenté
Intelligence artificielle, l'avènement du marketing augmenté
Frederic CAVAZZA
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMiner
Majdi Hannachi
 
Big data
Big dataBig data
Conférence big data
Conférence big dataConférence big data
Conférence big data
Stéphane Traumat
 
test
testtest
test
dehbimoad
 
DataMining.pdf
DataMining.pdfDataMining.pdf
DataMining.pdf
CoulibalyYoussoufngo
 
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic  2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
COMPETITIC
 
Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...
Ippon
 
CHAP 1 PRÉSENTATION GENERALE.pdf
CHAP 1 PRÉSENTATION GENERALE.pdfCHAP 1 PRÉSENTATION GENERALE.pdf
CHAP 1 PRÉSENTATION GENERALE.pdf
amine17157
 
Guillaume Morissette - Big Data PME
Guillaume Morissette - Big Data PMEGuillaume Morissette - Big Data PME
Guillaume Morissette - Big Data PME
Web à Québec
 

Similaire à Introduction au Machine Learning (20)

Data Mining
Data MiningData Mining
Data Mining
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
Diginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NETDiginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NET
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
 
Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?
 
#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !
#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !
#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !
 
Parkour3- L’importance de la collecte et de l’analyse de données pour votre e...
Parkour3- L’importance de la collecte et de l’analyse de données pour votre e...Parkour3- L’importance de la collecte et de l’analyse de données pour votre e...
Parkour3- L’importance de la collecte et de l’analyse de données pour votre e...
 
Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire] Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire]
 
Web Analytics : L’importance de la collecte et de l’analyse de données pour v...
Web Analytics : L’importance de la collecte et de l’analyse de données pour v...Web Analytics : L’importance de la collecte et de l’analyse de données pour v...
Web Analytics : L’importance de la collecte et de l’analyse de données pour v...
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
 
Intelligence artificielle, l'avènement du marketing augmenté
Intelligence artificielle, l'avènement du marketing augmentéIntelligence artificielle, l'avènement du marketing augmenté
Intelligence artificielle, l'avènement du marketing augmenté
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMiner
 
Big data
Big dataBig data
Big data
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
 
test
testtest
test
 
DataMining.pdf
DataMining.pdfDataMining.pdf
DataMining.pdf
 
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic  2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
 
Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...
 
CHAP 1 PRÉSENTATION GENERALE.pdf
CHAP 1 PRÉSENTATION GENERALE.pdfCHAP 1 PRÉSENTATION GENERALE.pdf
CHAP 1 PRÉSENTATION GENERALE.pdf
 
Guillaume Morissette - Big Data PME
Guillaume Morissette - Big Data PMEGuillaume Morissette - Big Data PME
Guillaume Morissette - Big Data PME
 

Dernier

Estimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABEEstimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABE
contact Elabe
 
Les Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vagueLes Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vague
contact Elabe
 
Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024
contact Elabe
 
Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?
Institut de l'Elevage - Idele
 
Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024
contact Elabe
 
Webinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptxWebinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptx
Institut de l'Elevage - Idele
 
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
contact Elabe
 
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
contact Elabe
 
Les Français et les élections législatives
Les Français et les élections législativesLes Français et les élections législatives
Les Français et les élections législatives
contact Elabe
 
Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024
contact Elabe
 
Productivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointementProductivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointement
La Fabrique de l'industrie
 

Dernier (11)

Estimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABEEstimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABE
 
Les Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vagueLes Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vague
 
Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024
 
Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?
 
Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024
 
Webinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptxWebinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptx
 
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
 
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
 
Les Français et les élections législatives
Les Français et les élections législativesLes Français et les élections législatives
Les Français et les élections législatives
 
Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024
 
Productivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointementProductivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointement
 

Introduction au Machine Learning

  • 2. Définition du Machine Learning ● Sous domaine de l’intelligence artificielle. ● Vise à “apprendre à une machine à apprendre” : en construisant un algorithme qui va : 1. Analyser des données, 2. Etre capable d’adapter son comportement en fonction des conclusions qu’il en aura tirées. Offre une aide à la décision, dégage une plus value des données rassemblées.
  • 3. Machine Learning, les grands principes Des données massives Une aide à la décision Des algorithmes qui ajustent le modèle À utiliser sur de nouvelles données
  • 4. Machine Learning, les grands principes Des données massives ● Qualitative / Quantitative ● Données structurées / Textes / Images / Son ● 1st Party / 2nd Party / Open Data
  • 5. Machine Learning, les grands principes Une aide à la décision ● Un objectif : Prédiction / Classification / Recommandation ● Des contraintes : Corpus labellisé, données incomplètes, Manque de fiabilité
  • 6. Machine Learning, les grands principes Des algorithmes qui ajustent le modèle ● Familles de méthodes : régression, clustering, arbres, réseaux... ● Itérations pour meilleure estimation ● Possibilité de tester une multitude de combinaison / Hyper Paramétrisation,
  • 7. Machine Learning, les grands principes À utiliser sur de nouvelles données ● Evaluation de la pertinence du moteur ● Surveillance des performances (rapidité, scalabilité) ● Adaptativité : apprentissage en ligne
  • 8. Les problématiques auxquelles répond le Machine Learning DESCRIPTION / EXPLORATION Comprendre mes données PREDICTION Prédire une valeur CLASSIFICATION SUPERVISÉE / NON SUPERVISÉE Répartir les individus dans une ou plusieurs familles RECOMMANDATION Déterminer l’action ou identifier le produit le plus pertinent
  • 9. Objectif : Mieux comprendre les données disponibles, identifier les tendances et les liens qui existent à l’intérieur des données. Permettre de visualiser, et de synthétiser les données. On souhaite appréhender un nouveau jeu de données, afin de trouver des pistes pour l’exploiter. Exemple : - Comprendre les mécanismes de consommation dans une grande surface (Retail). Les problématiques auxquelles répond le Machine Learning DESCRIPTION / EXPLORATION
  • 10. Les problématiques auxquelles répond le Machine Learning Objectif : estimer une valeur numérique (CA, coût, nombre de pannes…) ou la probabilité qu’un événement survienne. Exemples : - Prédire la probabilité qu’un équipement tombe en panne. - Prédire un délai de livraison. PREDICTION
  • 11. Les problématiques auxquelles répond le Machine Learning Objectif : Recommander l’action ou le produit le plus pertinent parmi une liste de possibilités. Exemples : - Construire une newsletter personnalisée pour chaque client. - Conseiller de vendre un espace publicitaire à un client ou bien d’attendre une autre demande. RECOMMANDATION
  • 12. Objectif : Répartir des individus ou des objets dans des classes ou catégories. Les individus sont regroupés lorsqu’ils sont similaires. 2 cas : - Classification supervisée : Le modèle rattache les nouveaux individus aux catégories déjà existantes. - Classification non supervisée : On interprète les catégories après les avoir construites. Exemples : ● Classer les rapports selon le type d’incident. ● Segmentation clients Les problématiques auxquelles répond le Machine Learning CLASSIFICATION supervisée / non supervisée
  • 13. Les phases de R&D suivies par le Data Scientist Préparation des données Exploration des données Choix / Construction de(s) algorithme(s) Apprentissage du modèle Optimisation et validation du modèle final
  • 14. Résultats Prédictions / Recommandations / Classes De l’apprentissage du modèle à sa mise en prod Construction du modèle Données disponibles Modèle final Performances du modèle (validation) Rapports, Notebooks... Phase application Modèle final Données courantes Performances du modèle (veille) Phase exploration/ apprentissage Datalake / Export Appli / Site Tableau de bord Rapports périodiques
  • 16. Les questions à se poser pour cerner le besoin QUOI ? POURQUOI ? QUI ? COMMENT ?
  • 17. QUOI ? ✓ Quelles sont les données disponibles ? ✓ Sources de ces données ? ✓ Type de données : structurées, textes, images… Les questions à se poser pour cerner le besoin
  • 18. POURQUOI ? ✓ Objectif : ○ Expliquer (descriptif) ? ○ Prédire (prédictif) ? ○ Classer (descriptif/prédictif) ? ○ Recommander (prescriptif) ? ✓ Quelle erreur faut-il éviter : erreur totale, faux positifs, faux négatifs ? Les questions à se poser pour cerner le besoin
  • 19. QUI ? ✓ De qui vient le besoin ? ✓ Quels sont mes interlocuteurs (IT & Métier) Les questions à se poser pour cerner le besoin
  • 20. COMMENT ? ✓ Sous quelle forme doivent être présentés les résultats ? ✓ Y a t-il déjà eu d’autres projets similaires réalisés ? Les questions à se poser pour cerner le besoin ⇒ Posez-vous les bonnes questions avec nous !
  • 21. Les bonnes pratiques Veiller en permanence à la qualité des données Données complètes, limpides, labellisées... Environnement “bac à sable” Pour plus de sécurité et de flexibilité Être toujours capable d’évaluer le modèle construit Aussi bien pendant la phase de modélisation, que pendant la phase d’application. Dialogue entre IT et produit Pour intégrer les objectifs et les contraintes de chacun.
  • 22. CHECK LIST : avant de commencer un projet Autorisation légale d’utiliser les données ? READY ? OUI ● GDPR : ☑ ● Tiers Party : ☑ NON Nous avons des plans d’action à vous proposer !
  • 23. CHECK LIST : avant de commencer un projet Autorisation légale d’utiliser les données ? R OUI NON Données accessibles ? ● Présentes : ☑ ● Exploitables : ☑ Nous avons des plans d’action à vous proposer !
  • 24. CHECK LIST : avant de commencer un projet Autorisation légale d’utiliser les données ? R NONDonnées accessibles ? ● Documentées : ☑ ● Significatives : ☑Données compréhensi bles? OUI Nous avons des plans d’action à vous proposer !
  • 25. CHECK LIST : avant de commencer un projet Autorisation légale d’utiliser les données ? R Données accessibles ? ● Objectif Explicite : ☑ ● Performances mesurables: ☑ Données compréhensi bles? Problème clair ? OUI NON Nous avons des plans d’action à vous proposer !
  • 26. CHECK LIST : avant de commencer un projet Autorisation légale d’utiliser les données ? R Données accessibles ? Données compréhensi bles? Problème clair ? Données Fiables ? NON ● Données complètes : ☑ ● Données cohérentes : ☑ ● ... OUI GO ! Nous avons des plans d’action à vous proposer !
  • 27. Non START + de 100 observations ? Oui Attribuer une classe ? Nombre de classes connu ? Prédire une quantité ? Données labellisées ? Recommander un produit / une stratégie ? Explorer les données ? Le modèle doit être interprété? Il faut + de données Random Forest Lasso/ Stepwise Regression OLS / Decision Tree Variables à sélectionner ? Gradient Boosting Données en très grandes dimensions ? Prédiction Description Recommandation Classification Non Supervisée Classification Supervisée Que des données sur les produits à reco ? KNN / méthodes de voisinage Que des données sur les interactions users/produits ? Collaborative Filtering (SVD, Markov Chain...) Méthodes Hybrides Les 2 ? + de 10 000 observations ? K-Means / Spectral Clustering MiniBatch K-Means Données textuelles ? LSA (NMF) + de 10 000 observations ? DBSCAN MeanShift Données en très faibles dimensions ? CAH ACP Chercher les tendances ? Chercher les “causes” ? OLS + de 1 million d’observations Deep Learning Données textuelles ? Gaussian Naive Bayes SVM / Random Forest Le modèle doit être interprété ? Régression Logistique / Multinomiale Recommander une stratégie ? Markov Decision Process
  • 28. Comment choisir l’algorithme utilisé ? Le schéma précédent présente les principaux critères qui vont influencer le choix de l’algorithme utilisé : ● Le type de problématique : prédiction, recommandation, exploration … ● La taille des données. ● Le type de données (numériques ou textuelles, user centric ou item centric) ● La volonté ou non d’interpréter le modèle. A cela on peut ajouter d’autres critères : ● La simplicité désirée pour le modèle : un modèle avec peu ou beaucoup de paramètres ? ● La présence de connaissances “a priori” sur le contexte étudié. ● La répartition des données, et la présence d’outliers. ● Les algorithmes disponibles dans l’outil utilisé. ● La forme attendue pour le résultat. ● Etc…
  • 29. Non START + de 100 observations ? Oui Attribuer une classe ? Nombre de classes connu ? Prédire une quantité ? Données labellisées ? Recommander un produit / une stratégie ? Explorer les données ? Le modèle doit être interprété? Il faut + de données Random Forest Lasso/ Stepwise Regression OLS / Decision Tree Variables à sélectionner ? Gradient Boosting Données en très grandes dimensions ? Prédiction Description Recommandation Classification Non Supervisée Classification Supervisée Que des données sur les produits à reco ? KNN / méthodes de voisinage Que des données sur les interactions users/produits ? Collaborative Filtering (SVD, Markov Chain...) Méthodes Hybrides Les 2 ? + de 10 000 observations ? K-Means / Spectral Clustering MiniBatch K-Means Données textuelles ? LSA (NMF) + de 10 000 observations ? DBSCAN MeanShift Données en très faibles dimensions ? CAH ACP Chercher les tendances ? Chercher les “causes” ? OLS + de 1 million d’observations Deep Learning Données textuelles ? Gaussian Naive Bayes SVM / Random Forest Le modèle doit être interprété ? Régression Logistique / Multinomiale Recommander une stratégie ? Markov Decision Process Pour adopter la stratégie Data Science la plus juste, il faut un peu plus qu’un parcours fléché, aussi riche soit-il. Nous vous accompagnons dans l’analyse spécifique de votre contexte : ● La quantité et qualité de vos données, ● La prise en compte de la sensibilité de votre métier, ● La restitution des résultats aux utilisateurs, ● … et bien plus encore ...