SlideShare une entreprise Scribd logo
1  sur  16
Télécharger pour lire hors ligne
Définir et Optimiser ses hypothèses
avec le Machine Learning
Jean-Baptiste	Priez
Ph.D,	Data	Scientist
Chloé,	actuaire,	ne	prévoit	pas	votre	mort,	mais	presque
Rue89,	01	mai	2016
Rémi	Noyon	(Journaliste)
Nouvelles données?
commons.wikimedia.org
Comment choisir les données?
commons.wikimedia.org
IMOP	by	I-MEDS
Comment choisir les données?
On se pose autour d’une table et on réfléchit ?
On essaye les tables et leurs variables une par une ?
• Laissons la machine réfléchir…
• Extraction d’agrégats
• Sélection des variables corrélées
Générations d’agrégats - Définition
Une fonction d’agrégation retourne une seule valeur à partir
d’un ensemble de valeurs.
Exemple:
• La somme des dépenses annuelle médicamenteuses (OCDE)
• Le nombre d’accidents mensuel en Ile-de-France (DRIEA)
• La date de la dernière catastrophe naturelle (AREHN)
• …
Générations d’agrégats - Limites
• Le nombre de décès par département
• par overdose
• chez les femmes
• en surpoids
• ayant au moins 4 enfants
• avant la sortie de Pokémon GO
• Est-ce	pertinent?	
• NON!	(…	peut	probable	…	)
Génération d’agrégats – Bonnes pratiques
• Générer	automatiquement
• Évaluer	et	Trier	ensuite	(automatiquement	aussi)
• Commencer	par	des	agrégats	simples!	puis	essayer	plus	complexes…
Comment générer des agrégats?
Algorithmes et outils:
• 1BC/1BC2 (Lachiche & co - https://clowdflows.unistra.fr/)
• Uniquement pour les variables numériques
• Relaggs (Krogel & Wrobel – http://weka.sourceforge.net)
• Tendance à générer des variables complexes…
• Tilde (https://dtai.cs.kuleuven.be/ACE/)
• Uniquement universitaire et complexe à paramétrer…
• PredicSis.ai (Boullé – http://predicsis.ai)
• Variables numériques ou catégorielles
• Priorisation et valorisation des agrégats simples
Comment évaluer les données?
• Réduction statistique /
Discrétiser
• Sélection des variables
contributives
Vulgarisation : Discrétisation
:	ensemble	de	cibles	(ex:								malade,								sain)
Discrétiser:	chercher	à	trouver	le	meilleur	découpage
Méthodes de réductions (old fashion)
Discrétisation par:
• Équidistance
• Problème si distribution asymétrique
• Progression arithmétique
• Problème si distribution non-asymétrique (selon loi normale)
• Équifréquence
• Masque rapidement de fortes discontinuités
• …
• Manuelle
• « Idéale » mais chronophage
Méthodes de réductions (moderne)
Discrétisation par:
• ChiMerge (R, SAS)
• Favorise l’aspect statistique (quantité suffisante)
• C4.5 (…)
• Favorise la qualité informationnelle (intervalles homogènes)
• Fusinter (Zighed & co - Sinipa)
• MDL-disc / MDLP (Fayyad & Irani, Pfahringer - Spark)
• MODL / PredicSis.ai (Boullé – http://predicsis.ai)
• Meilleur compromis basé sur la théorie de l’information
Vulgarisation : MODL
:	ensemble	de	cibles	(ex:								malade,								sain)
I:		𝑖" 𝑖# 𝑖$ 𝑖% 𝑖& 𝑖' 𝑖(
n
Discrétiser	avec	MODL	=	Minimiser	la	formule	suivante:
𝑉𝑎𝑙𝑢𝑒 𝐷 = log 𝑛 + log 5678"
78"
+	∑ log 5;6<8"
<8"
7
=>" +	∑ log 5;!
5;,A!5;,B!	…5;,D!E7
=>"
contribution	statistiquecontribution	informationnelle
Conclusion
Références
• M.	Boullé. Towards Automatic Feature Construction	for	Supervised
Classification.	In ECML/PKDD	2014,	Pages	181-196,	2014.
• M.	Boullé. MODL:	a	Bayes	optimal	discretization method for	
continuous attributes. Machine	Learning,	65(1):131-165,	2006.
• M.	Boullé. A	Bayes	optimal	approach for	partitioning the	values	of	
categorical attributes. Journal	of	Machine	Learning	Research,	6:1431-
1452,	2005.

Contenu connexe

Similaire à Comment définir et optimiser ses hypothèses en utilisant le machine learning

Marketing et Big Data
Marketing et Big DataMarketing et Big Data
Marketing et Big DataJeremy Greze
 
(6 cycle amélqté [récupéré])
(6 cycle amélqté [récupéré])(6 cycle amélqté [récupéré])
(6 cycle amélqté [récupéré])elmahoti
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdfOuailChoukhairi
 
algorithme genetique et ingenerie genetique
algorithme genetique et ingenerie genetiquealgorithme genetique et ingenerie genetique
algorithme genetique et ingenerie genetiquekhmanal49
 
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...ENSET, Université Hassan II Casablanca
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeJean Roger Mably
 
Methodologie Validite et Fiabilite
Methodologie Validite et FiabiliteMethodologie Validite et Fiabilite
Methodologie Validite et FiabiliteRémi Bachelet
 
Six sigma & Big data
Six sigma & Big dataSix sigma & Big data
Six sigma & Big dataXL Groupe
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data MiningTakfarinas KENOUCHE
 
Ch8 - maîtrise statistique des procédés (MSP)
Ch8 - maîtrise statistique des procédés (MSP)Ch8 - maîtrise statistique des procédés (MSP)
Ch8 - maîtrise statistique des procédés (MSP)TesoroHon
 
La méthode DMAIC et ses secrets
La méthode DMAIC et ses secretsLa méthode DMAIC et ses secrets
La méthode DMAIC et ses secretsXL Groupe
 
Introduction Azure machine learning
Introduction Azure machine learningIntroduction Azure machine learning
Introduction Azure machine learningsana khiari
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning Novagen Conseil
 
Cours Qualité partie 4.pdfyyyy6yyyyyy6yyyyyy6
Cours Qualité partie 4.pdfyyyy6yyyyyy6yyyyyy6Cours Qualité partie 4.pdfyyyy6yyyyyy6yyyyyy6
Cours Qualité partie 4.pdfyyyy6yyyyyy6yyyyyy6montasserjawadi2
 

Similaire à Comment définir et optimiser ses hypothèses en utilisant le machine learning (20)

5. Data science
5. Data science5. Data science
5. Data science
 
Marketing et Big Data
Marketing et Big DataMarketing et Big Data
Marketing et Big Data
 
(6 cycle amélqté [récupéré])
(6 cycle amélqté [récupéré])(6 cycle amélqté [récupéré])
(6 cycle amélqté [récupéré])
 
DataMining.pdf
DataMining.pdfDataMining.pdf
DataMining.pdf
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
algorithme genetique et ingenerie genetique
algorithme genetique et ingenerie genetiquealgorithme genetique et ingenerie genetique
algorithme genetique et ingenerie genetique
 
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
test
testtest
test
 
Methodologie Validite et Fiabilite
Methodologie Validite et FiabiliteMethodologie Validite et Fiabilite
Methodologie Validite et Fiabilite
 
Six sigma & Big data
Six sigma & Big dataSix sigma & Big data
Six sigma & Big data
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
Ch8 - maîtrise statistique des procédés (MSP)
Ch8 - maîtrise statistique des procédés (MSP)Ch8 - maîtrise statistique des procédés (MSP)
Ch8 - maîtrise statistique des procédés (MSP)
 
Big data et santé : enjeux techniques
Big data et santé : enjeux techniquesBig data et santé : enjeux techniques
Big data et santé : enjeux techniques
 
La méthode DMAIC et ses secrets
La méthode DMAIC et ses secretsLa méthode DMAIC et ses secrets
La méthode DMAIC et ses secrets
 
Data Mining
Data MiningData Mining
Data Mining
 
Introduction Azure machine learning
Introduction Azure machine learningIntroduction Azure machine learning
Introduction Azure machine learning
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
Cours Qualité partie 4.pdfyyyy6yyyyyy6yyyyyy6
Cours Qualité partie 4.pdfyyyy6yyyyyy6yyyyyy6Cours Qualité partie 4.pdfyyyy6yyyyyy6yyyyyy6
Cours Qualité partie 4.pdfyyyy6yyyyyy6yyyyyy6
 

Comment définir et optimiser ses hypothèses en utilisant le machine learning

  • 1. Définir et Optimiser ses hypothèses avec le Machine Learning Jean-Baptiste Priez Ph.D, Data Scientist
  • 4. Comment choisir les données? commons.wikimedia.org IMOP by I-MEDS
  • 5. Comment choisir les données? On se pose autour d’une table et on réfléchit ? On essaye les tables et leurs variables une par une ? • Laissons la machine réfléchir… • Extraction d’agrégats • Sélection des variables corrélées
  • 6. Générations d’agrégats - Définition Une fonction d’agrégation retourne une seule valeur à partir d’un ensemble de valeurs. Exemple: • La somme des dépenses annuelle médicamenteuses (OCDE) • Le nombre d’accidents mensuel en Ile-de-France (DRIEA) • La date de la dernière catastrophe naturelle (AREHN) • …
  • 7. Générations d’agrégats - Limites • Le nombre de décès par département • par overdose • chez les femmes • en surpoids • ayant au moins 4 enfants • avant la sortie de Pokémon GO • Est-ce pertinent? • NON! (… peut probable … )
  • 8. Génération d’agrégats – Bonnes pratiques • Générer automatiquement • Évaluer et Trier ensuite (automatiquement aussi) • Commencer par des agrégats simples! puis essayer plus complexes…
  • 9. Comment générer des agrégats? Algorithmes et outils: • 1BC/1BC2 (Lachiche & co - https://clowdflows.unistra.fr/) • Uniquement pour les variables numériques • Relaggs (Krogel & Wrobel – http://weka.sourceforge.net) • Tendance à générer des variables complexes… • Tilde (https://dtai.cs.kuleuven.be/ACE/) • Uniquement universitaire et complexe à paramétrer… • PredicSis.ai (Boullé – http://predicsis.ai) • Variables numériques ou catégorielles • Priorisation et valorisation des agrégats simples
  • 10. Comment évaluer les données? • Réduction statistique / Discrétiser • Sélection des variables contributives
  • 12. Méthodes de réductions (old fashion) Discrétisation par: • Équidistance • Problème si distribution asymétrique • Progression arithmétique • Problème si distribution non-asymétrique (selon loi normale) • Équifréquence • Masque rapidement de fortes discontinuités • … • Manuelle • « Idéale » mais chronophage
  • 13. Méthodes de réductions (moderne) Discrétisation par: • ChiMerge (R, SAS) • Favorise l’aspect statistique (quantité suffisante) • C4.5 (…) • Favorise la qualité informationnelle (intervalles homogènes) • Fusinter (Zighed & co - Sinipa) • MDL-disc / MDLP (Fayyad & Irani, Pfahringer - Spark) • MODL / PredicSis.ai (Boullé – http://predicsis.ai) • Meilleur compromis basé sur la théorie de l’information
  • 14. Vulgarisation : MODL : ensemble de cibles (ex: malade, sain) I: 𝑖" 𝑖# 𝑖$ 𝑖% 𝑖& 𝑖' 𝑖( n Discrétiser avec MODL = Minimiser la formule suivante: 𝑉𝑎𝑙𝑢𝑒 𝐷 = log 𝑛 + log 5678" 78" + ∑ log 5;6<8" <8" 7 =>" + ∑ log 5;! 5;,A!5;,B! …5;,D!E7 =>" contribution statistiquecontribution informationnelle
  • 16. Références • M. Boullé. Towards Automatic Feature Construction for Supervised Classification. In ECML/PKDD 2014, Pages 181-196, 2014. • M. Boullé. MODL: a Bayes optimal discretization method for continuous attributes. Machine Learning, 65(1):131-165, 2006. • M. Boullé. A Bayes optimal approach for partitioning the values of categorical attributes. Journal of Machine Learning Research, 6:1431- 1452, 2005.