Comment définir et optimiser ses hypothèses en utilisant le machine learning

Définir et Optimiser ses hypothèses
avec le Machine Learning
Jean-Baptiste Priez
Ph.D, Data Scientist

Chloé, actuaire, ne prévoit pas votre mort, mais presque
Rue89, 01 mai 2016
Rémi Noyon (Journaliste)

Nouvelles données?
commons.wikimedia.org

Comment choisir les données?
commons.wikimedia.org
IMOP by I-MEDS

Comment choisir les données?
On se pose autour d’une table et on réfléchit ?
On essaye les tables et leurs variables une par une ?
• Laissons la machine réfléchir…
• Extraction d’agrégats
• Sélection des variables corrélées

Générations d’agrégats - Définition
Une fonction d’agrégation retourne une seule valeur à partir
d’un ensemble de valeurs.
Exemple:
• La somme des dépenses annuelle médicamenteuses (OCDE)
• Le nombre d’accidents mensuel en Ile-de-France (DRIEA)
• La date de la dernière catastrophe naturelle (AREHN)
• …

Générations d’agrégats - Limites
• Le nombre de décès par département
• par overdose
• chez les femmes
• en surpoids
• ayant au moins 4 enfants
• avant la sortie de Pokémon GO
• Est-ce pertinent?
• NON! (… peut probable … )

Génération d’agrégats – Bonnes pratiques
• Générer automatiquement
• Évaluer et Trier ensuite (automatiquement aussi)
• Commencer par des agrégats simples! puis essayer plus complexes…

Comment générer des agrégats?
Algorithmes et outils:
• 1BC/1BC2 (Lachiche & co - https://clowdflows.unistra.fr/)
• Uniquement pour les variables numériques
• Relaggs (Krogel & Wrobel – http://weka.sourceforge.net)
• Tendance à générer des variables complexes…
• Tilde (https://dtai.cs.kuleuven.be/ACE/)
• Uniquement universitaire et complexe à paramétrer…
• PredicSis.ai (Boullé – http://predicsis.ai)
• Variables numériques ou catégorielles
• Priorisation et valorisation des agrégats simples

Comment évaluer les données?
• Réduction statistique /
Discrétiser
• Sélection des variables
contributives

Vulgarisation : Discrétisation
: ensemble de cibles (ex: malade, sain)
Discrétiser: chercher à trouver le meilleur découpage

Méthodes de réductions (old fashion)
Discrétisation par:
• Équidistance
• Problème si distribution asymétrique
• Progression arithmétique
• Problème si distribution non-asymétrique (selon loi normale)
• Équifréquence
• Masque rapidement de fortes discontinuités
• …
• Manuelle
• « Idéale » mais chronophage

Méthodes de réductions (moderne)
Discrétisation par:
• ChiMerge (R, SAS)
• Favorise l’aspect statistique (quantité suffisante)
• C4.5 (…)
• Favorise la qualité informationnelle (intervalles homogènes)
• Fusinter (Zighed & co - Sinipa)
• MDL-disc / MDLP (Fayyad & Irani, Pfahringer - Spark)
• MODL / PredicSis.ai (Boullé – http://predicsis.ai)
• Meilleur compromis basé sur la théorie de l’information

Vulgarisation : MODL
: ensemble de cibles (ex: malade, sain)
I: 𝑖" 𝑖# 𝑖$ 𝑖% 𝑖& 𝑖' 𝑖(
n
Discrétiser avec MODL = Minimiser la formule suivante:
𝑉𝑎𝑙𝑢𝑒 𝐷 = log 𝑛 + log 5678"
78"
+ ∑ log 5;6<8"
<8"
7
=>" + ∑ log 5;!
5;,A!5;,B! …5;,D!E7
=>"
contribution statistiquecontribution informationnelle

Références
• M. Boullé. Towards Automatic Feature Construction for Supervised
Classification. In ECML/PKDD 2014, Pages 181-196, 2014.
• M. Boullé. MODL: a Bayes optimal discretization method for
continuous attributes. Machine Learning, 65(1):131-165, 2006.
• M. Boullé. A Bayes optimal approach for partitioning the values of
categorical attributes. Journal of Machine Learning Research, 6:1431-
1452, 2005.

Comment définir et optimiser ses hypothèses en utilisant le machine learning

Recommandé

Recommandé

Contenu connexe

Similaire à Comment définir et optimiser ses hypothèses en utilisant le machine learning

Similaire à Comment définir et optimiser ses hypothèses en utilisant le machine learning (20)

Comment définir et optimiser ses hypothèses en utilisant le machine learning