5. Comment choisir les données?
On se pose autour d’une table et on réfléchit ?
On essaye les tables et leurs variables une par une ?
• Laissons la machine réfléchir…
• Extraction d’agrégats
• Sélection des variables corrélées
6. Générations d’agrégats - Définition
Une fonction d’agrégation retourne une seule valeur à partir
d’un ensemble de valeurs.
Exemple:
• La somme des dépenses annuelle médicamenteuses (OCDE)
• Le nombre d’accidents mensuel en Ile-de-France (DRIEA)
• La date de la dernière catastrophe naturelle (AREHN)
• …
7. Générations d’agrégats - Limites
• Le nombre de décès par département
• par overdose
• chez les femmes
• en surpoids
• ayant au moins 4 enfants
• avant la sortie de Pokémon GO
• Est-ce pertinent?
• NON! (… peut probable … )
8. Génération d’agrégats – Bonnes pratiques
• Générer automatiquement
• Évaluer et Trier ensuite (automatiquement aussi)
• Commencer par des agrégats simples! puis essayer plus complexes…
9. Comment générer des agrégats?
Algorithmes et outils:
• 1BC/1BC2 (Lachiche & co - https://clowdflows.unistra.fr/)
• Uniquement pour les variables numériques
• Relaggs (Krogel & Wrobel – http://weka.sourceforge.net)
• Tendance à générer des variables complexes…
• Tilde (https://dtai.cs.kuleuven.be/ACE/)
• Uniquement universitaire et complexe à paramétrer…
• PredicSis.ai (Boullé – http://predicsis.ai)
• Variables numériques ou catégorielles
• Priorisation et valorisation des agrégats simples
10. Comment évaluer les données?
• Réduction statistique /
Discrétiser
• Sélection des variables
contributives
16. Références
• M. Boullé. Towards Automatic Feature Construction for Supervised
Classification. In ECML/PKDD 2014, Pages 181-196, 2014.
• M. Boullé. MODL: a Bayes optimal discretization method for
continuous attributes. Machine Learning, 65(1):131-165, 2006.
• M. Boullé. A Bayes optimal approach for partitioning the values of
categorical attributes. Journal of Machine Learning Research, 6:1431-
1452, 2005.