Machine Learning &
Régulation Numérique
Didier Girard / Guillaume Laforge
SPAM
RECOMMENDATIONS
2011 rank Company 2009 2010 2011
1 Netflix 0.0 % 0.5 % 44.0 %
2 Apple 71.5 % 60.8 % 32.3 %
3 Microsoft 11.2 % 16.7 % 7.6 %
4 Vudu (Walmart) 0.5 % 2.7 % 4.2 %
5 Sony 5.4 % 6.8 % 2.4 %
Others 11.4 % 12.6 % 9.5 %
Total 89 % 87 % 90 %
“Voici mon catalogue” vs “J’ai une video pour vous.”
Yup, NSA
does!
Toutes les données,
tu récolteras
#MixIT14
data
machine
learning
Définition
Définition
Une branche de l’intelligence
artificielle qui s’occupe de la
construction et l’étude de systèmes
quiapprennentàpartirdedonnées
Le parallèle de l’accordeur de piano
Data
Accordeur
Modèle
Les grandes familles
Supervisé vs non-supervisé
Supervisé
Régression, classification...
Régression
http://en.wikipedia.org/wiki/Regression_analysis
Un modèle de regression relie Y à une fonction de X et ß
Son Touches Accordeur
Régression linéaire
http://en.wikipedia.org/wiki/Linear_regression
Régression linéaire
Régression linéaire
Régression linéaire
Régression linéaire
Régression linéaire
ATTENTION
corrélation
≠ causalité
:-)
Ta fonction de coût,
tu minimiseras
#MixIT14
Fonction de coût
Régression
Régression — ordre premier
Régression — ordre premier
?
Régression — ordre second
Régression — ordre second
?
Classification
La classification est le problème
d'identifier à quel ensemble de
catégories (sous-population) une
nouvelle observation correspond
http://en.wikipedia.org/wiki/Statistical_classification
Classification
Classification
Non-supervisé
Clusterisation, séparation de sources...
Clusterisation
Clusterisation
Clusterisation
Séparation de sources
Source 1
Source 2
Séparation de sources
Source 1
Source 2
Observation
Séparation de sources
Source 1
Source 2
Observation
Source séparée 1
Source séparée 2
Tes données,
tu visualiseras
#MixIT14
Visualiser
N’apprends pas
ce que tu sais déjà
#MixIT14
Ne pas apprendre ce que l’on sait
Ne pas apprendre ce que l’on sait
Ne pas apprendre ce que l’on sait
Ne pas apprendre ce que l’on sait
Tes données, tu
segmenteras
#MixIT14
Segmenter
Problème :
● Je vous donne la latitude et la
longitude
● Vous devez coder un systeme
qui me donne l’altitude
1. un modèle pour toute la France ?
2. un modèle par type de relief ?
3. un modèle par région ?
Segmenter
Segmenter
Tes données, tu
pré-traiteras
#MixIT14
Exemple : Normaliser/Centrer
Exemple : Face Recognition
http://bitsearch.blogspot.com/2013/02/unsupervised-face-clustering-with-opencv.html
Que faire des données manquantes ?
● Supprimer la dimension ?
● Signaler au système apprenant ?
Données aberrantes
● Erreur d’
observation ?
● Cas exceptionnel ?
Ton algorithme,
tu choisiras
#MixIT14
k-nearest neighbors
Wikipedia
Support Vector Machine
Wikipedia
Random tree forest
Neural Networks
Wikipedia
De l’intuition,
tu auras
#MixIT14
https://www.flickr.com/photos/hills_alive/3368257480/
Comment
caractériser l’
intuition ?
Chasse aux
champignons ?
Sélectionner les bonnes variables
Sélectionner les bonnes variables
Consommation
● jour de la semaine
● vacances scolaires
● jours fériés
● température
Reconnaissance d’image
● histogramme de
couleur
Ton système,
tu entraineras
#MixIT14
Apprendre et généraliser
Apprentissage : 60% Généralisation : 40%
Par coeur, tu n’
apprendras pas
#MixIT14
Régression — ordre supérieur ?
?
Capacité d’apprentissage d’un système
Capacité d’apprentissage
Complexité
des systèmes
modélisables
Risque de sur-
apprentissage
Pour aller plus loin : VC-Dimension
Trois choses entrent en jeu :
● taille de l’échantillon
● nombre de paramètres d’ajustement du
modèle
● nombre de dimensions de l’espace d’entrée
Intuition : capacité de généralisation
#MixIT14
Ton modèle,
tu valideras
#MixIT14
Apprendre, Généraliser et Valider
Apprentissage : 60% Généralisation : 20% Validation : 20%
Ton modèle,
tu exécuteras
#MixIT14
A un moment ou un autre… il faut se lancer !
Les recettes de tonton Moïse pour le ML
1. Enregistrez toutes les données que vous pourrez
2. Observez et visualisez vos données
3. Segmentez vos données
4. Pré-traitez et normalisez vos données
5. Choisissez bien votre algorithme
6. Entrainez votre système
7. Validez votre système
8. Et… exécutez !
Quelques outils
● R
http://www.r-project.org/
● Octave
https://www.gnu.org/software/octave/
● SciKit Learn
http://scikit-learn.org/
● Apache Mahout
https://mahout.apache.org/
● Weka
http://www.cs.waikato.ac.nz/ml/weka/
● Google Prediction
https://developers.google.com/prediction
● Prediction.IO
http://prediction.io/
● MADlib
http://madlib.net/
Conclusion
Machine Learning et Régulation Numérique
Le Data Scientist de demain est le Physicien Nucléaire d’hier
BIG DATA IS SCORING YOU
#MixIT14
http://money.cnn.com/2014/04/02/pf/consumer-scores/index.html
Consumer
profitability
score
Churn score
Job security
score
Medication
adherence
score
Fraud scoreCustomer
score
Law
enforcement
score
On ne peut pas arrêter la machine...
Apprendre et comprendre comment marche le Machine Learning
Etre au coeur du système, pour le réguler
Les gens éduqués sont les garde-fous des dérives du Machine Learning
#MixIT14
Le monde est entre vos mains ! A vous de jouer !
Didier Girard / Guillaume Laforge
@didiergirard @glaforge
Merci
Didier Girard / Guillaume Laforge
@didiergirard @glaforge
Questions —
réponses

Mix it2014 - Machine Learning et Régulation Numérique