Mix it2014 - Machine Learning et Régulation Numérique

Machine Learning &
Régulation Numérique
Didier Girard / Guillaume Laforge

2011 rank Company 2009 2010 2011
1 Netflix 0.0 % 0.5 % 44.0 %
2 Apple 71.5 % 60.8 % 32.3 %
3 Microsoft 11.2 % 16.7 % 7.6 %
4 Vudu (Walmart) 0.5 % 2.7 % 4.2 %
5 Sony 5.4 % 6.8 % 2.4 %
Others 11.4 % 12.6 % 9.5 %
Total 89 % 87 % 90 %
“Voici mon catalogue” vs “J’ai une video pour vous.”

Toutes les données,
tu récolteras
#MixIT14

Définition
Une branche de l’intelligence
artificielle qui s’occupe de la
construction et l’étude de systèmes
quiapprennentàpartirdedonnées

Le parallèle de l’accordeur de piano
Data
Accordeur
Modèle

Les grandes familles
Supervisé vs non-supervisé

Supervisé
Régression, classification...

Régression
http://en.wikipedia.org/wiki/Regression_analysis
Un modèle de regression relie Y à une fonction de X et ß
Son Touches Accordeur

Régression linéaire
http://en.wikipedia.org/wiki/Linear_regression

ATTENTION
corrélation
≠ causalité
:-)

Ta fonction de coût,
tu minimiseras
#MixIT14

Régression — ordre premier
?

Régression — ordre second
?

Classification
La classification est le problème
d'identifier à quel ensemble de
catégories (sous-population) une
nouvelle observation correspond
http://en.wikipedia.org/wiki/Statistical_classification

Non-supervisé
Clusterisation, séparation de sources...

Séparation de sources
Source 1
Source 2

Source 1
Source 2
Observation

Source 1
Source 2
Observation
Source séparée 1
Source séparée 2

Tes données,
tu visualiseras
#MixIT14

N’apprends pas
ce que tu sais déjà
#MixIT14

Ne pas apprendre ce que l’on sait

Tes données, tu
segmenteras
#MixIT14

Segmenter
Problème :
● Je vous donne la latitude et la
longitude
● Vous devez coder un systeme
qui me donne l’altitude
1. un modèle pour toute la France ?
2. un modèle par type de relief ?
3. un modèle par région ?

Tes données, tu
pré-traiteras
#MixIT14

Exemple : Face Recognition
http://bitsearch.blogspot.com/2013/02/unsupervised-face-clustering-with-opencv.html

Que faire des données manquantes ?
● Supprimer la dimension ?
● Signaler au système apprenant ?

Données aberrantes
● Erreur d’
observation ?
● Cas exceptionnel ?

Ton algorithme,
tu choisiras
#MixIT14

Support Vector Machine
Wikipedia

De l’intuition,
tu auras
#MixIT14

https://www.flickr.com/photos/hills_alive/3368257480/
Comment
caractériser l’
intuition ?
Chasse aux
champignons ?

Sélectionner les bonnes variables

Sélectionner les bonnes variables
Consommation
● jour de la semaine
● vacances scolaires
● jours fériés
● température
Reconnaissance d’image
● histogramme de
couleur

Ton système,
tu entraineras
#MixIT14

Apprendre et généraliser
Apprentissage : 60% Généralisation : 40%

Par coeur, tu n’
apprendras pas
#MixIT14

Régression — ordre supérieur ?
?

Capacité d’apprentissage d’un système
Capacité d’apprentissage
Complexité
des systèmes
modélisables
Risque de sur-
apprentissage

Pour aller plus loin : VC-Dimension
Trois choses entrent en jeu :
● taille de l’échantillon
● nombre de paramètres d’ajustement du
modèle
● nombre de dimensions de l’espace d’entrée

Intuition : capacité de généralisation
#MixIT14

Ton modèle,
tu valideras
#MixIT14

Apprendre, Généraliser et Valider
Apprentissage : 60% Généralisation : 20% Validation : 20%

Ton modèle,
tu exécuteras
#MixIT14

A un moment ou un autre… il faut se lancer !

Les recettes de tonton Moïse pour le ML
1. Enregistrez toutes les données que vous pourrez
2. Observez et visualisez vos données
3. Segmentez vos données
4. Pré-traitez et normalisez vos données
5. Choisissez bien votre algorithme
6. Entrainez votre système
7. Validez votre système
8. Et… exécutez !

Quelques outils
● R
http://www.r-project.org/
● Octave
https://www.gnu.org/software/octave/
● SciKit Learn
http://scikit-learn.org/
● Apache Mahout
https://mahout.apache.org/
● Weka
http://www.cs.waikato.ac.nz/ml/weka/
● Google Prediction
https://developers.google.com/prediction
● Prediction.IO
http://prediction.io/
● MADlib
http://madlib.net/

Conclusion
Machine Learning et Régulation Numérique

Le Data Scientist de demain est le Physicien Nucléaire d’hier

BIG DATA IS SCORING YOU
#MixIT14

http://money.cnn.com/2014/04/02/pf/consumer-scores/index.html
Consumer
profitability
score
Churn score
Job security
score
Medication
adherence
score
Fraud scoreCustomer
score
Law
enforcement
score

On ne peut pas arrêter la machine...

Apprendre et comprendre comment marche le Machine Learning

Etre au coeur du système, pour le réguler

Les gens éduqués sont les garde-fous des dérives du Machine Learning
#MixIT14

Le monde est entre vos mains ! A vous de jouer !

@didiergirard @glaforge
Merci

@didiergirard @glaforge
Questions —
réponses

Mix it2014 - Machine Learning et Régulation Numérique

Contenu connexe

En vedette

Similaire à Mix it2014 - Machine Learning et Régulation Numérique

Plus de Didier Girard

Mix it2014 - Machine Learning et Régulation Numérique