CHAPITRE 0
MACHINE LEARNING
OVERVIEW MATHS
Copyright Franck Bardol 2016 2
CV
Franck	Bardol	
+33	6	24	30	92	59	
bardolfranck@gmail.com	
@bardolfranck	
		
	
	
¡  Consu...
¡  Fondements
“We are living the age of information and entering the age of
recommendation”
The Long tail - Chris Anderson...
¡  Fondements
§  “The web is leaving the era of search and entering one of discovery”
§  “Race to create a smart GOOGLE” –...
Copyright Franck Bardol 2016 5
FROM SEARCH TO DISCOVERY
“you may
also like” “people
you may
know”
“people
to
follow”
reco ...
80%
watch
via
RECO
¡  Quels sont les secteurs qui l’utilisent ?
§  Sites de streaming video
§  Sites marchands
§  Opérateu...
¡  Apprentissage
Définition : Modification du comportement par l’expérience
¡  Machine learning
définition : Programmes ex...
¡ Apprendre ?
comment ?
par l’exemple !!
les couleurs
Copyright Franck Bardol 2016 8
QU’EST-CE QUE C’EST ?
Copyright Franck Bardol 2016 9
QU’EST-CE QUE C’EST ?
Apprendre Généraliser
quoi ?
un concept
quand ?
sur nouvelles
données...
Copyright Franck Bardol 2016 10
COMMENT ÇA FONCTIONNE ?
Intuition
Hypothèses
Connaissances
Modèle /
programme Données
Donn...
COMMENT ÇA FONCTIONNE ?
DESCRIPTEURS / FEATURES
nb_appel duree_
min
appel
internation
age categorie
_socio
type_
forfait
3...
GENERALIZATION VS. OVERFITTING
MEMORIZING VS. LEARNING
généraliser
Apprendre Généraliser
données d’apprentissage
STRUCTURE...
Supervisé = exemples étiquettés
ü Régression
prédire des chiffres continus
ü Classification
prédire des étiquettes / class...
Supervisé = exemples étiquettés
ü Régression
prédire des chiffres continus
ü Classification
prédire des étiquettes / class...
Non supervisé = pas d’étiquettes
ü Clustering
trouver des familles naturelles
ü Moteur de recommandation
Introduire de la ...
Non supervisé = exemples non étiquettés
ü Clustering – anomaly detection – recommender system
§  Comprendre, explorer, sim...
Copyright Franck Bardol 2016 17
EXEMPLES
web log
text
text langue ?
EEG
web
log
who ?
epilepsy ?
bot?
gender ?
churn?
CRIM...
¡  Règles écrites “à la main” èapproche peu performante
¡  Pas de règles / absence d’expertise humaine
§  bio informatique...
Automatic questions – answering
Requirement :
ü never seen these words before
ü comprehension
ü time element (« before », ...
Copyright Franck Bardol 2016 20
EXEMPLES
HEP@LHC-CERN
boson?
100 million events / sec
CA +30%
buy ?
hire?
sign ?
success ?...
Copyright Franck Bardol 2016 21
DATA
Scrapping = extract info
from web sites
opendata.cern.ch
data.gov
data.gouv.fr
www = ...
Copyright Franck Bardol 2016 22
DATA, BECAUSE …
A
C
C
U
R
A
C
Y
DATA
Copyright Franck Bardol 2016 23
DATA, BECAUSE …
P
E
R
F
DATA
MORE
DATA !
¡  Pourquoi ?
Copyright Franck Bardol 2016 24
BUT ….
BE CAREFUL
¡  De quoi parle-t-on ?
Copyright Franck Bardol 2016 25
BEWARE OF THE DIMENSION
p features
(descripteurs - variables expli...
¡  De quoi parle-t-on ?
Copyright Franck Bardol 2016 26
DIMENSION ?
DIMENSION
V
O
L
U
M
E
TECHNO
BIG DATA
STATISTICS &
MAC...
¡  é dimension du problème èRISQUE de …
§  é corrélation fallacieuses - spurious correlations – potentielles
Tendance aléa...
¡  é dimension du problème èRISQUE de …
§  é complexité de la solution
§  é complexité
§  Kolmogoroff
§  MDL : Minimum Des...
¡  é dimension du problème èRISQUE de …
§ faire ECHOUER les méthodes statistiques et mathématiques
Exemple inspiré de
Copy...
¡  é dimension du problème èRISQUE de …
§ faire ECHOUER les méthodes statistiques et mathématiques
§  Exemple en bio-infor...
¡  é dimension du problème èRISQUE de …
§ faire ECHOUER les méthodes statistiques et mathématiques
Copyright Franck Bardol...
¡  Pourquoi ê dimension du problème ?
Vision d’ensemble donnée par 2 des plus grands spécialistes
§  Interview de Michael ...
Copyright Franck Bardol 2016 33
METHOD
KEY SKILL = FAST PROTOTYPING
AVOID
COMPLEXITY
N
O
O
K
N
O
SIMPLEST
SOLUTION
Copyright Franck Bardol 2016 34
COMPETE AGAINST OTHER DATA
SCIENTIST
Key figures:
•  400K data scientists
•  2 million mac...
Copyright Franck Bardol 2016 35
COMPETE AGAINST OTHER DATA SCIENTIST
www.datascience.net
www.challengedata.ens.fr
Copyright Franck Bardol 2016 36
DATA-SCIENCE + PYTHON = DREAM TEAM
¡  Python : langage de programmation
¡  Avantages :
§  Très vaste choix de librairies gratuites
§  Courbe d’apprentissage ...
Copyright Franck Bardol 2016 38
OPEN SOURCE TOOLS
vision langage
general purpose
machine learningvisualization
data manage...
Copyright Franck Bardol 2016 39
API
portails
API
www.mashape.com
www.programmableweb.com
www.mloss.org
thousand other tools
ULTRA FAST PROTOTYPING
#chargement des données
—  1 import pandas as pd
—  data = pd.read_csv(‘data_to_read.csv’)
#chargem...
 
Copyright Franck Bardol 2016
41
BIBLIO
ainews.posthaven.com/16-free-ebooks-on-machine-learning
 
Copyright Franck Bardol 2016
42
Internet ressources : MOOC
(massive onLine open courses)
Udacity.com
coursera.org
Edx.or...
Copyright Franck Bardol 2016
43
 
•  duplique le savoir d’experts
•  construit des programmes exécutables de décision
•  a...
Prochain SlideShare
Chargement dans…5
×

Data science a machine learning tour (french)

914 vues

Publié le

1 hour machine learning tour

Publié dans : Ingénierie
0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
914
Sur SlideShare
0
Issues des intégrations
0
Intégrations
42
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Data science a machine learning tour (french)

  1. 1. CHAPITRE 0 MACHINE LEARNING OVERVIEW MATHS
  2. 2. Copyright Franck Bardol 2016 2 CV Franck Bardol +33 6 24 30 92 59 bardolfranck@gmail.com @bardolfranck ¡  Consultant in Machine Learning ¡  Jury – organizer hackathons ¡  Trainer in machine learning ¡  co-organiser meetup Paris Machine Learning
  3. 3. ¡  Fondements “We are living the age of information and entering the age of recommendation” The Long tail - Chris Anderson Copyright Franck Bardol 2016 3 PARADOX OF CHOICE MORE IS LESS
  4. 4. ¡  Fondements §  “The web is leaving the era of search and entering one of discovery” §  “Race to create a smart GOOGLE” – CNN – Copyright Franck Bardol 2016 4 FROM SEARCH TO DISCOVERY SEARCH DISCOVERY users users idea idea 👧‍ 👨‍ 👦 👩‍ 👧‍ 👨‍ 👦 👩‍ 💡 🔮 ❤️‍ 💡 🔮 ❤️‍
  5. 5. Copyright Franck Bardol 2016 5 FROM SEARCH TO DISCOVERY “you may also like” “people you may know” “people to follow” reco in stealth mode 👧‍ 👨‍ 👦 👩‍ 👩‍ 👩‍ 👮
  6. 6. 80% watch via RECO ¡  Quels sont les secteurs qui l’utilisent ? §  Sites de streaming video §  Sites marchands §  Opérateur télécom §  Formation & MOOC Copyright Franck Bardol 2016 6 FROM SEARCH TO DISCOVERY CA +35% click +40%
  7. 7. ¡  Apprentissage Définition : Modification du comportement par l’expérience ¡  Machine learning définition : Programmes executables qui : ü apprennent les données ü s’adaptent aux données ü s’améliorent au cours du temps Copyright Franck Bardol 2016 7 DATA-SCIENCE QU’EST-CE-QUE C’EST ?
  8. 8. ¡ Apprendre ? comment ? par l’exemple !! les couleurs Copyright Franck Bardol 2016 8 QU’EST-CE QUE C’EST ?
  9. 9. Copyright Franck Bardol 2016 9 QU’EST-CE QUE C’EST ? Apprendre Généraliser quoi ? un concept quand ? sur nouvelles données comment ? par l’exemple pourquoi ? généraliser
  10. 10. Copyright Franck Bardol 2016 10 COMMENT ÇA FONCTIONNE ? Intuition Hypothèses Connaissances Modèle / programme Données Données Détecteur schémas cachés Modèle/ programme informatique traditionnelle informatique data driven X , Yf X , Y f fX Y PRODUCTION input decision predict
  11. 11. COMMENT ÇA FONCTIONNE ? DESCRIPTEURS / FEATURES nb_appel duree_ min appel internation age categorie _socio type_ forfait 3 46 6 98 86 11 4 33 0 8 6 12 PREDICTION reste_client part PREDICTION part reste_client DESCRIPTEURS / FEATURES nb_ appel duree_ min appel internatio n age categori e_socia type_ forfait 3 46 6 98 86 11 4 33 0 8 6 12 1 - TRAIN 2 - TEST 34 7 56 2 3 - PREDICT ? NOUVELLE DATA BASE D’APPRENTISSAGE BASE DE TEST PREDICTION ? Copyright Franck Bardol 2016 11
  12. 12. GENERALIZATION VS. OVERFITTING MEMORIZING VS. LEARNING généraliser Apprendre Généraliser données d’apprentissage STRUCTURE DETAILS & BRUITS nouvelles données Copyright Franck Bardol 2016 12
  13. 13. Supervisé = exemples étiquettés ü Régression prédire des chiffres continus ü Classification prédire des étiquettes / classes / label Copyright Franck Bardol 2016 13 APPRENTISSAGE SUPERVISÉ COMBIEN ? EST-CE QUE ?
  14. 14. Supervisé = exemples étiquettés ü Régression prédire des chiffres continus ü Classification prédire des étiquettes / classes / label Copyright Franck Bardol 2016 14 APPRENTISSAGE SUPERVISÉ big / little ? temperature pressure stock markets petit moyen grand très grand ? COMBIEN ? EST-CE QUE ?
  15. 15. Non supervisé = pas d’étiquettes ü Clustering trouver des familles naturelles ü Moteur de recommandation Introduire de la sérendipité controllable Copyright Franck Bardol 2016 15 APPRENTISSAGE NON SUPERVISÉ RESUME ?
  16. 16. Non supervisé = exemples non étiquettés ü Clustering – anomaly detection – recommender system §  Comprendre, explorer, simplifier les données, trouver des structures cachées invisibles à l’oeil Copyright Franck Bardol 2016 16 APPRENTISSAGE NON SUPERVISÉ CARTE TOPOLOGIQUE 300 variables économiques (PIB/hab, accès eau, ….) ANOMALY DETECTION RECOMMENDER SYSTEM RESUME ?
  17. 17. Copyright Franck Bardol 2016 17 EXEMPLES web log text text langue ? EEG web log who ? epilepsy ? bot? gender ? churn? CRIME where ? when ? predpol.com deepinstinct.com Malicious Code & Attacks ? age? click pub ?
  18. 18. ¡  Règles écrites “à la main” èapproche peu performante ¡  Pas de règles / absence d’expertise humaine §  bio informatique ¡  Trop de règles §  Difficulté à poser les règles, les expliquer… §  La solution évolue §  Reconnaissance artificielle (vision, parole, signes gestes …) §  Voiture autonome §  Ranking, Tracking, poursuite §  routing computer networks §  pub temps réel Copyright Franck Bardol 2016 18 C’EST EFFICACE QUAND ? pedestrian detection
  19. 19. Automatic questions – answering Requirement : ü never seen these words before ü comprehension ü time element (« before », « after », …) ü action (« go », « pick up », …) Copyright Franck Bardol 2016 19 EXEMPLES www.github.com/vinhkhuc/MemN2N-babi-python
  20. 20. Copyright Franck Bardol 2016 20 EXEMPLES HEP@LHC-CERN boson? 100 million events / sec CA +30% buy ? hire? sign ? success ? 70% accuracy
  21. 21. Copyright Franck Bardol 2016 21 DATA Scrapping = extract info from web sites opendata.cern.ch data.gov data.gouv.fr www = thousand more Open Data Scrapping
  22. 22. Copyright Franck Bardol 2016 22 DATA, BECAUSE … A C C U R A C Y DATA
  23. 23. Copyright Franck Bardol 2016 23 DATA, BECAUSE … P E R F DATA MORE DATA !
  24. 24. ¡  Pourquoi ? Copyright Franck Bardol 2016 24 BUT …. BE CAREFUL
  25. 25. ¡  De quoi parle-t-on ? Copyright Franck Bardol 2016 25 BEWARE OF THE DIMENSION p features (descripteurs - variables explicatives) DIMENSION = p V O L U M E DATA n S A M P L E S
  26. 26. ¡  De quoi parle-t-on ? Copyright Franck Bardol 2016 26 DIMENSION ? DIMENSION V O L U M E TECHNO BIG DATA STATISTICS & MACHINE LEARNING ACP ACC SOM n S A M P L E S
  27. 27. ¡  é dimension du problème èRISQUE de … §  é corrélation fallacieuses - spurious correlations – potentielles Tendance aléatoire fortuite commune http://www.tylervigen.com/spurious-correlations §  é combinaisons fallacieuses - spurious combinations – potentielles Combinaisons fallacieuses qui peuvent “prédire” un phénomène é exponentielle du nombre de combinaisons entre les colonnes §  é données nécessaires pour l’apprentissage §  é exponentielle du nombre de lignes (samples) pour apprendre convenablement §  Curse of dimensionality §  En très grande dimension, les données se trouvent toutes à égales distance. §  Les méthode basées sur le voisinage (kNN…) échouent Copyright Franck Bardol 2016 27 RÉDUCTION DIMENSION DIMENSION
  28. 28. ¡  é dimension du problème èRISQUE de … §  é complexité de la solution §  é complexité §  Kolmogoroff §  MDL : Minimum Description Length §  Occam Razor “l’explication la plus simple est toujours la meilleure” §  nb : simple ≠ simpliste §  ê pouvoir explicatif de la solution §  nb : pouvoir explicatif ≠ pouvoir prédictif §  é sur-apprentissage – over fitting (par coeur vs. généralisation) §  é difficulté de visualiser le problème (êintuition) Copyright Franck Bardol 2016 28 RÉDUCTION DIMENSION DIMENSION
  29. 29. ¡  é dimension du problème èRISQUE de … § faire ECHOUER les méthodes statistiques et mathématiques Exemple inspiré de Copyright Franck Bardol 2016 29 RÉDUCTION DIMENSION DIMENSION
  30. 30. ¡  é dimension du problème èRISQUE de … § faire ECHOUER les méthodes statistiques et mathématiques §  Exemple en bio-informatique - génomique : §  Quelques centaines de lignes (les patients - samples) vs. 100 millions de descripteurs (les gènes extraits - features) Copyright Franck Bardol 2016 30 RÉDUCTION DIMENSION DIMENSION contexte
  31. 31. ¡  é dimension du problème èRISQUE de … § faire ECHOUER les méthodes statistiques et mathématiques Copyright Franck Bardol 2016 31 RÉDUCTION DIMENSION DIMENSION problème !
  32. 32. ¡  Pourquoi ê dimension du problème ? Vision d’ensemble donnée par 2 des plus grands spécialistes §  Interview de Michael Jordan §  Interview de Vladimir Vapnik §  fichier “interview Vapnik” Copyright Franck Bardol 2016 32 RÉDUCTION DIMENSION
  33. 33. Copyright Franck Bardol 2016 33 METHOD KEY SKILL = FAST PROTOTYPING AVOID COMPLEXITY N O O K N O SIMPLEST SOLUTION
  34. 34. Copyright Franck Bardol 2016 34 COMPETE AGAINST OTHER DATA SCIENTIST Key figures: •  400K data scientists •  2 million machine learning models Lessons learned from previous contest : •  Top methods •  XgBoost models : for structured problems •  Deep Learning : for unstructured problems (sounds, visual, texts) -  source : Anthony Goldbloom, CEO Kaggle – www.kaggle.com
  35. 35. Copyright Franck Bardol 2016 35 COMPETE AGAINST OTHER DATA SCIENTIST www.datascience.net www.challengedata.ens.fr
  36. 36. Copyright Franck Bardol 2016 36 DATA-SCIENCE + PYTHON = DREAM TEAM
  37. 37. ¡  Python : langage de programmation ¡  Avantages : §  Très vaste choix de librairies gratuites §  Courbe d’apprentissage faible §  Communauté d’utilisateurs actifs gigantesque §  Le langage favori des data-scientists §  Elimine la ré-écriture complète du code prototypé par data-scientist §  langage interprété – prototyping rapide (pas de compilation – link) §  lisibilité du code (via identation) ¡  Inconvénients : §  langage interprété (pas d’étape compilation – link) §  vitesse d’exécution Copyright Franck Bardol 2016 37 DATA-SCIENCE AVEC PYTHON
  38. 38. Copyright Franck Bardol 2016 38 OPEN SOURCE TOOLS vision langage general purpose machine learningvisualization data management optimization … package thousand other tools
  39. 39. Copyright Franck Bardol 2016 39 API portails API www.mashape.com www.programmableweb.com www.mloss.org thousand other tools
  40. 40. ULTRA FAST PROTOTYPING #chargement des données —  1 import pandas as pd —  data = pd.read_csv(‘data_to_read.csv’) #chargement d’une librairie —  2 from sklearn import model #chargement d’un algorithme de prédiction —  3 clf = model.algo() #ENTRAINEMENT sur les données d’apprentissage —  4 clf.fit(data_train , out_train) #TEST sur les données non vues —  5 predict = clf.predict(data_test) Copyright Franck Bardol 2016 40
  41. 41.   Copyright Franck Bardol 2016 41 BIBLIO ainews.posthaven.com/16-free-ebooks-on-machine-learning
  42. 42.   Copyright Franck Bardol 2016 42 Internet ressources : MOOC (massive onLine open courses) Udacity.com coursera.org Edx.org france-universite-numerique.fr moocs.epfl.ch ...
  43. 43. Copyright Franck Bardol 2016 43   •  duplique le savoir d’experts •  construit des programmes exécutables de décision •  augmente la boite à outils des analystes Prediction TAKE HOME Machine Learning Algo Hidden Pattern Detector DataTRAINING PROD Data Hidden Pattern Detector

×