SlideShare une entreprise Scribd logo
Partie 3 - Apprentissage
Statistique
BASE SUR L’ŒUVRE « INTRODUCTION TO STATISTICAL LEARNING »
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 1
Objectifs
 Comprendre les changements de paradigme depuis les années 40 à nos jours.
 Comprendre la relation entre l’apprentissage statistique, le machine learning, l’intelligence artificielle et le datamining.
 Comprendre l’objectif d’une modélisation.
 Comprendre l’apprentissage supervisé et ses objectifs.
 Comprendre la différence entre une méthode paramétrique et non-paramétrique.
 Comprendre la différence entre une discrimination et une régression.
 Comprendre le choix du modèle:
 Interprétabilité vs. flexibilité des modèles
 Equilibre biais-variance: quelles actions pour trouver le meilleur compromis
 Sélection vs régularisation
 Comprendre l’apprentissage non-supervisé et ses objectifs.
 Connaître les étapes de l’apprentissage
 faire mapping avec le process Data Science décrit dans la partie précédente
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 2
Sommaire
• De la statistique à l’analyse du Big Data
• L’apprentissage statistique
• Apprentissage supervisé
• Apprentissage non-supervisé
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 3
De la statistique à l’analyse du Big Data
• 1940-70: la Statistique
• Exemple d’une démarche classique; test d’hypothèse sur la moyenne d’une population:
• Recherches sur les enfants surdoués.
• Des chercheurs ont collecté des données provenant des écoles d’une grande ville. Ils ont sélectionné au hasard un échantillon de 36
enfants identifiés come surdoués juste après l’âge de 4 ans. Durant l’étude, en plus de la collecte des données des enfants, le QI de
leur mères respectives a été également collecté. Voir l’histogramme des QI des mères ci-dessous.
• Effectuer un test d’hypothèse afin d’évaluer si les données apportent suffisamment de preuves sur une différence existante entre la
moyenne des QI des mères d’enfants surdoués et celle, connue et égale à 100, d’une population plus large de mères. Considérer un
seuil de signification de 1%. »
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 4
1. Etablir les hypothèses: nulle (H0) et alternative (HA)
2. Estimation de la moyenne à partir des données ( ҧ𝑥 = 118.2)
3. Check des conditions: indépendance + n>30 + symétrie de la distribution
4. Calculer la statistique Z = (µ - ҧ𝑥)/𝑆𝐸
5. Déterminer la p-value et la comparer à 1%
6. Prendre une décision (rejet ou pas de H0), interprétation
De la statistique à l’analyse du Big Data
• Les changements de paradigme*
• « 1940-70: la Statistique
• 1970s: premiers outils informatiques, statistique multivariée
• 1980s IA, apprentissage machine: réseaux de neurones
• 1990s* les données sont préalables, entrepôt de données, CRM
• 2000s* nb de variables >> nb d’observations, modèle « boîte noire », compromis biais-variance
• 2010s* le nb d’observations explose, Big Data/NoSQL: cloud, clusters, scalabilité »
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 5
WikiStats, INSA Toulouse, Statistique, Apprentissage, Big Data Mining
L’apprentissage statistique
• « L’étude de la fouille de données (data mining) se focalise sur les pratiques ou méthodes à
l’interface de l’apprentissage machine et de la Statistique. »
• « Les développements méthodologiques à cette interface ont pris depuis le début du siècle la
dénomination d’apprentissage statistique. »
• Objectif générale: la modélisation
• Les sous-objectifs
• explorer
• expliquer
• prévoir et sélectionner
• prévoir
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 6
WikiStats, INSA Toulouse, Statistique, Apprentissage, Big Data Mining
L’apprentissage statistique
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 7
Mount J., Zumel N., Practical Data Science with R, ISBN 9781617291562, Manning Publications, 2014
L’apprentissage statistique
• Tableau nb lignes x nb colonnes
• Lignes:
• n lignes
• observations, individus, …
• Colonnes:
• p variables
• Xi: variables, descripteurs, features
• quantitative, catégorielle
• Y: réponse, hypothèse
• quantitative ou catégorielle
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 8
X1 X2 X3 X4 X5 Y
L’apprentissage statistique
• On souhaite comprendre la relation
« commune » entre les ventes (Sales) et
les trois variables TV, Radio, Newspaper
• Comprendre comment ces 3 variables
opèrent simultanément pour influencer
les ventes.
• On modélise les ventes comme une
fonction f de ces 3 variables
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 9
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
TV Radio Newspaper Sales
L’apprentissage statistique
• Modèle = f
• La fonction f de X ne modélisera pas
parfaitement Y
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 10
TV
Radio
Newspaper
il capture les erreurs de
mesure et autres écarts
vecteur colonne
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• A quoi sert la fonction f ?
• A effectuer des prévisions pour des
nouvelles valeurs de X = x
• A identifier quel sous-ensemble de
composantes de X expliquent Y
• Comprendre comment chaque variable
influence Y selon la complexité de f
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 11
TV
Radio
Newspaper
il capture les erreurs de
mesure et autres écarts
vecteur colonne
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• Quelle est la fonction idéale pour f ?
• Y variable aléatoire
• E(Y|X=x) espérance conditionnelle de Y
« sachant » la valeur x de X
• On calcule la moyenne des valeurs de Y
pour chaque valeur X = x
• f idéale parmi toutes les fonctions g
• … idéale ou optimale par rapport à
quel critère ?
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 12
idéale ou optimale
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• Notion de fonction de coût
• La fonction optimale est celle qui
minimise la fonction de coût
• Celle qui minimise la moyenne des
carrés de la différence entre la réponse
Y et les g(X) sur tous les points x de X
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 13
rappel: X peut être un vecteur dans Rn, ici R3
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• Notion d’erreur réductible et irréductible
• Comme à chaque X = x il y a une
distribution de valeurs possibles de Y, alors
même si l’on connaît la fonction f, on ferait
toujours des erreurs de prédiction 𝝐
• Pour toute estimation መ𝑓(x) de f(x) on a
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 14
réductible irréductible
መ𝑓(x) estimation de f(x) à partir des données James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• Comment estimer f ?
• En réalité, il se peut que l’on ait pas un y
pour x = 4.
• impossible donc de calculer E(Y|X=x) !
• Par conséquent on va « relâcher » la
définition sur un voisinage de x
• Alors on est en train d’estimer l’espérance
conditionnelle E(Y|X=x) grâce à la notion de
voisinage de x
• Méthode de moyenne locale ou des plus
proches voisins
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 15
moyenne des y sur 𝛮(4)
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• Notion de fléau de dimensionnalité
• La méthode précédente peut être inadaptée
(pourrie!) pour un nombre de variables p
important; OK pour p ≤ 4
• Plus la dimension p est importante plus les
« voisins » s’éloignent.
• On souhaite avoir une proportion suffisante
(soit 10%) de valeurs y dont on calculera la
moyenne afin de baisser la variance.
• Mais ces 10% en termes de voisinage n’est
plus local ! on perd la notion d’estimation
locale de E(Y|X=x)
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 16
pour n=1, ici x1
pour n=2, ici x1 et x2
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• La méthode des plus proches voisins est
donc limitée .. que faire ?
• Structurer nos modèles
• Régression linéaire simple
• Régression linéaire multiple
• Régression polynomiale
• Fonctions splines
• …
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 17
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• La méthode des plus proches voisins est
donc limitée .. que faire ?
• Structurer nos modèles
• Régression linéaire simple
• Régression linéaire multiple
• Régression polynomiale
• Fonctions splines
• …
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 18
vraie
fonction f
መ𝑓L linéaire መ𝑓S spline
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• Jusqu’à présent, que des problématique de
prévision …
• Une autre problématique: la discrimination
• Y est catégorielle
• De même, on peut utiliser la méthode des
plus proches voisins … avec les même limites
quand le nombre p de variables est
important.
• Ci-après le classifieur optimal de Bayes
• il garantit le taux d’erreur de classification
minimal avec la vraie pk(x)
• c’est un oracle: il ne se réalise pas dans la
pratique, car loi de (Y, X) est inconnue
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 19
ici pour k = « 1 » , « 0 »
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• La méthode des plus proches voisins est
limitée pour la discrimination ... que faire ?
• Structurer nos modèles
• elles structurent pk(x) :
• Régression logistique
• Analyse discriminante linéaire (LDA)
• Generalized Additive Models (GAM)
• elles structurent C(x) (pas probabilistique):
• Machines à vecteurs supports (SVM)
• …
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 20
carte de crédit: défaut de paiement
Jamesandal.,AnintroductiontoStatisticalLearning,ISBN9781461471370,Springer,2014
Apprentissage Supervisé
• Les exemples et les méthodes mentionnées
jusqu’à présent sont liés au problème de
modélisation ou d’apprentissage supervisé.
• Apprentissage supervisé
• présence de la variable à expliquer Y
• trouver une fonction f susceptible, au mieux selon
un critère, de reproduire Y ayant observé X
• Y peut être quantitatif (Y ⊂ ℝ 𝑛): prix, coût, niveau
de consommation, de pollution, …
• Y peut être qualitatif (Y ⊂ ensemble fini de
valeurs): survenue d’un cancer, reconnaissance de
chiffres, …
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 21
REGRESSION
DISCRIMINATION, CLASSEMENT
OU RECONNAISSANCE DE FORME
Apprentissage Supervisé
• Apprentissage supervisé
• présence de la variable à expliquer Y
• trouver une fonction f susceptible, au mieux selon
un critère, de reproduire Y ayant observé X
• Exemple d’une régression linéaire simple
• les paramètres seront estimés selon le critère de
minimisation de la somme des carrés des résidus
(RSS) avec la méthode des moindres carrés
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 22
Apprentissage Supervisé
• Objectifs de l’apprentissage supervisé: à
quoi sert la fonction f ?
• A effectuer des prévisions pour des
nouvelles valeurs de X = x
• A identifier quel sous-ensemble de
composantes de X expliquent Y (sélection
du modèle)
• Comprendre comment chaque variable
influence Y selon la complexité de f
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 23
expliquer la relation
entre Y et X
Apprentissage Supervisé
• Ensemble de données d’apprentissage (training dataset)
• Ensemble de données de test (test dataset)
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 24
X1 X2 X3 X4 Y
APPRENTISSAGE
TEST
on construit le modèle à partir de
l’ensemble d’apprentissage
« on le laisse de côté »
après avoir fini l’évaluation du modèle avec
l’ensemble d’apprentissage, on le teste avec
des nouvelles données
Apprentissage Supervisé
• Mesures de performance du modèle
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 25
X1 X2 X3 X4 Y
APPRENTISSAGE
TEST
MODELE
෡𝒀
mesure de
performance
1. on injecte les nouvelles X dans le modèle
Apprentissage Supervisé
• Autre démarche, utilisée dans la recherche …
• ensemble de Validation
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 26
X1 X2 X3 X4 Y
APPRENTISSAGE
TEST
CALIBRATION OU VALIDATIONon simule les données de test afin d’évaluer la
performance lors de la construction du modèle
Apprentissage Supervisé
• Encore une autre démarche, recommandée
• technique d’échantillonnage: VALIDATION CROISEE
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 27
X1 X2 X3 X4 Y
APPRENTISSAGE
générer k ensembles (folds), chacun avec k-1
ensembles d’apprentissage et 1 ensemble de
validation, tous de la ~même taille.
Construisez le modèle correspondant avec la
totalité des données dans les k-1 ensembles
d’apprentissage
TEST
X1 X2 X3 X4 Y
fold 1
X1 X2 X3 X4 Y
fold 2
X1 X2 X3 X4 Y
fold 3
VALIDATION
VALIDATION
VALIDATION
k-fold cross-validation, ici k=3
erreur de test 1 erreur de test 2 erreur de test N
X1 X2 X3 X4 Y X1 X2 X3 X4 Y X1 X2 X3 X4 Y
TEST TEST TEST
Apprentissage Supervisé
• Encore une autre démarche, recommandée
• technique d’échantillonnage: VALIDATION CROISEE
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 28
X1 X2 X3 X4 Y
TEST
X1 X2 X3 X4 Y
fold 1
X1 X2 X3 X4 Y
fold 2
X1 X2 X3 X4 Y
fold 3
VALIDATION
VALIDATION
VALIDATION
ON NE SELECTIONNE PAS LE MEILLEUR PARMI LES k MODELES ! la méthode
sert à estimer la performance globale de notre modèle (que l’on construira
avec toutes les données de l’ensemble d’apprentissage) en moyennant les k
mesures de performance obtenues.
Cette méthode sert à COMPARER les modèles; chaque modèle possédant une
moyenne des erreurs de test.
k-fold cross-validation, ici k=3
APPRENTISSAGE
générer k ensembles (folds), chacun avec k-1 ensembles
d’apprentissage + 1 ensemble de validation, tous de la
~même taille. Construisez le modèle correspondant
avec les k-1 ensembles d’apprentissage
Apprentissage Supervisé
• Encore une autre démarche, recommandée
• technique d’échantillonnage: BAGGING (1/2)
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 29
X1 X2 X3 X4 Y
APPRENTISSAGE
générer N échantillons « bootstrap »
ou bags
TEST
X1 X2 X3 X4 Y
bootstrap N
performance 1 performance 2 performance N
X1 X2 X3 X4 Y
bootstrap 1
X1 X2 X3 X4 Y
bootstrap 2
…
échantillonnage avec remplacement
une observation peut être présente plusieurs fois dans un même échantillon
X1 X2 X3 X4 Y X1 X2 X3 X4 Y X1 X2 X3 X4 Y
…TEST TEST TEST
Apprentissage Supervisé
• Encore une autre démarche, recommandée
• technique d’échantillonnage: BAGGING (2/2)
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 30
X1 X2 X3 X4 Y
TOTALITE DES DONNEES
générer N échantillons « bootstrap »
ou bags
X1 X2 X3 X4 Y
bag N
performance 1 performance 2 performance N
X1 X2 X3 X4 Y
bag 1
X1 X2 X3 X4 Y
bag 2
…
échantillonnage avec remplacement
une observation peut être présente plusieurs fois dans un même échantillon
X1 X2 X3 X4 Y X1 X2 X3 X4 Y X1 X2 X3 X4 Y
…OOB 1 OOB 2 OOB N
Apprentissage Supervisé
Méthodes paramétriques
• Faire des hypothèses peut simplifier l’apprentissage mais cela peut limiter l’exactitude des
prévisions.
• Un algorithme ou méthode paramétrique fait des fortes hypothèses sur les données
• Exemple: régression linéaire
• hypothèse sur la forme de f
• estimer f c’est estimer les valeurs d’un nombre fixe de paramètres quelque soit le nombre
d’observations.
• Autres exemples
• Régression logistique
• Analyse discriminante linéaire: variables Gaussiennes
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 31
Apprentissage Supervisé
Méthodes non-paramétriques
• Il y a bien des paramètres (!), mais on en estime pas un nombre fixe,
• le nombre de paramètres croit avec le nombre d’observations dans l’ensemble d’apprentissage
• apprentissage (calcul) plus long par rapport aux méthodes paramétriques
• On ne fait aucune hypothèse sur les données
• Estimer f : estimation d’un ensemble plus important de paramètres
• plus difficile à interpréter donc à expliquer
• problèmes de surajustement (overfitting)
• Exemples:
• Fonctions splines
• KNN: k plus proches voisins
• Régression kernel
• Arbres de régression
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 32
exemple de spline cubique
0 < a < b < c … sont appelés « nœuds », des points qui
déterminent les intervalles de la partition
Apprentissage Supervisé
• Complexité du modèle
• notion de parcimonie
• nombre de variables explicatives
• nombre de feuilles d’un arbre de décision
• nombre de neurones dans une couche cachée
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 33
Apprentissage Supervisé
• Interprétabilité vs. Flexibilité
• Interprétabilité: expliquer la relation entre Y et X
• effectuer une sélection du modèle en identifiant quel sous-
ensemble de composantes de X expliquent Y
• comment chaque variable influence Y selon la complexité
de f
• Flexibilité
• la méthode offre une plus grande variété de formes de f
• les fonctions splines plus flexibles qu’une régression linéaire
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 34
« quand X croît d’une unité, f(X) croît ou décroît
selon la valeur de β1 »
SVM: Radial kernel
Super précision mais pas moyen
d’effectuer une sélection de variables !
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
Apprentissage Supervisé
• Notion de bias et variance
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 35
Ng A., Machine Learning MOOC, Coursera – Stanford University
Apprentissage Supervisé
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 36
• Plus complexe:
• il intègre plus de paramètres
• Plus flexible:
• capable de s’ajuster aux données d’apprentissage
• faible erreur d’ajustement
DEFAILLANT lors de la prévision (ou
généralisation) avec des nouvelles données
Ng A., Machine Learning MOOC, Coursera – Stanford University
Apprentissage Supervisé
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 37
• Ajouter des variables :
 multicolinéarité des variables explicatives
 fait croître la variance des estimateurs
 fait croître la variance des prévisions:
VARIANCE IMPORTANTE
SURAJUSTEMENT (overfit)
𝐸[ መ𝑓(x) - 𝐸[ መ𝑓(x)] ]2 à savoir
expliquer!
Ng A., Machine Learning MOOC, Coursera – Stanford University
Apprentissage Supervisé
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 38
à savoir
expliquer!
• On introduit du biais:
 on essaie d’approximer un problème
relativement complexe avec un modèle trop
simple
 le modèle a déjà une idée préconçue de la
relation entre Y et X
BIAIS IMPORTANT
FAIBLE AJUSTEMENT (underfit)
𝐸[ መ𝑓(x)] - 𝑓(x)
Ng A., Machine Learning MOOC, Coursera – Stanford University
Apprentissage Supervisé
• Expliquer le compromis biais et la variance
• Contexte:
• on va estimer f (construire le modèle) en utilisant un grand nombre d’ensembles d’apprentissage
• on calcule l’erreur quadratique moyenne (EQM ou MSE: expected mean square error) pour une seule
observation x0 de l’ensemble de test
• L’EQM se décompose alors de la manière suivante:
• Si l’on souhaite obtenir l’EQM sur l’ensemble de test il suffit de prendre la moyenne des EQM
des observations de l’ensemble de test
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 39
compromis biais - variance
Apprentissage Supervisé
• Variance
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 40
prévision sur un
ensemble
d’apprentissage
moyenne des prévisions
sur tous les ensembles
d’apprentissage
Apprentissage Supervisé
• Biais
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 41
moyenne des prévisions
sur tous les ensembles
d’apprentissage
prévision
de la vraie
fonction
Attention: on ne connaît pas la vraie fonction (raison pour laquelle on souhaite
l’estimer !). Si vous souhaitez coder le calcul vous devez simuler la vraie fonction f afin
de générer les réponses Y = f(X).
Apprentissage Supervisé
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 42
qu’est-ce que c’est ?
voir le slide suivant
• Que faire pour gérer le dilemme biais-variance ?
• Si variance importante
• plus d’observations
• moins de variables
• régularisation: augmenter λ
• Si biais important
• plus de variables; régression polynomiale: termes en
• régularisation: diminuer λ
Apprentissage Supervisé
• Sélection du modèle
• (Best subset selection)
• (Stepwise selection)
• Foward
• Backward
• Rétrécissement (Shrinkage)
• régression de Ridge (L2)
• Lasso (L1)
• Réduction de dimensionalité (Dimension Reduction)
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 43
appliqués aux méthodes qui estiment f par la méthode des moindres carrés
où on minimise RSS (somme des carrés des résidus)
régularisation: on ajoute une pénalité à RSS, notions
de normes L2 et L1
Patience … on commencera à
comprendre ces notions durant la
PARTIE 5
Apprentissage Supervisé
• Mesures de performances (1/2)
• Modèles idéaux pour la calibration du modèle :
• Modèle nul
• Modèle avec taux d’erreur de Bayes
• Modèles à une variable
• Modèles pour la discrimination
• Matrice de confusion (VP, FP, VN, FN)
• Exactitude (accuracy)
• Précision et rappel (precision & recall)
• F1
• Sensibilité et spécificité
• Modèles pour la régression
• Racine carrée de l’EQM (root mean square error, RMSE)
• R2 (R-squared)
• Corrélation
• Erreur absolue
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 44
Apprentissage Supervisé
• Mesures de performances (2/2)
• Modèles probabilistes
• La courbe Receiver Operating Characteristic (ROC)
• Area under the curve (AUC)
• Log-vraisemblance (Log Likelihood)
• Déviance
• AIC / BIC
• Entropie
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 45
Apprentissage Non-supervisé
• Recherche d’une typologie des observations et des variables
• Réduction de dimension
• Distances
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 46
Apprentissage Non-supervisé
• Absence d’une variable à expliquer
• il n’y a pas de réponse Y !
• Recherche d’une typologie des observations
• comment regrouper les observations (ou individus)
en classes homogènes mais les plus dissemblables
entre elles
• Recherche d’une typologie des variables
• réduire le nombre de variables en un ensemble de
variables plus « synthétiques »
• … pour ensuite appliquer une méthode
d’apprentissage supervisé
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 47
X1 X2 X3 X4 X5
observations
variables
Apprentissage Non-supervisé
• Classification (Clustering)
• divisives (k-means)
• agglomératives (CAH)
• Analyses factorielles
• Analyse en composantes principales (ACP)
• Analyse factorielle des correspondances (AFC)
• Analyse des correspondances multiples (ACM)
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 48
Apprentissage Non-supervisé
• Classification (Clustering)
• Evaluation interne:
• indice de Dunn (Dunn’s index)
• Coefficient de Silhouette
• indice de Davies-Bouldin (DBI)
• Evaluation externe:
• mesure F
• indice de Jaccard (Jaccard index)
• Fowlkes-Mallow index
• information mutuelle (MI)
• matrice de confusion
• Analyses factorielles
• R2, CTR, cos2
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 49
Les étapes de l’apprentissage
• Extraction
• Exploration
• Partition aléatoire
• Estimation du modèle
• Comparaison des modèles
• Validation croisée
• Choix de la méthode
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 50
Bibliographie
• James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
• WikiStats, INSA Toulouse, Statistique, Apprentissage, Big Data Mining
• Dreyfus et al., Apprentissage statistique, ISBN 9782212114645, Eyrolles, 2008
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 51

Contenu connexe

Tendances

Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_aman
Mehdi Aman
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
Hakim Nasaoui
 
Machine-learning-FR.pdf
Machine-learning-FR.pdfMachine-learning-FR.pdf
Machine-learning-FR.pdf
MBarakOUROAKONDO
 
réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels
Oussama Werfelli
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
Donia Hammami
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision
Yassine Badri
 
Intelligence artificielle
Intelligence artificielleIntelligence artificielle
Intelligence artificielle
hadjerdermane
 
Présentation pfe
Présentation pfePrésentation pfe
Présentation pfe
Abdelghafour Zguindou
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaire
Boris Guarisma
 
04 Introduction au logiciel R
04 Introduction au logiciel R04 Introduction au logiciel R
04 Introduction au logiciel R
Boris Guarisma
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
Boris Guarisma
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
Hassine Hammami
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
Mohamed Heny SELMI
 
Deep learning
Deep learningDeep learning
Deep learning
Bilal Rezkellah
 
Merise+ +exercices+mcd+-+corrigés
Merise+ +exercices+mcd+-+corrigésMerise+ +exercices+mcd+-+corrigés
Merise+ +exercices+mcd+-+corrigés
Majid CHADAD
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
Felipe Sanchez Garzon
 
PFE :: Application de gestion des dus d'enseignement
PFE :: Application de gestion des dus d'enseignementPFE :: Application de gestion des dus d'enseignement
PFE :: Application de gestion des dus d'enseignement
Nassim Bahri
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
OuailChoukhairi
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
Quentin Ambard
 

Tendances (20)

Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_aman
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Machine-learning-FR.pdf
Machine-learning-FR.pdfMachine-learning-FR.pdf
Machine-learning-FR.pdf
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision
 
Intelligence artificielle
Intelligence artificielleIntelligence artificielle
Intelligence artificielle
 
Présentation pfe
Présentation pfePrésentation pfe
Présentation pfe
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaire
 
04 Introduction au logiciel R
04 Introduction au logiciel R04 Introduction au logiciel R
04 Introduction au logiciel R
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
Deep learning
Deep learningDeep learning
Deep learning
 
Merise+ +exercices+mcd+-+corrigés
Merise+ +exercices+mcd+-+corrigésMerise+ +exercices+mcd+-+corrigés
Merise+ +exercices+mcd+-+corrigés
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
 
PFE :: Application de gestion des dus d'enseignement
PFE :: Application de gestion des dus d'enseignementPFE :: Application de gestion des dus d'enseignement
PFE :: Application de gestion des dus d'enseignement
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 

En vedette

Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4j
Boris Guarisma
 
05 Sélection de modèle linéaire
05 Sélection de modèle linéaire05 Sélection de modèle linéaire
05 Sélection de modèle linéaire
Boris Guarisma
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
Boris Guarisma
 
5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires
Boris Guarisma
 
Introduction à la Data Science l data business
Introduction à la Data Science l data businessIntroduction à la Data Science l data business
Introduction à la Data Science l data business
Vincent de Stoecklin
 
Regression simple
Regression simpleRegression simple
Regression simple
LearningMahout
 
Microsoft Technologies for Data Science 201612
Microsoft Technologies for Data Science 201612Microsoft Technologies for Data Science 201612
Microsoft Technologies for Data Science 201612
Mark Tabladillo
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)
Pierre Robentz Cassion
 
Les bienfaits des produits cosmétiques Herbalife
Les bienfaits des produits cosmétiques HerbalifeLes bienfaits des produits cosmétiques Herbalife
Les bienfaits des produits cosmétiques Herbalife
Herbalife
 
Music recommendations API with Neo4j
Music recommendations API with Neo4jMusic recommendations API with Neo4j
Music recommendations API with Neo4j
Boris Guarisma
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4j
Boris Guarisma
 
Analyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introductionAnalyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introduction
Ahmadou DICKO
 
Introduction à l'analyse de réseaux avec R
Introduction à l'analyse de réseaux avec RIntroduction à l'analyse de réseaux avec R
Introduction à l'analyse de réseaux avec R
Laurent Beauguitte
 
Lancement de produits cosmétiques en Chine continentale
Lancement de produits cosmétiques en Chine continentaleLancement de produits cosmétiques en Chine continentale
Lancement de produits cosmétiques en Chine continentale
Les Brigades du Marketing - www.lesbrigadesdumarketing.com
 
2.8 accuracy and ensemble methods
2.8 accuracy and ensemble methods2.8 accuracy and ensemble methods
2.8 accuracy and ensemble methods
Krish_ver2
 
Natural language processing (NLP) introduction
Natural language processing (NLP) introductionNatural language processing (NLP) introduction
Natural language processing (NLP) introduction
Robert Lujo
 
Natural language processing
Natural language processingNatural language processing
Natural language processing
prashantdahake
 
Artificial Intelligence, Machine Learning and Deep Learning
Artificial Intelligence, Machine Learning and Deep LearningArtificial Intelligence, Machine Learning and Deep Learning
Artificial Intelligence, Machine Learning and Deep Learning
Sujit Pal
 
NLP
NLPNLP
Analyse de sentiment - Charte des valeurs québécoises
Analyse de sentiment - Charte des valeurs québécoisesAnalyse de sentiment - Charte des valeurs québécoises
Analyse de sentiment - Charte des valeurs québécoises
Michelle Blanc
 

En vedette (20)

Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4j
 
05 Sélection de modèle linéaire
05 Sélection de modèle linéaire05 Sélection de modèle linéaire
05 Sélection de modèle linéaire
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
 
5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires
 
Introduction à la Data Science l data business
Introduction à la Data Science l data businessIntroduction à la Data Science l data business
Introduction à la Data Science l data business
 
Regression simple
Regression simpleRegression simple
Regression simple
 
Microsoft Technologies for Data Science 201612
Microsoft Technologies for Data Science 201612Microsoft Technologies for Data Science 201612
Microsoft Technologies for Data Science 201612
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)
 
Les bienfaits des produits cosmétiques Herbalife
Les bienfaits des produits cosmétiques HerbalifeLes bienfaits des produits cosmétiques Herbalife
Les bienfaits des produits cosmétiques Herbalife
 
Music recommendations API with Neo4j
Music recommendations API with Neo4jMusic recommendations API with Neo4j
Music recommendations API with Neo4j
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4j
 
Analyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introductionAnalyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introduction
 
Introduction à l'analyse de réseaux avec R
Introduction à l'analyse de réseaux avec RIntroduction à l'analyse de réseaux avec R
Introduction à l'analyse de réseaux avec R
 
Lancement de produits cosmétiques en Chine continentale
Lancement de produits cosmétiques en Chine continentaleLancement de produits cosmétiques en Chine continentale
Lancement de produits cosmétiques en Chine continentale
 
2.8 accuracy and ensemble methods
2.8 accuracy and ensemble methods2.8 accuracy and ensemble methods
2.8 accuracy and ensemble methods
 
Natural language processing (NLP) introduction
Natural language processing (NLP) introductionNatural language processing (NLP) introduction
Natural language processing (NLP) introduction
 
Natural language processing
Natural language processingNatural language processing
Natural language processing
 
Artificial Intelligence, Machine Learning and Deep Learning
Artificial Intelligence, Machine Learning and Deep LearningArtificial Intelligence, Machine Learning and Deep Learning
Artificial Intelligence, Machine Learning and Deep Learning
 
NLP
NLPNLP
NLP
 
Analyse de sentiment - Charte des valeurs québécoises
Analyse de sentiment - Charte des valeurs québécoisesAnalyse de sentiment - Charte des valeurs québécoises
Analyse de sentiment - Charte des valeurs québécoises
 

Similaire à 03 Apprentissage statistique

cours1_sondage_Besancon.pdf
cours1_sondage_Besancon.pdfcours1_sondage_Besancon.pdf
cours1_sondage_Besancon.pdf
MohammedBedrouni1
 
Chapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptxChapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptx
dalaamaima
 
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;• Les statistiques peuvent être vues en fonction de l'objectif fixé ;
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;
bawen34465
 
Chapitre Introductif
Chapitre IntroductifChapitre Introductif
Chapitre Introductif
Ibtissam medarhri
 
L1 TD Numérique et Société
L1 TD Numérique et SociétéL1 TD Numérique et Société
L1 TD Numérique et Société
Amar LAKEL, PhD
 
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfTS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdf
FootballLovers9
 
Introduction au Data Marketing
Introduction au Data MarketingIntroduction au Data Marketing
Introduction au Data Marketing
Amar LAKEL, PhD
 
Baromètre d'opinion - Ligne à grande vitesse Tours-Bordeaux - 2014
Baromètre d'opinion - Ligne à grande vitesse Tours-Bordeaux - 2014Baromètre d'opinion - Ligne à grande vitesse Tours-Bordeaux - 2014
Baromètre d'opinion - Ligne à grande vitesse Tours-Bordeaux - 2014
LISEA
 
"Ce que la LGV SEA va changer pour vous" (enquête d'opinion)
"Ce que la LGV SEA va changer pour vous" (enquête d'opinion)"Ce que la LGV SEA va changer pour vous" (enquête d'opinion)
"Ce que la LGV SEA va changer pour vous" (enquête d'opinion)
LISEA
 
Ch7 (1).pdf
Ch7 (1).pdfCh7 (1).pdf
Ch7 (1).pdf
OumaimaZiat
 
La méthode DMAIC et ses secrets
La méthode DMAIC et ses secretsLa méthode DMAIC et ses secrets
La méthode DMAIC et ses secrets
XL Groupe
 

Similaire à 03 Apprentissage statistique (15)

Statistique descriptive ch1
Statistique descriptive ch1Statistique descriptive ch1
Statistique descriptive ch1
 
cours1_sondage_Besancon.pdf
cours1_sondage_Besancon.pdfcours1_sondage_Besancon.pdf
cours1_sondage_Besancon.pdf
 
Chapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptxChapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptx
 
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;• Les statistiques peuvent être vues en fonction de l'objectif fixé ;
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;
 
Chapitre Introductif
Chapitre IntroductifChapitre Introductif
Chapitre Introductif
 
L1 TD Numérique et Société
L1 TD Numérique et SociétéL1 TD Numérique et Société
L1 TD Numérique et Société
 
Statistiques descriptives
Statistiques descriptivesStatistiques descriptives
Statistiques descriptives
 
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfTS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdf
 
Introduction au Data Marketing
Introduction au Data MarketingIntroduction au Data Marketing
Introduction au Data Marketing
 
Methodologie des enquete
Methodologie des enqueteMethodologie des enquete
Methodologie des enquete
 
Baromètre d'opinion - Ligne à grande vitesse Tours-Bordeaux - 2014
Baromètre d'opinion - Ligne à grande vitesse Tours-Bordeaux - 2014Baromètre d'opinion - Ligne à grande vitesse Tours-Bordeaux - 2014
Baromètre d'opinion - Ligne à grande vitesse Tours-Bordeaux - 2014
 
"Ce que la LGV SEA va changer pour vous" (enquête d'opinion)
"Ce que la LGV SEA va changer pour vous" (enquête d'opinion)"Ce que la LGV SEA va changer pour vous" (enquête d'opinion)
"Ce que la LGV SEA va changer pour vous" (enquête d'opinion)
 
Ch7 (1).pdf
Ch7 (1).pdfCh7 (1).pdf
Ch7 (1).pdf
 
Statistiques- S2
Statistiques- S2Statistiques- S2
Statistiques- S2
 
La méthode DMAIC et ses secrets
La méthode DMAIC et ses secretsLa méthode DMAIC et ses secrets
La méthode DMAIC et ses secrets
 

03 Apprentissage statistique

  • 1. Partie 3 - Apprentissage Statistique BASE SUR L’ŒUVRE « INTRODUCTION TO STATISTICAL LEARNING » 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 1
  • 2. Objectifs  Comprendre les changements de paradigme depuis les années 40 à nos jours.  Comprendre la relation entre l’apprentissage statistique, le machine learning, l’intelligence artificielle et le datamining.  Comprendre l’objectif d’une modélisation.  Comprendre l’apprentissage supervisé et ses objectifs.  Comprendre la différence entre une méthode paramétrique et non-paramétrique.  Comprendre la différence entre une discrimination et une régression.  Comprendre le choix du modèle:  Interprétabilité vs. flexibilité des modèles  Equilibre biais-variance: quelles actions pour trouver le meilleur compromis  Sélection vs régularisation  Comprendre l’apprentissage non-supervisé et ses objectifs.  Connaître les étapes de l’apprentissage  faire mapping avec le process Data Science décrit dans la partie précédente 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 2
  • 3. Sommaire • De la statistique à l’analyse du Big Data • L’apprentissage statistique • Apprentissage supervisé • Apprentissage non-supervisé 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 3
  • 4. De la statistique à l’analyse du Big Data • 1940-70: la Statistique • Exemple d’une démarche classique; test d’hypothèse sur la moyenne d’une population: • Recherches sur les enfants surdoués. • Des chercheurs ont collecté des données provenant des écoles d’une grande ville. Ils ont sélectionné au hasard un échantillon de 36 enfants identifiés come surdoués juste après l’âge de 4 ans. Durant l’étude, en plus de la collecte des données des enfants, le QI de leur mères respectives a été également collecté. Voir l’histogramme des QI des mères ci-dessous. • Effectuer un test d’hypothèse afin d’évaluer si les données apportent suffisamment de preuves sur une différence existante entre la moyenne des QI des mères d’enfants surdoués et celle, connue et égale à 100, d’une population plus large de mères. Considérer un seuil de signification de 1%. » 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 4 1. Etablir les hypothèses: nulle (H0) et alternative (HA) 2. Estimation de la moyenne à partir des données ( ҧ𝑥 = 118.2) 3. Check des conditions: indépendance + n>30 + symétrie de la distribution 4. Calculer la statistique Z = (µ - ҧ𝑥)/𝑆𝐸 5. Déterminer la p-value et la comparer à 1% 6. Prendre une décision (rejet ou pas de H0), interprétation
  • 5. De la statistique à l’analyse du Big Data • Les changements de paradigme* • « 1940-70: la Statistique • 1970s: premiers outils informatiques, statistique multivariée • 1980s IA, apprentissage machine: réseaux de neurones • 1990s* les données sont préalables, entrepôt de données, CRM • 2000s* nb de variables >> nb d’observations, modèle « boîte noire », compromis biais-variance • 2010s* le nb d’observations explose, Big Data/NoSQL: cloud, clusters, scalabilité » 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 5 WikiStats, INSA Toulouse, Statistique, Apprentissage, Big Data Mining
  • 6. L’apprentissage statistique • « L’étude de la fouille de données (data mining) se focalise sur les pratiques ou méthodes à l’interface de l’apprentissage machine et de la Statistique. » • « Les développements méthodologiques à cette interface ont pris depuis le début du siècle la dénomination d’apprentissage statistique. » • Objectif générale: la modélisation • Les sous-objectifs • explorer • expliquer • prévoir et sélectionner • prévoir 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 6 WikiStats, INSA Toulouse, Statistique, Apprentissage, Big Data Mining
  • 7. L’apprentissage statistique 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 7 Mount J., Zumel N., Practical Data Science with R, ISBN 9781617291562, Manning Publications, 2014
  • 8. L’apprentissage statistique • Tableau nb lignes x nb colonnes • Lignes: • n lignes • observations, individus, … • Colonnes: • p variables • Xi: variables, descripteurs, features • quantitative, catégorielle • Y: réponse, hypothèse • quantitative ou catégorielle 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 8 X1 X2 X3 X4 X5 Y
  • 9. L’apprentissage statistique • On souhaite comprendre la relation « commune » entre les ventes (Sales) et les trois variables TV, Radio, Newspaper • Comprendre comment ces 3 variables opèrent simultanément pour influencer les ventes. • On modélise les ventes comme une fonction f de ces 3 variables 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 9 James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014 TV Radio Newspaper Sales
  • 10. L’apprentissage statistique • Modèle = f • La fonction f de X ne modélisera pas parfaitement Y 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 10 TV Radio Newspaper il capture les erreurs de mesure et autres écarts vecteur colonne James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 11. L’apprentissage statistique • A quoi sert la fonction f ? • A effectuer des prévisions pour des nouvelles valeurs de X = x • A identifier quel sous-ensemble de composantes de X expliquent Y • Comprendre comment chaque variable influence Y selon la complexité de f 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 11 TV Radio Newspaper il capture les erreurs de mesure et autres écarts vecteur colonne James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 12. L’apprentissage statistique • Quelle est la fonction idéale pour f ? • Y variable aléatoire • E(Y|X=x) espérance conditionnelle de Y « sachant » la valeur x de X • On calcule la moyenne des valeurs de Y pour chaque valeur X = x • f idéale parmi toutes les fonctions g • … idéale ou optimale par rapport à quel critère ? 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 12 idéale ou optimale James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 13. L’apprentissage statistique • Notion de fonction de coût • La fonction optimale est celle qui minimise la fonction de coût • Celle qui minimise la moyenne des carrés de la différence entre la réponse Y et les g(X) sur tous les points x de X 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 13 rappel: X peut être un vecteur dans Rn, ici R3 James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 14. L’apprentissage statistique • Notion d’erreur réductible et irréductible • Comme à chaque X = x il y a une distribution de valeurs possibles de Y, alors même si l’on connaît la fonction f, on ferait toujours des erreurs de prédiction 𝝐 • Pour toute estimation መ𝑓(x) de f(x) on a 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 14 réductible irréductible መ𝑓(x) estimation de f(x) à partir des données James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 15. L’apprentissage statistique • Comment estimer f ? • En réalité, il se peut que l’on ait pas un y pour x = 4. • impossible donc de calculer E(Y|X=x) ! • Par conséquent on va « relâcher » la définition sur un voisinage de x • Alors on est en train d’estimer l’espérance conditionnelle E(Y|X=x) grâce à la notion de voisinage de x • Méthode de moyenne locale ou des plus proches voisins 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 15 moyenne des y sur 𝛮(4) James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 16. L’apprentissage statistique • Notion de fléau de dimensionnalité • La méthode précédente peut être inadaptée (pourrie!) pour un nombre de variables p important; OK pour p ≤ 4 • Plus la dimension p est importante plus les « voisins » s’éloignent. • On souhaite avoir une proportion suffisante (soit 10%) de valeurs y dont on calculera la moyenne afin de baisser la variance. • Mais ces 10% en termes de voisinage n’est plus local ! on perd la notion d’estimation locale de E(Y|X=x) 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 16 pour n=1, ici x1 pour n=2, ici x1 et x2 James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 17. L’apprentissage statistique • La méthode des plus proches voisins est donc limitée .. que faire ? • Structurer nos modèles • Régression linéaire simple • Régression linéaire multiple • Régression polynomiale • Fonctions splines • … 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 17 James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 18. L’apprentissage statistique • La méthode des plus proches voisins est donc limitée .. que faire ? • Structurer nos modèles • Régression linéaire simple • Régression linéaire multiple • Régression polynomiale • Fonctions splines • … 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 18 vraie fonction f መ𝑓L linéaire መ𝑓S spline James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 19. L’apprentissage statistique • Jusqu’à présent, que des problématique de prévision … • Une autre problématique: la discrimination • Y est catégorielle • De même, on peut utiliser la méthode des plus proches voisins … avec les même limites quand le nombre p de variables est important. • Ci-après le classifieur optimal de Bayes • il garantit le taux d’erreur de classification minimal avec la vraie pk(x) • c’est un oracle: il ne se réalise pas dans la pratique, car loi de (Y, X) est inconnue 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 19 ici pour k = « 1 » , « 0 » James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 20. L’apprentissage statistique • La méthode des plus proches voisins est limitée pour la discrimination ... que faire ? • Structurer nos modèles • elles structurent pk(x) : • Régression logistique • Analyse discriminante linéaire (LDA) • Generalized Additive Models (GAM) • elles structurent C(x) (pas probabilistique): • Machines à vecteurs supports (SVM) • … 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 20 carte de crédit: défaut de paiement Jamesandal.,AnintroductiontoStatisticalLearning,ISBN9781461471370,Springer,2014
  • 21. Apprentissage Supervisé • Les exemples et les méthodes mentionnées jusqu’à présent sont liés au problème de modélisation ou d’apprentissage supervisé. • Apprentissage supervisé • présence de la variable à expliquer Y • trouver une fonction f susceptible, au mieux selon un critère, de reproduire Y ayant observé X • Y peut être quantitatif (Y ⊂ ℝ 𝑛): prix, coût, niveau de consommation, de pollution, … • Y peut être qualitatif (Y ⊂ ensemble fini de valeurs): survenue d’un cancer, reconnaissance de chiffres, … 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 21 REGRESSION DISCRIMINATION, CLASSEMENT OU RECONNAISSANCE DE FORME
  • 22. Apprentissage Supervisé • Apprentissage supervisé • présence de la variable à expliquer Y • trouver une fonction f susceptible, au mieux selon un critère, de reproduire Y ayant observé X • Exemple d’une régression linéaire simple • les paramètres seront estimés selon le critère de minimisation de la somme des carrés des résidus (RSS) avec la méthode des moindres carrés 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 22
  • 23. Apprentissage Supervisé • Objectifs de l’apprentissage supervisé: à quoi sert la fonction f ? • A effectuer des prévisions pour des nouvelles valeurs de X = x • A identifier quel sous-ensemble de composantes de X expliquent Y (sélection du modèle) • Comprendre comment chaque variable influence Y selon la complexité de f 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 23 expliquer la relation entre Y et X
  • 24. Apprentissage Supervisé • Ensemble de données d’apprentissage (training dataset) • Ensemble de données de test (test dataset) 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 24 X1 X2 X3 X4 Y APPRENTISSAGE TEST on construit le modèle à partir de l’ensemble d’apprentissage « on le laisse de côté » après avoir fini l’évaluation du modèle avec l’ensemble d’apprentissage, on le teste avec des nouvelles données
  • 25. Apprentissage Supervisé • Mesures de performance du modèle 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 25 X1 X2 X3 X4 Y APPRENTISSAGE TEST MODELE ෡𝒀 mesure de performance 1. on injecte les nouvelles X dans le modèle
  • 26. Apprentissage Supervisé • Autre démarche, utilisée dans la recherche … • ensemble de Validation 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 26 X1 X2 X3 X4 Y APPRENTISSAGE TEST CALIBRATION OU VALIDATIONon simule les données de test afin d’évaluer la performance lors de la construction du modèle
  • 27. Apprentissage Supervisé • Encore une autre démarche, recommandée • technique d’échantillonnage: VALIDATION CROISEE 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 27 X1 X2 X3 X4 Y APPRENTISSAGE générer k ensembles (folds), chacun avec k-1 ensembles d’apprentissage et 1 ensemble de validation, tous de la ~même taille. Construisez le modèle correspondant avec la totalité des données dans les k-1 ensembles d’apprentissage TEST X1 X2 X3 X4 Y fold 1 X1 X2 X3 X4 Y fold 2 X1 X2 X3 X4 Y fold 3 VALIDATION VALIDATION VALIDATION k-fold cross-validation, ici k=3 erreur de test 1 erreur de test 2 erreur de test N X1 X2 X3 X4 Y X1 X2 X3 X4 Y X1 X2 X3 X4 Y TEST TEST TEST
  • 28. Apprentissage Supervisé • Encore une autre démarche, recommandée • technique d’échantillonnage: VALIDATION CROISEE 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 28 X1 X2 X3 X4 Y TEST X1 X2 X3 X4 Y fold 1 X1 X2 X3 X4 Y fold 2 X1 X2 X3 X4 Y fold 3 VALIDATION VALIDATION VALIDATION ON NE SELECTIONNE PAS LE MEILLEUR PARMI LES k MODELES ! la méthode sert à estimer la performance globale de notre modèle (que l’on construira avec toutes les données de l’ensemble d’apprentissage) en moyennant les k mesures de performance obtenues. Cette méthode sert à COMPARER les modèles; chaque modèle possédant une moyenne des erreurs de test. k-fold cross-validation, ici k=3 APPRENTISSAGE générer k ensembles (folds), chacun avec k-1 ensembles d’apprentissage + 1 ensemble de validation, tous de la ~même taille. Construisez le modèle correspondant avec les k-1 ensembles d’apprentissage
  • 29. Apprentissage Supervisé • Encore une autre démarche, recommandée • technique d’échantillonnage: BAGGING (1/2) 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 29 X1 X2 X3 X4 Y APPRENTISSAGE générer N échantillons « bootstrap » ou bags TEST X1 X2 X3 X4 Y bootstrap N performance 1 performance 2 performance N X1 X2 X3 X4 Y bootstrap 1 X1 X2 X3 X4 Y bootstrap 2 … échantillonnage avec remplacement une observation peut être présente plusieurs fois dans un même échantillon X1 X2 X3 X4 Y X1 X2 X3 X4 Y X1 X2 X3 X4 Y …TEST TEST TEST
  • 30. Apprentissage Supervisé • Encore une autre démarche, recommandée • technique d’échantillonnage: BAGGING (2/2) 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 30 X1 X2 X3 X4 Y TOTALITE DES DONNEES générer N échantillons « bootstrap » ou bags X1 X2 X3 X4 Y bag N performance 1 performance 2 performance N X1 X2 X3 X4 Y bag 1 X1 X2 X3 X4 Y bag 2 … échantillonnage avec remplacement une observation peut être présente plusieurs fois dans un même échantillon X1 X2 X3 X4 Y X1 X2 X3 X4 Y X1 X2 X3 X4 Y …OOB 1 OOB 2 OOB N
  • 31. Apprentissage Supervisé Méthodes paramétriques • Faire des hypothèses peut simplifier l’apprentissage mais cela peut limiter l’exactitude des prévisions. • Un algorithme ou méthode paramétrique fait des fortes hypothèses sur les données • Exemple: régression linéaire • hypothèse sur la forme de f • estimer f c’est estimer les valeurs d’un nombre fixe de paramètres quelque soit le nombre d’observations. • Autres exemples • Régression logistique • Analyse discriminante linéaire: variables Gaussiennes 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 31
  • 32. Apprentissage Supervisé Méthodes non-paramétriques • Il y a bien des paramètres (!), mais on en estime pas un nombre fixe, • le nombre de paramètres croit avec le nombre d’observations dans l’ensemble d’apprentissage • apprentissage (calcul) plus long par rapport aux méthodes paramétriques • On ne fait aucune hypothèse sur les données • Estimer f : estimation d’un ensemble plus important de paramètres • plus difficile à interpréter donc à expliquer • problèmes de surajustement (overfitting) • Exemples: • Fonctions splines • KNN: k plus proches voisins • Régression kernel • Arbres de régression 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 32 exemple de spline cubique 0 < a < b < c … sont appelés « nœuds », des points qui déterminent les intervalles de la partition
  • 33. Apprentissage Supervisé • Complexité du modèle • notion de parcimonie • nombre de variables explicatives • nombre de feuilles d’un arbre de décision • nombre de neurones dans une couche cachée 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 33
  • 34. Apprentissage Supervisé • Interprétabilité vs. Flexibilité • Interprétabilité: expliquer la relation entre Y et X • effectuer une sélection du modèle en identifiant quel sous- ensemble de composantes de X expliquent Y • comment chaque variable influence Y selon la complexité de f • Flexibilité • la méthode offre une plus grande variété de formes de f • les fonctions splines plus flexibles qu’une régression linéaire 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 34 « quand X croît d’une unité, f(X) croît ou décroît selon la valeur de β1 » SVM: Radial kernel Super précision mais pas moyen d’effectuer une sélection de variables ! James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 35. Apprentissage Supervisé • Notion de bias et variance 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 35 Ng A., Machine Learning MOOC, Coursera – Stanford University
  • 36. Apprentissage Supervisé 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 36 • Plus complexe: • il intègre plus de paramètres • Plus flexible: • capable de s’ajuster aux données d’apprentissage • faible erreur d’ajustement DEFAILLANT lors de la prévision (ou généralisation) avec des nouvelles données Ng A., Machine Learning MOOC, Coursera – Stanford University
  • 37. Apprentissage Supervisé 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 37 • Ajouter des variables :  multicolinéarité des variables explicatives  fait croître la variance des estimateurs  fait croître la variance des prévisions: VARIANCE IMPORTANTE SURAJUSTEMENT (overfit) 𝐸[ መ𝑓(x) - 𝐸[ መ𝑓(x)] ]2 à savoir expliquer! Ng A., Machine Learning MOOC, Coursera – Stanford University
  • 38. Apprentissage Supervisé 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 38 à savoir expliquer! • On introduit du biais:  on essaie d’approximer un problème relativement complexe avec un modèle trop simple  le modèle a déjà une idée préconçue de la relation entre Y et X BIAIS IMPORTANT FAIBLE AJUSTEMENT (underfit) 𝐸[ መ𝑓(x)] - 𝑓(x) Ng A., Machine Learning MOOC, Coursera – Stanford University
  • 39. Apprentissage Supervisé • Expliquer le compromis biais et la variance • Contexte: • on va estimer f (construire le modèle) en utilisant un grand nombre d’ensembles d’apprentissage • on calcule l’erreur quadratique moyenne (EQM ou MSE: expected mean square error) pour une seule observation x0 de l’ensemble de test • L’EQM se décompose alors de la manière suivante: • Si l’on souhaite obtenir l’EQM sur l’ensemble de test il suffit de prendre la moyenne des EQM des observations de l’ensemble de test 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 39 compromis biais - variance
  • 40. Apprentissage Supervisé • Variance 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 40 prévision sur un ensemble d’apprentissage moyenne des prévisions sur tous les ensembles d’apprentissage
  • 41. Apprentissage Supervisé • Biais 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 41 moyenne des prévisions sur tous les ensembles d’apprentissage prévision de la vraie fonction Attention: on ne connaît pas la vraie fonction (raison pour laquelle on souhaite l’estimer !). Si vous souhaitez coder le calcul vous devez simuler la vraie fonction f afin de générer les réponses Y = f(X).
  • 42. Apprentissage Supervisé 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 42 qu’est-ce que c’est ? voir le slide suivant • Que faire pour gérer le dilemme biais-variance ? • Si variance importante • plus d’observations • moins de variables • régularisation: augmenter λ • Si biais important • plus de variables; régression polynomiale: termes en • régularisation: diminuer λ
  • 43. Apprentissage Supervisé • Sélection du modèle • (Best subset selection) • (Stepwise selection) • Foward • Backward • Rétrécissement (Shrinkage) • régression de Ridge (L2) • Lasso (L1) • Réduction de dimensionalité (Dimension Reduction) 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 43 appliqués aux méthodes qui estiment f par la méthode des moindres carrés où on minimise RSS (somme des carrés des résidus) régularisation: on ajoute une pénalité à RSS, notions de normes L2 et L1 Patience … on commencera à comprendre ces notions durant la PARTIE 5
  • 44. Apprentissage Supervisé • Mesures de performances (1/2) • Modèles idéaux pour la calibration du modèle : • Modèle nul • Modèle avec taux d’erreur de Bayes • Modèles à une variable • Modèles pour la discrimination • Matrice de confusion (VP, FP, VN, FN) • Exactitude (accuracy) • Précision et rappel (precision & recall) • F1 • Sensibilité et spécificité • Modèles pour la régression • Racine carrée de l’EQM (root mean square error, RMSE) • R2 (R-squared) • Corrélation • Erreur absolue 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 44
  • 45. Apprentissage Supervisé • Mesures de performances (2/2) • Modèles probabilistes • La courbe Receiver Operating Characteristic (ROC) • Area under the curve (AUC) • Log-vraisemblance (Log Likelihood) • Déviance • AIC / BIC • Entropie 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 45
  • 46. Apprentissage Non-supervisé • Recherche d’une typologie des observations et des variables • Réduction de dimension • Distances 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 46
  • 47. Apprentissage Non-supervisé • Absence d’une variable à expliquer • il n’y a pas de réponse Y ! • Recherche d’une typologie des observations • comment regrouper les observations (ou individus) en classes homogènes mais les plus dissemblables entre elles • Recherche d’une typologie des variables • réduire le nombre de variables en un ensemble de variables plus « synthétiques » • … pour ensuite appliquer une méthode d’apprentissage supervisé 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 47 X1 X2 X3 X4 X5 observations variables
  • 48. Apprentissage Non-supervisé • Classification (Clustering) • divisives (k-means) • agglomératives (CAH) • Analyses factorielles • Analyse en composantes principales (ACP) • Analyse factorielle des correspondances (AFC) • Analyse des correspondances multiples (ACM) 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 48
  • 49. Apprentissage Non-supervisé • Classification (Clustering) • Evaluation interne: • indice de Dunn (Dunn’s index) • Coefficient de Silhouette • indice de Davies-Bouldin (DBI) • Evaluation externe: • mesure F • indice de Jaccard (Jaccard index) • Fowlkes-Mallow index • information mutuelle (MI) • matrice de confusion • Analyses factorielles • R2, CTR, cos2 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 49
  • 50. Les étapes de l’apprentissage • Extraction • Exploration • Partition aléatoire • Estimation du modèle • Comparaison des modèles • Validation croisée • Choix de la méthode 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 50
  • 51. Bibliographie • James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014 • WikiStats, INSA Toulouse, Statistique, Apprentissage, Big Data Mining • Dreyfus et al., Apprentissage statistique, ISBN 9782212114645, Eyrolles, 2008 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 51