03 Apprentissage statistique

Partie 3 - Apprentissage
Statistique
BASE SUR L’ŒUVRE « INTRODUCTION TO STATISTICAL LEARNING »
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 1

Objectifs
 Comprendre les changements de paradigme depuis les années 40 à nos jours.
 Comprendre la relation entre l’apprentissage statistique, le machine learning, l’intelligence artificielle et le datamining.
 Comprendre l’objectif d’une modélisation.
 Comprendre l’apprentissage supervisé et ses objectifs.
 Comprendre la différence entre une méthode paramétrique et non-paramétrique.
 Comprendre la différence entre une discrimination et une régression.
 Comprendre le choix du modèle:
 Interprétabilité vs. flexibilité des modèles
 Equilibre biais-variance: quelles actions pour trouver le meilleur compromis
 Sélection vs régularisation
 Comprendre l’apprentissage non-supervisé et ses objectifs.
 Connaître les étapes de l’apprentissage
 faire mapping avec le process Data Science décrit dans la partie précédente

Sommaire
• De la statistique à l’analyse du Big Data
• L’apprentissage statistique
• Apprentissage supervisé
• Apprentissage non-supervisé

De la statistique à l’analyse du Big Data
• 1940-70: la Statistique
• Exemple d’une démarche classique; test d’hypothèse sur la moyenne d’une population:
• Recherches sur les enfants surdoués.
• Des chercheurs ont collecté des données provenant des écoles d’une grande ville. Ils ont sélectionné au hasard un échantillon de 36
enfants identifiés come surdoués juste après l’âge de 4 ans. Durant l’étude, en plus de la collecte des données des enfants, le QI de
leur mères respectives a été également collecté. Voir l’histogramme des QI des mères ci-dessous.
• Effectuer un test d’hypothèse afin d’évaluer si les données apportent suffisamment de preuves sur une différence existante entre la
moyenne des QI des mères d’enfants surdoués et celle, connue et égale à 100, d’une population plus large de mères. Considérer un
seuil de signification de 1%. »
1. Etablir les hypothèses: nulle (H0) et alternative (HA)
2. Estimation de la moyenne à partir des données ( ҧ𝑥 = 118.2)
3. Check des conditions: indépendance + n>30 + symétrie de la distribution
4. Calculer la statistique Z = (µ - ҧ𝑥)/𝑆𝐸
5. Déterminer la p-value et la comparer à 1%
6. Prendre une décision (rejet ou pas de H0), interprétation

De la statistique à l’analyse du Big Data
• Les changements de paradigme*
• « 1940-70: la Statistique
• 1970s: premiers outils informatiques, statistique multivariée
• 1980s IA, apprentissage machine: réseaux de neurones
• 1990s* les données sont préalables, entrepôt de données, CRM
• 2000s* nb de variables >> nb d’observations, modèle « boîte noire », compromis biais-variance
• 2010s* le nb d’observations explose, Big Data/NoSQL: cloud, clusters, scalabilité »
WikiStats, INSA Toulouse, Statistique, Apprentissage, Big Data Mining

L’apprentissage statistique
• « L’étude de la fouille de données (data mining) se focalise sur les pratiques ou méthodes à
l’interface de l’apprentissage machine et de la Statistique. »
• « Les développements méthodologiques à cette interface ont pris depuis le début du siècle la
dénomination d’apprentissage statistique. »
• Objectif générale: la modélisation
• Les sous-objectifs
• explorer
• expliquer
• prévoir et sélectionner
• prévoir
WikiStats, INSA Toulouse, Statistique, Apprentissage, Big Data Mining

Mount J., Zumel N., Practical Data Science with R, ISBN 9781617291562, Manning Publications, 2014

• Tableau nb lignes x nb colonnes
• Lignes:
• n lignes
• observations, individus, …
• Colonnes:
• p variables
• Xi: variables, descripteurs, features
• quantitative, catégorielle
• Y: réponse, hypothèse
• quantitative ou catégorielle
X1 X2 X3 X4 X5 Y

• On souhaite comprendre la relation
« commune » entre les ventes (Sales) et
les trois variables TV, Radio, Newspaper
• Comprendre comment ces 3 variables
opèrent simultanément pour influencer
les ventes.
• On modélise les ventes comme une
fonction f de ces 3 variables
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
TV Radio Newspaper Sales

• Modèle = f
• La fonction f de X ne modélisera pas
parfaitement Y
TV
Radio
Newspaper
il capture les erreurs de
mesure et autres écarts
vecteur colonne

• A quoi sert la fonction f ?
• A effectuer des prévisions pour des
nouvelles valeurs de X = x
• A identifier quel sous-ensemble de
composantes de X expliquent Y
• Comprendre comment chaque variable
influence Y selon la complexité de f
TV
Radio
Newspaper
il capture les erreurs de
mesure et autres écarts
vecteur colonne

• Quelle est la fonction idéale pour f ?
• Y variable aléatoire
• E(Y|X=x) espérance conditionnelle de Y
« sachant » la valeur x de X
• On calcule la moyenne des valeurs de Y
pour chaque valeur X = x
• f idéale parmi toutes les fonctions g
• … idéale ou optimale par rapport à
quel critère ?
idéale ou optimale

• Notion de fonction de coût
• La fonction optimale est celle qui
minimise la fonction de coût
• Celle qui minimise la moyenne des
carrés de la différence entre la réponse
Y et les g(X) sur tous les points x de X
rappel: X peut être un vecteur dans Rn, ici R3

• Notion d’erreur réductible et irréductible
• Comme à chaque X = x il y a une
distribution de valeurs possibles de Y, alors
même si l’on connaît la fonction f, on ferait
toujours des erreurs de prédiction 𝝐
• Pour toute estimation መ𝑓(x) de f(x) on a
réductible irréductible
መ𝑓(x) estimation de f(x) à partir des données James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014

• Comment estimer f ?
• En réalité, il se peut que l’on ait pas un y
pour x = 4.
• impossible donc de calculer E(Y|X=x) !
• Par conséquent on va « relâcher » la
définition sur un voisinage de x
• Alors on est en train d’estimer l’espérance
conditionnelle E(Y|X=x) grâce à la notion de
voisinage de x
• Méthode de moyenne locale ou des plus
proches voisins
moyenne des y sur 𝛮(4)

• Notion de fléau de dimensionnalité
• La méthode précédente peut être inadaptée
(pourrie!) pour un nombre de variables p
important; OK pour p ≤ 4
• Plus la dimension p est importante plus les
« voisins » s’éloignent.
• On souhaite avoir une proportion suffisante
(soit 10%) de valeurs y dont on calculera la
moyenne afin de baisser la variance.
• Mais ces 10% en termes de voisinage n’est
plus local ! on perd la notion d’estimation
locale de E(Y|X=x)
pour n=1, ici x1
pour n=2, ici x1 et x2

• La méthode des plus proches voisins est
donc limitée .. que faire ?
• Structurer nos modèles
• Régression linéaire simple
• Régression linéaire multiple
• Régression polynomiale
• Fonctions splines
• …

donc limitée .. que faire ?
• Régression linéaire simple
• Régression linéaire multiple
• Régression polynomiale
• …
vraie
fonction f
መ𝑓L linéaire መ𝑓S spline

• Jusqu’à présent, que des problématique de
prévision …
• Une autre problématique: la discrimination
• Y est catégorielle
• De même, on peut utiliser la méthode des
plus proches voisins … avec les même limites
quand le nombre p de variables est
important.
• Ci-après le classifieur optimal de Bayes
• il garantit le taux d’erreur de classification
minimal avec la vraie pk(x)
• c’est un oracle: il ne se réalise pas dans la
pratique, car loi de (Y, X) est inconnue
ici pour k = « 1 » , « 0 »

limitée pour la discrimination ... que faire ?
• elles structurent pk(x) :
• Régression logistique
• Analyse discriminante linéaire (LDA)
• Generalized Additive Models (GAM)
• elles structurent C(x) (pas probabilistique):
• Machines à vecteurs supports (SVM)
• …
carte de crédit: défaut de paiement
Jamesandal.,AnintroductiontoStatisticalLearning,ISBN9781461471370,Springer,2014

Apprentissage Supervisé
• Les exemples et les méthodes mentionnées
jusqu’à présent sont liés au problème de
modélisation ou d’apprentissage supervisé.
• présence de la variable à expliquer Y
• trouver une fonction f susceptible, au mieux selon
un critère, de reproduire Y ayant observé X
• Y peut être quantitatif (Y ⊂ ℝ 𝑛): prix, coût, niveau
de consommation, de pollution, …
• Y peut être qualitatif (Y ⊂ ensemble fini de
valeurs): survenue d’un cancer, reconnaissance de
chiffres, …
REGRESSION
DISCRIMINATION, CLASSEMENT
OU RECONNAISSANCE DE FORME

• présence de la variable à expliquer Y
• trouver une fonction f susceptible, au mieux selon
un critère, de reproduire Y ayant observé X
• Exemple d’une régression linéaire simple
• les paramètres seront estimés selon le critère de
minimisation de la somme des carrés des résidus
(RSS) avec la méthode des moindres carrés

• Objectifs de l’apprentissage supervisé: à
quoi sert la fonction f ?
• A effectuer des prévisions pour des
nouvelles valeurs de X = x
• A identifier quel sous-ensemble de
composantes de X expliquent Y (sélection
du modèle)
• Comprendre comment chaque variable
influence Y selon la complexité de f
expliquer la relation
entre Y et X

• Ensemble de données d’apprentissage (training dataset)
• Ensemble de données de test (test dataset)
X1 X2 X3 X4 Y
APPRENTISSAGE
TEST
on construit le modèle à partir de
l’ensemble d’apprentissage
« on le laisse de côté »
après avoir fini l’évaluation du modèle avec
l’ensemble d’apprentissage, on le teste avec
des nouvelles données

• Mesures de performance du modèle
X1 X2 X3 X4 Y
APPRENTISSAGE
TEST
MODELE
෡𝒀
mesure de
performance
1. on injecte les nouvelles X dans le modèle

• Autre démarche, utilisée dans la recherche …
• ensemble de Validation
X1 X2 X3 X4 Y
APPRENTISSAGE
TEST
CALIBRATION OU VALIDATIONon simule les données de test afin d’évaluer la
performance lors de la construction du modèle

• Encore une autre démarche, recommandée
• technique d’échantillonnage: VALIDATION CROISEE
X1 X2 X3 X4 Y
APPRENTISSAGE
générer k ensembles (folds), chacun avec k-1
ensembles d’apprentissage et 1 ensemble de
validation, tous de la ~même taille.
Construisez le modèle correspondant avec la
totalité des données dans les k-1 ensembles
d’apprentissage
TEST
X1 X2 X3 X4 Y
fold 1
X1 X2 X3 X4 Y
fold 2
X1 X2 X3 X4 Y
fold 3
VALIDATION
VALIDATION
VALIDATION
k-fold cross-validation, ici k=3
erreur de test 1 erreur de test 2 erreur de test N
X1 X2 X3 X4 Y X1 X2 X3 X4 Y X1 X2 X3 X4 Y
TEST TEST TEST

• technique d’échantillonnage: VALIDATION CROISEE
X1 X2 X3 X4 Y
TEST
X1 X2 X3 X4 Y
fold 1
X1 X2 X3 X4 Y
fold 2
X1 X2 X3 X4 Y
fold 3
VALIDATION
VALIDATION
VALIDATION
ON NE SELECTIONNE PAS LE MEILLEUR PARMI LES k MODELES ! la méthode
sert à estimer la performance globale de notre modèle (que l’on construira
avec toutes les données de l’ensemble d’apprentissage) en moyennant les k
mesures de performance obtenues.
Cette méthode sert à COMPARER les modèles; chaque modèle possédant une
moyenne des erreurs de test.
k-fold cross-validation, ici k=3
APPRENTISSAGE
générer k ensembles (folds), chacun avec k-1 ensembles
d’apprentissage + 1 ensemble de validation, tous de la
~même taille. Construisez le modèle correspondant
avec les k-1 ensembles d’apprentissage

• technique d’échantillonnage: BAGGING (1/2)
X1 X2 X3 X4 Y
APPRENTISSAGE
générer N échantillons « bootstrap »
ou bags
TEST
X1 X2 X3 X4 Y
bootstrap N
performance 1 performance 2 performance N
X1 X2 X3 X4 Y
bootstrap 1
X1 X2 X3 X4 Y
bootstrap 2
…
échantillonnage avec remplacement
une observation peut être présente plusieurs fois dans un même échantillon
…TEST TEST TEST

• technique d’échantillonnage: BAGGING (2/2)
X1 X2 X3 X4 Y
TOTALITE DES DONNEES
générer N échantillons « bootstrap »
ou bags
X1 X2 X3 X4 Y
bag N
performance 1 performance 2 performance N
X1 X2 X3 X4 Y
bag 1
X1 X2 X3 X4 Y
bag 2
…
échantillonnage avec remplacement
une observation peut être présente plusieurs fois dans un même échantillon
…OOB 1 OOB 2 OOB N

Méthodes paramétriques
• Faire des hypothèses peut simplifier l’apprentissage mais cela peut limiter l’exactitude des
prévisions.
• Un algorithme ou méthode paramétrique fait des fortes hypothèses sur les données
• Exemple: régression linéaire
• hypothèse sur la forme de f
• estimer f c’est estimer les valeurs d’un nombre fixe de paramètres quelque soit le nombre
d’observations.
• Autres exemples
• Régression logistique
• Analyse discriminante linéaire: variables Gaussiennes

Méthodes non-paramétriques
• Il y a bien des paramètres (!), mais on en estime pas un nombre fixe,
• le nombre de paramètres croit avec le nombre d’observations dans l’ensemble d’apprentissage
• apprentissage (calcul) plus long par rapport aux méthodes paramétriques
• On ne fait aucune hypothèse sur les données
• Estimer f : estimation d’un ensemble plus important de paramètres
• plus difficile à interpréter donc à expliquer
• problèmes de surajustement (overfitting)
• Exemples:
• KNN: k plus proches voisins
• Régression kernel
• Arbres de régression
exemple de spline cubique
0 < a < b < c … sont appelés « nœuds », des points qui
déterminent les intervalles de la partition

• Complexité du modèle
• notion de parcimonie
• nombre de variables explicatives
• nombre de feuilles d’un arbre de décision
• nombre de neurones dans une couche cachée

• Interprétabilité vs. Flexibilité
• Interprétabilité: expliquer la relation entre Y et X
• effectuer une sélection du modèle en identifiant quel sous-
ensemble de composantes de X expliquent Y
• comment chaque variable influence Y selon la complexité
de f
• Flexibilité
• la méthode offre une plus grande variété de formes de f
• les fonctions splines plus flexibles qu’une régression linéaire
« quand X croît d’une unité, f(X) croît ou décroît
selon la valeur de β1 »
SVM: Radial kernel
Super précision mais pas moyen
d’effectuer une sélection de variables !

• Notion de bias et variance
Ng A., Machine Learning MOOC, Coursera – Stanford University

• Plus complexe:
• il intègre plus de paramètres
• Plus flexible:
• capable de s’ajuster aux données d’apprentissage
• faible erreur d’ajustement
DEFAILLANT lors de la prévision (ou
généralisation) avec des nouvelles données

• Ajouter des variables :
 multicolinéarité des variables explicatives
 fait croître la variance des estimateurs
 fait croître la variance des prévisions:
VARIANCE IMPORTANTE
SURAJUSTEMENT (overfit)
𝐸[ መ𝑓(x) - 𝐸[ መ𝑓(x)] ]2 à savoir
expliquer!

à savoir
expliquer!
• On introduit du biais:
 on essaie d’approximer un problème
relativement complexe avec un modèle trop
simple
 le modèle a déjà une idée préconçue de la
relation entre Y et X
BIAIS IMPORTANT
FAIBLE AJUSTEMENT (underfit)
𝐸[ መ𝑓(x)] - 𝑓(x)

• Expliquer le compromis biais et la variance
• Contexte:
• on va estimer f (construire le modèle) en utilisant un grand nombre d’ensembles d’apprentissage
• on calcule l’erreur quadratique moyenne (EQM ou MSE: expected mean square error) pour une seule
observation x0 de l’ensemble de test
• L’EQM se décompose alors de la manière suivante:
• Si l’on souhaite obtenir l’EQM sur l’ensemble de test il suffit de prendre la moyenne des EQM
des observations de l’ensemble de test
compromis biais - variance

• Variance
prévision sur un
ensemble
d’apprentissage
moyenne des prévisions
sur tous les ensembles
d’apprentissage

• Biais
moyenne des prévisions
sur tous les ensembles
d’apprentissage
prévision
de la vraie
fonction
Attention: on ne connaît pas la vraie fonction (raison pour laquelle on souhaite
l’estimer !). Si vous souhaitez coder le calcul vous devez simuler la vraie fonction f afin
de générer les réponses Y = f(X).

qu’est-ce que c’est ?
voir le slide suivant
• Que faire pour gérer le dilemme biais-variance ?
• Si variance importante
• plus d’observations
• moins de variables
• régularisation: augmenter λ
• Si biais important
• plus de variables; régression polynomiale: termes en
• régularisation: diminuer λ

• Sélection du modèle
• (Best subset selection)
• (Stepwise selection)
• Foward
• Backward
• Rétrécissement (Shrinkage)
• régression de Ridge (L2)
• Lasso (L1)
• Réduction de dimensionalité (Dimension Reduction)
appliqués aux méthodes qui estiment f par la méthode des moindres carrés
où on minimise RSS (somme des carrés des résidus)
régularisation: on ajoute une pénalité à RSS, notions
de normes L2 et L1
Patience … on commencera à
comprendre ces notions durant la
PARTIE 5

• Mesures de performances (1/2)
• Modèles idéaux pour la calibration du modèle :
• Modèle nul
• Modèle avec taux d’erreur de Bayes
• Modèles à une variable
• Modèles pour la discrimination
• Matrice de confusion (VP, FP, VN, FN)
• Exactitude (accuracy)
• Précision et rappel (precision & recall)
• F1
• Sensibilité et spécificité
• Modèles pour la régression
• Racine carrée de l’EQM (root mean square error, RMSE)
• R2 (R-squared)
• Corrélation
• Erreur absolue

• Mesures de performances (2/2)
• Modèles probabilistes
• La courbe Receiver Operating Characteristic (ROC)
• Area under the curve (AUC)
• Log-vraisemblance (Log Likelihood)
• Déviance
• AIC / BIC
• Entropie

Apprentissage Non-supervisé
• Recherche d’une typologie des observations et des variables
• Réduction de dimension
• Distances

• Absence d’une variable à expliquer
• il n’y a pas de réponse Y !
• Recherche d’une typologie des observations
• comment regrouper les observations (ou individus)
en classes homogènes mais les plus dissemblables
entre elles
• Recherche d’une typologie des variables
• réduire le nombre de variables en un ensemble de
variables plus « synthétiques »
• … pour ensuite appliquer une méthode
d’apprentissage supervisé
X1 X2 X3 X4 X5
observations
variables

• Classification (Clustering)
• divisives (k-means)
• agglomératives (CAH)
• Analyses factorielles
• Analyse en composantes principales (ACP)
• Analyse factorielle des correspondances (AFC)
• Analyse des correspondances multiples (ACM)

• Classification (Clustering)
• Evaluation interne:
• indice de Dunn (Dunn’s index)
• Coefficient de Silhouette
• indice de Davies-Bouldin (DBI)
• Evaluation externe:
• mesure F
• indice de Jaccard (Jaccard index)
• Fowlkes-Mallow index
• information mutuelle (MI)
• matrice de confusion
• Analyses factorielles
• R2, CTR, cos2

Les étapes de l’apprentissage
• Extraction
• Exploration
• Partition aléatoire
• Estimation du modèle
• Comparaison des modèles
• Validation croisée
• Choix de la méthode

Bibliographie
• James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
• WikiStats, INSA Toulouse, Statistique, Apprentissage, Big Data Mining
• Dreyfus et al., Apprentissage statistique, ISBN 9782212114645, Eyrolles, 2008

03 Apprentissage statistique

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à 03 Apprentissage statistique

Similaire à 03 Apprentissage statistique (15)

Dernier

Dernier (7)

03 Apprentissage statistique