SlideShare une entreprise Scribd logo
1  sur  51
Partie 3 - Apprentissage
Statistique
BASE SUR L’ŒUVRE « INTRODUCTION TO STATISTICAL LEARNING »
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 1
Objectifs
 Comprendre les changements de paradigme depuis les années 40 à nos jours.
 Comprendre la relation entre l’apprentissage statistique, le machine learning, l’intelligence artificielle et le datamining.
 Comprendre l’objectif d’une modélisation.
 Comprendre l’apprentissage supervisé et ses objectifs.
 Comprendre la différence entre une méthode paramétrique et non-paramétrique.
 Comprendre la différence entre une discrimination et une régression.
 Comprendre le choix du modèle:
 Interprétabilité vs. flexibilité des modèles
 Equilibre biais-variance: quelles actions pour trouver le meilleur compromis
 Sélection vs régularisation
 Comprendre l’apprentissage non-supervisé et ses objectifs.
 Connaître les étapes de l’apprentissage
 faire mapping avec le process Data Science décrit dans la partie précédente
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 2
Sommaire
• De la statistique à l’analyse du Big Data
• L’apprentissage statistique
• Apprentissage supervisé
• Apprentissage non-supervisé
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 3
De la statistique à l’analyse du Big Data
• 1940-70: la Statistique
• Exemple d’une démarche classique; test d’hypothèse sur la moyenne d’une population:
• Recherches sur les enfants surdoués.
• Des chercheurs ont collecté des données provenant des écoles d’une grande ville. Ils ont sélectionné au hasard un échantillon de 36
enfants identifiés come surdoués juste après l’âge de 4 ans. Durant l’étude, en plus de la collecte des données des enfants, le QI de
leur mères respectives a été également collecté. Voir l’histogramme des QI des mères ci-dessous.
• Effectuer un test d’hypothèse afin d’évaluer si les données apportent suffisamment de preuves sur une différence existante entre la
moyenne des QI des mères d’enfants surdoués et celle, connue et égale à 100, d’une population plus large de mères. Considérer un
seuil de signification de 1%. »
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 4
1. Etablir les hypothèses: nulle (H0) et alternative (HA)
2. Estimation de la moyenne à partir des données ( ҧ𝑥 = 118.2)
3. Check des conditions: indépendance + n>30 + symétrie de la distribution
4. Calculer la statistique Z = (µ - ҧ𝑥)/𝑆𝐸
5. Déterminer la p-value et la comparer à 1%
6. Prendre une décision (rejet ou pas de H0), interprétation
De la statistique à l’analyse du Big Data
• Les changements de paradigme*
• « 1940-70: la Statistique
• 1970s: premiers outils informatiques, statistique multivariée
• 1980s IA, apprentissage machine: réseaux de neurones
• 1990s* les données sont préalables, entrepôt de données, CRM
• 2000s* nb de variables >> nb d’observations, modèle « boîte noire », compromis biais-variance
• 2010s* le nb d’observations explose, Big Data/NoSQL: cloud, clusters, scalabilité »
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 5
WikiStats, INSA Toulouse, Statistique, Apprentissage, Big Data Mining
L’apprentissage statistique
• « L’étude de la fouille de données (data mining) se focalise sur les pratiques ou méthodes à
l’interface de l’apprentissage machine et de la Statistique. »
• « Les développements méthodologiques à cette interface ont pris depuis le début du siècle la
dénomination d’apprentissage statistique. »
• Objectif générale: la modélisation
• Les sous-objectifs
• explorer
• expliquer
• prévoir et sélectionner
• prévoir
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 6
WikiStats, INSA Toulouse, Statistique, Apprentissage, Big Data Mining
L’apprentissage statistique
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 7
Mount J., Zumel N., Practical Data Science with R, ISBN 9781617291562, Manning Publications, 2014
L’apprentissage statistique
• Tableau nb lignes x nb colonnes
• Lignes:
• n lignes
• observations, individus, …
• Colonnes:
• p variables
• Xi: variables, descripteurs, features
• quantitative, catégorielle
• Y: réponse, hypothèse
• quantitative ou catégorielle
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 8
X1 X2 X3 X4 X5 Y
L’apprentissage statistique
• On souhaite comprendre la relation
« commune » entre les ventes (Sales) et
les trois variables TV, Radio, Newspaper
• Comprendre comment ces 3 variables
opèrent simultanément pour influencer
les ventes.
• On modélise les ventes comme une
fonction f de ces 3 variables
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 9
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
TV Radio Newspaper Sales
L’apprentissage statistique
• Modèle = f
• La fonction f de X ne modélisera pas
parfaitement Y
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 10
TV
Radio
Newspaper
il capture les erreurs de
mesure et autres écarts
vecteur colonne
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• A quoi sert la fonction f ?
• A effectuer des prévisions pour des
nouvelles valeurs de X = x
• A identifier quel sous-ensemble de
composantes de X expliquent Y
• Comprendre comment chaque variable
influence Y selon la complexité de f
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 11
TV
Radio
Newspaper
il capture les erreurs de
mesure et autres écarts
vecteur colonne
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• Quelle est la fonction idéale pour f ?
• Y variable aléatoire
• E(Y|X=x) espérance conditionnelle de Y
« sachant » la valeur x de X
• On calcule la moyenne des valeurs de Y
pour chaque valeur X = x
• f idéale parmi toutes les fonctions g
• … idéale ou optimale par rapport à
quel critère ?
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 12
idéale ou optimale
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• Notion de fonction de coût
• La fonction optimale est celle qui
minimise la fonction de coût
• Celle qui minimise la moyenne des
carrés de la différence entre la réponse
Y et les g(X) sur tous les points x de X
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 13
rappel: X peut être un vecteur dans Rn, ici R3
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• Notion d’erreur réductible et irréductible
• Comme à chaque X = x il y a une
distribution de valeurs possibles de Y, alors
même si l’on connaît la fonction f, on ferait
toujours des erreurs de prédiction 𝝐
• Pour toute estimation መ𝑓(x) de f(x) on a
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 14
réductible irréductible
መ𝑓(x) estimation de f(x) à partir des données James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• Comment estimer f ?
• En réalité, il se peut que l’on ait pas un y
pour x = 4.
• impossible donc de calculer E(Y|X=x) !
• Par conséquent on va « relâcher » la
définition sur un voisinage de x
• Alors on est en train d’estimer l’espérance
conditionnelle E(Y|X=x) grâce à la notion de
voisinage de x
• Méthode de moyenne locale ou des plus
proches voisins
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 15
moyenne des y sur 𝛮(4)
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• Notion de fléau de dimensionnalité
• La méthode précédente peut être inadaptée
(pourrie!) pour un nombre de variables p
important; OK pour p ≤ 4
• Plus la dimension p est importante plus les
« voisins » s’éloignent.
• On souhaite avoir une proportion suffisante
(soit 10%) de valeurs y dont on calculera la
moyenne afin de baisser la variance.
• Mais ces 10% en termes de voisinage n’est
plus local ! on perd la notion d’estimation
locale de E(Y|X=x)
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 16
pour n=1, ici x1
pour n=2, ici x1 et x2
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• La méthode des plus proches voisins est
donc limitée .. que faire ?
• Structurer nos modèles
• Régression linéaire simple
• Régression linéaire multiple
• Régression polynomiale
• Fonctions splines
• …
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 17
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• La méthode des plus proches voisins est
donc limitée .. que faire ?
• Structurer nos modèles
• Régression linéaire simple
• Régression linéaire multiple
• Régression polynomiale
• Fonctions splines
• …
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 18
vraie
fonction f
መ𝑓L linéaire መ𝑓S spline
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• Jusqu’à présent, que des problématique de
prévision …
• Une autre problématique: la discrimination
• Y est catégorielle
• De même, on peut utiliser la méthode des
plus proches voisins … avec les même limites
quand le nombre p de variables est
important.
• Ci-après le classifieur optimal de Bayes
• il garantit le taux d’erreur de classification
minimal avec la vraie pk(x)
• c’est un oracle: il ne se réalise pas dans la
pratique, car loi de (Y, X) est inconnue
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 19
ici pour k = « 1 » , « 0 »
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
L’apprentissage statistique
• La méthode des plus proches voisins est
limitée pour la discrimination ... que faire ?
• Structurer nos modèles
• elles structurent pk(x) :
• Régression logistique
• Analyse discriminante linéaire (LDA)
• Generalized Additive Models (GAM)
• elles structurent C(x) (pas probabilistique):
• Machines à vecteurs supports (SVM)
• …
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 20
carte de crédit: défaut de paiement
Jamesandal.,AnintroductiontoStatisticalLearning,ISBN9781461471370,Springer,2014
Apprentissage Supervisé
• Les exemples et les méthodes mentionnées
jusqu’à présent sont liés au problème de
modélisation ou d’apprentissage supervisé.
• Apprentissage supervisé
• présence de la variable à expliquer Y
• trouver une fonction f susceptible, au mieux selon
un critère, de reproduire Y ayant observé X
• Y peut être quantitatif (Y ⊂ ℝ 𝑛): prix, coût, niveau
de consommation, de pollution, …
• Y peut être qualitatif (Y ⊂ ensemble fini de
valeurs): survenue d’un cancer, reconnaissance de
chiffres, …
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 21
REGRESSION
DISCRIMINATION, CLASSEMENT
OU RECONNAISSANCE DE FORME
Apprentissage Supervisé
• Apprentissage supervisé
• présence de la variable à expliquer Y
• trouver une fonction f susceptible, au mieux selon
un critère, de reproduire Y ayant observé X
• Exemple d’une régression linéaire simple
• les paramètres seront estimés selon le critère de
minimisation de la somme des carrés des résidus
(RSS) avec la méthode des moindres carrés
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 22
Apprentissage Supervisé
• Objectifs de l’apprentissage supervisé: à
quoi sert la fonction f ?
• A effectuer des prévisions pour des
nouvelles valeurs de X = x
• A identifier quel sous-ensemble de
composantes de X expliquent Y (sélection
du modèle)
• Comprendre comment chaque variable
influence Y selon la complexité de f
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 23
expliquer la relation
entre Y et X
Apprentissage Supervisé
• Ensemble de données d’apprentissage (training dataset)
• Ensemble de données de test (test dataset)
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 24
X1 X2 X3 X4 Y
APPRENTISSAGE
TEST
on construit le modèle à partir de
l’ensemble d’apprentissage
« on le laisse de côté »
après avoir fini l’évaluation du modèle avec
l’ensemble d’apprentissage, on le teste avec
des nouvelles données
Apprentissage Supervisé
• Mesures de performance du modèle
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 25
X1 X2 X3 X4 Y
APPRENTISSAGE
TEST
MODELE
෡𝒀
mesure de
performance
1. on injecte les nouvelles X dans le modèle
Apprentissage Supervisé
• Autre démarche, utilisée dans la recherche …
• ensemble de Validation
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 26
X1 X2 X3 X4 Y
APPRENTISSAGE
TEST
CALIBRATION OU VALIDATIONon simule les données de test afin d’évaluer la
performance lors de la construction du modèle
Apprentissage Supervisé
• Encore une autre démarche, recommandée
• technique d’échantillonnage: VALIDATION CROISEE
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 27
X1 X2 X3 X4 Y
APPRENTISSAGE
générer k ensembles (folds), chacun avec k-1
ensembles d’apprentissage et 1 ensemble de
validation, tous de la ~même taille.
Construisez le modèle correspondant avec la
totalité des données dans les k-1 ensembles
d’apprentissage
TEST
X1 X2 X3 X4 Y
fold 1
X1 X2 X3 X4 Y
fold 2
X1 X2 X3 X4 Y
fold 3
VALIDATION
VALIDATION
VALIDATION
k-fold cross-validation, ici k=3
erreur de test 1 erreur de test 2 erreur de test N
X1 X2 X3 X4 Y X1 X2 X3 X4 Y X1 X2 X3 X4 Y
TEST TEST TEST
Apprentissage Supervisé
• Encore une autre démarche, recommandée
• technique d’échantillonnage: VALIDATION CROISEE
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 28
X1 X2 X3 X4 Y
TEST
X1 X2 X3 X4 Y
fold 1
X1 X2 X3 X4 Y
fold 2
X1 X2 X3 X4 Y
fold 3
VALIDATION
VALIDATION
VALIDATION
ON NE SELECTIONNE PAS LE MEILLEUR PARMI LES k MODELES ! la méthode
sert à estimer la performance globale de notre modèle (que l’on construira
avec toutes les données de l’ensemble d’apprentissage) en moyennant les k
mesures de performance obtenues.
Cette méthode sert à COMPARER les modèles; chaque modèle possédant une
moyenne des erreurs de test.
k-fold cross-validation, ici k=3
APPRENTISSAGE
générer k ensembles (folds), chacun avec k-1 ensembles
d’apprentissage + 1 ensemble de validation, tous de la
~même taille. Construisez le modèle correspondant
avec les k-1 ensembles d’apprentissage
Apprentissage Supervisé
• Encore une autre démarche, recommandée
• technique d’échantillonnage: BAGGING (1/2)
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 29
X1 X2 X3 X4 Y
APPRENTISSAGE
générer N échantillons « bootstrap »
ou bags
TEST
X1 X2 X3 X4 Y
bootstrap N
performance 1 performance 2 performance N
X1 X2 X3 X4 Y
bootstrap 1
X1 X2 X3 X4 Y
bootstrap 2
…
échantillonnage avec remplacement
une observation peut être présente plusieurs fois dans un même échantillon
X1 X2 X3 X4 Y X1 X2 X3 X4 Y X1 X2 X3 X4 Y
…TEST TEST TEST
Apprentissage Supervisé
• Encore une autre démarche, recommandée
• technique d’échantillonnage: BAGGING (2/2)
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 30
X1 X2 X3 X4 Y
TOTALITE DES DONNEES
générer N échantillons « bootstrap »
ou bags
X1 X2 X3 X4 Y
bag N
performance 1 performance 2 performance N
X1 X2 X3 X4 Y
bag 1
X1 X2 X3 X4 Y
bag 2
…
échantillonnage avec remplacement
une observation peut être présente plusieurs fois dans un même échantillon
X1 X2 X3 X4 Y X1 X2 X3 X4 Y X1 X2 X3 X4 Y
…OOB 1 OOB 2 OOB N
Apprentissage Supervisé
Méthodes paramétriques
• Faire des hypothèses peut simplifier l’apprentissage mais cela peut limiter l’exactitude des
prévisions.
• Un algorithme ou méthode paramétrique fait des fortes hypothèses sur les données
• Exemple: régression linéaire
• hypothèse sur la forme de f
• estimer f c’est estimer les valeurs d’un nombre fixe de paramètres quelque soit le nombre
d’observations.
• Autres exemples
• Régression logistique
• Analyse discriminante linéaire: variables Gaussiennes
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 31
Apprentissage Supervisé
Méthodes non-paramétriques
• Il y a bien des paramètres (!), mais on en estime pas un nombre fixe,
• le nombre de paramètres croit avec le nombre d’observations dans l’ensemble d’apprentissage
• apprentissage (calcul) plus long par rapport aux méthodes paramétriques
• On ne fait aucune hypothèse sur les données
• Estimer f : estimation d’un ensemble plus important de paramètres
• plus difficile à interpréter donc à expliquer
• problèmes de surajustement (overfitting)
• Exemples:
• Fonctions splines
• KNN: k plus proches voisins
• Régression kernel
• Arbres de régression
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 32
exemple de spline cubique
0 < a < b < c … sont appelés « nœuds », des points qui
déterminent les intervalles de la partition
Apprentissage Supervisé
• Complexité du modèle
• notion de parcimonie
• nombre de variables explicatives
• nombre de feuilles d’un arbre de décision
• nombre de neurones dans une couche cachée
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 33
Apprentissage Supervisé
• Interprétabilité vs. Flexibilité
• Interprétabilité: expliquer la relation entre Y et X
• effectuer une sélection du modèle en identifiant quel sous-
ensemble de composantes de X expliquent Y
• comment chaque variable influence Y selon la complexité
de f
• Flexibilité
• la méthode offre une plus grande variété de formes de f
• les fonctions splines plus flexibles qu’une régression linéaire
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 34
« quand X croît d’une unité, f(X) croît ou décroît
selon la valeur de β1 »
SVM: Radial kernel
Super précision mais pas moyen
d’effectuer une sélection de variables !
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
Apprentissage Supervisé
• Notion de bias et variance
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 35
Ng A., Machine Learning MOOC, Coursera – Stanford University
Apprentissage Supervisé
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 36
• Plus complexe:
• il intègre plus de paramètres
• Plus flexible:
• capable de s’ajuster aux données d’apprentissage
• faible erreur d’ajustement
DEFAILLANT lors de la prévision (ou
généralisation) avec des nouvelles données
Ng A., Machine Learning MOOC, Coursera – Stanford University
Apprentissage Supervisé
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 37
• Ajouter des variables :
 multicolinéarité des variables explicatives
 fait croître la variance des estimateurs
 fait croître la variance des prévisions:
VARIANCE IMPORTANTE
SURAJUSTEMENT (overfit)
𝐸[ መ𝑓(x) - 𝐸[ መ𝑓(x)] ]2 à savoir
expliquer!
Ng A., Machine Learning MOOC, Coursera – Stanford University
Apprentissage Supervisé
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 38
à savoir
expliquer!
• On introduit du biais:
 on essaie d’approximer un problème
relativement complexe avec un modèle trop
simple
 le modèle a déjà une idée préconçue de la
relation entre Y et X
BIAIS IMPORTANT
FAIBLE AJUSTEMENT (underfit)
𝐸[ መ𝑓(x)] - 𝑓(x)
Ng A., Machine Learning MOOC, Coursera – Stanford University
Apprentissage Supervisé
• Expliquer le compromis biais et la variance
• Contexte:
• on va estimer f (construire le modèle) en utilisant un grand nombre d’ensembles d’apprentissage
• on calcule l’erreur quadratique moyenne (EQM ou MSE: expected mean square error) pour une seule
observation x0 de l’ensemble de test
• L’EQM se décompose alors de la manière suivante:
• Si l’on souhaite obtenir l’EQM sur l’ensemble de test il suffit de prendre la moyenne des EQM
des observations de l’ensemble de test
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 39
compromis biais - variance
Apprentissage Supervisé
• Variance
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 40
prévision sur un
ensemble
d’apprentissage
moyenne des prévisions
sur tous les ensembles
d’apprentissage
Apprentissage Supervisé
• Biais
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 41
moyenne des prévisions
sur tous les ensembles
d’apprentissage
prévision
de la vraie
fonction
Attention: on ne connaît pas la vraie fonction (raison pour laquelle on souhaite
l’estimer !). Si vous souhaitez coder le calcul vous devez simuler la vraie fonction f afin
de générer les réponses Y = f(X).
Apprentissage Supervisé
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 42
qu’est-ce que c’est ?
voir le slide suivant
• Que faire pour gérer le dilemme biais-variance ?
• Si variance importante
• plus d’observations
• moins de variables
• régularisation: augmenter λ
• Si biais important
• plus de variables; régression polynomiale: termes en
• régularisation: diminuer λ
Apprentissage Supervisé
• Sélection du modèle
• (Best subset selection)
• (Stepwise selection)
• Foward
• Backward
• Rétrécissement (Shrinkage)
• régression de Ridge (L2)
• Lasso (L1)
• Réduction de dimensionalité (Dimension Reduction)
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 43
appliqués aux méthodes qui estiment f par la méthode des moindres carrés
où on minimise RSS (somme des carrés des résidus)
régularisation: on ajoute une pénalité à RSS, notions
de normes L2 et L1
Patience … on commencera à
comprendre ces notions durant la
PARTIE 5
Apprentissage Supervisé
• Mesures de performances (1/2)
• Modèles idéaux pour la calibration du modèle :
• Modèle nul
• Modèle avec taux d’erreur de Bayes
• Modèles à une variable
• Modèles pour la discrimination
• Matrice de confusion (VP, FP, VN, FN)
• Exactitude (accuracy)
• Précision et rappel (precision & recall)
• F1
• Sensibilité et spécificité
• Modèles pour la régression
• Racine carrée de l’EQM (root mean square error, RMSE)
• R2 (R-squared)
• Corrélation
• Erreur absolue
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 44
Apprentissage Supervisé
• Mesures de performances (2/2)
• Modèles probabilistes
• La courbe Receiver Operating Characteristic (ROC)
• Area under the curve (AUC)
• Log-vraisemblance (Log Likelihood)
• Déviance
• AIC / BIC
• Entropie
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 45
Apprentissage Non-supervisé
• Recherche d’une typologie des observations et des variables
• Réduction de dimension
• Distances
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 46
Apprentissage Non-supervisé
• Absence d’une variable à expliquer
• il n’y a pas de réponse Y !
• Recherche d’une typologie des observations
• comment regrouper les observations (ou individus)
en classes homogènes mais les plus dissemblables
entre elles
• Recherche d’une typologie des variables
• réduire le nombre de variables en un ensemble de
variables plus « synthétiques »
• … pour ensuite appliquer une méthode
d’apprentissage supervisé
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 47
X1 X2 X3 X4 X5
observations
variables
Apprentissage Non-supervisé
• Classification (Clustering)
• divisives (k-means)
• agglomératives (CAH)
• Analyses factorielles
• Analyse en composantes principales (ACP)
• Analyse factorielle des correspondances (AFC)
• Analyse des correspondances multiples (ACM)
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 48
Apprentissage Non-supervisé
• Classification (Clustering)
• Evaluation interne:
• indice de Dunn (Dunn’s index)
• Coefficient de Silhouette
• indice de Davies-Bouldin (DBI)
• Evaluation externe:
• mesure F
• indice de Jaccard (Jaccard index)
• Fowlkes-Mallow index
• information mutuelle (MI)
• matrice de confusion
• Analyses factorielles
• R2, CTR, cos2
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 49
Les étapes de l’apprentissage
• Extraction
• Exploration
• Partition aléatoire
• Estimation du modèle
• Comparaison des modèles
• Validation croisée
• Choix de la méthode
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 50
Bibliographie
• James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
• WikiStats, INSA Toulouse, Statistique, Apprentissage, Big Data Mining
• Dreyfus et al., Apprentissage statistique, ISBN 9782212114645, Eyrolles, 2008
5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 51

Contenu connexe

Tendances

La Regression lineaire
La Regression lineaireLa Regression lineaire
La Regression lineaireFIKRIMAIL
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisinsBoris Guarisma
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisionsMariem Chaaben
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction généraleMohamed Heny SELMI
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdfOuailChoukhairi
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigFelipe Sanchez Garzon
 
5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoiresBoris Guarisma
 
Regression lineaire simple
Regression lineaire simpleRegression lineaire simple
Regression lineaire simpleMehdi Rajawi
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaireBoris Guarisma
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningHakim Nasaoui
 
Intelligence Artificielle : Introduction à l'intelligence artificielle
Intelligence Artificielle : Introduction à l'intelligence artificielleIntelligence Artificielle : Introduction à l'intelligence artificielle
Intelligence Artificielle : Introduction à l'intelligence artificielleECAM Brussels Engineering School
 
Les réseaux de neurones
Les réseaux de neuronesLes réseaux de neurones
Les réseaux de neuronesMariam Amchayd
 
scikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアルscikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアル敦志 金谷
 
Big Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesHassan Lâasri
 
Les algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationLes algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationHajer Trabelsi
 
Chap III : Cours de Modélisation & Simulation des systèmes
Chap III : Cours de Modélisation & Simulation des systèmesChap III : Cours de Modélisation & Simulation des systèmes
Chap III : Cours de Modélisation & Simulation des systèmesMohammed TAMALI
 
Ibm spss decision trees
Ibm spss decision treesIbm spss decision trees
Ibm spss decision treesisamil
 
Cou rs de methodologie
Cou rs de methodologieCou rs de methodologie
Cou rs de methodologieTelelaz Galaa
 

Tendances (20)

La Regression lineaire
La Regression lineaireLa Regression lineaire
La Regression lineaire
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisions
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
 
5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires
 
Regression lineaire simple
Regression lineaire simpleRegression lineaire simple
Regression lineaire simple
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaire
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Intelligence Artificielle : Introduction à l'intelligence artificielle
Intelligence Artificielle : Introduction à l'intelligence artificielleIntelligence Artificielle : Introduction à l'intelligence artificielle
Intelligence Artificielle : Introduction à l'intelligence artificielle
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
 
Outils Web Sémantique
Outils Web SémantiqueOutils Web Sémantique
Outils Web Sémantique
 
Les réseaux de neurones
Les réseaux de neuronesLes réseaux de neurones
Les réseaux de neurones
 
scikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアルscikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアル
 
Big Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologies
 
Les algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationLes algorithmes de génération des règles d association
Les algorithmes de génération des règles d association
 
Chap III : Cours de Modélisation & Simulation des systèmes
Chap III : Cours de Modélisation & Simulation des systèmesChap III : Cours de Modélisation & Simulation des systèmes
Chap III : Cours de Modélisation & Simulation des systèmes
 
Ibm spss decision trees
Ibm spss decision treesIbm spss decision trees
Ibm spss decision trees
 
Cou rs de methodologie
Cou rs de methodologieCou rs de methodologie
Cou rs de methodologie
 

En vedette

Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4jBoris Guarisma
 
05 Sélection de modèle linéaire
05 Sélection de modèle linéaire05 Sélection de modèle linéaire
05 Sélection de modèle linéaireBoris Guarisma
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistiqueBoris Guarisma
 
Introduction à la Data Science l data business
Introduction à la Data Science l data businessIntroduction à la Data Science l data business
Introduction à la Data Science l data businessVincent de Stoecklin
 
Microsoft Technologies for Data Science 201612
Microsoft Technologies for Data Science 201612Microsoft Technologies for Data Science 201612
Microsoft Technologies for Data Science 201612Mark Tabladillo
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Pierre Robentz Cassion
 
Les bienfaits des produits cosmétiques Herbalife
Les bienfaits des produits cosmétiques HerbalifeLes bienfaits des produits cosmétiques Herbalife
Les bienfaits des produits cosmétiques HerbalifeHerbalife
 
Music recommendations API with Neo4j
Music recommendations API with Neo4jMusic recommendations API with Neo4j
Music recommendations API with Neo4jBoris Guarisma
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4jBoris Guarisma
 
Analyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introductionAnalyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introductionAhmadou DICKO
 
Introduction à l'analyse de réseaux avec R
Introduction à l'analyse de réseaux avec RIntroduction à l'analyse de réseaux avec R
Introduction à l'analyse de réseaux avec RLaurent Beauguitte
 
2.8 accuracy and ensemble methods
2.8 accuracy and ensemble methods2.8 accuracy and ensemble methods
2.8 accuracy and ensemble methodsKrish_ver2
 
Natural language processing (NLP) introduction
Natural language processing (NLP) introductionNatural language processing (NLP) introduction
Natural language processing (NLP) introductionRobert Lujo
 
Natural language processing
Natural language processingNatural language processing
Natural language processingprashantdahake
 
Artificial Intelligence, Machine Learning and Deep Learning
Artificial Intelligence, Machine Learning and Deep LearningArtificial Intelligence, Machine Learning and Deep Learning
Artificial Intelligence, Machine Learning and Deep LearningSujit Pal
 
Analyse de sentiment - Charte des valeurs québécoises
Analyse de sentiment - Charte des valeurs québécoisesAnalyse de sentiment - Charte des valeurs québécoises
Analyse de sentiment - Charte des valeurs québécoisesMichelle Blanc
 

En vedette (20)

5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4j
 
05 Sélection de modèle linéaire
05 Sélection de modèle linéaire05 Sélection de modèle linéaire
05 Sélection de modèle linéaire
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
 
Introduction à la Data Science l data business
Introduction à la Data Science l data businessIntroduction à la Data Science l data business
Introduction à la Data Science l data business
 
Regression simple
Regression simpleRegression simple
Regression simple
 
Microsoft Technologies for Data Science 201612
Microsoft Technologies for Data Science 201612Microsoft Technologies for Data Science 201612
Microsoft Technologies for Data Science 201612
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)
 
Les bienfaits des produits cosmétiques Herbalife
Les bienfaits des produits cosmétiques HerbalifeLes bienfaits des produits cosmétiques Herbalife
Les bienfaits des produits cosmétiques Herbalife
 
Music recommendations API with Neo4j
Music recommendations API with Neo4jMusic recommendations API with Neo4j
Music recommendations API with Neo4j
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4j
 
Analyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introductionAnalyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introduction
 
Introduction à l'analyse de réseaux avec R
Introduction à l'analyse de réseaux avec RIntroduction à l'analyse de réseaux avec R
Introduction à l'analyse de réseaux avec R
 
Lancement de produits cosmétiques en Chine continentale
Lancement de produits cosmétiques en Chine continentaleLancement de produits cosmétiques en Chine continentale
Lancement de produits cosmétiques en Chine continentale
 
2.8 accuracy and ensemble methods
2.8 accuracy and ensemble methods2.8 accuracy and ensemble methods
2.8 accuracy and ensemble methods
 
Natural language processing (NLP) introduction
Natural language processing (NLP) introductionNatural language processing (NLP) introduction
Natural language processing (NLP) introduction
 
Natural language processing
Natural language processingNatural language processing
Natural language processing
 
Artificial Intelligence, Machine Learning and Deep Learning
Artificial Intelligence, Machine Learning and Deep LearningArtificial Intelligence, Machine Learning and Deep Learning
Artificial Intelligence, Machine Learning and Deep Learning
 
NLP
NLPNLP
NLP
 
Analyse de sentiment - Charte des valeurs québécoises
Analyse de sentiment - Charte des valeurs québécoisesAnalyse de sentiment - Charte des valeurs québécoises
Analyse de sentiment - Charte des valeurs québécoises
 

Similaire à 03 Apprentissage statistique

Chapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptxChapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptxdalaamaima
 
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;• Les statistiques peuvent être vues en fonction de l'objectif fixé ;
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;bawen34465
 
L1 TD Numérique et Société
L1 TD Numérique et SociétéL1 TD Numérique et Société
L1 TD Numérique et SociétéAmar LAKEL, PhD
 
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfTS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfFootballLovers9
 
Introduction au Data Marketing
Introduction au Data MarketingIntroduction au Data Marketing
Introduction au Data MarketingAmar LAKEL, PhD
 
"Ce que la LGV SEA va changer pour vous" (enquête d'opinion)
"Ce que la LGV SEA va changer pour vous" (enquête d'opinion)"Ce que la LGV SEA va changer pour vous" (enquête d'opinion)
"Ce que la LGV SEA va changer pour vous" (enquête d'opinion)LISEA
 
Baromètre d'opinion - Ligne à grande vitesse Tours-Bordeaux - 2014
Baromètre d'opinion - Ligne à grande vitesse Tours-Bordeaux - 2014Baromètre d'opinion - Ligne à grande vitesse Tours-Bordeaux - 2014
Baromètre d'opinion - Ligne à grande vitesse Tours-Bordeaux - 2014LISEA
 
La méthode DMAIC et ses secrets
La méthode DMAIC et ses secretsLa méthode DMAIC et ses secrets
La méthode DMAIC et ses secretsXL Groupe
 

Similaire à 03 Apprentissage statistique (15)

Statistique descriptive ch1
Statistique descriptive ch1Statistique descriptive ch1
Statistique descriptive ch1
 
cours1_sondage_Besancon.pdf
cours1_sondage_Besancon.pdfcours1_sondage_Besancon.pdf
cours1_sondage_Besancon.pdf
 
Chapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptxChapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptx
 
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;• Les statistiques peuvent être vues en fonction de l'objectif fixé ;
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;
 
Chapitre Introductif
Chapitre IntroductifChapitre Introductif
Chapitre Introductif
 
L1 TD Numérique et Société
L1 TD Numérique et SociétéL1 TD Numérique et Société
L1 TD Numérique et Société
 
Statistiques descriptives
Statistiques descriptivesStatistiques descriptives
Statistiques descriptives
 
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfTS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdf
 
Introduction au Data Marketing
Introduction au Data MarketingIntroduction au Data Marketing
Introduction au Data Marketing
 
Methodologie des enquete
Methodologie des enqueteMethodologie des enquete
Methodologie des enquete
 
"Ce que la LGV SEA va changer pour vous" (enquête d'opinion)
"Ce que la LGV SEA va changer pour vous" (enquête d'opinion)"Ce que la LGV SEA va changer pour vous" (enquête d'opinion)
"Ce que la LGV SEA va changer pour vous" (enquête d'opinion)
 
Baromètre d'opinion - Ligne à grande vitesse Tours-Bordeaux - 2014
Baromètre d'opinion - Ligne à grande vitesse Tours-Bordeaux - 2014Baromètre d'opinion - Ligne à grande vitesse Tours-Bordeaux - 2014
Baromètre d'opinion - Ligne à grande vitesse Tours-Bordeaux - 2014
 
Ch7 (1).pdf
Ch7 (1).pdfCh7 (1).pdf
Ch7 (1).pdf
 
Statistiques- S2
Statistiques- S2Statistiques- S2
Statistiques- S2
 
La méthode DMAIC et ses secrets
La méthode DMAIC et ses secretsLa méthode DMAIC et ses secrets
La méthode DMAIC et ses secrets
 

Dernier

Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...France Travail
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformersbahija babzine
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attalcontact Elabe
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentationbahija babzine
 
Recurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxRecurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxbahija babzine
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023France Travail
 

Dernier (6)

Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformers
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentation
 
Recurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxRecurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptx
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023
 

03 Apprentissage statistique

  • 1. Partie 3 - Apprentissage Statistique BASE SUR L’ŒUVRE « INTRODUCTION TO STATISTICAL LEARNING » 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 1
  • 2. Objectifs  Comprendre les changements de paradigme depuis les années 40 à nos jours.  Comprendre la relation entre l’apprentissage statistique, le machine learning, l’intelligence artificielle et le datamining.  Comprendre l’objectif d’une modélisation.  Comprendre l’apprentissage supervisé et ses objectifs.  Comprendre la différence entre une méthode paramétrique et non-paramétrique.  Comprendre la différence entre une discrimination et une régression.  Comprendre le choix du modèle:  Interprétabilité vs. flexibilité des modèles  Equilibre biais-variance: quelles actions pour trouver le meilleur compromis  Sélection vs régularisation  Comprendre l’apprentissage non-supervisé et ses objectifs.  Connaître les étapes de l’apprentissage  faire mapping avec le process Data Science décrit dans la partie précédente 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 2
  • 3. Sommaire • De la statistique à l’analyse du Big Data • L’apprentissage statistique • Apprentissage supervisé • Apprentissage non-supervisé 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 3
  • 4. De la statistique à l’analyse du Big Data • 1940-70: la Statistique • Exemple d’une démarche classique; test d’hypothèse sur la moyenne d’une population: • Recherches sur les enfants surdoués. • Des chercheurs ont collecté des données provenant des écoles d’une grande ville. Ils ont sélectionné au hasard un échantillon de 36 enfants identifiés come surdoués juste après l’âge de 4 ans. Durant l’étude, en plus de la collecte des données des enfants, le QI de leur mères respectives a été également collecté. Voir l’histogramme des QI des mères ci-dessous. • Effectuer un test d’hypothèse afin d’évaluer si les données apportent suffisamment de preuves sur une différence existante entre la moyenne des QI des mères d’enfants surdoués et celle, connue et égale à 100, d’une population plus large de mères. Considérer un seuil de signification de 1%. » 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 4 1. Etablir les hypothèses: nulle (H0) et alternative (HA) 2. Estimation de la moyenne à partir des données ( ҧ𝑥 = 118.2) 3. Check des conditions: indépendance + n>30 + symétrie de la distribution 4. Calculer la statistique Z = (µ - ҧ𝑥)/𝑆𝐸 5. Déterminer la p-value et la comparer à 1% 6. Prendre une décision (rejet ou pas de H0), interprétation
  • 5. De la statistique à l’analyse du Big Data • Les changements de paradigme* • « 1940-70: la Statistique • 1970s: premiers outils informatiques, statistique multivariée • 1980s IA, apprentissage machine: réseaux de neurones • 1990s* les données sont préalables, entrepôt de données, CRM • 2000s* nb de variables >> nb d’observations, modèle « boîte noire », compromis biais-variance • 2010s* le nb d’observations explose, Big Data/NoSQL: cloud, clusters, scalabilité » 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 5 WikiStats, INSA Toulouse, Statistique, Apprentissage, Big Data Mining
  • 6. L’apprentissage statistique • « L’étude de la fouille de données (data mining) se focalise sur les pratiques ou méthodes à l’interface de l’apprentissage machine et de la Statistique. » • « Les développements méthodologiques à cette interface ont pris depuis le début du siècle la dénomination d’apprentissage statistique. » • Objectif générale: la modélisation • Les sous-objectifs • explorer • expliquer • prévoir et sélectionner • prévoir 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 6 WikiStats, INSA Toulouse, Statistique, Apprentissage, Big Data Mining
  • 7. L’apprentissage statistique 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 7 Mount J., Zumel N., Practical Data Science with R, ISBN 9781617291562, Manning Publications, 2014
  • 8. L’apprentissage statistique • Tableau nb lignes x nb colonnes • Lignes: • n lignes • observations, individus, … • Colonnes: • p variables • Xi: variables, descripteurs, features • quantitative, catégorielle • Y: réponse, hypothèse • quantitative ou catégorielle 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 8 X1 X2 X3 X4 X5 Y
  • 9. L’apprentissage statistique • On souhaite comprendre la relation « commune » entre les ventes (Sales) et les trois variables TV, Radio, Newspaper • Comprendre comment ces 3 variables opèrent simultanément pour influencer les ventes. • On modélise les ventes comme une fonction f de ces 3 variables 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 9 James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014 TV Radio Newspaper Sales
  • 10. L’apprentissage statistique • Modèle = f • La fonction f de X ne modélisera pas parfaitement Y 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 10 TV Radio Newspaper il capture les erreurs de mesure et autres écarts vecteur colonne James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 11. L’apprentissage statistique • A quoi sert la fonction f ? • A effectuer des prévisions pour des nouvelles valeurs de X = x • A identifier quel sous-ensemble de composantes de X expliquent Y • Comprendre comment chaque variable influence Y selon la complexité de f 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 11 TV Radio Newspaper il capture les erreurs de mesure et autres écarts vecteur colonne James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 12. L’apprentissage statistique • Quelle est la fonction idéale pour f ? • Y variable aléatoire • E(Y|X=x) espérance conditionnelle de Y « sachant » la valeur x de X • On calcule la moyenne des valeurs de Y pour chaque valeur X = x • f idéale parmi toutes les fonctions g • … idéale ou optimale par rapport à quel critère ? 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 12 idéale ou optimale James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 13. L’apprentissage statistique • Notion de fonction de coût • La fonction optimale est celle qui minimise la fonction de coût • Celle qui minimise la moyenne des carrés de la différence entre la réponse Y et les g(X) sur tous les points x de X 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 13 rappel: X peut être un vecteur dans Rn, ici R3 James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 14. L’apprentissage statistique • Notion d’erreur réductible et irréductible • Comme à chaque X = x il y a une distribution de valeurs possibles de Y, alors même si l’on connaît la fonction f, on ferait toujours des erreurs de prédiction 𝝐 • Pour toute estimation መ𝑓(x) de f(x) on a 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 14 réductible irréductible መ𝑓(x) estimation de f(x) à partir des données James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 15. L’apprentissage statistique • Comment estimer f ? • En réalité, il se peut que l’on ait pas un y pour x = 4. • impossible donc de calculer E(Y|X=x) ! • Par conséquent on va « relâcher » la définition sur un voisinage de x • Alors on est en train d’estimer l’espérance conditionnelle E(Y|X=x) grâce à la notion de voisinage de x • Méthode de moyenne locale ou des plus proches voisins 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 15 moyenne des y sur 𝛮(4) James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 16. L’apprentissage statistique • Notion de fléau de dimensionnalité • La méthode précédente peut être inadaptée (pourrie!) pour un nombre de variables p important; OK pour p ≤ 4 • Plus la dimension p est importante plus les « voisins » s’éloignent. • On souhaite avoir une proportion suffisante (soit 10%) de valeurs y dont on calculera la moyenne afin de baisser la variance. • Mais ces 10% en termes de voisinage n’est plus local ! on perd la notion d’estimation locale de E(Y|X=x) 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 16 pour n=1, ici x1 pour n=2, ici x1 et x2 James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 17. L’apprentissage statistique • La méthode des plus proches voisins est donc limitée .. que faire ? • Structurer nos modèles • Régression linéaire simple • Régression linéaire multiple • Régression polynomiale • Fonctions splines • … 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 17 James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 18. L’apprentissage statistique • La méthode des plus proches voisins est donc limitée .. que faire ? • Structurer nos modèles • Régression linéaire simple • Régression linéaire multiple • Régression polynomiale • Fonctions splines • … 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 18 vraie fonction f መ𝑓L linéaire መ𝑓S spline James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 19. L’apprentissage statistique • Jusqu’à présent, que des problématique de prévision … • Une autre problématique: la discrimination • Y est catégorielle • De même, on peut utiliser la méthode des plus proches voisins … avec les même limites quand le nombre p de variables est important. • Ci-après le classifieur optimal de Bayes • il garantit le taux d’erreur de classification minimal avec la vraie pk(x) • c’est un oracle: il ne se réalise pas dans la pratique, car loi de (Y, X) est inconnue 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 19 ici pour k = « 1 » , « 0 » James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 20. L’apprentissage statistique • La méthode des plus proches voisins est limitée pour la discrimination ... que faire ? • Structurer nos modèles • elles structurent pk(x) : • Régression logistique • Analyse discriminante linéaire (LDA) • Generalized Additive Models (GAM) • elles structurent C(x) (pas probabilistique): • Machines à vecteurs supports (SVM) • … 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 20 carte de crédit: défaut de paiement Jamesandal.,AnintroductiontoStatisticalLearning,ISBN9781461471370,Springer,2014
  • 21. Apprentissage Supervisé • Les exemples et les méthodes mentionnées jusqu’à présent sont liés au problème de modélisation ou d’apprentissage supervisé. • Apprentissage supervisé • présence de la variable à expliquer Y • trouver une fonction f susceptible, au mieux selon un critère, de reproduire Y ayant observé X • Y peut être quantitatif (Y ⊂ ℝ 𝑛): prix, coût, niveau de consommation, de pollution, … • Y peut être qualitatif (Y ⊂ ensemble fini de valeurs): survenue d’un cancer, reconnaissance de chiffres, … 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 21 REGRESSION DISCRIMINATION, CLASSEMENT OU RECONNAISSANCE DE FORME
  • 22. Apprentissage Supervisé • Apprentissage supervisé • présence de la variable à expliquer Y • trouver une fonction f susceptible, au mieux selon un critère, de reproduire Y ayant observé X • Exemple d’une régression linéaire simple • les paramètres seront estimés selon le critère de minimisation de la somme des carrés des résidus (RSS) avec la méthode des moindres carrés 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 22
  • 23. Apprentissage Supervisé • Objectifs de l’apprentissage supervisé: à quoi sert la fonction f ? • A effectuer des prévisions pour des nouvelles valeurs de X = x • A identifier quel sous-ensemble de composantes de X expliquent Y (sélection du modèle) • Comprendre comment chaque variable influence Y selon la complexité de f 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 23 expliquer la relation entre Y et X
  • 24. Apprentissage Supervisé • Ensemble de données d’apprentissage (training dataset) • Ensemble de données de test (test dataset) 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 24 X1 X2 X3 X4 Y APPRENTISSAGE TEST on construit le modèle à partir de l’ensemble d’apprentissage « on le laisse de côté » après avoir fini l’évaluation du modèle avec l’ensemble d’apprentissage, on le teste avec des nouvelles données
  • 25. Apprentissage Supervisé • Mesures de performance du modèle 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 25 X1 X2 X3 X4 Y APPRENTISSAGE TEST MODELE ෡𝒀 mesure de performance 1. on injecte les nouvelles X dans le modèle
  • 26. Apprentissage Supervisé • Autre démarche, utilisée dans la recherche … • ensemble de Validation 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 26 X1 X2 X3 X4 Y APPRENTISSAGE TEST CALIBRATION OU VALIDATIONon simule les données de test afin d’évaluer la performance lors de la construction du modèle
  • 27. Apprentissage Supervisé • Encore une autre démarche, recommandée • technique d’échantillonnage: VALIDATION CROISEE 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 27 X1 X2 X3 X4 Y APPRENTISSAGE générer k ensembles (folds), chacun avec k-1 ensembles d’apprentissage et 1 ensemble de validation, tous de la ~même taille. Construisez le modèle correspondant avec la totalité des données dans les k-1 ensembles d’apprentissage TEST X1 X2 X3 X4 Y fold 1 X1 X2 X3 X4 Y fold 2 X1 X2 X3 X4 Y fold 3 VALIDATION VALIDATION VALIDATION k-fold cross-validation, ici k=3 erreur de test 1 erreur de test 2 erreur de test N X1 X2 X3 X4 Y X1 X2 X3 X4 Y X1 X2 X3 X4 Y TEST TEST TEST
  • 28. Apprentissage Supervisé • Encore une autre démarche, recommandée • technique d’échantillonnage: VALIDATION CROISEE 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 28 X1 X2 X3 X4 Y TEST X1 X2 X3 X4 Y fold 1 X1 X2 X3 X4 Y fold 2 X1 X2 X3 X4 Y fold 3 VALIDATION VALIDATION VALIDATION ON NE SELECTIONNE PAS LE MEILLEUR PARMI LES k MODELES ! la méthode sert à estimer la performance globale de notre modèle (que l’on construira avec toutes les données de l’ensemble d’apprentissage) en moyennant les k mesures de performance obtenues. Cette méthode sert à COMPARER les modèles; chaque modèle possédant une moyenne des erreurs de test. k-fold cross-validation, ici k=3 APPRENTISSAGE générer k ensembles (folds), chacun avec k-1 ensembles d’apprentissage + 1 ensemble de validation, tous de la ~même taille. Construisez le modèle correspondant avec les k-1 ensembles d’apprentissage
  • 29. Apprentissage Supervisé • Encore une autre démarche, recommandée • technique d’échantillonnage: BAGGING (1/2) 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 29 X1 X2 X3 X4 Y APPRENTISSAGE générer N échantillons « bootstrap » ou bags TEST X1 X2 X3 X4 Y bootstrap N performance 1 performance 2 performance N X1 X2 X3 X4 Y bootstrap 1 X1 X2 X3 X4 Y bootstrap 2 … échantillonnage avec remplacement une observation peut être présente plusieurs fois dans un même échantillon X1 X2 X3 X4 Y X1 X2 X3 X4 Y X1 X2 X3 X4 Y …TEST TEST TEST
  • 30. Apprentissage Supervisé • Encore une autre démarche, recommandée • technique d’échantillonnage: BAGGING (2/2) 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 30 X1 X2 X3 X4 Y TOTALITE DES DONNEES générer N échantillons « bootstrap » ou bags X1 X2 X3 X4 Y bag N performance 1 performance 2 performance N X1 X2 X3 X4 Y bag 1 X1 X2 X3 X4 Y bag 2 … échantillonnage avec remplacement une observation peut être présente plusieurs fois dans un même échantillon X1 X2 X3 X4 Y X1 X2 X3 X4 Y X1 X2 X3 X4 Y …OOB 1 OOB 2 OOB N
  • 31. Apprentissage Supervisé Méthodes paramétriques • Faire des hypothèses peut simplifier l’apprentissage mais cela peut limiter l’exactitude des prévisions. • Un algorithme ou méthode paramétrique fait des fortes hypothèses sur les données • Exemple: régression linéaire • hypothèse sur la forme de f • estimer f c’est estimer les valeurs d’un nombre fixe de paramètres quelque soit le nombre d’observations. • Autres exemples • Régression logistique • Analyse discriminante linéaire: variables Gaussiennes 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 31
  • 32. Apprentissage Supervisé Méthodes non-paramétriques • Il y a bien des paramètres (!), mais on en estime pas un nombre fixe, • le nombre de paramètres croit avec le nombre d’observations dans l’ensemble d’apprentissage • apprentissage (calcul) plus long par rapport aux méthodes paramétriques • On ne fait aucune hypothèse sur les données • Estimer f : estimation d’un ensemble plus important de paramètres • plus difficile à interpréter donc à expliquer • problèmes de surajustement (overfitting) • Exemples: • Fonctions splines • KNN: k plus proches voisins • Régression kernel • Arbres de régression 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 32 exemple de spline cubique 0 < a < b < c … sont appelés « nœuds », des points qui déterminent les intervalles de la partition
  • 33. Apprentissage Supervisé • Complexité du modèle • notion de parcimonie • nombre de variables explicatives • nombre de feuilles d’un arbre de décision • nombre de neurones dans une couche cachée 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 33
  • 34. Apprentissage Supervisé • Interprétabilité vs. Flexibilité • Interprétabilité: expliquer la relation entre Y et X • effectuer une sélection du modèle en identifiant quel sous- ensemble de composantes de X expliquent Y • comment chaque variable influence Y selon la complexité de f • Flexibilité • la méthode offre une plus grande variété de formes de f • les fonctions splines plus flexibles qu’une régression linéaire 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 34 « quand X croît d’une unité, f(X) croît ou décroît selon la valeur de β1 » SVM: Radial kernel Super précision mais pas moyen d’effectuer une sélection de variables ! James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 35. Apprentissage Supervisé • Notion de bias et variance 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 35 Ng A., Machine Learning MOOC, Coursera – Stanford University
  • 36. Apprentissage Supervisé 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 36 • Plus complexe: • il intègre plus de paramètres • Plus flexible: • capable de s’ajuster aux données d’apprentissage • faible erreur d’ajustement DEFAILLANT lors de la prévision (ou généralisation) avec des nouvelles données Ng A., Machine Learning MOOC, Coursera – Stanford University
  • 37. Apprentissage Supervisé 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 37 • Ajouter des variables :  multicolinéarité des variables explicatives  fait croître la variance des estimateurs  fait croître la variance des prévisions: VARIANCE IMPORTANTE SURAJUSTEMENT (overfit) 𝐸[ መ𝑓(x) - 𝐸[ መ𝑓(x)] ]2 à savoir expliquer! Ng A., Machine Learning MOOC, Coursera – Stanford University
  • 38. Apprentissage Supervisé 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 38 à savoir expliquer! • On introduit du biais:  on essaie d’approximer un problème relativement complexe avec un modèle trop simple  le modèle a déjà une idée préconçue de la relation entre Y et X BIAIS IMPORTANT FAIBLE AJUSTEMENT (underfit) 𝐸[ መ𝑓(x)] - 𝑓(x) Ng A., Machine Learning MOOC, Coursera – Stanford University
  • 39. Apprentissage Supervisé • Expliquer le compromis biais et la variance • Contexte: • on va estimer f (construire le modèle) en utilisant un grand nombre d’ensembles d’apprentissage • on calcule l’erreur quadratique moyenne (EQM ou MSE: expected mean square error) pour une seule observation x0 de l’ensemble de test • L’EQM se décompose alors de la manière suivante: • Si l’on souhaite obtenir l’EQM sur l’ensemble de test il suffit de prendre la moyenne des EQM des observations de l’ensemble de test 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 39 compromis biais - variance
  • 40. Apprentissage Supervisé • Variance 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 40 prévision sur un ensemble d’apprentissage moyenne des prévisions sur tous les ensembles d’apprentissage
  • 41. Apprentissage Supervisé • Biais 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 41 moyenne des prévisions sur tous les ensembles d’apprentissage prévision de la vraie fonction Attention: on ne connaît pas la vraie fonction (raison pour laquelle on souhaite l’estimer !). Si vous souhaitez coder le calcul vous devez simuler la vraie fonction f afin de générer les réponses Y = f(X).
  • 42. Apprentissage Supervisé 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 42 qu’est-ce que c’est ? voir le slide suivant • Que faire pour gérer le dilemme biais-variance ? • Si variance importante • plus d’observations • moins de variables • régularisation: augmenter λ • Si biais important • plus de variables; régression polynomiale: termes en • régularisation: diminuer λ
  • 43. Apprentissage Supervisé • Sélection du modèle • (Best subset selection) • (Stepwise selection) • Foward • Backward • Rétrécissement (Shrinkage) • régression de Ridge (L2) • Lasso (L1) • Réduction de dimensionalité (Dimension Reduction) 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 43 appliqués aux méthodes qui estiment f par la méthode des moindres carrés où on minimise RSS (somme des carrés des résidus) régularisation: on ajoute une pénalité à RSS, notions de normes L2 et L1 Patience … on commencera à comprendre ces notions durant la PARTIE 5
  • 44. Apprentissage Supervisé • Mesures de performances (1/2) • Modèles idéaux pour la calibration du modèle : • Modèle nul • Modèle avec taux d’erreur de Bayes • Modèles à une variable • Modèles pour la discrimination • Matrice de confusion (VP, FP, VN, FN) • Exactitude (accuracy) • Précision et rappel (precision & recall) • F1 • Sensibilité et spécificité • Modèles pour la régression • Racine carrée de l’EQM (root mean square error, RMSE) • R2 (R-squared) • Corrélation • Erreur absolue 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 44
  • 45. Apprentissage Supervisé • Mesures de performances (2/2) • Modèles probabilistes • La courbe Receiver Operating Characteristic (ROC) • Area under the curve (AUC) • Log-vraisemblance (Log Likelihood) • Déviance • AIC / BIC • Entropie 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 45
  • 46. Apprentissage Non-supervisé • Recherche d’une typologie des observations et des variables • Réduction de dimension • Distances 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 46
  • 47. Apprentissage Non-supervisé • Absence d’une variable à expliquer • il n’y a pas de réponse Y ! • Recherche d’une typologie des observations • comment regrouper les observations (ou individus) en classes homogènes mais les plus dissemblables entre elles • Recherche d’une typologie des variables • réduire le nombre de variables en un ensemble de variables plus « synthétiques » • … pour ensuite appliquer une méthode d’apprentissage supervisé 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 47 X1 X2 X3 X4 X5 observations variables
  • 48. Apprentissage Non-supervisé • Classification (Clustering) • divisives (k-means) • agglomératives (CAH) • Analyses factorielles • Analyse en composantes principales (ACP) • Analyse factorielle des correspondances (AFC) • Analyse des correspondances multiples (ACM) 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 48
  • 49. Apprentissage Non-supervisé • Classification (Clustering) • Evaluation interne: • indice de Dunn (Dunn’s index) • Coefficient de Silhouette • indice de Davies-Bouldin (DBI) • Evaluation externe: • mesure F • indice de Jaccard (Jaccard index) • Fowlkes-Mallow index • information mutuelle (MI) • matrice de confusion • Analyses factorielles • R2, CTR, cos2 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 49
  • 50. Les étapes de l’apprentissage • Extraction • Exploration • Partition aléatoire • Estimation du modèle • Comparaison des modèles • Validation croisée • Choix de la méthode 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 50
  • 51. Bibliographie • James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014 • WikiStats, INSA Toulouse, Statistique, Apprentissage, Big Data Mining • Dreyfus et al., Apprentissage statistique, ISBN 9782212114645, Eyrolles, 2008 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 51