03 Apprentissage statistique

28 vues

Publié le

Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.

Publié dans : Données & analyses
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
28
Sur SlideShare
0
Issues des intégrations
0
Intégrations
3
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

03 Apprentissage statistique

  1. 1. Partie 3 - Apprentissage Statistique BASE SUR L’ŒUVRE « INTRODUCTION TO STATISTICAL LEARNING » 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 1
  2. 2. Objectifs  Comprendre les changements de paradigme depuis les années 40 à nos jours.  Comprendre la relation entre l’apprentissage statistique, le machine learning, l’intelligence artificielle et le datamining.  Comprendre l’objectif d’une modélisation.  Comprendre l’apprentissage supervisé et ses objectifs.  Comprendre la différence entre une méthode paramétrique et non-paramétrique.  Comprendre la différence entre une discrimination et une régression.  Comprendre le choix du modèle:  Interprétabilité vs. flexibilité des modèles  Equilibre biais-variance: quelles actions pour trouver le meilleur compromis  Sélection vs régularisation  Comprendre l’apprentissage non-supervisé et ses objectifs.  Connaître les étapes de l’apprentissage  faire mapping avec le process Data Science décrit dans la partie précédente 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 2
  3. 3. Sommaire • De la statistique à l’analyse du Big Data • L’apprentissage statistique • Apprentissage supervisé • Apprentissage non-supervisé 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 3
  4. 4. De la statistique à l’analyse du Big Data • 1940-70: la Statistique • Exemple d’une démarche classique; test d’hypothèse sur la moyenne d’une population: • Recherches sur les enfants surdoués. • Des chercheurs ont collecté des données provenant des écoles d’une grande ville. Ils ont sélectionné au hasard un échantillon de 36 enfants identifiés come surdoués juste après l’âge de 4 ans. Durant l’étude, en plus de la collecte des données des enfants, le QI de leur mères respectives a été également collecté. Voir l’histogramme des QI des mères ci-dessous. • Effectuer un test d’hypothèse afin d’évaluer si les données apportent suffisamment de preuves sur une différence existante entre la moyenne des QI des mères d’enfants surdoués et celle, connue et égale à 100, d’une population plus large de mères. Considérer un seuil de signification de 1%. » 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 4 1. Etablir les hypothèses: nulle (H0) et alternative (HA) 2. Estimation de la moyenne à partir des données ( ҧ𝑥 = 118.2) 3. Check des conditions: indépendance + n>30 + symétrie de la distribution 4. Calculer la statistique Z = (µ - ҧ𝑥)/𝑆𝐸 5. Déterminer la p-value et la comparer à 1% 6. Prendre une décision (rejet ou pas de H0), interprétation
  5. 5. De la statistique à l’analyse du Big Data • Les changements de paradigme* • « 1940-70: la Statistique • 1970s: premiers outils informatiques, statistique multivariée • 1980s IA, apprentissage machine: réseaux de neurones • 1990s* les données sont préalables, entrepôt de données, CRM • 2000s* nb de variables >> nb d’observations, modèle « boîte noire », compromis biais-variance • 2010s* le nb d’observations explose, Big Data/NoSQL: cloud, clusters, scalabilité » 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 5 WikiStats, INSA Toulouse, Statistique, Apprentissage, Big Data Mining
  6. 6. L’apprentissage statistique • « L’étude de la fouille de données (data mining) se focalise sur les pratiques ou méthodes à l’interface de l’apprentissage machine et de la Statistique. » • « Les développements méthodologiques à cette interface ont pris depuis le début du siècle la dénomination d’apprentissage statistique. » • Objectif générale: la modélisation • Les sous-objectifs • explorer • expliquer • prévoir et sélectionner • prévoir 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 6 WikiStats, INSA Toulouse, Statistique, Apprentissage, Big Data Mining
  7. 7. L’apprentissage statistique 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 7 Mount J., Zumel N., Practical Data Science with R, ISBN 9781617291562, Manning Publications, 2014
  8. 8. L’apprentissage statistique • Tableau nb lignes x nb colonnes • Lignes: • n lignes • observations, individus, … • Colonnes: • p variables • Xi: variables, descripteurs, features • quantitative, catégorielle • Y: réponse, hypothèse • quantitative ou catégorielle 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 8 X1 X2 X3 X4 X5 Y
  9. 9. L’apprentissage statistique • On souhaite comprendre la relation « commune » entre les ventes (Sales) et les trois variables TV, Radio, Newspaper • Comprendre comment ces 3 variables opèrent simultanément pour influencer les ventes. • On modélise les ventes comme une fonction f de ces 3 variables 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 9 James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014 TV Radio Newspaper Sales
  10. 10. L’apprentissage statistique • Modèle = f • La fonction f de X ne modélisera pas parfaitement Y 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 10 TV Radio Newspaper il capture les erreurs de mesure et autres écarts vecteur colonne James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  11. 11. L’apprentissage statistique • A quoi sert la fonction f ? • A effectuer des prévisions pour des nouvelles valeurs de X = x • A identifier quel sous-ensemble de composantes de X expliquent Y • Comprendre comment chaque variable influence Y selon la complexité de f 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 11 TV Radio Newspaper il capture les erreurs de mesure et autres écarts vecteur colonne James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  12. 12. L’apprentissage statistique • Quelle est la fonction idéale pour f ? • Y variable aléatoire • E(Y|X=x) espérance conditionnelle de Y « sachant » la valeur x de X • On calcule la moyenne des valeurs de Y pour chaque valeur X = x • f idéale parmi toutes les fonctions g • … idéale ou optimale par rapport à quel critère ? 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 12 idéale ou optimale James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  13. 13. L’apprentissage statistique • Notion de fonction de coût • La fonction optimale est celle qui minimise la fonction de coût • Celle qui minimise la moyenne des carrés de la différence entre la réponse Y et les g(X) sur tous les points x de X 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 13 rappel: X peut être un vecteur dans Rn, ici R3 James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  14. 14. L’apprentissage statistique • Notion d’erreur réductible et irréductible • Comme à chaque X = x il y a une distribution de valeurs possibles de Y, alors même si l’on connaît la fonction f, on ferait toujours des erreurs de prédiction 𝝐 • Pour toute estimation መ𝑓(x) de f(x) on a 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 14 réductible irréductible መ𝑓(x) estimation de f(x) à partir des données James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  15. 15. L’apprentissage statistique • Comment estimer f ? • En réalité, il se peut que l’on ait pas un y pour x = 4. • impossible donc de calculer E(Y|X=x) ! • Par conséquent on va « relâcher » la définition sur un voisinage de x • Alors on est en train d’estimer l’espérance conditionnelle E(Y|X=x) grâce à la notion de voisinage de x • Méthode de moyenne locale ou des plus proches voisins 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 15 moyenne des y sur 𝛮(4) James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  16. 16. L’apprentissage statistique • Notion de fléau de dimensionnalité • La méthode précédente peut être inadaptée (pourrie!) pour un nombre de variables p important; OK pour p ≤ 4 • Plus la dimension p est importante plus les « voisins » s’éloignent. • On souhaite avoir une proportion suffisante (soit 10%) de valeurs y dont on calculera la moyenne afin de baisser la variance. • Mais ces 10% en termes de voisinage n’est plus local ! on perd la notion d’estimation locale de E(Y|X=x) 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 16 pour n=1, ici x1 pour n=2, ici x1 et x2 James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  17. 17. L’apprentissage statistique • La méthode des plus proches voisins est donc limitée .. que faire ? • Structurer nos modèles • Régression linéaire simple • Régression linéaire multiple • Régression polynomiale • Fonctions splines • … 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 17 James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  18. 18. L’apprentissage statistique • La méthode des plus proches voisins est donc limitée .. que faire ? • Structurer nos modèles • Régression linéaire simple • Régression linéaire multiple • Régression polynomiale • Fonctions splines • … 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 18 vraie fonction f መ𝑓L linéaire መ𝑓S spline James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  19. 19. L’apprentissage statistique • Jusqu’à présent, que des problématique de prévision … • Une autre problématique: la discrimination • Y est catégorielle • De même, on peut utiliser la méthode des plus proches voisins … avec les même limites quand le nombre p de variables est important. • Ci-après le classifieur optimal de Bayes • il garantit le taux d’erreur de classification minimal avec la vraie pk(x) • c’est un oracle: il ne se réalise pas dans la pratique, car loi de (Y, X) est inconnue 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 19 ici pour k = « 1 » , « 0 » James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  20. 20. L’apprentissage statistique • La méthode des plus proches voisins est limitée pour la discrimination ... que faire ? • Structurer nos modèles • elles structurent pk(x) : • Régression logistique • Analyse discriminante linéaire (LDA) • Generalized Additive Models (GAM) • elles structurent C(x) (pas probabilistique): • Machines à vecteurs supports (SVM) • … 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 20 carte de crédit: défaut de paiement Jamesandal.,AnintroductiontoStatisticalLearning,ISBN9781461471370,Springer,2014
  21. 21. Apprentissage Supervisé • Les exemples et les méthodes mentionnées jusqu’à présent sont liés au problème de modélisation ou d’apprentissage supervisé. • Apprentissage supervisé • présence de la variable à expliquer Y • trouver une fonction f susceptible, au mieux selon un critère, de reproduire Y ayant observé X • Y peut être quantitatif (Y ⊂ ℝ 𝑛): prix, coût, niveau de consommation, de pollution, … • Y peut être qualitatif (Y ⊂ ensemble fini de valeurs): survenue d’un cancer, reconnaissance de chiffres, … 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 21 REGRESSION DISCRIMINATION, CLASSEMENT OU RECONNAISSANCE DE FORME
  22. 22. Apprentissage Supervisé • Apprentissage supervisé • présence de la variable à expliquer Y • trouver une fonction f susceptible, au mieux selon un critère, de reproduire Y ayant observé X • Exemple d’une régression linéaire simple • les paramètres seront estimés selon le critère de minimisation de la somme des carrés des résidus (RSS) avec la méthode des moindres carrés 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 22
  23. 23. Apprentissage Supervisé • Objectifs de l’apprentissage supervisé: à quoi sert la fonction f ? • A effectuer des prévisions pour des nouvelles valeurs de X = x • A identifier quel sous-ensemble de composantes de X expliquent Y (sélection du modèle) • Comprendre comment chaque variable influence Y selon la complexité de f 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 23 expliquer la relation entre Y et X
  24. 24. Apprentissage Supervisé • Ensemble de données d’apprentissage (training dataset) • Ensemble de données de test (test dataset) 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 24 X1 X2 X3 X4 Y APPRENTISSAGE TEST on construit le modèle à partir de l’ensemble d’apprentissage « on le laisse de côté » après avoir fini l’évaluation du modèle avec l’ensemble d’apprentissage, on le teste avec des nouvelles données
  25. 25. Apprentissage Supervisé • Mesures de performance du modèle 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 25 X1 X2 X3 X4 Y APPRENTISSAGE TEST MODELE ෡𝒀 mesure de performance 1. on injecte les nouvelles X dans le modèle
  26. 26. Apprentissage Supervisé • Autre démarche, utilisée dans la recherche … • ensemble de Validation 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 26 X1 X2 X3 X4 Y APPRENTISSAGE TEST CALIBRATION OU VALIDATIONon simule les données de test afin d’évaluer la performance lors de la construction du modèle
  27. 27. Apprentissage Supervisé • Encore une autre démarche, recommandée • technique d’échantillonnage: VALIDATION CROISEE 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 27 X1 X2 X3 X4 Y APPRENTISSAGE générer k ensembles (folds), chacun avec k-1 ensembles d’apprentissage et 1 ensemble de validation, tous de la ~même taille. Construisez le modèle correspondant avec la totalité des données dans les k-1 ensembles d’apprentissage TEST X1 X2 X3 X4 Y fold 1 X1 X2 X3 X4 Y fold 2 X1 X2 X3 X4 Y fold 3 VALIDATION VALIDATION VALIDATION k-fold cross-validation, ici k=3 erreur de test 1 erreur de test 2 erreur de test N X1 X2 X3 X4 Y X1 X2 X3 X4 Y X1 X2 X3 X4 Y TEST TEST TEST
  28. 28. Apprentissage Supervisé • Encore une autre démarche, recommandée • technique d’échantillonnage: VALIDATION CROISEE 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 28 X1 X2 X3 X4 Y TEST X1 X2 X3 X4 Y fold 1 X1 X2 X3 X4 Y fold 2 X1 X2 X3 X4 Y fold 3 VALIDATION VALIDATION VALIDATION ON NE SELECTIONNE PAS LE MEILLEUR PARMI LES k MODELES ! la méthode sert à estimer la performance globale de notre modèle (que l’on construira avec toutes les données de l’ensemble d’apprentissage) en moyennant les k mesures de performance obtenues. Cette méthode sert à COMPARER les modèles; chaque modèle possédant une moyenne des erreurs de test. k-fold cross-validation, ici k=3 APPRENTISSAGE générer k ensembles (folds), chacun avec k-1 ensembles d’apprentissage + 1 ensemble de validation, tous de la ~même taille. Construisez le modèle correspondant avec les k-1 ensembles d’apprentissage
  29. 29. Apprentissage Supervisé • Encore une autre démarche, recommandée • technique d’échantillonnage: BAGGING (1/2) 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 29 X1 X2 X3 X4 Y APPRENTISSAGE générer N échantillons « bootstrap » ou bags TEST X1 X2 X3 X4 Y bootstrap N performance 1 performance 2 performance N X1 X2 X3 X4 Y bootstrap 1 X1 X2 X3 X4 Y bootstrap 2 … échantillonnage avec remplacement une observation peut être présente plusieurs fois dans un même échantillon X1 X2 X3 X4 Y X1 X2 X3 X4 Y X1 X2 X3 X4 Y …TEST TEST TEST
  30. 30. Apprentissage Supervisé • Encore une autre démarche, recommandée • technique d’échantillonnage: BAGGING (2/2) 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 30 X1 X2 X3 X4 Y TOTALITE DES DONNEES générer N échantillons « bootstrap » ou bags X1 X2 X3 X4 Y bag N performance 1 performance 2 performance N X1 X2 X3 X4 Y bag 1 X1 X2 X3 X4 Y bag 2 … échantillonnage avec remplacement une observation peut être présente plusieurs fois dans un même échantillon X1 X2 X3 X4 Y X1 X2 X3 X4 Y X1 X2 X3 X4 Y …OOB 1 OOB 2 OOB N
  31. 31. Apprentissage Supervisé Méthodes paramétriques • Faire des hypothèses peut simplifier l’apprentissage mais cela peut limiter l’exactitude des prévisions. • Un algorithme ou méthode paramétrique fait des fortes hypothèses sur les données • Exemple: régression linéaire • hypothèse sur la forme de f • estimer f c’est estimer les valeurs d’un nombre fixe de paramètres quelque soit le nombre d’observations. • Autres exemples • Régression logistique • Analyse discriminante linéaire: variables Gaussiennes 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 31
  32. 32. Apprentissage Supervisé Méthodes non-paramétriques • Il y a bien des paramètres (!), mais on en estime pas un nombre fixe, • le nombre de paramètres croit avec le nombre d’observations dans l’ensemble d’apprentissage • apprentissage (calcul) plus long par rapport aux méthodes paramétriques • On ne fait aucune hypothèse sur les données • Estimer f : estimation d’un ensemble plus important de paramètres • plus difficile à interpréter donc à expliquer • problèmes de surajustement (overfitting) • Exemples: • Fonctions splines • KNN: k plus proches voisins • Régression kernel • Arbres de régression 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 32 exemple de spline cubique 0 < a < b < c … sont appelés « nœuds », des points qui déterminent les intervalles de la partition
  33. 33. Apprentissage Supervisé • Complexité du modèle • notion de parcimonie • nombre de variables explicatives • nombre de feuilles d’un arbre de décision • nombre de neurones dans une couche cachée 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 33
  34. 34. Apprentissage Supervisé • Interprétabilité vs. Flexibilité • Interprétabilité: expliquer la relation entre Y et X • effectuer une sélection du modèle en identifiant quel sous- ensemble de composantes de X expliquent Y • comment chaque variable influence Y selon la complexité de f • Flexibilité • la méthode offre une plus grande variété de formes de f • les fonctions splines plus flexibles qu’une régression linéaire 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 34 « quand X croît d’une unité, f(X) croît ou décroît selon la valeur de β1 » SVM: Radial kernel Super précision mais pas moyen d’effectuer une sélection de variables ! James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  35. 35. Apprentissage Supervisé • Notion de bias et variance 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 35 Ng A., Machine Learning MOOC, Coursera – Stanford University
  36. 36. Apprentissage Supervisé 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 36 • Plus complexe: • il intègre plus de paramètres • Plus flexible: • capable de s’ajuster aux données d’apprentissage • faible erreur d’ajustement DEFAILLANT lors de la prévision (ou généralisation) avec des nouvelles données Ng A., Machine Learning MOOC, Coursera – Stanford University
  37. 37. Apprentissage Supervisé 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 37 • Ajouter des variables :  multicolinéarité des variables explicatives  fait croître la variance des estimateurs  fait croître la variance des prévisions: VARIANCE IMPORTANTE SURAJUSTEMENT (overfit) 𝐸[ መ𝑓(x) - 𝐸[ መ𝑓(x)] ]2 à savoir expliquer! Ng A., Machine Learning MOOC, Coursera – Stanford University
  38. 38. Apprentissage Supervisé 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 38 à savoir expliquer! • On introduit du biais:  on essaie d’approximer un problème relativement complexe avec un modèle trop simple  le modèle a déjà une idée préconçue de la relation entre Y et X BIAIS IMPORTANT FAIBLE AJUSTEMENT (underfit) 𝐸[ መ𝑓(x)] - 𝑓(x) Ng A., Machine Learning MOOC, Coursera – Stanford University
  39. 39. Apprentissage Supervisé • Expliquer le compromis biais et la variance • Contexte: • on va estimer f (construire le modèle) en utilisant un grand nombre d’ensembles d’apprentissage • on calcule l’erreur quadratique moyenne (EQM ou MSE: expected mean square error) pour une seule observation x0 de l’ensemble de test • L’EQM se décompose alors de la manière suivante: • Si l’on souhaite obtenir l’EQM sur l’ensemble de test il suffit de prendre la moyenne des EQM des observations de l’ensemble de test 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 39 compromis biais - variance
  40. 40. Apprentissage Supervisé • Variance 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 40 prévision sur un ensemble d’apprentissage moyenne des prévisions sur tous les ensembles d’apprentissage
  41. 41. Apprentissage Supervisé • Biais 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 41 moyenne des prévisions sur tous les ensembles d’apprentissage prévision de la vraie fonction Attention: on ne connaît pas la vraie fonction (raison pour laquelle on souhaite l’estimer !). Si vous souhaitez coder le calcul vous devez simuler la vraie fonction f afin de générer les réponses Y = f(X).
  42. 42. Apprentissage Supervisé 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 42 qu’est-ce que c’est ? voir le slide suivant • Que faire pour gérer le dilemme biais-variance ? • Si variance importante • plus d’observations • moins de variables • régularisation: augmenter λ • Si biais important • plus de variables; régression polynomiale: termes en • régularisation: diminuer λ
  43. 43. Apprentissage Supervisé • Sélection du modèle • (Best subset selection) • (Stepwise selection) • Foward • Backward • Rétrécissement (Shrinkage) • régression de Ridge (L2) • Lasso (L1) • Réduction de dimensionalité (Dimension Reduction) 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 43 appliqués aux méthodes qui estiment f par la méthode des moindres carrés où on minimise RSS (somme des carrés des résidus) régularisation: on ajoute une pénalité à RSS, notions de normes L2 et L1 Patience … on commencera à comprendre ces notions durant la PARTIE 5
  44. 44. Apprentissage Supervisé • Mesures de performances (1/2) • Modèles idéaux pour la calibration du modèle : • Modèle nul • Modèle avec taux d’erreur de Bayes • Modèles à une variable • Modèles pour la discrimination • Matrice de confusion (VP, FP, VN, FN) • Exactitude (accuracy) • Précision et rappel (precision & recall) • F1 • Sensibilité et spécificité • Modèles pour la régression • Racine carrée de l’EQM (root mean square error, RMSE) • R2 (R-squared) • Corrélation • Erreur absolue 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 44
  45. 45. Apprentissage Supervisé • Mesures de performances (2/2) • Modèles probabilistes • La courbe Receiver Operating Characteristic (ROC) • Area under the curve (AUC) • Log-vraisemblance (Log Likelihood) • Déviance • AIC / BIC • Entropie 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 45
  46. 46. Apprentissage Non-supervisé • Recherche d’une typologie des observations et des variables • Réduction de dimension • Distances 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 46
  47. 47. Apprentissage Non-supervisé • Absence d’une variable à expliquer • il n’y a pas de réponse Y ! • Recherche d’une typologie des observations • comment regrouper les observations (ou individus) en classes homogènes mais les plus dissemblables entre elles • Recherche d’une typologie des variables • réduire le nombre de variables en un ensemble de variables plus « synthétiques » • … pour ensuite appliquer une méthode d’apprentissage supervisé 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 47 X1 X2 X3 X4 X5 observations variables
  48. 48. Apprentissage Non-supervisé • Classification (Clustering) • divisives (k-means) • agglomératives (CAH) • Analyses factorielles • Analyse en composantes principales (ACP) • Analyse factorielle des correspondances (AFC) • Analyse des correspondances multiples (ACM) 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 48
  49. 49. Apprentissage Non-supervisé • Classification (Clustering) • Evaluation interne: • indice de Dunn (Dunn’s index) • Coefficient de Silhouette • indice de Davies-Bouldin (DBI) • Evaluation externe: • mesure F • indice de Jaccard (Jaccard index) • Fowlkes-Mallow index • information mutuelle (MI) • matrice de confusion • Analyses factorielles • R2, CTR, cos2 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 49
  50. 50. Les étapes de l’apprentissage • Extraction • Exploration • Partition aléatoire • Estimation du modèle • Comparaison des modèles • Validation croisée • Choix de la méthode 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 50
  51. 51. Bibliographie • James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014 • WikiStats, INSA Toulouse, Statistique, Apprentissage, Big Data Mining • Dreyfus et al., Apprentissage statistique, ISBN 9782212114645, Eyrolles, 2008 5/10/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 3 APPRENTISSAGE STATISTIQUE 51

×