Comment faire disparaître les          rides        Ou le statisticien esthéticien
Comment éliminer les ridesVoici un nuage de points   Quelle est la tendance ?
Contenu1. Régression linéaire2. Méthodes de lissage  i.     Lisseur à bac  ii.    Moyenne mobile  iii.   Droite mobile  iv...
NotationX: La variable explicatrice. Dans le cas de variablesmultiples, représente la matrice des variablesexplicatrices.Y...
Régression linéaireLa régression linéaire établi un lien bien défini entredeux variables.Techniquement, la fonction est li...
Régression linéaire
LissageAucune forme imposéeCapture les caractéristiques du nuage« Lisse »  Moins variable que les valeurs observées Y
Le lisseur à bacOn sépare le nuage de point en régions selon lavariable X et on fait la moyenne dans chaque région
Le lisseur à bac
Le lisseur à bac
La moyenne mobileOn défini le voisinage d’une valeur xi comme étant les Npoints les plus proches de xi.Version symétrique:...
La moyenne mobileOn prend la moyenne des Y appartenant au voisinagedéfiniUne modification à cette procédure nous permetd’o...
La moyenne mobile
La moyenne mobile
La droite mobile
Régression par le noyauPlutôt que de donné la même importance à tous lespoints d’un voisinage, pourquoi ne pas favoriser l...
Régression par le noyau
Régression par le noyau
Régression polynomiale localePour éviter les problème de l’estimateur noyau aux extrémités,on pourrait abandonner la symét...
Régression polynomiale locales(xi) sera la prévision à xi du modèle de régressionpondéré { l’aide de ce poids.
Régression polynomiale locale
Splines de régressionSimplifier le problème de régression en ajustant unpolynôme par partie.On sépare l’espace des X en (K...
Splines de régressionOn peut écrire l’équation précédente { l’aide de K+4polynômes de base:                       K+4     ...
Splines de régression
Splines de lissageAu lieu de séparer l’espace des X en groupes, lessplines émergent naturellement du problème derégression...
Splines de lissage
Qu’est-ce qu’une fonction « lisse » ?  La définition de lisse change selon le lisseur, mais  l’objectif général est toujou...
Trop, c’est comme pas assezLa difficulté est de lissée suffisamment, sans effacertoutes les caractéristiques intéressantes...
SurlissageSurlissage                Lissage
Comparaison des lisseurs
Comparaison des lisseurs
Comparaison des lisseurs
Comparaison des lisseurs
Comparaison des lisseurs
Comparaison des lisseurs
Comparaison des lisseurs
HypothèsesL’estimation des lisseurs ne requiert aucunehypothèse sur la nature des données, outre qu’ilexiste une forme fon...
Et si on a plus d’une variable           explicatrice ?Il existe des lisseurs de dimensions plus élevées du typef(x1,x2), ...
Et si on a plus d’une variable           explicatrice ?Dans tous les cas on est confronté à la malédictiondes grands nombr...
Modèles additifs généralisésUne simplification du problème est de travailler avecune extension de la régression linéaire m...
Modèles additifs généralisésUne des hypothèses importante des modèles linéairesgénéralisés est l’hypothèse de linéarité, s...
Prochain SlideShare
Chargement dans…5
×

Comment faire disparaître les rides

611 vues

Publié le

Introduction aux méthodes de lissage.

Publié dans : Formation
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
611
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
9
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Comment faire disparaître les rides

  1. 1. Comment faire disparaître les rides Ou le statisticien esthéticien
  2. 2. Comment éliminer les ridesVoici un nuage de points Quelle est la tendance ?
  3. 3. Contenu1. Régression linéaire2. Méthodes de lissage i. Lisseur à bac ii. Moyenne mobile iii. Droite mobile iv. Régression par noyau v. Régression polynomiale locale vi. Spline3. Modèles additifs généralisés
  4. 4. NotationX: La variable explicatrice. Dans le cas de variablesmultiples, représente la matrice des variablesexplicatrices.Y: La variable réponse.xi: La cible, pourrait être n’importe quelle valeur del’espace de X, par exemple une observation de Xs(xi): la valeur lissée de Y à la cible.
  5. 5. Régression linéaireLa régression linéaire établi un lien bien défini entredeux variables.Techniquement, la fonction est lisse, mais cela vientde la contrainte de linéarité imposée. Y =a + bX
  6. 6. Régression linéaire
  7. 7. LissageAucune forme imposéeCapture les caractéristiques du nuage« Lisse » Moins variable que les valeurs observées Y
  8. 8. Le lisseur à bacOn sépare le nuage de point en régions selon lavariable X et on fait la moyenne dans chaque région
  9. 9. Le lisseur à bac
  10. 10. Le lisseur à bac
  11. 11. La moyenne mobileOn défini le voisinage d’une valeur xi comme étant les Npoints les plus proches de xi.Version symétrique: On prend les valeurs de X qui sont dans l’intervalle [i-k,i+k] On obtient donc 2K+1 = N éléments Aux extrémités, nous avons moins de pointsVersion non-symétrique On prend l’intervalle symétrique lorsque possible Aux extrémités, 2K+1 éléments, peu importe de leur position par rapport à xi
  12. 12. La moyenne mobileOn prend la moyenne des Y appartenant au voisinagedéfiniUne modification à cette procédure nous permetd’obtenir la droite mobile Au lieu de faire la moyenne des Y du voisinage, on ajuste on modèle de régression dans ce voisinage et on prend la valeur prédite. s ( xi ) = a ( xi ) + b ( xi ) xi ˆ ˆ
  13. 13. La moyenne mobile
  14. 14. La moyenne mobile
  15. 15. La droite mobile
  16. 16. Régression par le noyauPlutôt que de donné la même importance à tous lespoints d’un voisinage, pourquoi ne pas favoriser lespoints les plus proches et pénaliser les points éloignés ?On défini le poids de chaque observation pour un xidonné { l’aide d’une fonction de densité symétrique(par exemple, la loi normale)On calcule la moyenne pondérée { l’aide de ce noyau: æ xi - x j ö å d ç l ÷y j j è ø s ( xi ) = æ x - xj ö å è l ÷ dç i ø j
  17. 17. Régression par le noyau
  18. 18. Régression par le noyau
  19. 19. Régression polynomiale localePour éviter les problème de l’estimateur noyau aux extrémités,on pourrait abandonner la symétrie en faveur d’un voisinageasymétriqueAinsi, on détermine le voisinage des K plus proches voisins de xiOn calcule la distance au plus loin des proches-voisins D(xi)On attribue aux observations le poids suivant ì ï æ æ 3 3 ö ö ï ç1- ç xi - x j ÷ ÷ si xi - x j < D(xi ) W (x j ) = í ç ç D(xi ) ÷ ÷ ï è è ø ø ï î 0 autrement
  20. 20. Régression polynomiale locales(xi) sera la prévision à xi du modèle de régressionpondéré { l’aide de ce poids.
  21. 21. Régression polynomiale locale
  22. 22. Splines de régressionSimplifier le problème de régression en ajustant unpolynôme par partie.On sépare l’espace des X en (K+1) groupes, la jonctionentre deux groupe ce nomme un nœud et nous avonsK nœuds internes.Dans chaque groupe on ajuste un polynôme avec unecontrainte de continuité aux nœuds. s(xi ) = bo + b1 xi + b x + b x + åq j ( xi - x j )+ 2 3 3 2 i 3 i j
  23. 23. Splines de régressionOn peut écrire l’équation précédente { l’aide de K+4polynômes de base: K+4 s ( xi ) = å b j Pj j=1Les polynômes Pj forment la base des B-splines.
  24. 24. Splines de régression
  25. 25. Splines de lissageAu lieu de séparer l’espace des X en groupes, lessplines émergent naturellement du problème derégression pénalisée suivant: b å{ y - f ( x )} + l ò { f ¢¢ ( t )} dt 2 2 i i i aJe vous épargne les détails mathématiques del’estimation
  26. 26. Splines de lissage
  27. 27. Qu’est-ce qu’une fonction « lisse » ? La définition de lisse change selon le lisseur, mais l’objectif général est toujours d’être moins variable que les données brutes. Certains lisseurs ne sont pas généralement lisses. Le lisseur { bac est loin d’être lisse car il s’agit d’une fonction discontinue. Mais il est moins variable que les observations. Les lisseurs à moyenne mobile et à droite mobile sont continues, mais rien ne les empêche de changer rapidement et donc d’avoir une une apparence ridée.
  28. 28. Trop, c’est comme pas assezLa difficulté est de lissée suffisamment, sans effacertoutes les caractéristiques intéressantes de la relation(surlissage)Le choix du paramètre de lissage est donc critique Sélection automatique { l’aide de la validation croisée généralisée
  29. 29. SurlissageSurlissage Lissage
  30. 30. Comparaison des lisseurs
  31. 31. Comparaison des lisseurs
  32. 32. Comparaison des lisseurs
  33. 33. Comparaison des lisseurs
  34. 34. Comparaison des lisseurs
  35. 35. Comparaison des lisseurs
  36. 36. Comparaison des lisseurs
  37. 37. HypothèsesL’estimation des lisseurs ne requiert aucunehypothèse sur la nature des données, outre qu’ilexiste une forme fonctionnelle qui lie les deuxvariable.On pourrait vouloir comparer un lisseur à une droitede régression, dans ce cas, on doit assumer que lesobservations sont indépendantes et que les erreurssont distribuées normalement.
  38. 38. Et si on a plus d’une variable explicatrice ?Il existe des lisseurs de dimensions plus élevées du typef(x1,x2), etc. On peut généraliser le lisseur à bac, la moyenne mobile, la droite mobile, en effectuant un maillage On peut généraliser la régression par noyau en utilisant un noyau multidimensionnel On peut généraliser la régression polynomiale locale en définissant une distance multidimensionnelle appropriée Les splines se généralisent par ce qui est appelé « thin-plate splines »
  39. 39. Et si on a plus d’une variable explicatrice ?Dans tous les cas on est confronté à la malédictiondes grands nombresIl est donc peu pratique de penser pouvoirreprésenter librement la relation qui peut existerentre plus de deux variables explicatrices et unevariable réponse
  40. 40. Modèles additifs généralisésUne simplification du problème est de travailler avecune extension de la régression linéaire multiple Y = a + f1 ( X1 ) + f2 ( X2 )Où les fonctions fi sont obtenues par lissageConséquence: la relation entre X1 et Y estindépendante de X2
  41. 41. Modèles additifs généralisésUne des hypothèses importante des modèles linéairesgénéralisés est l’hypothèse de linéarité, souventdifficile à validerLes modèles additifs généralisés pourraient être unepiste { emprunter pour valider l’hypothèse delinéarité, ainsi que pour suggérer une formeparamétrique plus appropriée

×