Régression Linéaire Multiple
Massih-Réza Amini
Techniques d’Analyse de Données et Théorie de l’Information
Master M2 IAD –...
Laboratoire d’Informatique de Paris 6 5Massih-Reza.Amini@lip6.fr
Régression au sens des moindres carrées
On cherche une fo...
Laboratoire d’Informatique de Paris 6 9Massih-Reza.Amini@lip6.fr
Interprétation géométrique (3)
E(Y |X) est une projection...
Laboratoire d’Informatique de Paris 6 13Massih-Reza.Amini@lip6.fr
Poids de la combinaison linéaire - Résolution VPG
Pour d...
Laboratoire d’Informatique de Paris 6 17Massih-Reza.Amini@lip6.fr
Récapitulatif
Résolution de B-1Aw=λw
AFD
B = Sw
A = SB
T...
Laboratoire d’Informatique de Paris 6 21Massih-Reza.Amini@lip6.fr
Clustering - Kmeans
20ème itération
-4 -2 0 2 4 6
-20246...
Laboratoire d’Informatique de Paris 6 25Massih-Reza.Amini@lip6.fr
Problème jouet en 2D: clowns
Laboratoire d’Informatique ...
Laboratoire d’Informatique de Paris 6 29Massih-Reza.Amini@lip6.fr
α=0.6
Laboratoire d’Informatique de Paris 6 30Massih-Rez...
Prochain SlideShare
Chargement dans…5
×

Tadti crs3-n

346 vues

Publié le

Publié dans : Données & analyses
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
346
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1
Actions
Partages
0
Téléchargements
6
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Tadti crs3-n

  1. 1. Régression Linéaire Multiple Massih-Réza Amini Techniques d’Analyse de Données et Théorie de l’Information Master M2 IAD – Parcours Recherche amini@poleia.lip6.fr http://www-connex.lip6.fr/~amini Laboratoire d’Informatique de Paris 6 2Massih-Reza.Amini@lip6.fr Plan Définition, Historique, Interprétation géométrique de la solution, Lien avec l’analyse de Corrélation Canonique, Récapitulatif – solutions de VPG Laboratoire d’Informatique de Paris 6 3Massih-Reza.Amini@lip6.fr Régression Linéaire Multiple Les modèles de régression tentent de trouver une relation entre deux variables aléatoires x∈ℜp et y∈ℜ On cherche à trouver une dépendance fonctionnelle entre les sorties réelles comme fonction des entrées De prévoir la valeur de y connaissant celle de x En régression linéaire la forme de la dépendance fonctionnelle est une droite: y=xtw+w0 Il s’agit ici d’estimer une variable réelle par une combinaison linéaire des caractéristiques d’entrée Cas particulier de la corrélation canonique avec q =1. ( )pw,...,w1 Laboratoire d’Informatique de Paris 6 4Massih-Reza.Amini@lip6.fr Historique Le premier travail sur la régression linéaire à été publié par Legendre en 1805. La méthode des moindres carrés. Gauss prétendait la connaissance de cette méthode depuis 1795. Legendre et Gauss ont appliqué cette méthode pour prédire l’orbites des planètes à partir des observations astronomiques Gauss a publié en 1821 une théorie sur la méthode des moindres carrés Incluant une version du théorème Gauss-Markov D’autres études ont été menées tout le 19ème et le début de 20ème siècle pour décrire des phénomènes biologiques et étendues à un contexte statistique général par Pearson, Yule (1877,1885) et Fisher (1922).
  2. 2. Laboratoire d’Informatique de Paris 6 5Massih-Reza.Amini@lip6.fr Régression au sens des moindres carrées On cherche une fonction f :ℜp →ℜ qui prédit la valeur de y connaissant x On suppose qu’il existe une relation entre x et y à travers une distribution de probabilité jointe p(x,y) Pour trouver les paramètres de la fonction f on définit une fonction de risque L(y,f(x)) qui pénalise les erreurs de prédictions. Laboratoire d’Informatique de Paris 6 6Massih-Reza.Amini@lip6.fr Régression au sens des moindres carrées (2) Au sens des moindres carrées la fonction de risque est Pour trouver la fonction qui minimise cette expression il suffit de minimiser ECM pour tout x La solution est ( ) ( )( ) ( )( ) ( ) ( )( )[ ][ ]XXfYEE dxdyy,xpxfy XfYEfECM X X Y 2 2 2 −= −= −= ∫∫ ( ) ( )[ ]xXcYEminargxf XY c =−= 2 ( ) ( )XYExf = Laboratoire d’Informatique de Paris 6 7Massih-Reza.Amini@lip6.fr Interprétation géométrique L’espace de toutes les variables aléatoires sur le même expérimental forme un espace de Hilbert si on le munit du produit scalaire Dans ce cas pour des variables centrées La norme des variables centrées est leur écart-type, La covariance entre X et Y est le produit scalaire des variables. Pour des variables centrées, l’espérance de X est la projection orthogonale de X sur la droite des constantes. ( )XYEY,X = Laboratoire d’Informatique de Paris 6 8Massih-Reza.Amini@lip6.fr Interprétation géométrique (2) Soit LX le sous-espace de Hilbert constitué des variables aléatoires fonctions seulement de X. On peut montrer que LX est fermé et contient la droite des constante DC L’opérateur qui associe à chaque variable aléatoire son espérance conditionnelle à X est un opérateur linéaire idempotent E(Y |X) est donc le projecteur orthogonal de Y sur LX
  3. 3. Laboratoire d’Informatique de Paris 6 9Massih-Reza.Amini@lip6.fr Interprétation géométrique (3) E(Y |X) est une projection orthogonale sur LX, le minimum de est atteint pour f(X)=E(Y|X). ( )( )[ ] ( ) 22 XfYXfYE −=− 0 Y DC LX f(X)=E(Y|X) ||Y-f(X)||2 Laboratoire d’Informatique de Paris 6 10Massih-Reza.Amini@lip6.fr Poids de la combinaison linéaire - Résolution analytique Pour chaque entrée x ∈ℜp on cherche à prédire une sortie réelle suivant un modèle linéaire. f(x)=xtw En supposant qu’on cherche à déterminer les paramètres w sur un ensemble d’apprentissage (x1, y1) … (xn, yn). Le critère d’optimisation est l’erreur carrée moyenne (ECM) ( ) ( ) ( )XwYXwY wxy)w(ECM t n i t ii −−= −= ∑ =1 2 Laboratoire d’Informatique de Paris 6 11Massih-Reza.Amini@lip6.fr Poids de la combinaison linéaire - Résolution analytique (2) Les dérivées partielles d’ordre 1 et 2 de ECM en fonction de Β sont : Si Xt.X est non singulière (i.e. det(Xt.X )≠0), il existe alors une solution unique qui minimise ECM : Pour une entrée X le modèle prédit la sortie : ( ) XX ww ECM XwY.X. w ECM t t t 2 2 2 = ∂∂ ∂ −−= ∂ ∂ ( ) YXXXwˆ tt 1− = ( ) YXXXXwˆXYˆ tt 1− == Laboratoire d’Informatique de Paris 6 12Massih-Reza.Amini@lip6.fr Poids de la combinaison linéaire - Résolution analytique (3) La solution de la régression vérifie La réponse du modèle, est la projection orthogonale de Y sur l’espace des données. ( ) ( ) 0=−=− YˆYXwˆXYX tt wˆ x1 x2 Y Yˆ Yˆ ( ) YXXXXwˆXYˆ tt 1− == Matrice de projection
  4. 4. Laboratoire d’Informatique de Paris 6 13Massih-Reza.Amini@lip6.fr Poids de la combinaison linéaire - Résolution VPG Pour des variables X et Y centrées la solution de la régression est D’après la relation de Pythagore xyxx CCwˆ 1− = Y Yˆ L X Yˆ ||Y|| YˆY − 222 YˆYˆYY +−= Minimiser ⇔ Maximiser 2 YˆY − 2 Yˆ ⇔ Maximiser ( ) Y Yˆ Yˆ,Ycos = Pour des variables centrées, cos(Y,f(X))=cor(Y,f(X)) ⇒ Lien avec l’ACC Laboratoire d’Informatique de Paris 6 14Massih-Reza.Amini@lip6.fr Poids de la combinaison linéaire - Résolution VPG (2) Le but de la régression est donc de trouver w qui maximise La dérivée partielle de c par rapport à w Et ( ) wCwY Cw XwXwY YXw Xw,Ycosc xx t xy t tt tt === ( )wCC wCwYw c xxwxy xx t λ−= ∂ ∂ 1 wCw Cw xx t xy t w =λ xyxx CCwˆ 1− ∝ Laboratoire d’Informatique de Paris 6 15Massih-Reza.Amini@lip6.fr Le cas où Y réel régression xi yi ii yy −ˆ iyˆ Laboratoire d’Informatique de Paris 6 16Massih-Reza.Amini@lip6.fr Le cas où Y∈{-1,1} classification x t.β2 +γO = 0 x1 x2 y x1
  5. 5. Laboratoire d’Informatique de Paris 6 17Massih-Reza.Amini@lip6.fr Récapitulatif Résolution de B-1Aw=λw AFD B = Sw A = SB Trouver la direction w qui discrimine au mieux les classes en projection ACP B = I A = Cxx Trouver les directions w qui déforment le moins possible les distances en projection ACC ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ = 0 0 yx xy C C A ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ = yy xx C C B 0 0 Trouver les directions wx et wy qui maximisent le carré de corrélation entre X et Y RLMTrouver la combinaison linéaire Xw la plus proche de Y au sens ERM Laboratoire d’Informatique de Paris 6 18Massih-Reza.Amini@lip6.fr Clustering contrainte avec des variétés géométriques Laboratoire d’Informatique de Paris 6 19Massih-Reza.Amini@lip6.fr Algorithmes de Clustering But : Regrouper (ou segmenter) une collection de données en différents ensembles, tel que les individus d’un groupe donné soient plus liés les uns des autres (au sens d’une similarité) qu’avec ceux d’autres groupes. Un objet peut-être décrit par un ensemble de mesures ou par sa relation à d’autres objets. Deux étapes itératives : Définition de la relation entre individus avec une mesure de similarité (distance euclidienne, score, …) Décision pour le partitionnement (entropie, …) Laboratoire d’Informatique de Paris 6 20Massih-Reza.Amini@lip6.fr Algorithme de Kmeans
  6. 6. Laboratoire d’Informatique de Paris 6 21Massih-Reza.Amini@lip6.fr Clustering - Kmeans 20ème itération -4 -2 0 2 4 6 -20246 Initialisation centroïdes 2ème itération -4 -2 0 2 4 6 -20246-4 -2 0 2 4 6 -20246 Laboratoire d’Informatique de Paris 6 22Massih-Reza.Amini@lip6.fr Algorithme CEM ∑ ∑∈ = ui Xx k iiki u kyxpt X ),(log 1 Laboratoire d’Informatique de Paris 6 23Massih-Reza.Amini@lip6.fr Nouveaux types d’algorithmes de clustering Clustering par contraintes On utilise l’a priori sur les classes des exemples Clustering dans l’espace implicite On utilise l’a priori sur l’espace avec les noyaux Clustering structuré On utilise l’a priori sur l’hiérarchie Laboratoire d’Informatique de Paris 6 24Massih-Reza.Amini@lip6.fr Clustering utilisant l’a priori de classes et la structure des données Idée nouvelle (2004) On cherche un graphe sans boucle connectant les exemples, On fait propager les étiquettes des exemples étiquetés sur ce graphe jusqu’à convergence. Solution partielle Si on a plusieurs classes, il faut appliquer l’algorithme plusieurs fois à la suite sur chacune des classes.
  7. 7. Laboratoire d’Informatique de Paris 6 25Massih-Reza.Amini@lip6.fr Problème jouet en 2D: clowns Laboratoire d’Informatique de Paris 6 26Massih-Reza.Amini@lip6.fr Méthode de clustering avec les variétés géométriques (Zhou et al. ICML 2004) Laboratoire d’Informatique de Paris 6 27Massih-Reza.Amini@lip6.fr Méthode de clustering avec les variétés géométriques (Zhou et al. ICML 2004) Laboratoire d’Informatique de Paris 6 28Massih-Reza.Amini@lip6.fr α=0.3
  8. 8. Laboratoire d’Informatique de Paris 6 29Massih-Reza.Amini@lip6.fr α=0.6 Laboratoire d’Informatique de Paris 6 30Massih-Reza.Amini@lip6.fr α=0.6, classe 2

×