SlideShare une entreprise Scribd logo
1  sur  7
ACP GÉNÉRALISÉE
• ACP : recherche d’un sous-espace, décrivant les
données, en perdant "un minimum" d’information.

• Autre approche : un ensemble de données est
parasité par un bruit gaussien. On souhaite
remonter aux données initiales.
Log-vraisemblance :
On se ramène à un problème de maximisation.
POURQUOI GÉNÉRALISER L’ACP ?
• Inutilisable pour des distributions discrètes (entières ou binaires). Le
bruit suivrait plutôt respectivement une loi de Poisson ou de Bernoulli.
• Si le bruit n’est pas gaussien, par exemple s’il est imposé strictement
positif (analyse textuelle, analyse d’images).
 On l’étend à tout type de bruit appartenant à la famille
exponentielle.
 Le prix sera de rendre plus complexe la distance : on n'utilise plus la
distance euclidienne mais la distance de Bregman.
On l'étend de la même manière qu'on étend régression GLM.
FAMILLE EXPONENTIELLE
Famille définie par :
• Theta est le paramètre naturel (cherché)
• P0 Est constant en θ(donc n’intervient pas dans les calculs)
• G caractérise le type de distribution.

 Un résultat très important :
• Une distribution gaussienne est un cas particulier d’une famille
exponentielle,

• Donc tous les résultats coïncideront avec l’ACP "classique",
puisqu’elle sera un cas particulier de l’ACP généralisée.
DISTANCE DE BREGMAN
• Définition :
• Intuition : elle mesure "à quel point F est convexe".
• Généralisation :
• f peut être remplacée par un grad.
• La distance de Bregman de 2 matrices/vecteurs est la somme
des distances terme à terme.

Utilité : on lie la log-vraisemblance à cette distance.

Donc maximiser la vraisemblance revient à minimiser cette distance.
LIEN AVEC LE PROBLÈME
ACP classique

maximiser la
vraisemblance

projeter en norme
euclidienne

ACP généralisée

maximiser la
vraisemblance

projeter en norme de
Bregman

Pour un bruit gaussien

Pour un bruit de loi
appartenant à la famille
exponentielle
CONCEPT DE L’ACP GÉNÉRALISÉE
• Dans la "nouvelle base" V…
• … on cherche les "nouveaux vecteurs" Θ…
• … de coordonnées A.
 On cherche A et V dans Θ=AV.

• Tels que la distance de Bregman entre les données observées (x) et
les données déduites (θ) soit minimale.
ALGORITHME
• V est choisi aléatoirement,
• On minimise successivement A et V :

Tout point limite est un point stationnaire.

Contenu connexe

En vedette

En vedette (20)

3 principal components analysis
3  principal components analysis3  principal components analysis
3 principal components analysis
 
Pca ppt
Pca pptPca ppt
Pca ppt
 
Steps for Principal Component Analysis (pca) using ERDAS software
Steps for Principal Component Analysis (pca) using ERDAS softwareSteps for Principal Component Analysis (pca) using ERDAS software
Steps for Principal Component Analysis (pca) using ERDAS software
 
Principal Component Analysis
Principal Component AnalysisPrincipal Component Analysis
Principal Component Analysis
 
Pps julian beever
Pps julian beeverPps julian beever
Pps julian beever
 
Cours sur les Suites par WinAkademy Soutien Scolaire
Cours sur les Suites par WinAkademy Soutien ScolaireCours sur les Suites par WinAkademy Soutien Scolaire
Cours sur les Suites par WinAkademy Soutien Scolaire
 
testOpa
testOpatestOpa
testOpa
 
Fair Trade (French)
Fair Trade (French)Fair Trade (French)
Fair Trade (French)
 
Mosqueteros
MosqueterosMosqueteros
Mosqueteros
 
Shay enfant_autiste_
Shay  enfant_autiste_Shay  enfant_autiste_
Shay enfant_autiste_
 
6ème les aires séquence n°1
6ème les aires séquence n°16ème les aires séquence n°1
6ème les aires séquence n°1
 
Expressions faire (4)
Expressions faire (4)Expressions faire (4)
Expressions faire (4)
 
Présentation oral mémoire nicolas puigmal m1 mef svt (2)
Présentation oral mémoire nicolas puigmal m1 mef svt (2)Présentation oral mémoire nicolas puigmal m1 mef svt (2)
Présentation oral mémoire nicolas puigmal m1 mef svt (2)
 
¿Cómo nos preparamos para estudiar?
¿Cómo nos preparamos para estudiar?¿Cómo nos preparamos para estudiar?
¿Cómo nos preparamos para estudiar?
 
Paris 1900
Paris 1900Paris 1900
Paris 1900
 
06 avion-ou-bateau-pour-vos-prochaines-vacances
06 avion-ou-bateau-pour-vos-prochaines-vacances06 avion-ou-bateau-pour-vos-prochaines-vacances
06 avion-ou-bateau-pour-vos-prochaines-vacances
 
Iordania
IordaniaIordania
Iordania
 
La corde -13-
La corde -13-La corde -13-
La corde -13-
 
La route des pharaons
La route des pharaonsLa route des pharaons
La route des pharaons
 
el amor
el amor el amor
el amor
 

Plus de Florent Renucci

Leveraging Community Engagement for Brand Engagement, 2012, presentation
Leveraging Community Engagement for Brand Engagement, 2012, presentationLeveraging Community Engagement for Brand Engagement, 2012, presentation
Leveraging Community Engagement for Brand Engagement, 2012, presentationFlorent Renucci
 
Data Analytics Intro Session 1, 2013
Data Analytics Intro Session 1, 2013Data Analytics Intro Session 1, 2013
Data Analytics Intro Session 1, 2013Florent Renucci
 
Corporate valuation linked in, 2011
Corporate valuation  linked in, 2011Corporate valuation  linked in, 2011
Corporate valuation linked in, 2011Florent Renucci
 
Etude de cas : "Comment valoriser la publicité en milieu public ?"
Etude de cas : "Comment valoriser la publicité en milieu public ?"Etude de cas : "Comment valoriser la publicité en milieu public ?"
Etude de cas : "Comment valoriser la publicité en milieu public ?"Florent Renucci
 
Etude de cas : "Comment augmenter la rentabilité de DN de 500 MSEK d’ici 3 an...
Etude de cas : "Comment augmenter la rentabilité de DN de 500 MSEK d’ici 3 an...Etude de cas : "Comment augmenter la rentabilité de DN de 500 MSEK d’ici 3 an...
Etude de cas : "Comment augmenter la rentabilité de DN de 500 MSEK d’ici 3 an...Florent Renucci
 
Leveraging Community Engagement for Brand Engagement, 2012, report
Leveraging Community Engagement for Brand Engagement, 2012, reportLeveraging Community Engagement for Brand Engagement, 2012, report
Leveraging Community Engagement for Brand Engagement, 2012, reportFlorent Renucci
 
Manifold Blurring Mean Shift algorithms for manifold denoising, report, 2012
Manifold Blurring Mean Shift algorithms for manifold denoising, report, 2012Manifold Blurring Mean Shift algorithms for manifold denoising, report, 2012
Manifold Blurring Mean Shift algorithms for manifold denoising, report, 2012Florent Renucci
 
TIPE - Code correcteur de Hamming, 2009
TIPE - Code correcteur de Hamming, 2009TIPE - Code correcteur de Hamming, 2009
TIPE - Code correcteur de Hamming, 2009Florent Renucci
 
Polynomial Regression on Riemannian Manifolds, presentation, 2012
Polynomial Regression on Riemannian Manifolds, presentation, 2012Polynomial Regression on Riemannian Manifolds, presentation, 2012
Polynomial Regression on Riemannian Manifolds, presentation, 2012Florent Renucci
 
Reinforcement learning for e-marketing, report, 2012
Reinforcement learning for e-marketing, report, 2012Reinforcement learning for e-marketing, report, 2012
Reinforcement learning for e-marketing, report, 2012Florent Renucci
 
Polynomial Regression on Riemannian Manifolds, report, 2012
Polynomial Regression on Riemannian Manifolds, report, 2012Polynomial Regression on Riemannian Manifolds, report, 2012
Polynomial Regression on Riemannian Manifolds, report, 2012Florent Renucci
 
Reinforcement learning for e-marketing, presentation, 2012
Reinforcement learning for e-marketing, presentation, 2012Reinforcement learning for e-marketing, presentation, 2012
Reinforcement learning for e-marketing, presentation, 2012Florent Renucci
 
Manifold Blurring Mean Shift algorithms for manifold denoising, presentation,...
Manifold Blurring Mean Shift algorithms for manifold denoising, presentation,...Manifold Blurring Mean Shift algorithms for manifold denoising, presentation,...
Manifold Blurring Mean Shift algorithms for manifold denoising, presentation,...Florent Renucci
 
Open source softwares, 2011
Open source softwares, 2011Open source softwares, 2011
Open source softwares, 2011Florent Renucci
 

Plus de Florent Renucci (14)

Leveraging Community Engagement for Brand Engagement, 2012, presentation
Leveraging Community Engagement for Brand Engagement, 2012, presentationLeveraging Community Engagement for Brand Engagement, 2012, presentation
Leveraging Community Engagement for Brand Engagement, 2012, presentation
 
Data Analytics Intro Session 1, 2013
Data Analytics Intro Session 1, 2013Data Analytics Intro Session 1, 2013
Data Analytics Intro Session 1, 2013
 
Corporate valuation linked in, 2011
Corporate valuation  linked in, 2011Corporate valuation  linked in, 2011
Corporate valuation linked in, 2011
 
Etude de cas : "Comment valoriser la publicité en milieu public ?"
Etude de cas : "Comment valoriser la publicité en milieu public ?"Etude de cas : "Comment valoriser la publicité en milieu public ?"
Etude de cas : "Comment valoriser la publicité en milieu public ?"
 
Etude de cas : "Comment augmenter la rentabilité de DN de 500 MSEK d’ici 3 an...
Etude de cas : "Comment augmenter la rentabilité de DN de 500 MSEK d’ici 3 an...Etude de cas : "Comment augmenter la rentabilité de DN de 500 MSEK d’ici 3 an...
Etude de cas : "Comment augmenter la rentabilité de DN de 500 MSEK d’ici 3 an...
 
Leveraging Community Engagement for Brand Engagement, 2012, report
Leveraging Community Engagement for Brand Engagement, 2012, reportLeveraging Community Engagement for Brand Engagement, 2012, report
Leveraging Community Engagement for Brand Engagement, 2012, report
 
Manifold Blurring Mean Shift algorithms for manifold denoising, report, 2012
Manifold Blurring Mean Shift algorithms for manifold denoising, report, 2012Manifold Blurring Mean Shift algorithms for manifold denoising, report, 2012
Manifold Blurring Mean Shift algorithms for manifold denoising, report, 2012
 
TIPE - Code correcteur de Hamming, 2009
TIPE - Code correcteur de Hamming, 2009TIPE - Code correcteur de Hamming, 2009
TIPE - Code correcteur de Hamming, 2009
 
Polynomial Regression on Riemannian Manifolds, presentation, 2012
Polynomial Regression on Riemannian Manifolds, presentation, 2012Polynomial Regression on Riemannian Manifolds, presentation, 2012
Polynomial Regression on Riemannian Manifolds, presentation, 2012
 
Reinforcement learning for e-marketing, report, 2012
Reinforcement learning for e-marketing, report, 2012Reinforcement learning for e-marketing, report, 2012
Reinforcement learning for e-marketing, report, 2012
 
Polynomial Regression on Riemannian Manifolds, report, 2012
Polynomial Regression on Riemannian Manifolds, report, 2012Polynomial Regression on Riemannian Manifolds, report, 2012
Polynomial Regression on Riemannian Manifolds, report, 2012
 
Reinforcement learning for e-marketing, presentation, 2012
Reinforcement learning for e-marketing, presentation, 2012Reinforcement learning for e-marketing, presentation, 2012
Reinforcement learning for e-marketing, presentation, 2012
 
Manifold Blurring Mean Shift algorithms for manifold denoising, presentation,...
Manifold Blurring Mean Shift algorithms for manifold denoising, presentation,...Manifold Blurring Mean Shift algorithms for manifold denoising, presentation,...
Manifold Blurring Mean Shift algorithms for manifold denoising, presentation,...
 
Open source softwares, 2011
Open source softwares, 2011Open source softwares, 2011
Open source softwares, 2011
 

Generalization of Principal Component Analysis, presentation, 2012

  • 1. ACP GÉNÉRALISÉE • ACP : recherche d’un sous-espace, décrivant les données, en perdant "un minimum" d’information. • Autre approche : un ensemble de données est parasité par un bruit gaussien. On souhaite remonter aux données initiales. Log-vraisemblance : On se ramène à un problème de maximisation.
  • 2. POURQUOI GÉNÉRALISER L’ACP ? • Inutilisable pour des distributions discrètes (entières ou binaires). Le bruit suivrait plutôt respectivement une loi de Poisson ou de Bernoulli. • Si le bruit n’est pas gaussien, par exemple s’il est imposé strictement positif (analyse textuelle, analyse d’images).  On l’étend à tout type de bruit appartenant à la famille exponentielle.  Le prix sera de rendre plus complexe la distance : on n'utilise plus la distance euclidienne mais la distance de Bregman. On l'étend de la même manière qu'on étend régression GLM.
  • 3. FAMILLE EXPONENTIELLE Famille définie par : • Theta est le paramètre naturel (cherché) • P0 Est constant en θ(donc n’intervient pas dans les calculs) • G caractérise le type de distribution.  Un résultat très important : • Une distribution gaussienne est un cas particulier d’une famille exponentielle, • Donc tous les résultats coïncideront avec l’ACP "classique", puisqu’elle sera un cas particulier de l’ACP généralisée.
  • 4. DISTANCE DE BREGMAN • Définition : • Intuition : elle mesure "à quel point F est convexe". • Généralisation : • f peut être remplacée par un grad. • La distance de Bregman de 2 matrices/vecteurs est la somme des distances terme à terme. Utilité : on lie la log-vraisemblance à cette distance. Donc maximiser la vraisemblance revient à minimiser cette distance.
  • 5. LIEN AVEC LE PROBLÈME ACP classique  maximiser la vraisemblance  projeter en norme euclidienne ACP généralisée  maximiser la vraisemblance  projeter en norme de Bregman Pour un bruit gaussien Pour un bruit de loi appartenant à la famille exponentielle
  • 6. CONCEPT DE L’ACP GÉNÉRALISÉE • Dans la "nouvelle base" V… • … on cherche les "nouveaux vecteurs" Θ… • … de coordonnées A.  On cherche A et V dans Θ=AV. • Tels que la distance de Bregman entre les données observées (x) et les données déduites (θ) soit minimale.
  • 7. ALGORITHME • V est choisi aléatoirement, • On minimise successivement A et V : Tout point limite est un point stationnaire.