Classifieur d’entropie maximale (MaxEnt)                    Jean-Philippe Fauconnier                          IRIT - Toulou...
1   Introduction2   Entropie3   Modèle MaxEnt4   Conclusion5   Références      (IRIT - Toulouse)   15 février 2013   2 / 31
IntroductionUn modèle de Maximum d’Entropie (MaxEnt) :est un classifieur probabiliste linéaire et discriminant.  1   classi...
IntroductionLe MaxEnt s’inscrit dans : 1   une maximisation de l’entropie     Le MaxEnt consiste à choisir, pour un phénom...
1   Introduction2   Entropie3   Modèle MaxEnt4   Conclusion5   Références      (IRIT - Toulouse)   15 février 2013   5 / 31
Entropie de ShannonL’entropie est :- une fonction, fondamentale en théorie de l’information, qui retourne à la  quantité d...
Entropie de ShannonExempleUne source S qui émet 10 valeurs :- qui prennent toujours le même symbole (ici « a »).- p(a) = 1...
Entropie de ShannonExempleUne source S qui émet 10 valeurs :- qui prennent équitablement deux symboles (ici « a » et « b »...
Entropie de ShannonExempleUne source S qui émet 10 valeurs :- qui prennent trois symboles (ici « a », « b » et « c »)- p(a...
Entropie de ShannonExempleUne source S qui émet 10 valeurs :- qui prennent chacune un symbôle différent (ici de « a » à « j...
Entropie de ShannonLe principe d’entropie maximalePrincipe :(Jaynes, 1957)Information theory provides a constructive crite...
Entropie de ShannonVers les modèles d’entropie maximalePourquoi ?La distribution avec l’entropie maximale est celle- qui e...
1   Introduction2   Entropie3   Modèle MaxEnt4   Conclusion5   Références      (IRIT - Toulouse)   15 février 2013   13 / 31
Modèle MaxEntUn classifieur d’entropie maximale (modèle MaxEnt) :- Reprend le principe d’entropie maximale- Autrement dit, ...
Modèle MaxEntÉtape 1Constitution d’un set d’entraînement :- La première étape vise à constituer un corpus reprenant des éc...
Modèle MaxEntÉtape 2Sélection des traits- Quels indices sont informatifs pour la prise de décision ?- Au-delà des statisti...
Modèle MaxEntÉtape 2 : Traits et contraintesLes traits :- sont considérés comme des contraintes- ont des poids qui leur so...
Modèle MaxEntÉtape 2 : Traits et contraintesContrainte pour le trait f :- La valeur attendue d’un trait f du point de vue ...
Modèle MaxEntÉtape 2 : Traits et contraintesPourquoi contraindre ?   1   C’est un moyen d’exiger que la valeur attendue re...
Modèle MaxEntScénarios d’optimisation sous contraintes (Berger, 1996)Soit P l’espace des hypothèses et C1 , C2 et C3 des c...
Modèle MaxEntÉtape 2 : exemple (1)Exemple simple (Berger, 1996) :- La première contrainte (implicite) est que :  p(dans) +...
Modèle MaxEntÉtape 2 : exemple (2)Un autre exemple (Ratnaparkhi, 1997) :   1   Pour la distribution p(x, y ) où x ∈{ in Av...
Modèle MaxEntÉtape 3Choisir le modèle qui maximise l’entropie :Le modèle d’entropie maximale a pour sortie :              ...
Modèle MaxEntÉtape 3 : Maximisation de l’entropieTrouver des poids qui :- maximisent l’entropie- respectent les contrainte...
Modèle MaxEntÉtape 3 : Maximisation de l’entropieSolution :Mathématiquement, il est prouvé :   1   l’estimation d’un maxim...
Modèle MaxEntÉtape 3 : Maximisation de l’entropieEstimation du maximum de vraissemblance :- est une méthode statistique po...
Modèle MaxEntÉtape 3 : Maximisation de l’entropieAlgorithmes itératifs :   1   Il est prouvé mathématiquement que certains...
1   Introduction2   Entropie3   Modèle MaxEnt4   Conclusion5   Références      (IRIT - Toulouse)   15 février 2013   28 / 31
ConclusionQuelques implémentations :- Apache OpenNLP (GIS)- SharpEntropy (GIS)- AI : :MaxEntropy (GIS et L-BFGS)- MaxEnt M...
1   Introduction2   Entropie3   Modèle MaxEnt4   Conclusion5   Références      (IRIT - Toulouse)   15 février 2013   30 / 31
Références- BERGER, A., PIETRA, V. et PIETRA, S. (1996). A Maximum Entropy approach to Natural  Language Processing. Compu...
Prochain SlideShare
Chargement dans…5
×

Classifieur d'entropie maximale (MaxEnt)

3 059 vues

Publié le

Le principe d'entropie maximale vise à définir une contrainte pour chaque information observée et choisir la distribution qui maximise l'entropie tout en restant consistante vis-à-vis de l'ensemble de ces contraintes (Jaynes, 1957). Dans ce cadre d'optimisation sous contraintes, il est mathématiquement prouvé qu'une solution unique existe et un algorithme itératif garantit la convergence vers cette dernière (Ratnaparkhi, 1996).
Pour tout commentaire, correction, amélioration : prénom.nom /arb/ irit.fr (Jean-Philippe Fauconnier)

Publié dans : Données & analyses
0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
3 059
Sur SlideShare
0
Issues des intégrations
0
Intégrations
7
Actions
Partages
0
Téléchargements
55
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Classifieur d'entropie maximale (MaxEnt)

  1. 1. Classifieur d’entropie maximale (MaxEnt) Jean-Philippe Fauconnier IRIT - Toulouse 15 février 2013(IRIT - Toulouse) 15 février 2013 1 / 31
  2. 2. 1 Introduction2 Entropie3 Modèle MaxEnt4 Conclusion5 Références (IRIT - Toulouse) 15 février 2013 2 / 31
  3. 3. IntroductionUn modèle de Maximum d’Entropie (MaxEnt) :est un classifieur probabiliste linéaire et discriminant. 1 classifieur Le MaxEnt prédit une classe (∈ Ensemble de valeurs discrètes) 2 probabiliste À chaque individu est associé une probabilité d’appartenance à chacune des classes (dont la somme est 1). 3 log-linéaire Un classifieur log-linéaire tente d’estimer les poids (w ) du modèle par régression linéaire. 4 discriminant Pour estimer les poids (w ), un modèle discriminant s’entraînera sur un ensemble de samples sans nécessiter de probabilités conditionnelles (cf. Modèles génératifs). (IRIT - Toulouse) 15 février 2013 3 / 31
  4. 4. IntroductionLe MaxEnt s’inscrit dans : 1 une maximisation de l’entropie Le MaxEnt consiste à choisir, pour un phénomène donné, une distribution qui maximise l’entropie (Shannon), c’est-à-dire « l’incertitude ». 2 le principe du rasoir d’Occam « L’hypothèse la plus simple est souvent la bonne » La plus simple, la moins contrainte, c’est-à-dire qui ne présume pas au-delà de ce qui est connu. 3 le principe d’indifférence (Laplace) En cas d’information manquante, le mieux à faire est de considérer les événements comme équiprobables (distribution uniforme). (IRIT - Toulouse) 15 février 2013 4 / 31
  5. 5. 1 Introduction2 Entropie3 Modèle MaxEnt4 Conclusion5 Références (IRIT - Toulouse) 15 février 2013 5 / 31
  6. 6. Entropie de ShannonL’entropie est :- une fonction, fondamentale en théorie de l’information, qui retourne à la quantité d’information délivrée/contenue par une source S (Shannon, 1948). Pour une source S comportant n symboles, un symbole i a une probabilité pi d’apparaître. Alors l’entropie de la source S est définie comme suit : n H(S) =− i=1 pi log2 (pi ) ⇒ entropie, une mesure de « surprise », d’« incertitude »Source :- Plus la source émet des infos différentes, plus l’entropie (incertitude) est grande- Et inversement. (IRIT - Toulouse) 15 février 2013 6 / 31
  7. 7. Entropie de ShannonExempleUne source S qui émet 10 valeurs :- qui prennent toujours le même symbole (ici « a »).- p(a) = 1- H(S) = −(1 ∗ log2 (1)) = 0Entropie est nulle. (IRIT - Toulouse) 15 février 2013 7 / 31
  8. 8. Entropie de ShannonExempleUne source S qui émet 10 valeurs :- qui prennent équitablement deux symboles (ici « a » et « b »)- p(a) = 1 et p(b) = 2 2 1- H(S) = −(2 ∗ (0, 5 ∗ log2 (0, 5))) = 1Entropie positive (IRIT - Toulouse) 15 février 2013 8 / 31
  9. 9. Entropie de ShannonExempleUne source S qui émet 10 valeurs :- qui prennent trois symboles (ici « a », « b » et « c »)- p(a) = 2 , p(b) = 3 et p(c) = 1 5 1 3- H(S) = −( ( 2 ∗ log2 ( 2 )) + (2 ∗ ( 1 ∗ log2 ( 1 ))) ) = 1,585 ... 5 5 3 3Entropie positive (IRIT - Toulouse) 15 février 2013 9 / 31
  10. 10. Entropie de ShannonExempleUne source S qui émet 10 valeurs :- qui prennent chacune un symbôle différent (ici de « a » à « j ») 1- Chaque p(n) = 10- H(S) = −10 ∗ (0, 1 ∗ log2 (0, 1)) = 3,321 ...Entropie maximaleDans ce cas-ci, la distribution est uniformeet la source S est maximalement informative. (IRIT - Toulouse) 15 février 2013 10 / 31
  11. 11. Entropie de ShannonLe principe d’entropie maximalePrincipe :(Jaynes, 1957)Information theory provides a constructive criterion for setting up probabilitydistributions on the basis of partial knowledge, and leads to a type ofstatistical inference which is called the maximum entropy estimate. It is leastbiased estimate possible on the given information (...)Pour représenter une connaissance imparfaite par une distribution(loi de probabilité), il est nécessaire : 1 d’identifier toutes les distributions qui respectent les contraintes observées sur les données (e.g : moyennes observées, etc.) 2 et de choisir celle qui maximise l’entropie (unique) (IRIT - Toulouse) 15 février 2013 11 / 31
  12. 12. Entropie de ShannonVers les modèles d’entropie maximalePourquoi ?La distribution avec l’entropie maximale est celle- qui est la plus uniforme (équidistribution)- et, donc, celle qu’il serait le moins arbitraire d’utiliser pour représenter une connaissance imparfaite.- En pratique, c’est la distribution qui contient le moins de cas particuliers qui divergent de ce qui est le plus probable.Idée centrale de l’entropie maximaleOn ne présume pas au-delà des données. (IRIT - Toulouse) 15 février 2013 12 / 31
  13. 13. 1 Introduction2 Entropie3 Modèle MaxEnt4 Conclusion5 Références (IRIT - Toulouse) 15 février 2013 13 / 31
  14. 14. Modèle MaxEntUn classifieur d’entropie maximale (modèle MaxEnt) :- Reprend le principe d’entropie maximale- Autrement dit, maximise l’entropie pour prédire un phénomène aléatoireDans l’élaboration d’un MaxEnt, il y a trois étapes : 1 Constituer un set d’entraînement qui va permettre de « capturer » au possible le comportement d’un phénomène aléatoire. 2 Déterminer les traits qui rendent compte de ce phénomène aléatoire. Un trait = fonction qui fournit une information à propos des données. 3 Choisir le modèle qui maximise l’entropie tout en restant consistant vis-à-vis des contraintes. Dans le MaxEnt, les traits sont utilisés comme des contraintes. (IRIT - Toulouse) 15 février 2013 14 / 31
  15. 15. Modèle MaxEntÉtape 1Constitution d’un set d’entraînement :- La première étape vise à constituer un corpus reprenant des échantillons du phénomène aléatoire.- De ce corpus, il est possible de tirer (x1 , y1 ), (x2 , y2 ), ..., (xN , yN ) samples où : 1 x = information contextuelle et x ∈ X 2 y = classes et y ∈ YExemple en TA :- Nous désirons modéliser le comportement d’un traducteur lorsqu’il doit choisir un mot français pour traduire la proposition « in » en anglais.- 5 classes : « dans », « en », « à », « au cours de », « pendant »- E.g de samples : (in avril, en), (in this, dans) (IRIT - Toulouse) 15 février 2013 15 / 31
  16. 16. Modèle MaxEntÉtape 2Sélection des traits- Quels indices sont informatifs pour la prise de décision ?- Au-delà des statistiques d’observation empirique (e. g : p (en) = 1 et p (dans) ˜ 2 ˜ = 1 ), intérêt pour donner de l’importance à d’autres statistiques au travers 2 des traits (e.g : une régularité récurrente).Dans le modèle :- Un trait, dit aussi feature, est une fonction binaire dépendante de x qui apporte une information sur la décision de y .- E.g : Savoir que lorsque « in » est suivi d’un nom de mois, il est classé dans « en » 1 si y = « en » et si x = « in Avril » f (x, y ) = 0 sinon (IRIT - Toulouse) 15 février 2013 16 / 31
  17. 17. Modèle MaxEntÉtape 2 : Traits et contraintesLes traits :- sont considérés comme des contraintes- ont des poids qui leur sont associésContraintes :- Une contrainte est une égalité que doit satisfaire le modèle cible- En pratique, le modèle doit respecter l’égalité entre 1 La valeur attendue de p (f ) dans le set d’entraînement ˜ 2 La valeur attendue de p(f ) dans le modèle cible (IRIT - Toulouse) 15 février 2013 17 / 31
  18. 18. Modèle MaxEntÉtape 2 : Traits et contraintesContrainte pour le trait f :- La valeur attendue d’un trait f du point de vue du set d’entraînement p (f ) = ˜ p (x, y )f (x, y ) ˜ x,y- La valeur attendue d’un trait f du point de vue du modèle p(f ) = p (x)p(y|x)f (x, y ) ˜ x,y- Et la contrainte pour le trait f : p(f ) = p (f ) ˜ (IRIT - Toulouse) 15 février 2013 18 / 31
  19. 19. Modèle MaxEntÉtape 2 : Traits et contraintesPourquoi contraindre ? 1 C’est un moyen d’exiger que la valeur attendue respecte la distribution empirique observée dans le set d’entraînement. 2 Ainsi, lorsque l’on découvre une statistique qu’on trouve utile, il est possible de lui donner de l’importance en exigeant que le modèle soit en accord avec elle. 3 Premier corollaire, un modèle qui ne respecte pas ces contraintes est : 1 Un modèle qui n’est pas en accord avec le set d’entraînement 2 Un modèle inconsistant 4 Deuxième corollaire, la résolution du MaxEnt est un problème d’optimisation sous contraintes. → On cherche à maximiser l’entropie tout en respectant des contraintes. (IRIT - Toulouse) 15 février 2013 19 / 31
  20. 20. Modèle MaxEntScénarios d’optimisation sous contraintes (Berger, 1996)Soit P l’espace des hypothèses et C1 , C2 et C3 des contraintes. (IRIT - Toulouse) 15 février 2013 20 / 31
  21. 21. Modèle MaxEntÉtape 2 : exemple (1)Exemple simple (Berger, 1996) :- La première contrainte (implicite) est que : p(dans) + p(en) + p(à) + p(au cours de) + p(pendant) = 1→ A ce niveau, il existe une infinité de modèles qui répondent à cette contrainte.Un modèle d’entropie maximale qui répond à cette contrainte : 1 p(dans) = 1/5 2 p(en) = 1/5 3 p(à) = 1/5 4 p(au cours de) = 1/5 5 p(pendant) = 1/5 (IRIT - Toulouse) 15 février 2013 21 / 31
  22. 22. Modèle MaxEntÉtape 2 : exemple (2)Un autre exemple (Ratnaparkhi, 1997) : 1 Pour la distribution p(x, y ) où x ∈{ in Avril, in this} et y ∈ {en, dans}. 2 Avec pour contrainte : p(in Avril,en) + p(in this, en) = 0,6 p(x, y ) en dans in avril ? ? in this ? ? total 0,6 1⇒ Maximiser l’entropie revient à uniformiser le modèle selon la contrainte. p(a, b) 0 1 x 0,3 0,2 y 0,3 0,2 total 0,6 0,4 1 (IRIT - Toulouse) 15 février 2013 22 / 31
  23. 23. Modèle MaxEntÉtape 3Choisir le modèle qui maximise l’entropie :Le modèle d’entropie maximale a pour sortie : n 1 P(y |x) = exp wi fi (x, y ) Z (x) i=1où- P(y |x) désigne la probabilité que individu x (contexte) appartienne à la classe y- La fonction fi est une fonction binaire appelée trait qui permet de définir les contraintes du modèle.- Z(x) est une constante de normalisation- Chaque x est encodé comme vecteur avec n traits fi- avec un poids wi associé à chaque trait Comment estimer les poids ? Quels sont les poids qui maximisent l’entropie ? (IRIT - Toulouse) 15 février 2013 23 / 31
  24. 24. Modèle MaxEntÉtape 3 : Maximisation de l’entropieTrouver des poids qui :- maximisent l’entropie- respectent les contraintesMaximiser la fonction d’entropie :Pour estimer les valeurs des paramètres w , le MaxEnt doit maximiser la fonction ˜d’entropie associé à chaque p(x, y ) : p(x, y ) = argmax H(p(x, y )) p(x,y )∈Coù H est la fonction d’entropie, p(x,y) le modèle cible et C l’espace descontraintes.Or, computationnellement, il est difficile (voire impossible) de calculerdirectement ce problème d’optimisation sous contraintes. (IRIT - Toulouse) 15 février 2013 24 / 31
  25. 25. Modèle MaxEntÉtape 3 : Maximisation de l’entropieSolution :Mathématiquement, il est prouvé : 1 l’estimation d’un maximum d’entropie (sous contraintes) est équivalent à l’estimation du maximum de vraissemblance (sans contraintes) sur les données du set d’entraînement (Berger, 1996). 2 et une solution itérative converge vers ce modèle unique. (IRIT - Toulouse) 15 février 2013 25 / 31
  26. 26. Modèle MaxEntÉtape 3 : Maximisation de l’entropieEstimation du maximum de vraissemblance :- est une méthode statistique pour estimer les poids (paramètres) d’un modèle (distribution) à partir des samples du set d’entraînement (échantillons)- Trouver le maximum de vraissemblance est un problème d’optimisation non contraint.- Ainsi, trouver les poids w peut s’effectuer ainsi : ˆ w = argmax ˆ p (x, y ) log p(y |x) ˜ w x,yoù p (x, y ) est la fréquence empirique observée de x associé à la classe y dans les ˜données d’entraînement. (IRIT - Toulouse) 15 février 2013 26 / 31
  27. 27. Modèle MaxEntÉtape 3 : Maximisation de l’entropieAlgorithmes itératifs : 1 Il est prouvé mathématiquement que certains algorithmes itératifs convergent vers la solution à chaque itération. 2 Plusieurs algorithmes : - GIS (Darroch & Ratcliff, 1972) - IIS (Berger, 1996) - GIS avec correction feature (Curran & Clark, 2003) - L-BFGS (IRIT - Toulouse) 15 février 2013 27 / 31
  28. 28. 1 Introduction2 Entropie3 Modèle MaxEnt4 Conclusion5 Références (IRIT - Toulouse) 15 février 2013 28 / 31
  29. 29. ConclusionQuelques implémentations :- Apache OpenNLP (GIS)- SharpEntropy (GIS)- AI : :MaxEntropy (GIS et L-BFGS)- MaxEnt Modeling Toolkit (GIS et L-BFGS)- MegaM (CG et L-BFGS)- etc. (IRIT - Toulouse) 15 février 2013 29 / 31
  30. 30. 1 Introduction2 Entropie3 Modèle MaxEnt4 Conclusion5 Références (IRIT - Toulouse) 15 février 2013 30 / 31
  31. 31. Références- BERGER, A., PIETRA, V. et PIETRA, S. (1996). A Maximum Entropy approach to Natural Language Processing. Computational linguistics, 22(1) :39-71.- BERGER, A. (1997). The Improved Iterative Scaling Algorithm : A Gentle Introduction, Tech report. School of Computer Science, Carnegie Mellon University.- CANDITO, M. (2012), Classification : MaxEnt. In Cours de M2 Linguistique Informatique, Paris 7.- CURRAN, J. R., & CLARK, S. (2003). Investigating GIS and smoothing for maximum entropy taggers. In Proceedings of the tenth conference on European chapter of the Association for Computational Linguistics, volume 1, pages 91-98. Association for Computational Linguistics.- JAYNES, E. T. (1957). Information theory and statistical mechanics. Physical review, 106(4), 620.- RATNAPARKHI, A. (1996). A Maximum Entropy model for Part-of-Speech Tagging. In Proceedings of the conference on empirical methods in natural language processing, volume 1, pages 133-142. Philadelphia, PA.- RATNAPARKHI, A. (1997). A Simple Introduction to Maximum Entropy Models for Natural Language Processing, Tech report. Dept. of Computer and Informative Science, University of Pennsylvania.- SHANNON, C. E. (1948). A Mathematical Theory of Communication, Bell System Technical Journal, vol. 27. (IRIT - Toulouse) 15 février 2013 31 / 31

×