Gilles Boyé & Anna Kupść
Analyse automatique
d'espaces thématiques
Analyse thématique
• Morphologie théorique	

• Représentation de la flexion	

• organisation des paradigmes des formes	

• ...
Paradigme de formes = Tableau de cases
PASSER 1SG 2SG 3SG 1PL 2PL 3PL
Présent passe passes passe passons passez passent
Im...
Formes interprédictibles
FUT.1 FUT.2 FUT.3 FUT.4 FUT.5 FUT.6
PASSER passerai passeras passera passerons passerez passeront...
Formes interprédictibles
PST.1 PST.2 PST.3 PST.4 PST.5 PST.6
PASSER passai passas passa passâmes passâtes passèrent
ALLER ...
Interprédictibilité totale
• Les cases totalement interprédictibles ont la même couleur, elles
constituent une alliance de...
Alliances de formes : illustrations
sais sais sait savons savez savent
savais savais savait savions saviez savaient
sus su...
Distillation du paradigme
• La distillation du paradigme consiste à prendre une case
représentante par alliance de formes ...
Relations entre les alliances
PRS.1
PRS.4
PRS.6
PRS.
1
PRS.4 PRS.6
MORDRE mor mord
õ
mor
dMOURIR mœr murõ mœr
LAVER lav la...
Un graphe de l'espace thématique
10
Graphe de régularité obtenu manuellement (DUMAL)	

• 12 relations symétriques pertinen...
L'objectif
• Obtenir une distillation sur la base d'un lexique de formes	

• par calcul des prédictibilités au sens de la ...
La méthode
• Deux bases :	

• Bonami, Boyé & Henri (2011) basé sur l'idée de Ackerman, Blevins,
Malouf (2009)	

• BDLEX de...
Principe de classification des alternances
• Pour une paire de formes du paradigme, on classe les alternances
entre la form...
Principe de classification par ensembles
• Chaque forme d’entrée est associée à l’ensemble d’alternances
susceptibles de lu...
Entropie conditionnelle par classe
• Pour chaque classe, on calcule l’entropie conditionnelle associée :	

• par exemple p...
Entropie conditionnelle par classe
• Pour chaque classe, on calcule l’entropie conditionnelle associée :	

• par exemple p...
Entropie conditionnelle globale
• Pour une paire de case du paradigme, on additionne les entropies
partielles en respectan...
Tableau des entropies
• Le calcul se fait sur toutes les paires 	

• On obtient une matrice d'entropies conditionnelles
le...
Graphe de prédictibilité
• On utilise le tableau des entropies pour
établir le graphe de prédictibilité sur la
distillatio...
Conclusion
• Le calcul de l'entropie permet d'échapper aux préconceptions sur la
régularité et de faire un calcul systémat...
Prochain SlideShare
Chargement dans…5
×

BoKu14-ERSS

158 vues

Publié le

Analyse automatique d'espaces thématiques

Publié dans : Sciences
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
158
Sur SlideShare
0
Issues des intégrations
0
Intégrations
3
Actions
Partages
0
Téléchargements
1
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

BoKu14-ERSS

  1. 1. Gilles Boyé & Anna Kupść Analyse automatique d'espaces thématiques
  2. 2. Analyse thématique • Morphologie théorique • Représentation de la flexion • organisation des paradigmes des formes • rapport entre cases du paradigme • deux types de prédictibilité • interprédictibilité totale : distillation • prédictibilité graduée : graphe des régularités • Analyse manuelle => nombreuses généralisations approximatives
  3. 3. Paradigme de formes = Tableau de cases PASSER 1SG 2SG 3SG 1PL 2PL 3PL Présent passe passes passe passons passez passent Imparfait passais passais passait passions passiez passaient Passé passai passas ... ... Verbes 1SG 2SG 3SG 1PL 2PL 3PL Présent PRS.1 PRS.2 PRS.3 PRS.4 PRS.5 PRS.6 Imparfait IPF.1 IPF.2 IPF.3 IPF.4 IPF.5 IPF.6 Passé PST.1 PST.2 ... ... • Notre analyse porte sur les rapports entre les cases du tableau • généralisation sur l'ensemble des verbes
  4. 4. Formes interprédictibles FUT.1 FUT.2 FUT.3 FUT.4 FUT.5 FUT.6 PASSER passerai passeras passera passerons passerez passeront ALLER irai iras ira irons irez iront FINIR finirai finiras finira finirons finirez finiront MORDR E mordrai mordras mordra mordrons mordrez mordront SAVOIR saurai sauras saura saurons saurez sauront Série *rai *ras *ra *rons *rez *ront • Les cases du futur sont toujours basées sur les mêmes éléments : • un radical pour le verbe • une désinence pour personne • Le rapport entre les formes est constant et indépendant du contexte
  5. 5. Formes interprédictibles PST.1 PST.2 PST.3 PST.4 PST.5 PST.6 PASSER passai passas passa passâmes passâtes passèrent ALLER allai allas alla allâmes allâtes allèrent FINIR finis finis finit finîmes finîtes finirent MORDR E mordis mordis mordit mordîmes mordîtes mordirent SAVOIR sus sus sut sûmes sûtes surent Série 1 *ai *as *a *âmes *âtes *èrent Série 2 *is *is *it *îmes *îtes *irent Série 3 *us *us *ut *ûmes *ûtes *urent • Les cases du passé ne sont pas toutes basées sur les mêmes éléments : • les désinences forment des séries différentes mais entièrement prédictives
  6. 6. Interprédictibilité totale • Les cases totalement interprédictibles ont la même couleur, elles constituent une alliance de formes • L'interprédictibilité permet de réduire le paradigme à étudier PRS.1 PRS.2 PRS.3 PRS.4 PRS.5 PRS.6 IPF.1 IPF.2 IPF.3 IPF.4 IPF.5 IPF.6 PST.1 PST.2 PST.3 PST.4 PST.5 PST.6 FUT.1 FUT.2 FUT.3 FUT.4 FUT.5 FUT.6 SBJV.1 SBJV.2 SBJV.3 SBJV.4 SBJV.5 SBJV.6 SBJV.IPF. 1 SBJV.IPF. 2 SBJV.IPF. 3 SBJV.IPF. 4 SBJV.IPF. 5 SBJV.IPF. 6CND.1 CND.2 CND.3 CND.4 CND.5 CND.6 IMP.2 IMP.4 IMP.5 INF PCP.PRS PCP.PST
  7. 7. Alliances de formes : illustrations sais sais sait savons savez savent savais savais savait savions saviez savaient sus sus sut sûmes sûtes surent saurai sauras saura saurons saurez sauront sache saches sache sachions sachiez sachent susse susses sût sussions sussiez sussent saurais saurais saurait saurions sauriez sauraient sache sachons sachez savoir sachant su vais vas va allons allez vont allais allais allai t allions alliez allaient allai allas alla allâmes allâtes allèrent irai iras ira irons irez iront aille ailles aille allions alliez aillent allasse allasse s allât allassions allassiez allassent irais irais irait irions iriez iraient vas allons allez aller allant allé
  8. 8. Distillation du paradigme • La distillation du paradigme consiste à prendre une case représentante par alliance de formes (1 couleur) PRS.1 PRS.4 PRS.6 PST.1 FUT. 1 SBJV. 1 SBJV.4 IMP.2 IMP.4 INF PCP.PRS PCP.PST PRS.1 PRS.2 PRS.3 PRS.4 PRS.5 PRS.6 IPF.1 IPF.2 IPF.3 IPF.4 IPF.5 IPF.6 PST.1 PST.2 PST.3 PST.4 PST.5 PST.6 FUT.1 FUT.2 FUT.3 FUT.4 FUT.5 FUT.6 SBJV.1 SBJV.2 SBJV.3 SBJV.4 SBJV.5 SBJV.6 SBJV.IPF. 1 SBJV.IPF. 2 SBJV.IPF. 3 SBJV.IPF. 4 SBJV.IPF. 5 SBJV.IPF. 6CND.1 CND.2 CND.3 CND.4 CND.5 CND.6 IMP.2 IMP.4 IMP.5 INF PCP.PRS PCP.PST
  9. 9. Relations entre les alliances PRS.1 PRS.4 PRS.6 PRS. 1 PRS.4 PRS.6 MORDRE mor mord õ mor dMOURIR mœr murõ mœr LAVER lav lavõ lav BOIRE bwa byvõ bwav 4<=>6 Y Xõ X 1<=>6 X Yõ X 1<=>4 X Xõ Y toutes reliées X Xõ X aucunes reliées X Yõ Z • Toutes les relations entre alliances n'ont pas la même pertinence • on peut extraire un sous-ensemble de relations pertinentes qui constitue un graphe de régularités entre alliances 4<=>6 1<=>6 1<=>4
  10. 10. Un graphe de l'espace thématique 10 Graphe de régularité obtenu manuellement (DUMAL) • 12 relations symétriques pertinentes sur 66 possibles PRS.1 PRS.4 PRS.6 PST.1 FUT.1 SBJV.1 SBJV.4 IMP.2 IMP.4 INF PCP.PRS PCP.PST
  11. 11. L'objectif • Obtenir une distillation sur la base d'un lexique de formes • par calcul des prédictibilités au sens de la théorie de l'information • en tenant compte des effets de fréquence • Construire un graphe de relations entre alliances • sur la base des prédictibilités (sans préjuger des régularités) • avec des relations orientées (pour tenir compte des asymétries)
  12. 12. La méthode • Deux bases : • Bonami, Boyé & Henri (2011) basé sur l'idée de Ackerman, Blevins, Malouf (2009) • BDLEX de Calmès & Pérennou (1998) • Deux classifications : • Classification des alternances basée sur le MGL de Albright (2002) • Classification par ensemble d’alternances possibles • Un calcul : • Entropie conditionnelle par ensemble d’alternances 12
  13. 13. Principe de classification des alternances • Pour une paire de formes du paradigme, on classe les alternances entre la forme d’entrée et la forme de sortie • par exemple, pour l’imparfait indicatif 1 et l’indicatif présent 6 : LEXEME IPF.1 PRS.6 PASSER pasɛ pas BOIRE byvɛ bwav FINIR finisɛ finis MENER mənɛ mɛn SORTIR sɔrtɛ sɔrt PRENDRE prənɛ prɛn … … … ɛ → Ø yvɛ → wav ənɛ → ɛn … → … 13
  14. 14. Principe de classification par ensembles • Chaque forme d’entrée est associée à l’ensemble d’alternances susceptibles de lui être appliquées, sa classe • par exemple, pour l’imparfait indicatif 1 et l’indicatif présent 6 : LEXEME IPF.1 (→ PRS.6) 1 2 3 … Classe ɛ → Ø yvɛ → wav ənɛ → ɛn … PASSER pasɛ pas *yvɛ *ənɛ {1, …} BOIRE byvɛ byv byvɛ *ənɛ {1, 2, …} FINIR finisɛ finis *yvɛ *ənɛ {1, …} MENER mənɛ mən *yvɛ mɛn {1, 3, …} SORTIR sɔrtɛ sɔrt *yvɛ *ənɛ {1, …} PRENDRE prənɛ prən *yvɛ prɛn {1, 3, …} … … {…, …}14
  15. 15. Entropie conditionnelle par classe • Pour chaque classe, on calcule l’entropie conditionnelle associée : • par exemple pour la classe {1,3,4} 50 verbes {1, 3, 4} 1 3 4 Nombre EXEMPLE IPF.1 (→ PRS.6) ɛ → Ø ənɛ → ɛn ənɛ → jɛn PRENDRE prənɛ prən prɛn prjɛn 24 VENIR vənɛ vən vɛn vjɛn 26 Entropie pour la classe {1,3,4} 0.999 15
  16. 16. Entropie conditionnelle par classe • Pour chaque classe, on calcule l’entropie conditionnelle associée : • par exemple pour la classe {1,5,6} (ɛ → Ø ; jɛ → Ø ; jɛ → i) 438 verbes {1, 5, 6} 1 5 6 Nombre EXEMPLE IPF.1 (→ PRS.6) ɛ → Ø jɛ → Ø jɛ → i APPAREILLER aparejɛ aparej apare aparei 134 STRIER strijɛ strij stri strii 102 COPIER kopjɛ kopj kop kopi 202 Entropie pour la classe {1,5,6} 1,527 , 16
  17. 17. Entropie conditionnelle globale • Pour une paire de case du paradigme, on additionne les entropies partielles en respectant les proportions de verbes dans chaque classe : • par exemple pour les deux classes déjà vues, {1,3,4} et {1,5,6} et toutes les autres Ensemble Nombre Proportion Entropie Contribution {1, 3, 4} 50 0.78% 0.999 0.008 {1, 5, 6} 438 6.80% 1.527 0.104 … … … Entropie globale pour IPF.1 → PRS.6 0,155 ,17
  18. 18. Tableau des entropies • Le calcul se fait sur toutes les paires • On obtient une matrice d'entropies conditionnelles les zéros (en blanc) indiquent la prédictibilité les alliances de formes correspondent aux zéros symétriques et on obtient automatiquement une nouvelle distillation PRS.1 PRS.2 PRS.5 PRS.6 IPF.1 IPF.4 PST.1 FUT.1 SBJV.1 SBJV.4 IMP.2 IMP.4 IMP.5 INF PCP.PST
  19. 19. Graphe de prédictibilité • On utilise le tableau des entropies pour établir le graphe de prédictibilité sur la distillation (relations entre les alliances de formes) • on classe les relations par entropies croissantes • on ajoute un arc à chaque fois que le chemin entre les alliances n'est pas parcourable sur le graphe • on s'arrête quand toutes les alliances peuvent s'inter-atteindre
  20. 20. Conclusion • Le calcul de l'entropie permet d'échapper aux préconceptions sur la régularité et de faire un calcul systématique sur les relations entre formes. • extraire toutes les relations dans les deux sens était inaccessible à la main => choix arbitraire • Le premier résultat obtenu semble très lié à l'influence de quelques lexèmes hyper-fréquents et très irréguliers • nous avons apporté une modification au calcul de l'entropie qui limite cet effet en prenant en compte la fréquence des lexèmes et de celles de leur famille (préfixés à conjugaison identique)

×