Longueur de branches et arbres de mots

723 vues

Publié le

9 février 2012, Besançon

Colloque La cooccurrence : du fait statistique au fait textuel

Publié dans : Formation
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
723
Sur SlideShare
0
Issues des intégrations
0
Intégrations
7
Actions
Partages
0
Téléchargements
5
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Longueur de branches et arbres de mots

  1. 1. Colloque Cooccurrence 2012 09/02/2012 - BesançonLongueur de branches et arbres de mots Philippe Gambette, Nuria Gala, Alexis Nasr, Alain Guénoche LIGM LIF IML Université Paris-Est Université Aix-Marseille CNRS Marne-la-Vallée
  2. 2. Plan• Analyses et nuages arborés• Interprétation visuelle• Formules de longueurs darêtes• Protocole dévaluation• Résultats• Visualisations• Perspectives
  3. 3. Plan• Analyses et nuages arborés• Interprétation visuelle• Formules de longueurs darêtes• Protocole dévaluation• Résultats• Visualisations• Perspectives
  4. 4. Analyses arborées Rapprochement des mots dun texte selon leur degré de cooccurrence dans le texte Constellation du mot “nuit” dans la base EXEMPLEM (22 romans de 11 auteurs, lemmatisés) TEMPS 2 CHAMBRE À COUCHER LATMOSPHÈRE TEMPS 1 Barthelémy & Luong, Statistique et Analyse des Données, 1986Hyperbase Brunet, JADT08
  5. 5. Nuage arboré, une information double occurrences cooccurrences Discours inaugural de Barack Obamaconstruit avec SplitsTree : Huson & Bryant, Bioinformatics, 2006 TreeCloud : Gambette & Véronis, IFCS09
  6. 6. Plan• Analyses et nuages arborés• Interprétation visuelle• Formules de longueurs darêtes• Protocole dévaluation• Résultats• Visualisations• Perspectives
  7. 7. Interprétation réelle Les distances dans larbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  8. 8. Interprétation réelle Problème 1 : difficiles à lire Les distances dans larbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  9. 9. Interprétation réelle Problème 1 : Problème 2 : difficiles à lire peu fiables Les distances dans larbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  10. 10. Interprétation réelle Optimisation globale, pas de garanties locales de qualité Problème 1 : Problème 2 : difficiles à lire peu fiables Les distances dans larbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  11. 11. Interprétation pratique arbre de distances utilisé comme classification
  12. 12. Interprétation pratique arbre de distances utilisé comme classification Les mots dun même sous-arbre bien séparé du reste de larbre constituent une classe de mots
  13. 13. Interprétation pratique arbre de distances utilisé comme classification Les mots dun même sous-arbre bien séparé du reste de larbre constituent une classe de mots
  14. 14. Interprétation pratique arbre de distances utilisé comme classification Problème : toujours peu lisible (longueur des arêtes externes) et peu fiable Les mots dun même sous-arbre bien séparé du reste de larbre constituent une classe de mots
  15. 15. Interprétation pratique Astuce de visualisation pour améliorer la lisibilité : longueur unitaire des arêtesNuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtrede largeur 20), colorés chronologiquement (rouge au début, bleu à la fin) Amstutz & Gambette, JADT10
  16. 16. Interprétation pratique Astuce de visualisation pour améliorer la lisibilité : longueur unitaire des arêtes, MAIS... encore moins fiable ! retour au texte nécessaire, fausses pistesNuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtrede largeur 20), colorés chronologiquement (rouge au début, bleu à la fin) Amstutz & Gambette, JADT10
  17. 17. Interprétation pratique Problème : Comment calculer les longueurs des arêtes de larbre pour une interprétation fiable des classes ? Arête longue = classe de mots significative (proches les uns des autres, bien séparés du reste) Arête courte = classe de mots peu significative
  18. 18. Plan• Analyses et nuages arborés• Interprétation visuelle• Formules de longueurs darêtes• Protocole dévaluation• Résultats• Visualisations• Perspectives
  19. 19. Formules de longueurs darêtes Post-calcul des longueurs darêtes après la construction de larbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées daprès la distance de cooccurrence
  20. 20. Formules de longueurs darêtes Post-calcul des longueurs darêtes après la construction de larbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées daprès la distance de cooccurrence Formule du ratio des bons triplets (“triples”) : Si mot1 et mot2 dun côté de larête, mot3 de lautre côté, “bon triplet” si distance(mot1,mot2) < min(distance(mot1,mot3), mot1 distance(mot2,mot3)) mot3 ratio espéré proche de 1 mot2 Guénoche & Garreta, IFCS02
  21. 21. Formules de longueurs darêtes Post-calcul des longueurs darêtes après la construction de larbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées daprès la distance de cooccurrence Formule du ratio des distances moyennes (“distanceRatio”) : moyenne(distances inter-classes) moyenne(distances intra-classes) ratio espéré supérieur à 1 Guénoche & Garreta, IFCS02
  22. 22. Formules de longueurs darêtes Post-calcul des longueurs darêtes après la construction de larbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées daprès la distance de cooccurrence Formule du ratio des bons quadruplets (“quartets”) : Si mot1 et mot2 dun côté de larête, mot3 et mot4 de lautre côté, “bon quadruplet” si mot4 distance(mot1,mot2) + distance(mot2,mot3) < mot1 min(distance(mot1,mot3) + distance(mot2,mot4) +, mot3 distance(mot1,mot4) + distance(mot2,mot3)) mot2 ratio espéré proche de 1 Guénoche & Garreta, IFCS02
  23. 23. Plan• Analyses et nuages arborés• Interprétation visuelle• Formules de longueurs darêtes• Protocole dévaluation• Résultats• Visualisations• Perspectives
  24. 24. Protocole dévaluation Post-calcul des longueurs darêtes après la construction de larbre, puis : Vérification que les classes de mots les mieux séparées (daprès ces longueurs) sont significatives
  25. 25. Protocole dévaluation Post-calcul des longueurs darêtes après la construction de larbre, puis : Vérification que les classes de mots Partition obtenue en découpant les les mieux séparées (daprès ces arêtes les plus longues comparée longueurs) sont significatives avec une partition de référence
  26. 26. Protocole dévaluation Post-calcul des longueurs darêtes après la construction de larbre, puis : Vérification que les classes de mots Partition obtenue en découpant les les mieux séparées (daprès ces arêtes les plus longues comparée longueurs) sont significatives avec une partition de référence quelles données ?
  27. 27. Protocole dévaluation Base de données Polymots Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familleshttp://polymots.lif.univ-mrs.fr Gala & Rey, TALN08
  28. 28. Protocole dévaluation Base de données Polymots Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles + partitions sémantiques des familles de 20 mots (arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune, meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val). Gala, Hathout, Nasr, Rey, Seppälä, TALN11
  29. 29. Protocole dévaluation Base de données Polymots Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles + partitions sémantiques des familles de 20 mots (arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune, meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val). Exemple pour la famille de art : { {artifice, artificiel, artificiellement, artificier}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art} } Gala, Hathout, Nasr, Rey, Seppälä, TALN11
  30. 30. Protocole dévaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de larbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Gala, Hathout, Nasr, Rey, Seppälä, TALN11
  31. 31. Protocole dévaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de larbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Distance utilisée pour le calcul de la représentation arborée ? Distance composite entre : • nombre daffixes communs • degré de cooccurrence dans Gala, Hathout, Nasr, Rey, Seppälä, TALN11
  32. 32. Protocole dévaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de larbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P0 = {{artisan, artisanat, artisanal, artisanalement, artiste, artistique, artistiquement, artificier, artificiel, artifice, artificiellement, artillerie, artilleur, art}}Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN11
  33. 33. Protocole dévaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de larbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P1 = {{artisan, artisanat, artisanal, artisanalement, artiste, artistique, artistiquement, artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur, art}}Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN11
  34. 34. Protocole dévaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de larbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P2 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement, artificier, 2 artificiel, artifice, artificiellement}, 1 {artillerie, artilleur, art}}Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN11
  35. 35. Protocole dévaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de larbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P3 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement, artificier, 2 artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 3 {art}}Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN11
  36. 36. Protocole dévaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de larbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P4 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, 2 {artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 4 3 {art}}Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN11
  37. 37. Protocole dévaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de larbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P5 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, 5 2 {artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 4 3 {art}}Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN11
  38. 38. Protocole dévaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de larbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P6 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 4 3 {art}}Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN11
  39. 39. Protocole dévaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de larbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice}, {artificiellement}, 1 {artillerie, artilleur}, 4 7 3 {art}}Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN11
  40. 40. Protocole dévaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de larbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice}, {artificiellement}, 1 {artillerie, artilleur}, 4 7 3 {art}}Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN11
  41. 41. Protocole dévaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de larbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice}, {artificiellement}, 1 {artillerie, artilleur}, 4 7 3 {art}} Comparer les partitions ! (indice de Rand, Rand corrigé)Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN11
  42. 42. Protocole dévaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de larbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, {artificier, artificiel, artifice}, {artificiellement}, {artillerie, artilleur}, {art}} Comparer les partitions ! (indice de Rand, Rand corrigé)Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN11
  43. 43. Protocole dévaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de larbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, {artificier, artificiel, artifice}, {artificiellement}, {artillerie, artilleur}, {art}} rand(Pm,P7) = 0.934 aRand(Pm,P7) = 0.774Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN11
  44. 44. Protocole dévaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de larbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P4 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, {artificier, artificiel, artifice, artificiellement}, {artillerie, artilleur}, {art}} rand(Pm,P4) = 0.967 aRand(Pm,P4) = 0.894Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN11
  45. 45. Protocole dévaluation ensemble de mots cooccurrence dans le TLFI + affixes communs matrice de distances méthodes NJ, UPGMA arbre formule 1 formule 2 formule 3 triples length quartets réévaluation des Ratio longueurs darêtes arbre 1 arbre 2 arbre 3 découpage de larbre par longueur darête décroissante partition manuelle partition 1 partition 2 partition 3 comparaison de la meilleure partition parmi P0, P1, P2... score 1 score 2 score 3
  46. 46. Plan• Analyses et nuages arborés• Interprétation visuelle• Formules de longueurs darêtes• Protocole dévaluation• Résultats• Visualisations• Perspectives
  47. 47. Scores de chaque formule triples 1,2 lengthRatio computedLength 1 agreementPairs quartets 0,8 0,6 0,4 0,2 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand de la meilleure partition trouvée automatiquement 1 triples 0,9 lengthRatio 0,8 computedLength 0,7 agreementPairs quartets 0,6 0,5 0,4 0,3 0,2 0,1 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand corrigé de la meilleure partition trouvée automatiquement
  48. 48. Scores de chaque formule triples 1,2 lengthRatio computedLength 1 agreementPairs quartets 0,8 0,6 0,4 0,2 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand de la meilleure partition trouvée automatiquement 1 triples meilleures performances 0,9 lengthRatio par triples et lengthRatio 0,8 computedLength 0,7 agreementPairs quartets 0,6 0,5 0,4 0,3 0,2 0,1 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand corrigé de la meilleure partition trouvée automatiquement
  49. 49. Scores de chaque formule Les formules de longueur darête sont-elles cohérentes ?
  50. 50. Scores de chaque formule Les formules de longueur darête sont-elles cohérentes ? 1triples 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,5 1 1,5 2 2,5 3 computedLength Longueur selon la formule triples en fonction de la longueur originale de larête pour larbre de la famille de art
  51. 51. Scores de chaque formule Les formules de longueur darête sont-elles cohérentes ? 1triples 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 arêtes externes (trop longues) 0,1 0 0 0,5 1 1,5 2 2,5 3 computedLength Longueur selon la formule triples en fonction de la longueur originale de larête pour larbre de la famille de art
  52. 52. Scores de chaque formule Les formules de longueur darête sont-elles cohérentes ? 1triples classes de mots les plus fiables 0,9 0,8 0,7 0,6 0,5 0,4 classes de 0,3 mots les moins fiables arêtes externes (trop longues) 0,2 0,1 0 0 0,5 1 1,5 2 2,5 3 computedLength Longueur selon la formule triples en fonction de la longueur originale de larête pour larbre de la famille de art
  53. 53. Scores de chaque formule Les formules de longueur darête sont-elles cohérentes ? 1,35 coefficient de corrélation :lengthRatio 0.865 1,3 1,25 1,2 1,15 1,1 1,05 1 0,95 0,9 0,3 0,4 0,5 0,6 0,7 0,8 0,9 triples Longueur selon la formule lengthRatio en fonction de celle selon la formule triples pour larbre de la famille de art
  54. 54. Scores de chaque formule Les formules de longueur darête sont-elles cohérentes ? 1,35 coefficient de corrélation :lengthRatio 1,3 0.865 arêtes internes 1,25 arêtes internes généralement plus longues : 1,2 bonne lisibilité de larbre 1,15 1,1 1,05 1 arêtes externes 0,95 0,9 0,3 0,4 0,5 0,6 0,7 0,8 0,9 triples Longueur selon la formule lengthRatio en fonction de celle selon la formule triples pour larbre de la famille de art
  55. 55. Scores de chaque formule Les formules de longueur darête sont-elles cohérentes ? 1,35 coefficient de corrélation :lengthRatio 1,3 0.865 arêtes internes 1,25 arêtes internes généralement plus longues : 1,2 bonne lisibilité de larbre 1,15 1,1 1,05 1 écart-type deux fois plus arêtes externes grand pour triples 0,95 0.166 au lieu de 0.084 0,9 0,3 0,4 0,5 0,6 0,7 0,8 0,9 triples Longueur selon la formule lengthRatio en fonction de celle selon la formule triples pour larbre de la famille de art
  56. 56. Plan• Analyses et nuages arborés• Interprétation visuelle• Formules de longueurs darêtes• Protocole dévaluation• Résultats• Visualisations• Perspectives
  57. 57. Visualisationsarbre original computedLength arbre avec longueurs darêtes triples arbre avec longueurs darêtes lengthRatio
  58. 58. Visualisationsarbre original computedLength arbre avec longueurs darêtes triples variance trop faible des longueurs darêtes ! arbre avec longueurs darêtes lengthRatio
  59. 59. Visualisationsarbre original computedLength arbre avec longueurs darêtes triples arbre avec longueurs darêtes lengthRatio
  60. 60. Plan• Analyses et nuages arborés• Interprétation visuelle• Formules de longueurs darêtes• Protocole dévaluation• Résultats• Visualisations• Perspectives
  61. 61. Perspectives • intégration des données de JeuxDeMots dans le protocole, et plus généralement en textométrie • réseau de plus de 200 000 mots et 1 200 000 liens pondérés • cooccurrences dans la production spontanée de mots par rapport à un mot cible • cohérence avec les distances de cooccurrence calculées à partir dun texte ? Lafourcade, JADT08 • intégration de la visualisation en nuages arborés avec longueurs de branches post-calculées : • dans les outils de textométrie existants • par des interfaces dimport/export adaptées • pour faciliter le retour au texte
  62. 62. Questions ? Merci pour votre attention ! http://www.treecloud.org
  63. 63. Analyses arborées Rapprochement des mots dun texte selon leur degré de cooccurrence dans le texte Constellation du mot “nuit” dans la base EXEMPLEM (22 romans de 11 auteurs, lemmatisés) TEMPS 2 CHAMBRE À COUCHER LATMOSPHÈRE TEMPS 1 Barthelémy & Luong, Statistique et Analyse des Données, 1986Hyperbase Brunet, JADT08
  64. 64. Analyses arborées Rapprochement des mots dun texte selon leur degré de cooccurrence dans le texte Constellation du mot “nuit” dans la base EXEMPLEM (22 romans de 11 auteurs, lemmatisés) TEMPS 2 CHAMBRE À COUCHER LATMOSPHÈRE TEMPS 1 Barthelémy & Luong, Statistique et Analyse des Données, 1986Hyperbase Brunet, JADT08
  65. 65. Ultramétriques, centre dun arbre arbre “sans centre” (feuilles à gauche plus éloignées de ce point que celles à droit) “centre” de larbre

×