SlideShare une entreprise Scribd logo
Colloque Cooccurrence 2012
                     09/02/2012 - Besançon




Longueur de branches et arbres de mots

  Philippe Gambette, Nuria Gala, Alexis Nasr, Alain Guénoche
         LIGM                        LIF              IML
   Université Paris-Est   Université Aix-Marseille   CNRS
    Marne-la-Vallée
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Analyses arborées

  Rapprochement des mots d'un texte selon leur degré de
  cooccurrence dans le texte
  Constellation du mot “nuit” dans la base EXEMPLEM
  (22 romans de 11 auteurs, lemmatisés)            TEMPS 2




                                                              CHAMBRE À COUCHER




               L'ATMOSPHÈRE

                                                        TEMPS 1




                              Barthelémy & Luong, Statistique et Analyse des Données, 1986
Hyperbase                                                                  Brunet, JADT'08
Nuage arboré, une information double




       occurrences



                         cooccurrences

                           Discours inaugural de Barack Obama
construit avec

                        SplitsTree : Huson & Bryant, Bioinformatics, 2006
                                 TreeCloud : Gambette & Véronis, IFCS'09
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Interprétation réelle




 Les distances dans l'arbre entre deux mots reflètent au mieux
 le degré de cooccurrence entre ces deux mots
Interprétation réelle




 Problème 1 :
 difficiles à lire


 Les distances dans l'arbre entre deux mots reflètent au mieux
 le degré de cooccurrence entre ces deux mots
Interprétation réelle




 Problème 1 :                                       Problème 2 :
 difficiles à lire                                  peu fiables


 Les distances dans l'arbre entre deux mots reflètent au mieux
 le degré de cooccurrence entre ces deux mots
Interprétation réelle




                                                    Optimisation
                                                    globale, pas
                                                    de garanties
                                                    locales de
                                                    qualité
 Problème 1 :                                       Problème 2 :
 difficiles à lire                                  peu fiables


 Les distances dans l'arbre entre deux mots reflètent au mieux
 le degré de cooccurrence entre ces deux mots
Interprétation pratique
                          arbre de distances
                          utilisé comme
                          classification
Interprétation pratique
                                          arbre de distances
                                          utilisé comme
                                          classification




 Les mots d'un même sous-arbre bien séparé du reste de l'arbre
 constituent une classe de mots
Interprétation pratique
                                          arbre de distances
                                          utilisé comme
                                          classification




 Les mots d'un même sous-arbre bien séparé du reste de l'arbre
 constituent une classe de mots
Interprétation pratique
                                          arbre de distances
                                          utilisé comme
                                          classification




                                          Problème : toujours
                                          peu lisible (longueur
                                          des arêtes externes)
                                          et peu fiable
 Les mots d'un même sous-arbre bien séparé du reste de l'arbre
 constituent une classe de mots
Interprétation pratique
   Astuce de visualisation pour améliorer la lisibilité :
   longueur unitaire des arêtes




Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre
de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin)
                                                                        Amstutz & Gambette, JADT'10
Interprétation pratique
   Astuce de visualisation pour améliorer la lisibilité :
   longueur unitaire des arêtes, MAIS...
                        encore moins fiable !




                                     retour au texte
                                       nécessaire,
                                      fausses pistes
Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre
de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin)
                                                                        Amstutz & Gambette, JADT'10
Interprétation pratique

 Problème :

 Comment calculer les longueurs des arêtes de l'arbre pour une
 interprétation fiable des classes ?


 Arête longue = classe de mots significative (proches les uns des
 autres, bien séparés du reste)

 Arête courte = classe de mots peu significative
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Formules de longueurs d'arêtes

 Post-calcul des longueurs d'arêtes après la construction de l'arbre,
 pour que :

 arêtes les plus longues ↔ classes de mots les plus significatives
                         ↔ classes de mots bien séparées
                            d'après la distance de cooccurrence
Formules de longueurs d'arêtes

 Post-calcul des longueurs d'arêtes après la construction de l'arbre,
 pour que :

 arêtes les plus longues ↔ classes de mots les plus significatives
                         ↔ classes de mots bien séparées
                            d'après la distance de cooccurrence


 Formule du ratio des bons triplets (“triples”) :

 Si mot1 et mot2 d'un côté de l'arête, mot3 de l'autre côté,
 “bon triplet” si
 distance(mot1,mot2) <
 min(distance(mot1,mot3),                  mot1
 distance(mot2,mot3))
                                                                            mot3

 ratio espéré proche de 1
                                           mot2
                                                         Guénoche & Garreta, IFCS'02
Formules de longueurs d'arêtes

 Post-calcul des longueurs d'arêtes après la construction de l'arbre,
 pour que :

 arêtes les plus longues ↔ classes de mots les plus significatives
                         ↔ classes de mots bien séparées
                            d'après la distance de cooccurrence


 Formule du ratio des distances moyennes (“distanceRatio”) :

 moyenne(distances inter-classes)
 moyenne(distances intra-classes)

 ratio espéré supérieur à 1




                                                         Guénoche & Garreta, IFCS'02
Formules de longueurs d'arêtes

 Post-calcul des longueurs d'arêtes après la construction de l'arbre,
 pour que :

 arêtes les plus longues ↔ classes de mots les plus significatives
                         ↔ classes de mots bien séparées
                            d'après la distance de cooccurrence


 Formule du ratio des bons quadruplets (“quartets”) :

 Si mot1 et mot2 d'un côté de l'arête, mot3 et mot4 de l'autre côté,
 “bon quadruplet” si                                                 mot4
 distance(mot1,mot2) +
 distance(mot2,mot3) <                    mot1
 min(distance(mot1,mot3) +
 distance(mot2,mot4) +,                                                     mot3
 distance(mot1,mot4) +
 distance(mot2,mot3))
                                          mot2
 ratio espéré proche de 1                                Guénoche & Garreta, IFCS'02
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Protocole d'évaluation

 Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis :

 Vérification que les classes de mots les mieux séparées
 (d'après ces longueurs) sont significatives
Protocole d'évaluation

 Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis :



 Vérification que les classes de mots        Partition obtenue en découpant les
 les mieux séparées (d'après ces             arêtes les plus longues comparée
 longueurs) sont significatives              avec une partition de référence
Protocole d'évaluation

 Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis :



 Vérification que les classes de mots        Partition obtenue en découpant les
 les mieux séparées (d'après ces             arêtes les plus longues comparée
 longueurs) sont significatives              avec une partition de référence

                                                             quelles
                                                            données ?
Protocole d'évaluation
  Base de données Polymots
  Base lexicale de familles morpho-phonologiques
  20 000 mots, 2000 familles




http://polymots.lif.univ-mrs.fr                    Gala & Rey, TALN'08
Protocole d'évaluation
 Base de données Polymots
 Base lexicale de familles morpho-phonologiques
 20 000 mots, 2000 familles

 + partitions sémantiques des familles de 20 mots
     (arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune,
     meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val).




                                               Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
 Base de données Polymots
 Base lexicale de familles morpho-phonologiques
 20 000 mots, 2000 familles

 + partitions sémantiques des familles de 20 mots
     (arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune,
     meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val).


 Exemple pour la famille de art :
 { {artifice, artificiel, artificiellement, artificier},
  {artillerie, artilleur},
  {artisan, artisanal, artisanalement, artisanat},
  {artiste, artistique, artistiquement, art} }




                                                      Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
 Idée :
 • Construire une représentation arborée des mots de la famille
 • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
 • La partition obtenue est-elle proche de la partition “manuelle” ?




                                              Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
 Idée :
 • Construire une représentation arborée des mots de la famille
 • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
 • La partition obtenue est-elle proche de la partition “manuelle” ?


 Distance utilisée pour le calcul de la représentation arborée ?
 Distance composite entre :
 • nombre d'affixes communs
 • degré de cooccurrence dans




                                               Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P0 = {{artisan, artisanat,
                                                                   artisanal, artisanalement,
                                                                   artiste, artistique,
                                                                   artistiquement, artificier,
                                                                   artificiel, artifice,
                                                                   artificiellement, artillerie,
                                                                   artilleur, art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P1 = {{artisan, artisanat,
                                                                   artisanal, artisanalement,
                                                                   artiste, artistique,
                                                                   artistiquement, artificier,
                                                                   artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur, art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P2 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement, artificier,
                           2                                       artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur, art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P3 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement, artificier,
                           2                                       artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur},
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P4 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                           2                                       {artificier, artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur},
                                  4
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P5 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                         5 2                                       {artificier, artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur},
                                  4
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P6 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                   6                               artistiquement},
                         5 2                                       {artificier, artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur},
                                  4
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                   6                               artistiquement},
                         5 2                                       {artificier, artificiel, artifice},
                                                                   {artificiellement},
                     1                                             {artillerie, artilleur},
                                  4     7
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                   6                               artistiquement},
                         5 2                                       {artificier, artificiel, artifice},
                                                                   {artificiellement},
                     1                                             {artillerie, artilleur},
                                  4     7
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                   6                               artistiquement},
                         5 2                                       {artificier, artificiel, artifice},
                                                                   {artificiellement},
                     1                                             {artillerie, artilleur},
                                  4     7
             3                                                     {art}}

                                                                   Comparer les partitions !
                                                                   (indice de Rand, Rand corrigé)

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                                                                   {artificier, artificiel, artifice},
                                                                   {artificiellement},
                                                                   {artillerie, artilleur},
                                                                   {art}}

                                                                   Comparer les partitions !
                                                                   (indice de Rand, Rand corrigé)

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                            Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                                                                   {artificier, artificiel, artifice},
                                                                   {artificiellement},
                                                                   {artillerie, artilleur},
                                                                   {art}}

                                                                   rand(Pm,P7) = 0.934
                                                                   aRand(Pm,P7) = 0.774

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                            Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P4 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                                                                   {artificier, artificiel, artifice,
                                                                   artificiellement},
                                                                   {artillerie, artilleur},
                                                                   {art}}

                                                                   rand(Pm,P4) = 0.967
                                                                   aRand(Pm,P4) = 0.894

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                            Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
 ensemble de mots                cooccurrence dans le TLFI
                                 + affixes communs
                      matrice de distances                      méthodes NJ, UPGMA
                                                             arbre



                            formule 1     formule 2    formule 3
                         triples        length      quartets                 réévaluation des
                                         Ratio                             longueurs d'arêtes

                            arbre 1           arbre 2        arbre 3
                                                                         découpage de l'arbre
                                                                         par longueur d'arête
                                                                                 décroissante
 partition manuelle       partition 1        partition 2   partition 3
                                                                           comparaison de la
                                                                           meilleure partition
                                                                           parmi P0, P1, P2...
                            score 1           score 2        score 3
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Scores de chaque formule
                                                            triples
 1,2
                                                            lengthRatio
                                                            computedLength
   1
                                                            agreementPairs
                                                            quartets
 0,8

 0,6

 0,4

 0,2

   0
       arbre   art   boule carte corde dent    dict   fil    fus   lune meuble mode onde paille penser pot presse ten   terre   val moyenne
        Score Rand de la meilleure partition trouvée automatiquement

  1
                              triples
 0,9                          lengthRatio
 0,8                          computedLength
 0,7                          agreementPairs
                              quartets
 0,6
 0,5
 0,4
 0,3
 0,2
 0,1
  0
       arbre   art   boule carte corde dent    dict   fil    fus   lune meuble mode onde paille penser pot presse ten   terre   val moyenne

        Score Rand corrigé de la meilleure partition trouvée automatiquement
Scores de chaque formule
                                                            triples
 1,2
                                                            lengthRatio
                                                            computedLength
   1
                                                            agreementPairs
                                                            quartets
 0,8

 0,6

 0,4

 0,2

   0
       arbre   art   boule carte corde dent    dict   fil    fus   lune meuble mode onde paille penser pot presse ten   terre   val moyenne
        Score Rand de la meilleure partition trouvée automatiquement

  1
                              triples
                                                             meilleures performances
 0,9                          lengthRatio                    par triples et lengthRatio
 0,8                          computedLength
 0,7                          agreementPairs
                              quartets
 0,6
 0,5
 0,4
 0,3
 0,2
 0,1
  0
       arbre   art   boule carte corde dent    dict   fil    fus   lune meuble mode onde paille penser pot presse ten   terre   val moyenne

        Score Rand corrigé de la meilleure partition trouvée automatiquement
Scores de chaque formule
 Les formules de longueur d'arête sont-elles cohérentes ?
Scores de chaque formule
 Les formules de longueur d'arête sont-elles cohérentes ?

       1
triples
     0,9

    0,8

    0,7

    0,6

    0,5

    0,4

    0,3

    0,2

    0,1

      0
           0      0,5          1           1,5          2          2,5          3
                                                                           computedLength

   Longueur selon la formule triples en fonction de la longueur originale de l'arête
   pour l'arbre de la famille de art
Scores de chaque formule
 Les formules de longueur d'arête sont-elles cohérentes ?

       1
triples
     0,9

    0,8

    0,7

    0,6

    0,5

    0,4

    0,3

    0,2                   arêtes externes (trop longues)
    0,1

      0
           0      0,5          1           1,5          2          2,5          3
                                                                           computedLength

   Longueur selon la formule triples en fonction de la longueur originale de l'arête
   pour l'arbre de la famille de art
Scores de chaque formule
 Les formules de longueur d'arête sont-elles cohérentes ?

       1
triples        classes de mots les plus fiables
     0,9

    0,8

    0,7

    0,6

    0,5

    0,4        classes de
    0,3
               mots les
               moins fiables    arêtes externes (trop longues)
    0,2

    0,1

      0
           0            0,5          1            1,5     2        2,5          3
                                                                           computedLength

   Longueur selon la formule triples en fonction de la longueur originale de l'arête
   pour l'arbre de la famille de art
Scores de chaque formule
     Les formules de longueur d'arête sont-elles cohérentes ?

       1,35         coefficient de corrélation :
lengthRatio                    0.865
        1,3


       1,25


        1,2


       1,15


        1,1


       1,05


          1


       0,95


        0,9
              0,3         0,4        0,5           0,6   0,7         0,8          0,9
                                                                                triples

   Longueur selon la formule lengthRatio en fonction de celle selon la formule triples
   pour l'arbre de la famille de art
Scores de chaque formule
     Les formules de longueur d'arête sont-elles cohérentes ?

       1,35         coefficient de corrélation :
lengthRatio
        1,3
                               0.865                     arêtes internes
       1,25                    arêtes internes
                         généralement plus longues :
        1,2
                          bonne lisibilité de l'arbre
       1,15


        1,1


       1,05


          1

                     arêtes externes
       0,95


        0,9
              0,3         0,4        0,5           0,6     0,7       0,8          0,9
                                                                                triples

   Longueur selon la formule lengthRatio en fonction de celle selon la formule triples
   pour l'arbre de la famille de art
Scores de chaque formule
     Les formules de longueur d'arête sont-elles cohérentes ?

       1,35         coefficient de corrélation :
lengthRatio
        1,3
                               0.865                        arêtes internes
       1,25                    arêtes internes
                         généralement plus longues :
        1,2
                          bonne lisibilité de l'arbre
       1,15


        1,1


       1,05


          1                                              écart-type deux fois plus
                     arêtes externes                        grand pour triples
       0,95
                                                          0.166 au lieu de 0.084
        0,9
              0,3         0,4        0,5           0,6         0,7        0,8          0,9
                                                                                     triples

   Longueur selon la formule lengthRatio en fonction de celle selon la formule triples
   pour l'arbre de la famille de art
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Visualisations
arbre original computedLength
                                   arbre avec longueurs d'arêtes triples




                                arbre avec longueurs d'arêtes
                                lengthRatio
Visualisations
arbre original computedLength
                                         arbre avec longueurs d'arêtes triples




                      variance trop faible des
                      longueurs d'arêtes !
                                      arbre avec longueurs d'arêtes
                                      lengthRatio
Visualisations
arbre original computedLength
                                   arbre avec longueurs d'arêtes triples




                                arbre avec longueurs d'arêtes
                                lengthRatio
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Perspectives

  • intégration des données de JeuxDeMots        dans le protocole, et plus
  généralement en textométrie
       • réseau de plus de 200 000 mots et 1 200 000 liens pondérés
       • cooccurrences dans la production spontanée de mots par rapport à
       un mot cible
       • cohérence avec les distances de cooccurrence calculées à partir
       d'un texte ?
                                                          Lafourcade, JADT'08

  • intégration de la visualisation en nuages arborés avec longueurs de
  branches post-calculées :
       • dans les outils de textométrie existants
       • par des interfaces d'import/export adaptées
       • pour faciliter le retour au texte
Questions ?




 Merci pour votre attention !




                                http://www.treecloud.org
Analyses arborées

  Rapprochement des mots d'un texte selon leur degré de
  cooccurrence dans le texte
  Constellation du mot “nuit” dans la base EXEMPLEM
  (22 romans de 11 auteurs, lemmatisés)            TEMPS 2




                                                              CHAMBRE À COUCHER




               L'ATMOSPHÈRE

                                                        TEMPS 1




                              Barthelémy & Luong, Statistique et Analyse des Données, 1986
Hyperbase                                                                  Brunet, JADT'08
Analyses arborées

  Rapprochement des mots d'un texte selon leur degré de
  cooccurrence dans le texte
  Constellation du mot “nuit” dans la base EXEMPLEM
  (22 romans de 11 auteurs, lemmatisés)            TEMPS 2




                                                              CHAMBRE À COUCHER




               L'ATMOSPHÈRE

                                                        TEMPS 1




                              Barthelémy & Luong, Statistique et Analyse des Données, 1986
Hyperbase                                                                  Brunet, JADT'08
Ultramétriques, centre d'un arbre




                                arbre “sans centre” (feuilles
                                à gauche plus éloignées de
                                ce point que celles à droit)
         “centre” de l'arbre

Contenu connexe

Plus de Philippe Gambette

Nuages arborés et analyse textuelle de corpus politiques avec TreeCloud
Nuages arborés et analyse textuelle de corpus politiques avec TreeCloudNuages arborés et analyse textuelle de corpus politiques avec TreeCloud
Nuages arborés et analyse textuelle de corpus politiques avec TreeCloud
Philippe Gambette
 
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloudNuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Philippe Gambette
 
Practical use of combinatorial methods for phylogenetic network reconstruction
Practical use of combinatorial methods for phylogenetic network reconstructionPractical use of combinatorial methods for phylogenetic network reconstruction
Practical use of combinatorial methods for phylogenetic network reconstruction
Philippe Gambette
 
Méthodes combinatoires de reconstruction de réseaux phylogénétiques
Méthodes combinatoires de reconstruction de réseaux phylogénétiquesMéthodes combinatoires de reconstruction de réseaux phylogénétiques
Méthodes combinatoires de reconstruction de réseaux phylogénétiques
Philippe Gambette
 
Utilisation de la visualisation en nuage arboré pour l'analyse littéraire
Utilisation de la visualisation en nuage arboré pour l'analyse littéraireUtilisation de la visualisation en nuage arboré pour l'analyse littéraire
Utilisation de la visualisation en nuage arboré pour l'analyse littéraire
Philippe Gambette
 
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
Philippe Gambette
 
Reconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiquesReconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiques
Philippe Gambette
 
The Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic NetworksThe Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic Networks
Philippe Gambette
 
Visualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboréVisualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboréPhilippe Gambette
 
Estimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues CarambarEstimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues Carambar
Philippe Gambette
 
On restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphsOn restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphs
Philippe Gambette
 
Visualising a text with a tree cloud
Visualising a text with a tree cloudVisualising a text with a tree cloud
Visualising a text with a tree cloud
Philippe Gambette
 

Plus de Philippe Gambette (12)

Nuages arborés et analyse textuelle de corpus politiques avec TreeCloud
Nuages arborés et analyse textuelle de corpus politiques avec TreeCloudNuages arborés et analyse textuelle de corpus politiques avec TreeCloud
Nuages arborés et analyse textuelle de corpus politiques avec TreeCloud
 
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloudNuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
 
Practical use of combinatorial methods for phylogenetic network reconstruction
Practical use of combinatorial methods for phylogenetic network reconstructionPractical use of combinatorial methods for phylogenetic network reconstruction
Practical use of combinatorial methods for phylogenetic network reconstruction
 
Méthodes combinatoires de reconstruction de réseaux phylogénétiques
Méthodes combinatoires de reconstruction de réseaux phylogénétiquesMéthodes combinatoires de reconstruction de réseaux phylogénétiques
Méthodes combinatoires de reconstruction de réseaux phylogénétiques
 
Utilisation de la visualisation en nuage arboré pour l'analyse littéraire
Utilisation de la visualisation en nuage arboré pour l'analyse littéraireUtilisation de la visualisation en nuage arboré pour l'analyse littéraire
Utilisation de la visualisation en nuage arboré pour l'analyse littéraire
 
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
 
Reconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiquesReconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiques
 
The Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic NetworksThe Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic Networks
 
Visualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboréVisualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboré
 
Estimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues CarambarEstimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues Carambar
 
On restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphsOn restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphs
 
Visualising a text with a tree cloud
Visualising a text with a tree cloudVisualising a text with a tree cloud
Visualising a text with a tree cloud
 

Dernier

Evaluación docentes "Un cielo, dos países: El camino de los descubrimientos"
Evaluación docentes "Un cielo, dos países: El camino de los descubrimientos"Evaluación docentes "Un cielo, dos países: El camino de los descubrimientos"
Evaluación docentes "Un cielo, dos países: El camino de los descubrimientos"
IES Turina/Rodrigo/Itaca/Palomeras
 
Contrôle fiscale en république de guinée
Contrôle fiscale en république de guinéeContrôle fiscale en république de guinée
Contrôle fiscale en république de guinée
bangalykaba146
 
Iris et les hommes.pptx
Iris      et         les      hommes.pptxIris      et         les      hommes.pptx
Iris et les hommes.pptx
Txaruka
 
Méthodologie de recherche et de rédaction de mémoire.pptx
Méthodologie de recherche et de rédaction de mémoire.pptxMéthodologie de recherche et de rédaction de mémoire.pptx
Méthodologie de recherche et de rédaction de mémoire.pptx
LamoussaPaulOuattara1
 
Newsletter SPW Agriculture en province du Luxembourg du 03-06-24
Newsletter SPW Agriculture en province du Luxembourg du 03-06-24Newsletter SPW Agriculture en province du Luxembourg du 03-06-24
Newsletter SPW Agriculture en province du Luxembourg du 03-06-24
BenotGeorges3
 
Conseils pour Les Jeunes | Conseils de La Vie| Conseil de La Jeunesse
Conseils pour Les Jeunes | Conseils de La Vie| Conseil de La JeunesseConseils pour Les Jeunes | Conseils de La Vie| Conseil de La Jeunesse
Conseils pour Les Jeunes | Conseils de La Vie| Conseil de La Jeunesse
Oscar Smith
 
Exame DELF - A2 Francês pout tout public
Exame DELF - A2  Francês pout tout publicExame DELF - A2  Francês pout tout public
Exame DELF - A2 Francês pout tout public
GiselaAlves15
 
SYLLABUS DU COURS MARKETING DTS 1-2.pdf
SYLLABUS DU COURS  MARKETING DTS 1-2.pdfSYLLABUS DU COURS  MARKETING DTS 1-2.pdf
SYLLABUS DU COURS MARKETING DTS 1-2.pdf
Moukagni Evrard
 
Projet de fin d'étude licence en sciece.pptx
Projet de fin d'étude licence en sciece.pptxProjet de fin d'étude licence en sciece.pptx
Projet de fin d'étude licence en sciece.pptx
elfangourabdelouahab
 
Mémoire de licence en finance comptabilité et audit
Mémoire de licence en finance comptabilité et auditMémoire de licence en finance comptabilité et audit
Mémoire de licence en finance comptabilité et audit
MelDjobo
 
Cours SE - Gestion de la mémoire- Cours IG IPSET.pdf
Cours SE - Gestion de la mémoire- Cours IG IPSET.pdfCours SE - Gestion de la mémoire- Cours IG IPSET.pdf
Cours SE - Gestion de la mémoire- Cours IG IPSET.pdf
MedBechir
 
Calendrier du 3 juin 2024 et compte rendu.pdf
Calendrier du 3 juin 2024 et compte rendu.pdfCalendrier du 3 juin 2024 et compte rendu.pdf
Calendrier du 3 juin 2024 et compte rendu.pdf
frizzole
 
4 expositions à voir à Paris.pptx
4   expositions    à   voir   à Paris.pptx4   expositions    à   voir   à Paris.pptx
4 expositions à voir à Paris.pptx
Txaruka
 
Festival de Cannes 2024.pptx
Festival      de      Cannes     2024.pptxFestival      de      Cannes     2024.pptx
Festival de Cannes 2024.pptx
Txaruka
 
M2i Webinar - « Participation Financière Obligatoire » et CPF : une opportuni...
M2i Webinar - « Participation Financière Obligatoire » et CPF : une opportuni...M2i Webinar - « Participation Financière Obligatoire » et CPF : une opportuni...
M2i Webinar - « Participation Financière Obligatoire » et CPF : une opportuni...
M2i Formation
 

Dernier (15)

Evaluación docentes "Un cielo, dos países: El camino de los descubrimientos"
Evaluación docentes "Un cielo, dos países: El camino de los descubrimientos"Evaluación docentes "Un cielo, dos países: El camino de los descubrimientos"
Evaluación docentes "Un cielo, dos países: El camino de los descubrimientos"
 
Contrôle fiscale en république de guinée
Contrôle fiscale en république de guinéeContrôle fiscale en république de guinée
Contrôle fiscale en république de guinée
 
Iris et les hommes.pptx
Iris      et         les      hommes.pptxIris      et         les      hommes.pptx
Iris et les hommes.pptx
 
Méthodologie de recherche et de rédaction de mémoire.pptx
Méthodologie de recherche et de rédaction de mémoire.pptxMéthodologie de recherche et de rédaction de mémoire.pptx
Méthodologie de recherche et de rédaction de mémoire.pptx
 
Newsletter SPW Agriculture en province du Luxembourg du 03-06-24
Newsletter SPW Agriculture en province du Luxembourg du 03-06-24Newsletter SPW Agriculture en province du Luxembourg du 03-06-24
Newsletter SPW Agriculture en province du Luxembourg du 03-06-24
 
Conseils pour Les Jeunes | Conseils de La Vie| Conseil de La Jeunesse
Conseils pour Les Jeunes | Conseils de La Vie| Conseil de La JeunesseConseils pour Les Jeunes | Conseils de La Vie| Conseil de La Jeunesse
Conseils pour Les Jeunes | Conseils de La Vie| Conseil de La Jeunesse
 
Exame DELF - A2 Francês pout tout public
Exame DELF - A2  Francês pout tout publicExame DELF - A2  Francês pout tout public
Exame DELF - A2 Francês pout tout public
 
SYLLABUS DU COURS MARKETING DTS 1-2.pdf
SYLLABUS DU COURS  MARKETING DTS 1-2.pdfSYLLABUS DU COURS  MARKETING DTS 1-2.pdf
SYLLABUS DU COURS MARKETING DTS 1-2.pdf
 
Projet de fin d'étude licence en sciece.pptx
Projet de fin d'étude licence en sciece.pptxProjet de fin d'étude licence en sciece.pptx
Projet de fin d'étude licence en sciece.pptx
 
Mémoire de licence en finance comptabilité et audit
Mémoire de licence en finance comptabilité et auditMémoire de licence en finance comptabilité et audit
Mémoire de licence en finance comptabilité et audit
 
Cours SE - Gestion de la mémoire- Cours IG IPSET.pdf
Cours SE - Gestion de la mémoire- Cours IG IPSET.pdfCours SE - Gestion de la mémoire- Cours IG IPSET.pdf
Cours SE - Gestion de la mémoire- Cours IG IPSET.pdf
 
Calendrier du 3 juin 2024 et compte rendu.pdf
Calendrier du 3 juin 2024 et compte rendu.pdfCalendrier du 3 juin 2024 et compte rendu.pdf
Calendrier du 3 juin 2024 et compte rendu.pdf
 
4 expositions à voir à Paris.pptx
4   expositions    à   voir   à Paris.pptx4   expositions    à   voir   à Paris.pptx
4 expositions à voir à Paris.pptx
 
Festival de Cannes 2024.pptx
Festival      de      Cannes     2024.pptxFestival      de      Cannes     2024.pptx
Festival de Cannes 2024.pptx
 
M2i Webinar - « Participation Financière Obligatoire » et CPF : une opportuni...
M2i Webinar - « Participation Financière Obligatoire » et CPF : une opportuni...M2i Webinar - « Participation Financière Obligatoire » et CPF : une opportuni...
M2i Webinar - « Participation Financière Obligatoire » et CPF : une opportuni...
 

Longueur de branches et arbres de mots

  • 1. Colloque Cooccurrence 2012 09/02/2012 - Besançon Longueur de branches et arbres de mots Philippe Gambette, Nuria Gala, Alexis Nasr, Alain Guénoche LIGM LIF IML Université Paris-Est Université Aix-Marseille CNRS Marne-la-Vallée
  • 2. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 3. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 4. Analyses arborées Rapprochement des mots d'un texte selon leur degré de cooccurrence dans le texte Constellation du mot “nuit” dans la base EXEMPLEM (22 romans de 11 auteurs, lemmatisés) TEMPS 2 CHAMBRE À COUCHER L'ATMOSPHÈRE TEMPS 1 Barthelémy & Luong, Statistique et Analyse des Données, 1986 Hyperbase Brunet, JADT'08
  • 5. Nuage arboré, une information double occurrences cooccurrences Discours inaugural de Barack Obama construit avec SplitsTree : Huson & Bryant, Bioinformatics, 2006 TreeCloud : Gambette & Véronis, IFCS'09
  • 6. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 7. Interprétation réelle Les distances dans l'arbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  • 8. Interprétation réelle Problème 1 : difficiles à lire Les distances dans l'arbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  • 9. Interprétation réelle Problème 1 : Problème 2 : difficiles à lire peu fiables Les distances dans l'arbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  • 10. Interprétation réelle Optimisation globale, pas de garanties locales de qualité Problème 1 : Problème 2 : difficiles à lire peu fiables Les distances dans l'arbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  • 11. Interprétation pratique arbre de distances utilisé comme classification
  • 12. Interprétation pratique arbre de distances utilisé comme classification Les mots d'un même sous-arbre bien séparé du reste de l'arbre constituent une classe de mots
  • 13. Interprétation pratique arbre de distances utilisé comme classification Les mots d'un même sous-arbre bien séparé du reste de l'arbre constituent une classe de mots
  • 14. Interprétation pratique arbre de distances utilisé comme classification Problème : toujours peu lisible (longueur des arêtes externes) et peu fiable Les mots d'un même sous-arbre bien séparé du reste de l'arbre constituent une classe de mots
  • 15. Interprétation pratique Astuce de visualisation pour améliorer la lisibilité : longueur unitaire des arêtes Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin) Amstutz & Gambette, JADT'10
  • 16. Interprétation pratique Astuce de visualisation pour améliorer la lisibilité : longueur unitaire des arêtes, MAIS... encore moins fiable ! retour au texte nécessaire, fausses pistes Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin) Amstutz & Gambette, JADT'10
  • 17. Interprétation pratique Problème : Comment calculer les longueurs des arêtes de l'arbre pour une interprétation fiable des classes ? Arête longue = classe de mots significative (proches les uns des autres, bien séparés du reste) Arête courte = classe de mots peu significative
  • 18. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 19. Formules de longueurs d'arêtes Post-calcul des longueurs d'arêtes après la construction de l'arbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées d'après la distance de cooccurrence
  • 20. Formules de longueurs d'arêtes Post-calcul des longueurs d'arêtes après la construction de l'arbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées d'après la distance de cooccurrence Formule du ratio des bons triplets (“triples”) : Si mot1 et mot2 d'un côté de l'arête, mot3 de l'autre côté, “bon triplet” si distance(mot1,mot2) < min(distance(mot1,mot3), mot1 distance(mot2,mot3)) mot3 ratio espéré proche de 1 mot2 Guénoche & Garreta, IFCS'02
  • 21. Formules de longueurs d'arêtes Post-calcul des longueurs d'arêtes après la construction de l'arbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées d'après la distance de cooccurrence Formule du ratio des distances moyennes (“distanceRatio”) : moyenne(distances inter-classes) moyenne(distances intra-classes) ratio espéré supérieur à 1 Guénoche & Garreta, IFCS'02
  • 22. Formules de longueurs d'arêtes Post-calcul des longueurs d'arêtes après la construction de l'arbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées d'après la distance de cooccurrence Formule du ratio des bons quadruplets (“quartets”) : Si mot1 et mot2 d'un côté de l'arête, mot3 et mot4 de l'autre côté, “bon quadruplet” si mot4 distance(mot1,mot2) + distance(mot2,mot3) < mot1 min(distance(mot1,mot3) + distance(mot2,mot4) +, mot3 distance(mot1,mot4) + distance(mot2,mot3)) mot2 ratio espéré proche de 1 Guénoche & Garreta, IFCS'02
  • 23. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 24. Protocole d'évaluation Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis : Vérification que les classes de mots les mieux séparées (d'après ces longueurs) sont significatives
  • 25. Protocole d'évaluation Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis : Vérification que les classes de mots Partition obtenue en découpant les les mieux séparées (d'après ces arêtes les plus longues comparée longueurs) sont significatives avec une partition de référence
  • 26. Protocole d'évaluation Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis : Vérification que les classes de mots Partition obtenue en découpant les les mieux séparées (d'après ces arêtes les plus longues comparée longueurs) sont significatives avec une partition de référence quelles données ?
  • 27. Protocole d'évaluation Base de données Polymots Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles http://polymots.lif.univ-mrs.fr Gala & Rey, TALN'08
  • 28. Protocole d'évaluation Base de données Polymots Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles + partitions sémantiques des familles de 20 mots (arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune, meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val). Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 29. Protocole d'évaluation Base de données Polymots Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles + partitions sémantiques des familles de 20 mots (arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune, meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val). Exemple pour la famille de art : { {artifice, artificiel, artificiellement, artificier}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art} } Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 30. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 31. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Distance utilisée pour le calcul de la représentation arborée ? Distance composite entre : • nombre d'affixes communs • degré de cooccurrence dans Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 32. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P0 = {{artisan, artisanat, artisanal, artisanalement, artiste, artistique, artistiquement, artificier, artificiel, artifice, artificiellement, artillerie, artilleur, art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 33. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P1 = {{artisan, artisanat, artisanal, artisanalement, artiste, artistique, artistiquement, artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur, art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 34. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P2 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement, artificier, 2 artificiel, artifice, artificiellement}, 1 {artillerie, artilleur, art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 35. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P3 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement, artificier, 2 artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 36. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P4 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, 2 {artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 4 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 37. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P5 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, 5 2 {artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 4 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 38. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P6 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 4 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 39. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice}, {artificiellement}, 1 {artillerie, artilleur}, 4 7 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 40. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice}, {artificiellement}, 1 {artillerie, artilleur}, 4 7 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 41. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice}, {artificiellement}, 1 {artillerie, artilleur}, 4 7 3 {art}} Comparer les partitions ! (indice de Rand, Rand corrigé) Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 42. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, {artificier, artificiel, artifice}, {artificiellement}, {artillerie, artilleur}, {art}} Comparer les partitions ! (indice de Rand, Rand corrigé) Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 43. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, {artificier, artificiel, artifice}, {artificiellement}, {artillerie, artilleur}, {art}} rand(Pm,P7) = 0.934 aRand(Pm,P7) = 0.774 Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 44. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P4 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, {artificier, artificiel, artifice, artificiellement}, {artillerie, artilleur}, {art}} rand(Pm,P4) = 0.967 aRand(Pm,P4) = 0.894 Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 45. Protocole d'évaluation ensemble de mots cooccurrence dans le TLFI + affixes communs matrice de distances méthodes NJ, UPGMA arbre formule 1 formule 2 formule 3 triples length quartets réévaluation des Ratio longueurs d'arêtes arbre 1 arbre 2 arbre 3 découpage de l'arbre par longueur d'arête décroissante partition manuelle partition 1 partition 2 partition 3 comparaison de la meilleure partition parmi P0, P1, P2... score 1 score 2 score 3
  • 46. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 47. Scores de chaque formule triples 1,2 lengthRatio computedLength 1 agreementPairs quartets 0,8 0,6 0,4 0,2 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand de la meilleure partition trouvée automatiquement 1 triples 0,9 lengthRatio 0,8 computedLength 0,7 agreementPairs quartets 0,6 0,5 0,4 0,3 0,2 0,1 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand corrigé de la meilleure partition trouvée automatiquement
  • 48. Scores de chaque formule triples 1,2 lengthRatio computedLength 1 agreementPairs quartets 0,8 0,6 0,4 0,2 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand de la meilleure partition trouvée automatiquement 1 triples meilleures performances 0,9 lengthRatio par triples et lengthRatio 0,8 computedLength 0,7 agreementPairs quartets 0,6 0,5 0,4 0,3 0,2 0,1 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand corrigé de la meilleure partition trouvée automatiquement
  • 49. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ?
  • 50. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1 triples 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,5 1 1,5 2 2,5 3 computedLength Longueur selon la formule triples en fonction de la longueur originale de l'arête pour l'arbre de la famille de art
  • 51. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1 triples 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 arêtes externes (trop longues) 0,1 0 0 0,5 1 1,5 2 2,5 3 computedLength Longueur selon la formule triples en fonction de la longueur originale de l'arête pour l'arbre de la famille de art
  • 52. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1 triples classes de mots les plus fiables 0,9 0,8 0,7 0,6 0,5 0,4 classes de 0,3 mots les moins fiables arêtes externes (trop longues) 0,2 0,1 0 0 0,5 1 1,5 2 2,5 3 computedLength Longueur selon la formule triples en fonction de la longueur originale de l'arête pour l'arbre de la famille de art
  • 53. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1,35 coefficient de corrélation : lengthRatio 0.865 1,3 1,25 1,2 1,15 1,1 1,05 1 0,95 0,9 0,3 0,4 0,5 0,6 0,7 0,8 0,9 triples Longueur selon la formule lengthRatio en fonction de celle selon la formule triples pour l'arbre de la famille de art
  • 54. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1,35 coefficient de corrélation : lengthRatio 1,3 0.865 arêtes internes 1,25 arêtes internes généralement plus longues : 1,2 bonne lisibilité de l'arbre 1,15 1,1 1,05 1 arêtes externes 0,95 0,9 0,3 0,4 0,5 0,6 0,7 0,8 0,9 triples Longueur selon la formule lengthRatio en fonction de celle selon la formule triples pour l'arbre de la famille de art
  • 55. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1,35 coefficient de corrélation : lengthRatio 1,3 0.865 arêtes internes 1,25 arêtes internes généralement plus longues : 1,2 bonne lisibilité de l'arbre 1,15 1,1 1,05 1 écart-type deux fois plus arêtes externes grand pour triples 0,95 0.166 au lieu de 0.084 0,9 0,3 0,4 0,5 0,6 0,7 0,8 0,9 triples Longueur selon la formule lengthRatio en fonction de celle selon la formule triples pour l'arbre de la famille de art
  • 56. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 57. Visualisations arbre original computedLength arbre avec longueurs d'arêtes triples arbre avec longueurs d'arêtes lengthRatio
  • 58. Visualisations arbre original computedLength arbre avec longueurs d'arêtes triples variance trop faible des longueurs d'arêtes ! arbre avec longueurs d'arêtes lengthRatio
  • 59. Visualisations arbre original computedLength arbre avec longueurs d'arêtes triples arbre avec longueurs d'arêtes lengthRatio
  • 60. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 61. Perspectives • intégration des données de JeuxDeMots dans le protocole, et plus généralement en textométrie • réseau de plus de 200 000 mots et 1 200 000 liens pondérés • cooccurrences dans la production spontanée de mots par rapport à un mot cible • cohérence avec les distances de cooccurrence calculées à partir d'un texte ? Lafourcade, JADT'08 • intégration de la visualisation en nuages arborés avec longueurs de branches post-calculées : • dans les outils de textométrie existants • par des interfaces d'import/export adaptées • pour faciliter le retour au texte
  • 62. Questions ? Merci pour votre attention ! http://www.treecloud.org
  • 63. Analyses arborées Rapprochement des mots d'un texte selon leur degré de cooccurrence dans le texte Constellation du mot “nuit” dans la base EXEMPLEM (22 romans de 11 auteurs, lemmatisés) TEMPS 2 CHAMBRE À COUCHER L'ATMOSPHÈRE TEMPS 1 Barthelémy & Luong, Statistique et Analyse des Données, 1986 Hyperbase Brunet, JADT'08
  • 64. Analyses arborées Rapprochement des mots d'un texte selon leur degré de cooccurrence dans le texte Constellation du mot “nuit” dans la base EXEMPLEM (22 romans de 11 auteurs, lemmatisés) TEMPS 2 CHAMBRE À COUCHER L'ATMOSPHÈRE TEMPS 1 Barthelémy & Luong, Statistique et Analyse des Données, 1986 Hyperbase Brunet, JADT'08
  • 65. Ultramétriques, centre d'un arbre arbre “sans centre” (feuilles à gauche plus éloignées de ce point que celles à droit) “centre” de l'arbre