Journée d’étude - Visualisations en SHS et textométrie24/05/2013 – Créteil (CEDITEC)Nuages arborés et analyse textuellePré...
• Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisation des nuages arbo...
Démo de TreeCloud
Démo de TreeCloud
Démo de TreeCloud
• Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisation des nuages arbo...
Nuage arboré, une information doubleconstruit avecSplitsTree : Huson & Bryant, Bioinformatics, 2006TreeCloud : Gambette & ...
Intérêts de la visualisation arborée• Quantité d’information :• nombre de sacs de motsimbriqués linéaire(≠ réseaux, AFC)• ...
Intérêts de la visualisation arborée• Quantité d’information :• nombre de sacs de motsimbriqués linéaire(≠ réseaux, AFC)• ...
Intérêts de la visualisation arborée• Quantité d’information :• nombre de sacs de motsimbriqués linéaire(≠ réseaux, AFC)• ...
Limites de la visualisation arborée• Quantité d’information :• nombre de mots linéaireen la largeur du dessin(≠ AFC, résea...
Limites de la visualisation arborée• Quantité d’information :• nombre de mots linéaireen la largeur du dessin(≠ AFC, résea...
Limites de la visualisation arborée• Quantité d’information :• nombre de mots linéaireen la largeur du dessin(≠ AFC, résea...
Limites de la visualisation arborée• Quantité d’information :• nombre de mots linéaireen la largeur du dessin(≠ AFC, résea...
Limites de la visualisation arborée“effet étoile”,centre illisibleGambette, Gala, & Nasr,Longueur de branches et arbres de...
Interprétation réellePrincipe de construction de l’arbre :Les distances dans larbre entre deux mots reflètent au mieuxle d...
Interprétation réelleLes distances dans larbre entre deux mots reflètent au mieuxle degré de cooccurrence entre ces deux m...
Interprétation réelleLes distances dans larbre entre deux mots reflètent au mieuxle degré de cooccurrence entre ces deux m...
Interprétation réelleLes distances dans larbre entre deux mots reflètent au mieuxle degré de cooccurrence entre ces deux m...
Interprétation pratiquearbre de distancesutilisé commeclassification
Interprétation pratiqueLes mots dun même sous-arbre bien séparé du reste de larbreconstituent une classe de motsarbre de d...
Interprétation pratiqueLes mots dun même sous-arbre bien séparé du reste de larbreconstituent une classe de motsarbre de d...
Interprétation pratiqueLes mots dun même sous-arbre bien séparé du reste de larbreconstituent une classe de motsProblème :...
• Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisation des nuages arbo...
Processus de constructionSuppression des mots videsSélection des motsRecherche des cooccurrencesImport/exportCalcul des co...
Processus de constructionSuppression des mots videsSélection des motsRecherche des cooccurrencesProposé dans TreeCloudanti...
Calcul des scores de cooccurrenceCalcul de la matrice de distance entre motsfenêtreglissante Slargeur wPas deglissement sm...
Calcul des distances de cooccurrenceLes formules statistiques fournissent un score de similarité.Comment obtenir des dissi...
Construction de larbrePlusieurs méthodes pour construire un arbre à partir dunematrice de distances (classification hiérar...
Décoration de larbreTailles des mots :• calculées directement à partir des fréquences(avec un log!)• calculées à partir de...
Dessin de larbreAlgorithme “equal angle” :• montant pour calculer langle de chaque arête,en partant des feuilles• descenda...
Dessin de larbreAlgorithme “equal angle” :• montant pour calculer langle de chaque arête,en partant des feuilles• descenda...
ImplémentationsLogiciel libre TreeCloud (Python/Delphi) + SplitsTree (Java)www.treecloud.org www.splitstree.org
ImplémentationsLogiciel libre TreeCloud (Python/Delphi) + SplitsTree (Java)
Interface webwww.treecloud.orgInterface basée sur le logiciellibre NuageArboré de Jean-Charles Bontemps, en C,CGI/Python, ...
Interface webwww.treecloud.org
Temps dexécutionLimites sur la taille du corpus pour utiliser TreeCloud ?30 secondes pour la construction du nuage arboré ...
Interface webwww.treecloud.orgInterface basée sur le logiciellibre NuageArboré de Jean-Charles Bontemps, en C,CGI/Python, ...
• Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisation des nuages arbo...
Des couleurs pour guider la lecture• coloration selon les fréquences• coloration chronologique• coloration de la dispersio...
Des couleurs pour guider la lecture• coloration selon les fréquences• coloration chronologique• coloration de la dispersio...
rouge :début de larticlebleu :fin de larticleNuage arboré des motsapparaissant 5 fois ou plusdans larticle dAmstutz &Gambe...
Nuage arboré des motsapparaissant 5 fois ou plusdans larticle dAmstutz &Gambette, JADT 2010,distance Liddell, fenêtre de20...
rouge :cooccurrents de“cooccurrence”Nuage arboré des motsapparaissant 5 fois ou plusdans larticle dAmstutz &Gambette, JADT...
nomsadjectifsverbesnoms propresNuage arboré des motsapparaissant 5 fois ou plus danslarticle dAmstutz & Gambette,JADT 2010...
• Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisations des nuages arb...
Utilisations des nuages arborés• Résumé visuel des thématiques dun texte• Support de médiation et d’argumentation :• appui...
Support de médiation et d’argumentationPrésenter les compétences des docteursCorpus : CV soumis à une rencontre docteurs-e...
Support de médiation et d’argumentationPrésenter les compétences des docteursCorpus : CV soumis à une rencontre docteurs-e...
Support de médiation et d’argumentationTransmettre les résultats d’une consultationCorpus : réponses à des questions ouver...
Support de médiation et d’argumentationTransmettre les résultats d’une consultationCorpus : réponses à des questions ouver...
Support de médiation et d’argumentationTransmettre les résultats d’une consultationCorpus : réponses à des questions ouver...
Support de médiation et d’argumentationTransmettre les résultats d’une consultationCorpus : réponses à des questions ouver...
P. Grenier-Tisserand etléquipe projet de la DT 04Support de médiation et d’argumentationTransmettre les résultats d’une co...
Analyse littéraire : illustration sur CinnaNuages arborés globaux des 60 mots les plus fréquents dans Cinna de Corneille(d...
Spécificités demploi de« Rome », « liberté » et« empire » chez les différentspersonnages de Cinna dansLexico3.Analyse litt...
Analyse littéraire : illustration sur CinnaNuage arboré des 50 mots les plus fréquents des paroles dAuguste dans Cinna
Analyse littéraire : illustration sur CinnaNuage arboré des 50 mots les plus fréquents des paroles dAuguste dans Cinna
Analyse littéraire : illustration sur CinnaCarte des sections Lexico3 et contextes de « amis » dans les paroles dAuguste d...
Analyse littéraire : illustration sur OthonNuage arboré des 30 mots les plus fréquents de la pièce Othon, coloré à gauche ...
Analyse littéraire : illustration sur OthonNuage arboré des 30 mots les plus fréquents de la pièce Othon, coloré à gauche ...
Analyse littéraire : illustration sur OthonNuage arboré des 30 mots les plus fréquents de la pièce Othon, coloré à gauche ...
Analyse littéraire : comparaison de Cinna et OthonNuages arborés des mots spécifiques de Cinna et Othon, dimensionnés et c...
Analyse littéraire : comparaison de Cinna et OthonNuages arborés des mots spécifiques de Cinna et Othon, dimensionnés et c...
Analyse littéraire : comparaison de Cinna et OthonCinna OthonLieu du pouvoir et objet de laconfrontation entre les personn...
Comparer les articles d’agences et articles de journalistesCorpus : 595 articles d’agences contre 1496 articles de journal...
Comparer les articles d’agences et articles de journalistesCorpus : 595 articles d’agences contre 1496 articles de journal...
• Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisation des nuages arbo...
Évaluation de qualité1. Qualité de la méthode de construction de l’arbre :→ l’arbre correspond-il aux données ?2. Qualité ...
Correspondance de l’arbre avec les donnéesDistances dans larbre = approximation des distances entre motsMesure objective d...
Correspondance de l’arbre avec les donnéesDistances dans larbre = approximation des distances entre motsMesure objective d...
Correspondance de l’arbre avec les donnéesDistances dans larbre = approximation des distances entre motsMesure objective d...
Lisibilité des classes dans l’arbre• Rédaction, par les étudiantsde M1 de lUPEMLV, de 10textes respectant cettepartition d...
Lisibilité des classes dans l’arbre• Rédaction, par les étudiantsde M1 de lUPEMLV, de 10textes respectant cettepartition d...
• Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisation des nuages arbo...
Perspectives• intégration de la visualisation en nuages arborés avec longueurs debranches post-calculées :• avec des outil...
RéférencesDisponibles sur TreeCloud.org :Philippe Gambette, Jean Véronis (2009)Visualising a Text with a Tree Cloud,IFCS09...
Processus de constructionSuppression des mots videsSélection des motsRecherche des cooccurrencesProposé dans TreeCloudanti...
Implémentationswww.treecloud.org www.splitstree.org
Implémentationswww.treecloud.org www.splitstree.org
Implémentationswww.treecloud.org www.splitstree.org
Interprétation réellePrincipe de construction de l’arbre :Les distances dans larbre entre deux mots reflètent au mieuxle d...
Interprétation réellePrincipe de construction de l’arbre :Les distances dans larbre entre deux mots reflètent au mieuxle d...
Calcul des scores de cooccurrenceCalcul de la matrice de distance entre motsfenêtreglissante Slargeur wPas deglissement sm...
RéférencesDisponibles sur TreeCloud.org :Philippe Gambette, Jean Véronis (2009)Visualising a Text with a Tree Cloud,IFCS09...
Prochain SlideShare
Chargement dans…5
×

Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud

1 518 vues

Publié le

24 mai 2013 - Séminaire "Réflexion sur les visualisations en sciences humaines, quels apports pour la textométrie ?" - CEDITEC (Université Paris-Est Créteil)

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 518
Sur SlideShare
0
Issues des intégrations
0
Intégrations
785
Actions
Partages
0
Téléchargements
7
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud

  1. 1. Journée d’étude - Visualisations en SHS et textométrie24/05/2013 – Créteil (CEDITEC)Nuages arborés et analyse textuellePrésentation de l’outil TreeCloudPhilippe GambetteLIGMUniversité Paris-EstMarne-la-Vallée
  2. 2. • Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisation des nuages arborés• Évaluation de qualité• PerspectivesPlan
  3. 3. Démo de TreeCloud
  4. 4. Démo de TreeCloud
  5. 5. Démo de TreeCloud
  6. 6. • Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisation des nuages arborés• Évaluation de qualité• PerspectivesPlan
  7. 7. Nuage arboré, une information doubleconstruit avecSplitsTree : Huson & Bryant, Bioinformatics, 2006TreeCloud : Gambette & Véronis, IFCS09occurrencescooccurrencesDiscours inaugural de Barack Obamahiérarchiedes motshiérarchie desconcepts
  8. 8. Intérêts de la visualisation arborée• Quantité d’information :• nombre de sacs de motsimbriqués linéaire(≠ réseaux, AFC)• Qualité d’information :• prise en compted’une information globalepour le rapprochementde mots dans l’arbre(≠ réseaux)• Lisibilité :• dessin normalisé de l’arbre par méthode radiale (≠ réseaux)• placement des étiquettes sans chevauchement (≠ AFC)
  9. 9. Intérêts de la visualisation arborée• Quantité d’information :• nombre de sacs de motsimbriqués linéaire(≠ réseaux, AFC)• Qualité d’information :• prise en compted’une information globalepour le rapprochementde mots dans l’arbre(≠ réseaux)• Lisibilité :• dessin normalisé de l’arbre par méthode radiale (≠ réseaux)• placement des étiquettes sans chevauchement (≠ AFC)
  10. 10. Intérêts de la visualisation arborée• Quantité d’information :• nombre de sacs de motsimbriqués linéaire(≠ réseaux, AFC)• Qualité d’information :• prise en compted’une information globalepour le rapprochementde mots dans l’arbre(≠ réseaux)• Lisibilité :• dessin normalisé de l’arbre par méthode radiale (≠ réseaux)• placement des étiquettes sans chevauchement (≠ AFC)
  11. 11. Limites de la visualisation arborée• Quantité d’information :• nombre de mots linéaireen la largeur du dessin(≠ AFC, réseaux : quadratique)• Qualité d’information :• artefacts de laméthode : pas d’arbre“parfait”• rapprochements “artificiels”• instabilité (≠ AFC)• Lisibilité :• placement des étiquettes compliqué• problème des longueurs de branches• attention aux mauvaises interprétations
  12. 12. Limites de la visualisation arborée• Quantité d’information :• nombre de mots linéaireen la largeur du dessin(≠ AFC, réseaux : quadratique)• Qualité d’information :• artefacts de laméthode : pas d’arbre“parfait”• rapprochements “artificiels”• instabilité (≠ AFC)• Lisibilité :• placement des étiquettes compliqué• problème des longueurs de branches• attention aux mauvaises interprétationsdπd
  13. 13. Limites de la visualisation arborée• Quantité d’information :• nombre de mots linéaireen la largeur du dessin(≠ AFC, réseaux : quadratique)• Qualité d’information :• artefacts de laméthode : pas d’arbre“parfait”• rapprochements “artificiels”• instabilité (≠ AFC)• Lisibilité :• placement des étiquettes compliqué• problème des longueurs de branches• attention aux mauvaises interprétations
  14. 14. Limites de la visualisation arborée• Quantité d’information :• nombre de mots linéaireen la largeur du dessin(≠ AFC, réseaux : quadratique)• Qualité d’information :• artefacts de laméthode : pas d’arbre“parfait”• rapprochements “artificiels”• instabilité (≠ AFC)• Lisibilité :• placement des étiquettes compliqué• problème des longueurs de branches• attention aux mauvaises interprétations
  15. 15. Limites de la visualisation arborée“effet étoile”,centre illisibleGambette, Gala, & Nasr,Longueur de branches et arbres de mots,Corpus 11:129-146, 2012.• Quantité d’information :• nombre de mots linéaireen la largeur du dessin(≠ AFC, réseaux : quadratique)• Qualité d’information :• artefacts de laméthode : pas d’arbre“parfait”• rapprochements “artificiels”• instabilité (≠ AFC)• Lisibilité :• placement des étiquettes compliqué• problème des longueurs de branches• attention aux mauvaises interprétations
  16. 16. Interprétation réellePrincipe de construction de l’arbre :Les distances dans larbre entre deux mots reflètent au mieuxle degré de cooccurrence entre ces deux mots
  17. 17. Interprétation réelleLes distances dans larbre entre deux mots reflètent au mieuxle degré de cooccurrence entre ces deux motsProblème 1 :difficiles à lire
  18. 18. Interprétation réelleLes distances dans larbre entre deux mots reflètent au mieuxle degré de cooccurrence entre ces deux motsProblème 1 :difficiles à lireProblème 2 :peu fiables
  19. 19. Interprétation réelleLes distances dans larbre entre deux mots reflètent au mieuxle degré de cooccurrence entre ces deux motsProblème 1 :difficiles à lireProblème 2 :peu fiablesOptimisationglobale, pasde garantieslocales dequalité
  20. 20. Interprétation pratiquearbre de distancesutilisé commeclassification
  21. 21. Interprétation pratiqueLes mots dun même sous-arbre bien séparé du reste de larbreconstituent une classe de motsarbre de distancesutilisé commeclassification
  22. 22. Interprétation pratiqueLes mots dun même sous-arbre bien séparé du reste de larbreconstituent une classe de motsarbre de distancesutilisé commeclassification
  23. 23. Interprétation pratiqueLes mots dun même sous-arbre bien séparé du reste de larbreconstituent une classe de motsProblème : toujourspeu lisible (longueurdes arêtes externes)et peu fiablearbre de distancesutilisé commeclassification
  24. 24. • Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisation des nuages arborés• Évaluation de qualité• PerspectivesPlan
  25. 25. Processus de constructionSuppression des mots videsSélection des motsRecherche des cooccurrencesImport/exportCalcul des cooccurrencesConstruction de larbreTailles des motsCouleurs des motsDessin du nuage arboréTexteConcordance dun mot, lemmatisationou remplacements divers...
  26. 26. Processus de constructionSuppression des mots videsSélection des motsRecherche des cooccurrencesProposé dans TreeCloudantidico anglais, françaisn mots les plus fréquents, motsapparaissant plus de n fois, ouliste personnaliséeImport/exportMots significatifs12 formules de cooccurrenceCalcul des cooccurrencesConstruction de larbre Appel transparent à SplitsTreeMéthodes UPGMA, NJTailles des motsCouleurs des motsDessin du nuage arboréExport à divers formats Appel à SplitsTree ou DendroscopeFréquences ou valeurs personnaliséesFréquences, chronologie, dispersion,ciblées sur la cooccurrence dunmot, ou valeurs personnaliséesTexteConcordance dun mot, lemmatisationou remplacements divers...Matrice CSVMots significatifsListe de motset occurrencesFenêtre de cooccurrence paramétréepar taille et pas de glissement, oucaractère séparateur
  27. 27. Calcul des scores de cooccurrenceCalcul de la matrice de distance entre motsfenêtreglissante Slargeur wPas deglissement smatrices de cooccurrenceO11, O12, O21, O22matrice de dissimilaritésémantiquechi squared, mutual information,liddel, dice, jaccard, gmean,hyperlex, minimum sensitivity,odds ratio, zscore, log likelihood,poisson-stirling...Evert, Statistics of words cooccurrences, thèse, 2005Gambette, User manual for TreeCloud, 2009TextePour 2mots uet vLa dissimilarité sémantique entre deux mots u et v dépenddu nombre de fenêtres S où ils apparaissent ensemble.
  28. 28. Calcul des distances de cooccurrenceLes formules statistiques fournissent un score de similarité.Comment obtenir des dissimilarités, dans lintervalle [0,1] ?dissimilarité = 1 – similarité normalisée sur [0,1]Normalisation des scores de similarité sur [0,1] :• normalisation linéaire pour les matrices positives• normalisation affines pour les matrices contenant des valeursnégatives, afin dobtenir des distances dans lintervalle [a,1](a=0.1)
  29. 29. Construction de larbrePlusieurs méthodes pour construire un arbre à partir dunematrice de distances (classification hiérarchique) :• Neighbor-JoiningSaitou & Nei, 1987• Variantes dAddtreeBarthelemy & Luong, 1987• Heuristique des quadrupletsCilibrasi & Vitanyi, 2007
  30. 30. Décoration de larbreTailles des mots :• calculées directement à partir des fréquences(avec un log!)• calculées à partir des rangs des fréquences(distribution exponentielle)• score de spécificité par rapport à un corpus de référence(TF-IDF, écart réduit...)
  31. 31. Dessin de larbreAlgorithme “equal angle” :• montant pour calculer langle de chaque arête,en partant des feuilles• descendant pour placer chaque arêteen partant dun sommet internePlacement automatique des étiquettes :→ heuristique pour éviter les chevauchementsQuestion des longueurs darêtes ?
  32. 32. Dessin de larbreAlgorithme “equal angle” :• montant pour calculer langle de chaque arête,en partant des feuilles• descendant pour placer chaque arêteen partant dun sommet internePlacement automatique des étiquettes :→ heuristique pour éviter les chevauchementsQuestion des longueurs darêtes ?
  33. 33. ImplémentationsLogiciel libre TreeCloud (Python/Delphi) + SplitsTree (Java)www.treecloud.org www.splitstree.org
  34. 34. ImplémentationsLogiciel libre TreeCloud (Python/Delphi) + SplitsTree (Java)
  35. 35. Interface webwww.treecloud.orgInterface basée sur le logiciellibre NuageArboré de Jean-Charles Bontemps, en C,CGI/Python, et JavaScript.http://sourceforge.net/projects/nuagearbor/
  36. 36. Interface webwww.treecloud.org
  37. 37. Temps dexécutionLimites sur la taille du corpus pour utiliser TreeCloud ?30 secondes pour la construction du nuage arboré de lensembledes discours de campagne de Barack Obama (>300 000 mots)
  38. 38. Interface webwww.treecloud.orgInterface basée sur le logiciellibre NuageArboré de Jean-Charles Bontemps, en C,CGI/Python, et JavaScript.http://sourceforge.net/projects/nuagearbor/
  39. 39. • Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisation des nuages arborés• Évaluation de qualité• PerspectivesPlan
  40. 40. Des couleurs pour guider la lecture• coloration selon les fréquences• coloration chronologique• coloration de la dispersion• coloration ciblée sur un mot• coloration grammaticale
  41. 41. Des couleurs pour guider la lecture• coloration selon les fréquences• coloration chronologique• coloration de la dispersion• coloration ciblée sur un mot• coloration grammaticaleNuage arboré des motsapparaissant 5 fois ou plusdans larticle dAmstutz &Gambette, JADT 2010,distance Liddell, fenêtre de20 mots, coloration Yahoo
  42. 42. rouge :début de larticlebleu :fin de larticleNuage arboré des motsapparaissant 5 fois ou plusdans larticle dAmstutz &Gambette, JADT 2010,distance Liddell, fenêtre de20 mots, colorationchronologiqueDes couleurs pour guider la lecture• coloration selon les fréquences• coloration chronologique• coloration de la dispersion• coloration ciblée sur un mot• coloration grammaticale
  43. 43. Nuage arboré des motsapparaissant 5 fois ou plusdans larticle dAmstutz &Gambette, JADT 2010,distance Liddell, fenêtre de20 mots, colorationdispersonrouge :peu dispersébleu :disperséDes couleurs pour guider la lecture• coloration selon les fréquences• coloration chronologique• coloration de la dispersion• coloration ciblée sur un mot• coloration grammaticale
  44. 44. rouge :cooccurrents de“cooccurrence”Nuage arboré des motsapparaissant 5 fois ou plusdans larticle dAmstutz &Gambette, JADT 2010,distance Liddell, fenêtre de20 mots, coloration cibléesur le mot “cooccurrence”Des couleurs pour guider la lecture• coloration selon les fréquences• coloration chronologique• coloration de la dispersion• coloration ciblée sur un mot• coloration grammaticale
  45. 45. nomsadjectifsverbesnoms propresNuage arboré des motsapparaissant 5 fois ou plus danslarticle dAmstutz & Gambette,JADT 2010, distance Liddell,fenêtre de 20 mots, colorationpersonnalisée à partir dunétiquetage TreeTaggerDes couleurs pour guider la lecture• coloration selon les fréquences• coloration chronologique• coloration de la dispersion• coloration ciblée sur un mot• coloration grammaticale
  46. 46. • Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisations des nuages arborés• Évaluation de qualité• PerspectivesPlan
  47. 47. Utilisations des nuages arborés• Résumé visuel des thématiques dun texte• Support de médiation et d’argumentation :• appui visuel d’une analyse subjective• clarification de rapports ou discours, lors de la rédaction• En analyse textuelle (réponses aux questions ouvertes, romans,théâtre, corpus médiatique, etc.) :• susciter, formaliser et étayer des hypothèses de travail• comparer des textes selon leur représentation arborée• hiérarchiser lutilisation dautres outils textométriques• représenter les résultats de lanalyse
  48. 48. Support de médiation et d’argumentationPrésenter les compétences des docteursCorpus : CV soumis à une rencontre docteurs-entreprises
  49. 49. Support de médiation et d’argumentationPrésenter les compétences des docteursCorpus : CV soumis à une rencontre docteurs-entreprisesGestion deprojetTravail d’équipeCompétencestechniquesspécialiséesInformatiqueLangues
  50. 50. Support de médiation et d’argumentationTransmettre les résultats d’une consultationCorpus : réponses à des questions ouvertes à des professionnels de la santé sur leparcours de santé des personnes âgées dans les Alpes de Haute-ProvencePoints forts de l’accueil dans le départementDifficile à lire pour un non-expertSupport cohérent d’accompagnement du discours P. Grenier-Tisserand etléquipe projet de la DT 04
  51. 51. Support de médiation et d’argumentationTransmettre les résultats d’une consultationCorpus : réponses à des questions ouvertes à des professionnels de la santé sur leparcours de santé des personnes âgées dans les Alpes de Haute-ProvencePoints faibles de l’accueil dans le départementModaux qui guident la lectureSupport cohérent d’accompagnement du discours P. Grenier-Tisserand etléquipe projet de la DT 04
  52. 52. Support de médiation et d’argumentationTransmettre les résultats d’une consultationCorpus : réponses à des questions ouvertes à des professionnels de la santé sur leparcours de santé des personnes âgées dans les Alpes de Haute-ProvencePoints faibles de l’accueil dans le départementModaux qui guident la lectureSupport cohérent d’accompagnement du discours P. Grenier-Tisserand etléquipe projet de la DT 04
  53. 53. Support de médiation et d’argumentationTransmettre les résultats d’une consultationCorpus : réponses à des questions ouvertes à des professionnels de la santé sur leparcours de santé des personnes âgées dans les Alpes de Haute-ProvenceSuggestions d’améliorationsVerbes qui guident la lectureSupport cohérent d’accompagnement du discours P. Grenier-Tisserand etléquipe projet de la DT 04
  54. 54. P. Grenier-Tisserand etléquipe projet de la DT 04Support de médiation et d’argumentationTransmettre les résultats d’une consultationCorpus : réponses à des questions ouvertes à des professionnels de la santé sur leparcours de santé des personnes âgées dans les Alpes de Haute-ProvenceSuggestions d’améliorationsVerbes qui guident la lectureSupport cohérent d’accompagnement du discours
  55. 55. Analyse littéraire : illustration sur CinnaNuages arborés globaux des 60 mots les plus fréquents dans Cinna de Corneille(distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début,bleu à la fin)
  56. 56. Spécificités demploi de« Rome », « liberté » et« empire » chez les différentspersonnages de Cinna dansLexico3.Analyse littéraire : illustration sur Cinna
  57. 57. Analyse littéraire : illustration sur CinnaNuage arboré des 50 mots les plus fréquents des paroles dAuguste dans Cinna
  58. 58. Analyse littéraire : illustration sur CinnaNuage arboré des 50 mots les plus fréquents des paroles dAuguste dans Cinna
  59. 59. Analyse littéraire : illustration sur CinnaCarte des sections Lexico3 et contextes de « amis » dans les paroles dAuguste dans Cinna.1. Voilà, mes chers amis, ce qui me met en peine.2. Quoi ! mes plus chers amis ! quoi ! Cinna ! quoi ! Maxime !3. Reprenez le pouvoir que vous mavez commis, Si donnant des sujets il ôte les amis4. Soyons amis, Cinna, cest moi qui ten convie5. Il nous a trahis tous ; mais ce quil a commis Vous conserve innocents, et me rend mes amis.
  60. 60. Analyse littéraire : illustration sur OthonNuage arboré des 30 mots les plus fréquents de la pièce Othon, coloré à gauche parrapport aux cooccurrences avec « Othon », à droite par rapport à celles avec « Galba »
  61. 61. Analyse littéraire : illustration sur OthonNuage arboré des 30 mots les plus fréquents de la pièce Othon, coloré à gauche parrapport aux cooccurrences avec « Othon », à droite par rapport à celles avec « Galba »
  62. 62. Analyse littéraire : illustration sur OthonNuage arboré des 30 mots les plus fréquents de la pièce Othon, coloré à gauche parrapport aux cooccurrences avec « Othon », à droite par rapport à celles avec « Galba »
  63. 63. Analyse littéraire : comparaison de Cinna et OthonNuages arborés des mots spécifiques de Cinna et Othon, dimensionnés et colorés daprèsleur spécificité calculée dans Lexico3.Quels moyens au service de la cause politique ?
  64. 64. Analyse littéraire : comparaison de Cinna et OthonNuages arborés des mots spécifiques de Cinna et Othon, dimensionnés et colorés daprèsleur spécificité calculée dans Lexico3.Quels moyens au service de la cause politique ?
  65. 65. Analyse littéraire : comparaison de Cinna et OthonCinna OthonLieu du pouvoir et objet de laconfrontation entre les personnagesRome (« liberté ») Empire (« trône »)Souverain en place tyran EmpereurMembres du corps politique amis maîtres / seigneursMoyens au service de la cause politique gloire amour matrimonial (« amour », « hymen »,« choix »)Caractérisation de la pièce Pièce de FONDATION Pièce de SUCCESSION DYNASTIQUEmots spécifiques deCinna et Othon daprès Lexico3
  66. 66. Comparer les articles d’agences et articles de journalistesCorpus : 595 articles d’agences contre 1496 articles de journalistes de 2011 évoquantl’affaire du Mediator dans la presse française.Articles de journalistesIllustration sur le corpus Mediatorsantépubliqueen Franceaspects médicauxconséquencesjuridiques etlégislativesentrepriseServierrésumé de laffaireet de la procédurejuridique
  67. 67. Comparer les articles d’agences et articles de journalistesCorpus : 595 articles d’agences contre 1496 articles de journalistes de 2011 évoquantl’affaire du Mediator dans la presse française.Articles d’agencesIllustration sur le corpus Mediator
  68. 68. • Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisation des nuages arborés• Évaluation de qualité• PerspectivesPlan
  69. 69. Évaluation de qualité1. Qualité de la méthode de construction de l’arbre :→ l’arbre correspond-il aux données ?2. Qualité de l’arbre en vue de l’interprétation :→ Les classes lisibles dans l’arbre correspondent-elles auxdonnées ?3. Qualité du nuage arboré comme outil d’analyse :→ La visualisation facilite-t-elle la lecture et l’interprétation ?
  70. 70. Correspondance de l’arbre avec les donnéesDistances dans larbre = approximation des distances entre motsMesure objective de la qualité de larbre ?
  71. 71. Correspondance de l’arbre avec les donnéesDistances dans larbre = approximation des distances entre motsMesure objective de la qualité de larbre ?Variations du nuage de mots suite à laltération du texte?bootstrap pour évaluer :- stabilité du résultat- robustesse de la méthode
  72. 72. Correspondance de l’arbre avec les donnéesDistances dans larbre = approximation des distances entre motsMesure objective de la qualité de larbre ?Variations du nuage de mots suite à laltération du texte?bootstrap pour évaluer :- stabilité du résultat- robustesse de la méthodeMéthode directe ?arboricité pour mesurer à quel point la matrice de distancecorrespond à une distance darbreGuénoche & Garreta, 2001Guénoche & Darlu, 2009
  73. 73. Lisibilité des classes dans l’arbre• Rédaction, par les étudiantsde M1 de lUPEMLV, de 10textes respectant cettepartition des mots en 7classes• Calcul des classes selon lesdifférentes formules delongueurs darêtes, aprèsdécoupage des 6 arêtes lesplus longuesProtocole d’évaluation à partir d’un texte généré depuis le résultatattendu :
  74. 74. Lisibilité des classes dans l’arbre• Rédaction, par les étudiantsde M1 de lUPEMLV, de 10textes respectant cettepartition des mots en 7classes• Calcul des classes selon lesdifférentes formules delongueurs darêtes, aprèsdécoupage des 6 arêtes lesplus longuesscore Rand corrigé
  75. 75. • Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisation des nuages arborés• Évaluation de qualité• PerspectivesPlan
  76. 76. Perspectives• intégration de la visualisation en nuages arborés avec longueurs debranches post-calculées :• avec des outils de prétraitement linguistique :→ traitement des expressions composées (Unitex)→ détection des entités nommées→ étiquetage morphosyntaxique pour coloration (TreeTagger)→ sélection de groupes syntaxiques dans les concordances (Unitex)• dans les outils de textométrie existants• par des interfaces dimport/export adaptées• pour faciliter le retour au texte• amélioration des méthodes de construction de larbre• transformée de Farris pour le calcul des distances• algorithme de Luong pour le calcul de larbre
  77. 77. RéférencesDisponibles sur TreeCloud.org :Philippe Gambette, Jean Véronis (2009)Visualising a Text with a Tree Cloud,IFCS09, Studies in Classification, Data Analysis, and Knowledge Organization 40,p. 561-570http://www.slideshare.net/PhilippeGambette/visualising-a-text-with-a-tree-cloudDelphine Amstutz & Philippe Gambette (2010)Utilisation de la visualisation en nuage arboré pour lanalyse littéraire,JADT10 (Proceedings of the 10th International Conference on statistical analysis oftextual data), Statistical Analysis of Textual Data, p. 227-238http://www.slideshare.net/PhilippeGambette/utilisation-de-la-visualisation-en-nuage-arbor-pour-lanalyse-littrairePhilippe Gambette, Nuria Gala & Alexis Nasr (2012)Longueur de branches et arbres de mots,Corpus 11:129-146http://www.slideshare.net/PhilippeGambette/longueur-de-branches-et-arbres-de-motsWilliam Martinez & Philippe Gambette (2012)Laffaire du Médiator au prisme de la textométrie,Colloque Médias / Santé Publique
  78. 78. Processus de constructionSuppression des mots videsSélection des motsRecherche des cooccurrencesProposé dans TreeCloudantidico anglais, françaisn mots les plus fréquents, motsapparaissant plus de n fois, ouliste personnaliséeImport/exportMots significatifs12 formules de cooccurrenceCalcul des cooccurrencesConstruction de larbre Appel transparent à SplitsTreeMéthodes UPGMA, NJTailles des motsCouleurs des motsDessin du nuage arboréExport à divers formats Appel à SplitsTree ou DendroscopeFréquences ou valeurs personnaliséesFréquences, chronologie, dispersion,ciblées sur la cooccurrence dunmot, ou valeurs personnaliséesTexteConcordance dun mot, lemmatisationou remplacements divers...Matrice CSVMots significatifsListe de motset occurrencesFenêtre de cooccurrence paramétréepar taille et pas de glissement, oucaractère séparateur
  79. 79. Implémentationswww.treecloud.org www.splitstree.org
  80. 80. Implémentationswww.treecloud.org www.splitstree.org
  81. 81. Implémentationswww.treecloud.org www.splitstree.org
  82. 82. Interprétation réellePrincipe de construction de l’arbre :Les distances dans larbre entre deux mots reflètent au mieuxle degré de cooccurrence entre ces deux mots
  83. 83. Interprétation réellePrincipe de construction de l’arbre :Les distances dans larbre entre deux mots reflètent au mieuxle degré de cooccurrence entre ces deux mots
  84. 84. Calcul des scores de cooccurrenceCalcul de la matrice de distance entre motsfenêtreglissante Slargeur wPas deglissement smatrices de cooccurrenceO11, O12, O21, O22matrice de dissimilaritésémantiquechi squared, mutual information,liddel, dice, jaccard, gmean,hyperlex, minimum sensitivity,odds ratio, zscore, log likelihood,poisson-stirling...Evert, Statistics of words cooccurrences, thèse, 2005Gambette, User manual for TreeCloud, 2009TextePour 2mots uet vLa dissimilarité sémantique entre deux mots u et v dépenddu nombre de fenêtres S où ils apparaissent ensemble.
  85. 85. RéférencesDisponibles sur TreeCloud.org :Philippe Gambette, Jean Véronis (2009)Visualising a Text with a Tree Cloud,IFCS09, Studies in Classification, Data Analysis, and Knowledge Organization 40,p. 561-570http://www.slideshare.net/PhilippeGambette/visualising-a-text-with-a-tree-cloudDelphine Amstutz & Philippe Gambette (2010)Utilisation de la visualisation en nuage arboré pour lanalyse littéraire,JADT10 (Proceedings of the 10th International Conference on statistical analysis oftextual data), Statistical Analysis of Textual Data, p. 227-238http://www.slideshare.net/PhilippeGambette/utilisation-de-la-visualisation-en-nuage-arbor-pour-lanalyse-littrairePhilippe Gambette, Nuria Gala & Alexis Nasr (2012)Longueur de branches et arbres de mots,Corpus 11:129-146http://www.slideshare.net/PhilippeGambette/longueur-de-branches-et-arbres-de-motsWilliam Martinez & Philippe Gambette (2012)Laffaire du Médiator au prisme de la textométrie,Colloque Médias / Santé Publique

×