ACFAS	
  2015	
  -­‐	
  Une	
  plateforme	
  de	
  recherche	
  et	
  d’expérimenta=on	
  pour	
  l’édi=on	
  ouverte	
   ...
ACFAS	
  2015	
  -­‐	
  Une	
  plateforme	
  de	
  recherche	
  et	
  d’expérimenta=on	
  pour	
  l’édi=on	
  ouverte	
   ...
ACFAS	
  2015	
  -­‐	
  Une	
  plateforme	
  de	
  recherche	
  et	
  d’expérimenta=on	
  pour	
  l’édi=on	
  ouverte	
   ...
ACFAS	
  2015	
  -­‐	
  Une	
  plateforme	
  de	
  recherche	
  et	
  d’expérimenta=on	
  pour	
  l’édi=on	
  ouverte	
   ...
ACFAS	
  2015	
  -­‐	
  Une	
  plateforme	
  de	
  recherche	
  et	
  d’expérimenta=on	
  pour	
  l’édi=on	
  ouverte	
   ...
ACFAS	
  2015	
  -­‐	
  Une	
  plateforme	
  de	
  recherche	
  et	
  d’expérimenta=on	
  pour	
  l’édi=on	
  ouverte	
   ...
ACFAS	
  2015	
  -­‐	
  Une	
  plateforme	
  de	
  recherche	
  et	
  d’expérimenta=on	
  pour	
  l’édi=on	
  ouverte	
   ...
Prochain SlideShare
Chargement dans…5
×

Fouille de textes et cartographie thématique des corpus numériques

2 427 vues

Publié le

Présentation de Dominic Forest et Marcela Baiocchi, dans le cadre du colloque "Une plateforme de recherche et d’expérimentation pour l’édition ouverte", organisé le 25 mai 2015 au congrès de l'ACFAS.

Publié dans : Données & analyses
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
2 427
Sur SlideShare
0
Issues des intégrations
0
Intégrations
584
Actions
Partages
0
Téléchargements
3
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Fouille de textes et cartographie thématique des corpus numériques

  1. 1. ACFAS  2015  -­‐  Une  plateforme  de  recherche  et  d’expérimenta=on  pour  l’édi=on  ouverte   25  mai  2015   ©  Dominic  Forest,  École  de  bibliothéconomie  et  des  sciences  de  l'informa=on,  Université  de  Montréal   1   Fouille de textes et cartographie thématique des corpus numériques Dominic Forest, Ph.D. et Marcela Baiocchi École de bibliothéconomie et des sciences de l’information Université de Montréal dominic.forest@umontreal.ca www.dominicforest.me | www.ebsi.umontreal.ca www.twitter.com/dforest ACFAS 2015 - Une plateforme de recherche et d’expérimentation pour l’édition ouverte 25 mai 2015 Contexte •  Augmentation constante de la quantité d’informations disponibles en format numérique –  Documents et métadonnées •  Isidore : 3 482 385 ressources •  HathiTrust : 13 374 801 volumes (4 681 180 350 pages) •  Erudit : +/- 300 000 ressources –  Données contextuelles (réseaux sociaux, plates-formes de publ. alternatives) –  Données de recherche •  Il y a dans le millieu académique – et plus spécifiquement dans les SHS – plus de données que nul part ailleurs
  2. 2. ACFAS  2015  -­‐  Une  plateforme  de  recherche  et  d’expérimenta=on  pour  l’édi=on  ouverte   25  mai  2015   ©  Dominic  Forest,  École  de  bibliothéconomie  et  des  sciences  de  l'informa=on,  Université  de  Montréal   2   Contexte •  Des big data au thick data –  « Big data is really just a big collection of what people in the humanities would call thin data. Thin data is the sort of data you get when you look at the traces of our actions and behaviors. We travel this much every day; we search for that on the Internet; we sleep this many hours; we have so many connections; we listen to this type of music, and so forth. It’s the data gathered by the cookies in your browser, the FitBit on your wrist, or the GPS in your phone. These properties of human behavior are undoubtedly important, but they are not the whole story. To really understand people, we must also understand the aspects of our experience — what anthropologists refer to as thick data. Thick data captures not just facts but the context of facts. » Krenchel, M. et Madsbjerg, C. « Your big data is worthless if you don’t bring it into the real world ». Wired, 11 avril 2014. Contexte •  Les chercheurs en humanités numériques tentent de tirer profit des informations disponibles en format numérique. •  La quantité d’informations disponibles en format numérique soulève cependant d’importants enjeux auxquels aucune solution définitive n’a été proposée. •  Question de recherche : comment tirer profit de la masse d’information textuelle disponible pour en assister la description, l’organisation, la recherche et l’analyse?
  3. 3. ACFAS  2015  -­‐  Une  plateforme  de  recherche  et  d’expérimenta=on  pour  l’édi=on  ouverte   25  mai  2015   ©  Dominic  Forest,  École  de  bibliothéconomie  et  des  sciences  de  l'informa=on,  Université  de  Montréal   3   Objectif •  Développer des stratégies de fouille de textes (big data, text analytics) et de visualisation pour assister des tâches d'extraction et d’organisation d’informations à partir de gros corpus documentaires en sciences humaines •  Développement méthodologique plutôt que logiciel –  Évaluation de plateformes génériques existantes •  Tâches : –  Analyse conceptuelle –  Analyse thématique –  Attribution d’auteur –  Datation –  Fouille d’opinions Démarche méthodologique •  Démarche méthodologique fondée sur des processus de fouille de textes –  « La fouille de textes est la découverte (à l’aide d’outils informatiques) de nouvelles informations en extrayant différentes données provenant de plusieurs documents textuels. Un élément fondamental de ce processus réside dans les relations identifiées entre les informations extraites afin d’identifier de nouveaux faits [de nouvelles connaissances] ou de nouvelles hypothèses à explorer. » (Hearst, 2003, notre traduction) •  Algorithmes d'apprentissage-machine –  Algorithmes supervisés (prédiction) vs non supervisés (description) •  Méthodologie algorithmique et systématique (formelle et répétable) •  Approche centrée sur l’utilisateur –  Interfaces riches, flexibles et intuitives
  4. 4. ACFAS  2015  -­‐  Une  plateforme  de  recherche  et  d’expérimenta=on  pour  l’édi=on  ouverte   25  mai  2015   ©  Dominic  Forest,  École  de  bibliothéconomie  et  des  sciences  de  l'informa=on,  Université  de  Montréal   4   Forest (2009), inspirée de Fayyad et al. (1996) Démarche méthodologique Méthodologie de la fouille de textes Forest (2014), inspirée de Fayyad et al. (1996) Démarche méthodologique Méthodologie de la fouille de textes
  5. 5. ACFAS  2015  -­‐  Une  plateforme  de  recherche  et  d’expérimenta=on  pour  l’édi=on  ouverte   25  mai  2015   ©  Dominic  Forest,  École  de  bibliothéconomie  et  des  sciences  de  l'informa=on,  Université  de  Montréal   5   Visualisation •  Objectifs : –  Représenter de manière synthétique les informations identifiées par les processus de fouille de textes –  Assister l’analyse des données –  Permettre de parcourir le contenu thématique du corpus •  Principe : Visual information-seeking mantra (Shneiderman 1996) –  « Overview first, zoom and filter, then details-on-demand. » •  Point de départ : mots-clés thématiques (erudit.org) Résultats Cinémas, revue d’études cinématographiques
  6. 6. ACFAS  2015  -­‐  Une  plateforme  de  recherche  et  d’expérimenta=on  pour  l’édi=on  ouverte   25  mai  2015   ©  Dominic  Forest,  École  de  bibliothéconomie  et  des  sciences  de  l'informa=on,  Université  de  Montréal   6   Évaluation des résultats •  Classification –  Évaluation difficile sans données de référence •  Comparaison d’algorithmes –  Stabilité –  Sensibilité à l’ordre de présentation des données –  Évaluation en fonction de l’application •  Évaluation qualitative –  Consultation subjective –  Pureté ou consistance des regroupements –  Comparaison avec résultats manuels Évaluation des résultats •  Mesure Silhouettes (Rousseeuw 1987) –  a(i) représente la distance moyenne entre une chanson et les autres chansons du même regroupement et b(i) représente la distance moyenne qui la sépare des chansons appartenant au regroupement le plus proche –  Cette mesure permet de calculer la cohésion ainsi que la dispersion des regroupements, mais elle ne tient pas compte des chevauchements possibles
  7. 7. ACFAS  2015  -­‐  Une  plateforme  de  recherche  et  d’expérimenta=on  pour  l’édi=on  ouverte   25  mai  2015   ©  Dominic  Forest,  École  de  bibliothéconomie  et  des  sciences  de  l'informa=on,  Université  de  Montréal   7   Évaluation des résultats •  Mesure de Davies-Bouldin(Davies et Bouldin 1979) –  I(ci ) est la moyenne des distances entre les documents appartenant regroupement ci et le centre du regroupement. I(ci,cj) représente la distance entre les centres des regroupement ci et cj. –  Selon cette mesure, la partition optimale est celle qui minimise la valeur calculée pour chaque regroupement Conclusion •  Développement d’une méthodologie et d’un prototype reposant sur des processus de fouille de textes et de visualisation de l’information afin d’assister l'extraction de données et de structures d’informations pouvant être utilisées pour assister la description, l’organisation et l’analyse les documents •  Approche fondée sur les thèmes des documents •  Quelques défis : •  Description difficile en raison de la richesse de la langue •  Corpus multilingue •  Visualisation difficile des gros réseaux de données liées •  La quantité de données disponible pose cependant des enjeux – techniques, mais aussi épistémologiques - importants

×