Présentation de Iana Atanassova dans le cadre du colloque "Une plateforme de recherche et d’expérimentation pour l’édition ouverte" organisée le 25 mai 2015.
Fouille textuelle de revues intellectuelles québécoises
1. Fouille textuelle de revues
intellectuelles québécoises
Iana Atanassova
83e congrès de l’ACFAS
25 mai 2015, Rimouski, Canada
2. Projet
« Champ politique et champ intellectuel : une
analyse logométrique et bibliométrique »
Numérisation et exploitation numérique de la
presse écrite québécoise.
Partenaires :
25 mai 2015, Rimouski Iana Atanassova 2
3. Objectifs
• analyse des revues et journaux
intellectuels, publiés dans la période de
l’entre-deux-guerres (1917-1939) au
Québec ;
• identifier et comprendre les réseaux et
les mouvements d’idées ;
• analyse de la notion d’innovation à
travers les évolutions dans les usages
des concepts ;
• développent d’outils de fouille textuelle
pour des bibliothèques numériques.
25 mai 2015, Rimouski Iana Atanassova 3
4. Corpus de revues intellectuelles
• Presse écrite (1917 – 1939) :
– autour de 65 revues intellectuelles, disponibles en
grande partie à la BANQ (papier et/ou microfilm)
• 8 revues déjà numérisées, en format PDF/TIFF
par la BANQ
25 mai 2015, Rimouski Iana Atanassova 4
8. Conversion de PDF en XML
• XML schémas : DocBook, Erudit-XML
• Objectifs :
– Préserver les marques d’italique et gras.
– Pouvoir représenter les métadonnées de l’article.
25 mai 2015, Rimouski Iana Atanassova 8
9. Base de données relationnelle
25 mai 2015, Rimouski Iana Atanassova 9
10. Génération des métadonnées
• Titre de l’article :
– Position du paragraphe (paragraphe
précèdent/suivant)
– Moins de 20 mots, ne contient pas de phrases
– Utilisation de majuscules
• Nom (pseudonyme) de l’auteur :
– Dernier paragraphe du texte
– Comparaisons avec bases de noms/pseudonymes
externes
25 mai 2015, Rimouski Iana Atanassova 10
11. 25 mai 2015, Rimouski Iana Atanassova 11
Titre ?
Nom d’auteur ?
13. Indexation
• Développement d’interfaces interactives pour
exploiter les données textuelles
• Moteurs de recherche dédiés : recherche par
mots clés, par auteur, titre, etc.
• Outils : Solr Search Server (Lucene), interfaces
web, javascript
25 mai 2015, Rimouski Iana Atanassova 13
17. Perspectives
25 mai 2015, Rimouski Iana Atanassova 17
• Implémentation d’outils avancés pour
l’exploitation des revues numérisées :
– Recherche avancée
– Affichage des termes en contexte
• Etude de l’évolution dans le temps des usages des
concepts dans les corpus, afin de révéler les
mouvements d’idées et l’apparition de nouveaux
concepts :
– Analyses linguistiques : prise en charge des contextes,
n-grams, etc.
– Distributions et analyse quantitative