Fouille textuelle de revues
intellectuelles québécoises
Iana Atanassova
83e congrès de l’ACFAS
25 mai 2015, Rimouski, Cana...
Projet
« Champ politique et champ intellectuel : une
analyse logométrique et bibliométrique »
Numérisation et exploitation...
Objectifs
• analyse des revues et journaux
intellectuels, publiés dans la période de
l’entre-deux-guerres (1917-1939) au
Q...
Corpus de revues intellectuelles
• Presse écrite (1917 – 1939) :
– autour de 65 revues intellectuelles, disponibles en
gra...
Corpus numérisé
25 mai 2015, Rimouski Iana Atanassova 5
Méthodes
• Numérisation et conversion en formats
textuels avec gestion des métadonnées (XML,
SQL, …)
• Analyse textuelle (...
Chaînes de traitement
25 mai 2015, Rimouski Iana Atanassova 7
Conversion de PDF en XML
• XML schémas : DocBook, Erudit-XML
• Objectifs :
– Préserver les marques d’italique et gras.
– P...
Base de données relationnelle
25 mai 2015, Rimouski Iana Atanassova 9
Génération des métadonnées
• Titre de l’article :
– Position du paragraphe (paragraphe
précèdent/suivant)
– Moins de 20 mo...
25 mai 2015, Rimouski Iana Atanassova 11
Titre ?
Nom d’auteur ?
25 mai 2015, Rimouski Iana Atanassova 12
…
Indexation
• Développement d’interfaces interactives pour
exploiter les données textuelles
• Moteurs de recherche dédiés :...
Visualisations
25 mai 2015, Rimouski Iana Atanassova 14
Visualisations
25 mai 2015, Rimouski Iana Atanassova 15
Visualisations
25 mai 2015, Rimouski Iana Atanassova 16
Perspectives
25 mai 2015, Rimouski Iana Atanassova 17
• Implémentation d’outils avancés pour
l’exploitation des revues num...
MERCI !
25 mai 2015, Rimouski Iana Atanassova 18
Prochain SlideShare
Chargement dans…5
×

Fouille textuelle de revues intellectuelles québécoises

477 vues

Publié le

Présentation de Iana Atanassova dans le cadre du colloque "Une plateforme de recherche et d’expérimentation pour l’édition ouverte" organisée le 25 mai 2015.

Publié dans : Données & analyses
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
477
Sur SlideShare
0
Issues des intégrations
0
Intégrations
217
Actions
Partages
0
Téléchargements
2
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Fouille textuelle de revues intellectuelles québécoises

  1. 1. Fouille textuelle de revues intellectuelles québécoises Iana Atanassova 83e congrès de l’ACFAS 25 mai 2015, Rimouski, Canada
  2. 2. Projet « Champ politique et champ intellectuel : une analyse logométrique et bibliométrique » Numérisation et exploitation numérique de la presse écrite québécoise. Partenaires : 25 mai 2015, Rimouski Iana Atanassova 2
  3. 3. Objectifs • analyse des revues et journaux intellectuels, publiés dans la période de l’entre-deux-guerres (1917-1939) au Québec ; • identifier et comprendre les réseaux et les mouvements d’idées ; • analyse de la notion d’innovation à travers les évolutions dans les usages des concepts ; • développent d’outils de fouille textuelle pour des bibliothèques numériques. 25 mai 2015, Rimouski Iana Atanassova 3
  4. 4. Corpus de revues intellectuelles • Presse écrite (1917 – 1939) : – autour de 65 revues intellectuelles, disponibles en grande partie à la BANQ (papier et/ou microfilm) • 8 revues déjà numérisées, en format PDF/TIFF par la BANQ 25 mai 2015, Rimouski Iana Atanassova 4
  5. 5. Corpus numérisé 25 mai 2015, Rimouski Iana Atanassova 5
  6. 6. Méthodes • Numérisation et conversion en formats textuels avec gestion des métadonnées (XML, SQL, …) • Analyse textuelle (indexation, annotations, etc.) • Visualisations, extraction de données • Exploitation pour les bibliothèques numériques : recherche avancée, navigation textuelle 25 mai 2015, Rimouski Iana Atanassova 6
  7. 7. Chaînes de traitement 25 mai 2015, Rimouski Iana Atanassova 7
  8. 8. Conversion de PDF en XML • XML schémas : DocBook, Erudit-XML • Objectifs : – Préserver les marques d’italique et gras. – Pouvoir représenter les métadonnées de l’article. 25 mai 2015, Rimouski Iana Atanassova 8
  9. 9. Base de données relationnelle 25 mai 2015, Rimouski Iana Atanassova 9
  10. 10. Génération des métadonnées • Titre de l’article : – Position du paragraphe (paragraphe précèdent/suivant) – Moins de 20 mots, ne contient pas de phrases – Utilisation de majuscules • Nom (pseudonyme) de l’auteur : – Dernier paragraphe du texte – Comparaisons avec bases de noms/pseudonymes externes 25 mai 2015, Rimouski Iana Atanassova 10
  11. 11. 25 mai 2015, Rimouski Iana Atanassova 11 Titre ? Nom d’auteur ?
  12. 12. 25 mai 2015, Rimouski Iana Atanassova 12 …
  13. 13. Indexation • Développement d’interfaces interactives pour exploiter les données textuelles • Moteurs de recherche dédiés : recherche par mots clés, par auteur, titre, etc. • Outils : Solr Search Server (Lucene), interfaces web, javascript 25 mai 2015, Rimouski Iana Atanassova 13
  14. 14. Visualisations 25 mai 2015, Rimouski Iana Atanassova 14
  15. 15. Visualisations 25 mai 2015, Rimouski Iana Atanassova 15
  16. 16. Visualisations 25 mai 2015, Rimouski Iana Atanassova 16
  17. 17. Perspectives 25 mai 2015, Rimouski Iana Atanassova 17 • Implémentation d’outils avancés pour l’exploitation des revues numérisées : – Recherche avancée – Affichage des termes en contexte • Etude de l’évolution dans le temps des usages des concepts dans les corpus, afin de révéler les mouvements d’idées et l’apparition de nouveaux concepts : – Analyses linguistiques : prise en charge des contextes, n-grams, etc. – Distributions et analyse quantitative
  18. 18. MERCI ! 25 mai 2015, Rimouski Iana Atanassova 18

×