DH101 2013/2014 course1 - Presentation of the course / Collaborative writing ...
Transformer 4 millions d'articles de presse en un système d'information
1. 1
1
Transformer 4 millions
d’articles en un système
d’information
FREDERIC
KAPLAN
DIGITAL
HUMANITIES
LABORATORY
!
!
En partenariat avec
Le Temps
La Bibliothèque nationale suisse
2. 2
4 millions d’articles
200 ans d’information
!
Le Journal de Genève (1826 > 1998)
550 000 pages / 2 000 000 articles
La Gazette de Lausanne (1798 > )
450 000 pages / 1 700 000 articles
Le Nouveau Quotidien (1991 > 1998)
50 000 pages / 200 000 article
15. 15
Mise en ligne d’un
moteur de recherche
permet la recherche
“plein texte” dans
l’ensemble du corpus.
16. 16
2009 : Numérisation de
l’Express et de l’ Impartial, en
collaboration avec la BN, la
bibliothèque cantonale de
Neuchâtel et la bibliothèque de
la ville de la Chaux de Fonds.
17. 17
2009 : Puis, numérisation du
« Confédéré" (Martigny) et du
« Nouvelliste" et "Feuille
d’avis du Valais », en
collaboration avec la
"Médiathèque Valais ».
18. 18
2011 : L’EPFL participe à la
redaction d’un projet de
recherche nationale sur les
“Humanités digitales”. Le corpus
des trois journaux numérisés est
identifiés comme un des plus
intéressant à exploiter.
19. 19
2011 : Numérisation par la
BCU et Edipresse de la
« Feuille d’avis de Lausanne/
24heures » et « La Tribune de
Lausanne/Le Matin »
20. 20
2012 : Avant même, la création
du laboratoire d’humanités
digitales, rencontre avec le
Temps pour la mise en place
d’un projet de recherche
collaboratif sur ce corpus.
22. 22
2013 : Mise en place
d’un comité
scientifique regroupant
historiens et
journalistes.
23. 23
Alain Clavien, Université de Fribourg
Marie-Christine Doffey, BN
Frédéric Koller, Le Temps
Joëlle Kuntz, Le Temps
Enrico Natale, infoclio.ch
François Vallotton, Université de Lausanne
43. 43
Le
nombre
d’ar?cles
par
année
croit
linéairement
en
fonc?on
du
temps.
!"!!!!!!
!5'000!!!!
!10'000!!!!
!15'000!!!!
!20'000!!!!
!25'000!!!!
!30'000!!!!
!35'000!!!!
!40'000!!!!
!45'000!!!!
!50'000!!!!
1800! 1820! 1840! 1860! 1880! 1900! 1920! 1940! 1960! 1980! 2000! 2020!
44. 44
Le
nombre
de
caractères
par
année
se
stabilise
à
la
fin
du
XIXe
siècle
puis
recommence
à
croitre
dans
les
années
1960.
!"!!!!!!
!20000'000!!!!
!40000'000!!!!
!60000'000!!!!
!80000'000!!!!
!100000'000!!!!
!120000'000!!!!
1800! 1820! 1840! 1860! 1880! 1900! 1920! 1940! 1960! 1980! 2000! 2020!
55. 55
Un
corpus
comme
le
notre
est
différent
de
celui
Google
Books
dans
la
mesure
où
il
caractérise
un
média
spécifique
avec
ses
caractéris?ques
par?culières.
56. 56
En
étudiant
ce
corpus
nous
pouvons
non
seulement
étudier
l’évolu?on
culturelle
mais
aussi
l’évolu?on
du
média
lui-‐même.
57. 57
En
comparant
systéma?quement
comment
deux
medias
rendent
compte
des
évènements
du
monde
nous
pourrons
tenter
de
caractériser
finement
leur
biais.