Transformer 4 millions d'articles de presse en un système d'information

1
1
Transformer 4 millions
d’articles en un système
d’information
FREDERIC
KAPLAN

DIGITAL
HUMANITIES
LABORATORY
!
!
En partenariat avec
Le Temps
La Bibliothèque nationale suisse

2
4 millions d’articles
200 ans d’information
!
Le Journal de Genève (1826 > 1998)
550 000 pages / 2 000 000 articles
La Gazette de Lausanne (1798 > )
450 000 pages / 1 700 000 articles
Le Nouveau Quotidien (1991 > 1998)
50 000 pages / 200 000 article

3
Que peut-on
apprendre d’un tel
corpus ?

9
Nous souhaitons
transformer ce corpus
de texte en un système
d’information.

10
Un projet qui
s’étale sur presque
dix ans.

11
2005 : Etude sur la
numérisation par la
Bibliothèque
nationale suisse

12
2006 : Projet pilote de
numérisation du « Journal de
Genève » accepté par la BN
en collaboration avec la
Bibliothèque de Genève et Le
Temps.

13
2008 : Mise en
ligne annoncée au
Salon du Livre de
Genève.

14
2008-2009 :
Numérisation de la
“Gazette de Lausanne”
et “Nouveau Quotidien”

15
Mise en ligne d’un
moteur de recherche
permet la recherche
“plein texte” dans
l’ensemble du corpus.

16
2009 : Numérisation de
l’Express et de l’ Impartial, en
collaboration avec la BN, la
bibliothèque cantonale de
Neuchâtel et la bibliothèque de
la ville de la Chaux de Fonds.

17
2009 : Puis, numérisation du
« Confédéré" (Martigny) et du
« Nouvelliste" et "Feuille
d’avis du Valais », en
collaboration avec la
"Médiathèque Valais ».

18
2011 : L’EPFL participe à la
redaction d’un projet de
recherche nationale sur les
“Humanités digitales”. Le corpus
des trois journaux numérisés est
identifiés comme un des plus
intéressant à exploiter.

19
2011 : Numérisation par la
BCU et Edipresse de la
« Feuille d’avis de Lausanne/
24heures » et « La Tribune de
Lausanne/Le Matin »

20
2012 : Avant même, la création
du laboratoire d’humanités
digitales, rencontre avec le
Temps pour la mise en place
d’un projet de recherche
collaboratif sur ce corpus.

21
2012 : Signature
d’un convention de
recherche entre
l’EPFL et le Temps.

22
2013 : Mise en place
d’un comité
scientifique regroupant
historiens et
journalistes.

23
Alain Clavien, Université de Fribourg
Marie-Christine Doffey, BN
Frédéric Koller, Le Temps
Joëlle Kuntz, Le Temps
Enrico Natale, infoclio.ch
François Vallotton, Université de Lausanne

24
2014 : Soutien
financier la
Bibliothèque
Nationale au Projet.

25
2014 : Lancement d’une
nouvelle indexation du
corpus en utilisant une
approche “Big data”.

26
2014 : Mise en ligne
d’un “n-gram viewer”
pour le corpus du
“Journal de Genève”.

27
2014 : Extension sur
les autres corpus
et analyses
comparatives

28
2015 : Indexation
sémantique du corpus. Mise
en ligne d’un “Facebook” du
passé à partir des données
extraites.

29
Avec ce corpus en
extension, la Suisse a
un outil stratégique
précieux, unique en
Europe.

31
Comment se
représenter un tel
corpus de
documents ?

32
Mis bout à bout :
Plusieurs
centaines de kms
de documents

35
L’archive complète
occupe 21 Terabytes.

39
1 tera
Toute les
conversation
d’une vie en
mp3
500 h
video
Texte d’un
million de
livres
Notre archive

40
1 peta
Archives du Net en 2012
Données produites
chaque année par le
LHC au CERN

41
Un journal est un
média structuré.
Sa structure évolue
au cours du temps

42
Comment évolue le
nombre d’article
par an sur 200
ans ?

43
Le
nombre
d’ar?cles
par
année
croit
linéairement
en
fonc?on

du
temps.

!"!!!!!!
!5'000!!!!
!10'000!!!!
!15'000!!!!
!20'000!!!!
!25'000!!!!
!30'000!!!!
!35'000!!!!
!40'000!!!!
!45'000!!!!
!50'000!!!!
1800! 1820! 1840! 1860! 1880! 1900! 1920! 1940! 1960! 1980! 2000! 2020!

44
Le
nombre
de
caractères
par
année
se
stabilise
à
la
ﬁn
du
XIXe

siècle
puis
recommence
à
croitre
dans
les
années
1960.
!"!!!!!!
!20000'000!!!!
!40000'000!!!!
!60000'000!!!!
!80000'000!!!!
!100000'000!!!!
!120000'000!!!!
1800! 1820! 1840! 1860! 1880! 1900! 1920! 1940! 1960! 1980! 2000! 2020!

45
La
taille
des
ar?cles
oscille.
0"
100"
200"
300"
400"
500"
600"
700"
1800" 1820" 1840" 1860" 1880" 1900" 1920" 1940" 1960" 1980" 2000" 2020"

46
Analyse des
distributions
temporelles de
séquences de mots
(n-grammes)

49
n-‐gramme
:

sequence
de
n
mots

consécu?fs.

50
Nous
sommes
en

train
d’indexer

l’ensemble
du
corpus

jusqu’à

n=9.

51
Nous
avons
en
par?culier

déjà
générer
un
milliard

de
courbes
correspondant

au
1-‐gramme
du
journal

de
Genève.

54
Fonda?on

du
club

en
1890

55
Un
corpus
comme
le
notre
est

diﬀérent
de
celui
Google
Books

dans
la
mesure
où
il
caractérise

un
média
spéciﬁque
avec
ses

caractéris?ques
par?culières.

56
En
étudiant
ce
corpus
nous

pouvons
non
seulement

étudier
l’évolu?on
culturelle

mais
aussi
l’évolu?on
du

média
lui-‐même.

57
En
comparant

systéma?quement
comment

deux
medias
rendent
compte

des
évènements
du
monde

nous
pourrons
tenter
de

caractériser
ﬁnement
leur
biais.

58
“Champ
attentionnel”
d’un média

61
diﬀérents
régimes

de
stabilisa?on

68
Equivalence
a`en?onnelle

72
Un
prototype
est
en

ligne

h`p://jdg.dhlab.ch/

73
Ex :
Trouver un mot qui
génère un pic.

76
pic
de
découverte
stabilisa?on

78
Ex :
Trouver un mot qui
génère un peigne.

80
Ex :
Trouver un mot qui
croit dans le temps.

87
Ex :
Trouver un mot qui
décroit dans le
temps.

91
Ex :
Trouver un mot qui
fait une colline

93
Ex :
Trouver un mot qui
fait deux collines

95
Ex :
Trouver deux courbes
qui se rejoignent en
une seule.

100
Ex :
Trouver un mot qui
remplace un autre.

102
Ex :
Quelle est la
courbe du mot
voiture ?

104
Ex :
Les Beatles sont-ils
plus célèbres que
le Christ ?

106
Ex :
Qui l’emporte le
bien ou le mal ?

108
Ex :
Qui l’emporte le
haut ou le bas ?

110
Ex :
Qui l’emporte le
chien ou le chat ?

112
Ex :
Qui l’emporte la
musique, la peinture
ou la littérature ?

114
Ex :
Qui l’emporte
Mozart, Debussy ou
Vivaldi ?

116
Ex :
Qui l’emporte le
rouge, le bleu ou le
jaune ?

118
Ex :
Qui l’emporte le 1,
le 10 ou le 100 ?

120
Ex :
Qui l’emporte le
100, le 1000 ou le
10000 ?

122
Ex :
Est-ce que cela
marche si les nombres
sont écrits en lettres ?

124
Ex :
Qui l’emporte entre
le million ou le
milliard ?

126
Richesse et
l’importance
stratégique de ce
corpus de presse.

127
Potentiel de l’analyse
comparative avec les
autres corpus
numérisés.

128
La prochaine étape
est l’indexation
sémantique

132
Une
nouvelle

manière
de
classiﬁer

et
de
naviguer
au

sein
des
ar?cles.

133
La
possibilité
de

construire
un

“Facebook”
du
passé.

134
Rendez-‐vous

dans
un
an.

135
125
dhlab.epfl.ch
!
frederic.kaplan@epfl.ch

@frederickaplan

Transformer 4 millions d'articles de presse en un système d'information

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Similaire à Transformer 4 millions d'articles de presse en un système d'information

Similaire à Transformer 4 millions d'articles de presse en un système d'information (20)

Plus de Frederic Kaplan

Plus de Frederic Kaplan (20)

Transformer 4 millions d'articles de presse en un système d'information