1
1
Transformer 4 millions
d’articles en un système
d’information
FREDERIC	
  KAPLAN	
  
DIGITAL	
  HUMANITIES	
  LABORATO...
2
4 millions d’articles
200 ans d’information
!
Le Journal de Genève (1826 > 1998)
550 000 pages / 2 000 000 articles
La G...
3
Que peut-on
apprendre d’un tel
corpus ?
9
Nous souhaitons
transformer ce corpus
de texte en un système
d’information.
10
Un projet qui
s’étale sur presque
dix ans.
11
2005 : Etude sur la
numérisation par la
Bibliothèque
nationale suisse
12
2006 : Projet pilote de
numérisation du « Journal de
Genève » accepté par la BN
en collaboration avec la
Bibliothèque d...
13
2008 : Mise en
ligne annoncée au
Salon du Livre de
Genève.
14
2008-2009 :
Numérisation de la
“Gazette de Lausanne”
et “Nouveau Quotidien”
15
Mise en ligne d’un
moteur de recherche
permet la recherche
“plein texte” dans
l’ensemble du corpus.
16
2009 : Numérisation de
l’Express et de l’ Impartial, en
collaboration avec la BN, la
bibliothèque cantonale de
Neuchâte...
17
2009 : Puis, numérisation du
« Confédéré" (Martigny) et du
« Nouvelliste" et "Feuille
d’avis du Valais », en
collaborat...
18
2011 : L’EPFL participe à la
redaction d’un projet de
recherche nationale sur les
“Humanités digitales”. Le corpus
des ...
19
2011 : Numérisation par la
BCU et Edipresse de la
« Feuille d’avis de Lausanne/
24heures » et « La Tribune de
Lausanne/...
20
2012 : Avant même, la création
du laboratoire d’humanités
digitales, rencontre avec le
Temps pour la mise en place
d’un...
21
2012 : Signature
d’un convention de
recherche entre
l’EPFL et le Temps.
22
2013 : Mise en place
d’un comité
scientifique regroupant
historiens et
journalistes.
23
Alain Clavien, Université de Fribourg
Marie-Christine Doffey, BN
Frédéric Koller, Le Temps
Joëlle Kuntz, Le Temps
Enric...
24
2014 : Soutien
financier la
Bibliothèque
Nationale au Projet.
25
2014 : Lancement d’une
nouvelle indexation du
corpus en utilisant une
approche “Big data”.
26
2014 : Mise en ligne
d’un “n-gram viewer”
pour le corpus du
“Journal de Genève”.
27
2014 : Extension sur
les autres corpus
et analyses
comparatives
28
2015 : Indexation
sémantique du corpus. Mise
en ligne d’un “Facebook” du
passé à partir des données
extraites.
29
Avec ce corpus en
extension, la Suisse a
un outil stratégique
précieux, unique en
Europe.
30
1 million de pages
31
Comment se
représenter un tel
corpus de
documents ?
32
Mis bout à bout :
Plusieurs
centaines de kms
de documents
33
1 milliard de mots
34
Un “mégatexte”
35
L’archive complète
occupe 21 Terabytes.
36
1 kilo
1 page de texte
37
1 mega
500 pages 1 photo
38
1 giga
1 heure de video
39
1 tera
Toute les
conversation
d’une vie en
mp3
500 h
video
Texte d’un
million de
livres
Notre archive
40
1 peta
Archives du Net en 2012
Données produites
chaque année par le
LHC au CERN
41
Un journal est un
média structuré.
Sa structure évolue
au cours du temps
42
Comment évolue le
nombre d’article
par an sur 200
ans ?
43
Le	
  nombre	
  d’ar?cles	
  par	
  année	
  croit	
  linéairement	
  en	
  fonc?on	
  
du	
  temps.	
  
!"!!!!!!
!5'00...
44
Le	
  nombre	
  de	
  caractères	
  par	
  année	
  se	
  stabilise	
  à	
  la	
  fin	
  du	
  XIXe	
  
siècle	
  puis	
...
45
La	
  taille	
  des	
  ar?cles	
  oscille.
0"
100"
200"
300"
400"
500"
600"
700"
1800" 1820" 1840" 1860" 1880" 1900" 19...
46
Analyse des
distributions
temporelles de
séquences de mots
(n-grammes)
47
48
49
n-­‐gramme	
  :	
  	
  
sequence	
  de	
  n	
  mots	
  
consécu?fs.
50
Nous	
  sommes	
  en	
  
train	
  d’indexer	
  
l’ensemble	
  du	
  corpus	
  
jusqu’à	
  	
  n=9.	
  
51
Nous	
  avons	
  en	
  par?culier	
  
déjà	
  générer	
  un	
  milliard	
  
de	
  courbes	
  correspondant	
  
au	
  1-...
52
53
54
Fonda?on	
  
du	
  club	
  
en	
  1890
55
Un	
  corpus	
  comme	
  le	
  notre	
  est	
  
différent	
  de	
  celui	
  Google	
  Books	
  
dans	
  la	
  mesure	
  ...
56
En	
  étudiant	
  ce	
  corpus	
  nous	
  
pouvons	
  non	
  seulement	
  
étudier	
  l’évolu?on	
  culturelle	
  
mais...
57
En	
  comparant	
  
systéma?quement	
  comment	
  
deux	
  medias	
  rendent	
  compte	
  
des	
  évènements	
  du	
  m...
58
“Champ
attentionnel”
d’un média
59
Attention
temporelle
60
61
différents	
  régimes	
  
de	
  stabilisa?on
62
63
64
65
Attention spatiale
66
67
Point	
  
de	
  bascule
68
Equivalence	
  a`en?onnelle
69
70
71
72
Un	
  prototype	
  est	
  en	
  
ligne	
  
h`p://jdg.dhlab.ch/	
  
73
Ex :
Trouver un mot qui
génère un pic.
74
pic	
  a`en?onnel
75
76
pic	
  de	
  découverte
stabilisa?on
77
pic	
  des	
  piccard
78
Ex :
Trouver un mot qui
génère un peigne.
79
80
Ex :
Trouver un mot qui
croit dans le temps.
81
82
83
84
85
86
87
Ex :
Trouver un mot qui
décroit dans le
temps.
88
89
90
91
Ex :
Trouver un mot qui
fait une colline
92
93
Ex :
Trouver un mot qui
fait deux collines
94
95
Ex :
Trouver deux courbes
qui se rejoignent en
une seule.
96
97
98
99
100
Ex :
Trouver un mot qui
remplace un autre.
101
102
Ex :
Quelle est la
courbe du mot
voiture ?
103
104
Ex :
Les Beatles sont-ils
plus célèbres que
le Christ ?
105
106
Ex :
Qui l’emporte le
bien ou le mal ?
107
108
Ex :
Qui l’emporte le
haut ou le bas ?
109
110
Ex :
Qui l’emporte le
chien ou le chat ?
111
112
Ex :
Qui l’emporte la
musique, la peinture
ou la littérature ?
113
114
Ex :
Qui l’emporte
Mozart, Debussy ou
Vivaldi ?
115
116
Ex :
Qui l’emporte le
rouge, le bleu ou le
jaune ?
117
118
Ex :
Qui l’emporte le 1,
le 10 ou le 100 ?
119
120
Ex :
Qui l’emporte le
100, le 1000 ou le
10000 ?
121
122
Ex :
Est-ce que cela
marche si les nombres
sont écrits en lettres ?
123
124
Ex :
Qui l’emporte entre
le million ou le
milliard ?
125
126
Richesse et
l’importance
stratégique de ce
corpus de presse.
127
Potentiel de l’analyse
comparative avec les
autres corpus
numérisés.
128
La prochaine étape
est l’indexation
sémantique
129
130
131
132
Une	
  nouvelle	
  
manière	
  de	
  classifier	
  
et	
  de	
  naviguer	
  au	
  
sein	
  des	
  ar?cles.
133
La	
  possibilité	
  de	
  
construire	
  un	
  
“Facebook”	
  du	
  passé.
134
Rendez-­‐vous	
  
dans	
  un	
  an.
135
125
dhlab.epfl.ch
!
frederic.kaplan@epfl.ch	
  
@frederickaplan
Transformer 4 millions d'articles de presse en un système d'information
Transformer 4 millions d'articles de presse en un système d'information
Transformer 4 millions d'articles de presse en un système d'information
Transformer 4 millions d'articles de presse en un système d'information
Transformer 4 millions d'articles de presse en un système d'information
Prochain SlideShare
Chargement dans…5
×

Transformer 4 millions d'articles de presse en un système d'information

3 602 vues

Publié le

Publié dans : Données & analyses

Transformer 4 millions d'articles de presse en un système d'information

  1. 1. 1 1 Transformer 4 millions d’articles en un système d’information FREDERIC  KAPLAN   DIGITAL  HUMANITIES  LABORATORY ! ! En partenariat avec Le Temps La Bibliothèque nationale suisse
  2. 2. 2 4 millions d’articles 200 ans d’information ! Le Journal de Genève (1826 > 1998) 550 000 pages / 2 000 000 articles La Gazette de Lausanne (1798 > ) 450 000 pages / 1 700 000 articles Le Nouveau Quotidien (1991 > 1998) 50 000 pages / 200 000 article
  3. 3. 3 Que peut-on apprendre d’un tel corpus ?
  4. 4. 9 Nous souhaitons transformer ce corpus de texte en un système d’information.
  5. 5. 10 Un projet qui s’étale sur presque dix ans.
  6. 6. 11 2005 : Etude sur la numérisation par la Bibliothèque nationale suisse
  7. 7. 12 2006 : Projet pilote de numérisation du « Journal de Genève » accepté par la BN en collaboration avec la Bibliothèque de Genève et Le Temps.
  8. 8. 13 2008 : Mise en ligne annoncée au Salon du Livre de Genève.
  9. 9. 14 2008-2009 : Numérisation de la “Gazette de Lausanne” et “Nouveau Quotidien”
  10. 10. 15 Mise en ligne d’un moteur de recherche permet la recherche “plein texte” dans l’ensemble du corpus.
  11. 11. 16 2009 : Numérisation de l’Express et de l’ Impartial, en collaboration avec la BN, la bibliothèque cantonale de Neuchâtel et la bibliothèque de la ville  de la Chaux de Fonds.
  12. 12. 17 2009 : Puis, numérisation du « Confédéré" (Martigny) et du « Nouvelliste" et "Feuille d’avis du Valais », en collaboration avec la "Médiathèque Valais ».
  13. 13. 18 2011 : L’EPFL participe à la redaction d’un projet de recherche nationale sur les “Humanités digitales”. Le corpus des trois journaux numérisés est identifiés comme un des plus intéressant à exploiter.
  14. 14. 19 2011 : Numérisation par la BCU et Edipresse de la « Feuille d’avis de Lausanne/ 24heures » et « La Tribune de Lausanne/Le Matin »
  15. 15. 20 2012 : Avant même, la création du laboratoire d’humanités digitales, rencontre avec le Temps pour la mise en place d’un projet de recherche collaboratif sur ce corpus.
  16. 16. 21 2012 : Signature d’un convention de recherche entre l’EPFL et le Temps.
  17. 17. 22 2013 : Mise en place d’un comité scientifique regroupant historiens et journalistes.
  18. 18. 23 Alain Clavien, Université de Fribourg Marie-Christine Doffey, BN Frédéric Koller, Le Temps Joëlle Kuntz, Le Temps Enrico Natale, infoclio.ch François Vallotton, Université de Lausanne
  19. 19. 24 2014 : Soutien financier la Bibliothèque Nationale au Projet.
  20. 20. 25 2014 : Lancement d’une nouvelle indexation du corpus en utilisant une approche “Big data”.
  21. 21. 26 2014 : Mise en ligne d’un “n-gram viewer” pour le corpus du “Journal de Genève”.
  22. 22. 27 2014 : Extension sur les autres corpus et analyses comparatives
  23. 23. 28 2015 : Indexation sémantique du corpus. Mise en ligne d’un “Facebook” du passé à partir des données extraites.
  24. 24. 29 Avec ce corpus en extension, la Suisse a un outil stratégique précieux, unique en Europe.
  25. 25. 30 1 million de pages
  26. 26. 31 Comment se représenter un tel corpus de documents ?
  27. 27. 32 Mis bout à bout : Plusieurs centaines de kms de documents
  28. 28. 33 1 milliard de mots
  29. 29. 34 Un “mégatexte”
  30. 30. 35 L’archive complète occupe 21 Terabytes.
  31. 31. 36 1 kilo 1 page de texte
  32. 32. 37 1 mega 500 pages 1 photo
  33. 33. 38 1 giga 1 heure de video
  34. 34. 39 1 tera Toute les conversation d’une vie en mp3 500 h video Texte d’un million de livres Notre archive
  35. 35. 40 1 peta Archives du Net en 2012 Données produites chaque année par le LHC au CERN
  36. 36. 41 Un journal est un média structuré. Sa structure évolue au cours du temps
  37. 37. 42 Comment évolue le nombre d’article par an sur 200 ans ?
  38. 38. 43 Le  nombre  d’ar?cles  par  année  croit  linéairement  en  fonc?on   du  temps.   !"!!!!!! !5'000!!!! !10'000!!!! !15'000!!!! !20'000!!!! !25'000!!!! !30'000!!!! !35'000!!!! !40'000!!!! !45'000!!!! !50'000!!!! 1800! 1820! 1840! 1860! 1880! 1900! 1920! 1940! 1960! 1980! 2000! 2020!
  39. 39. 44 Le  nombre  de  caractères  par  année  se  stabilise  à  la  fin  du  XIXe   siècle  puis  recommence  à  croitre  dans  les  années  1960. !"!!!!!! !20000'000!!!! !40000'000!!!! !60000'000!!!! !80000'000!!!! !100000'000!!!! !120000'000!!!! 1800! 1820! 1840! 1860! 1880! 1900! 1920! 1940! 1960! 1980! 2000! 2020!
  40. 40. 45 La  taille  des  ar?cles  oscille. 0" 100" 200" 300" 400" 500" 600" 700" 1800" 1820" 1840" 1860" 1880" 1900" 1920" 1940" 1960" 1980" 2000" 2020"
  41. 41. 46 Analyse des distributions temporelles de séquences de mots (n-grammes)
  42. 42. 47
  43. 43. 48
  44. 44. 49 n-­‐gramme  :     sequence  de  n  mots   consécu?fs.
  45. 45. 50 Nous  sommes  en   train  d’indexer   l’ensemble  du  corpus   jusqu’à    n=9.  
  46. 46. 51 Nous  avons  en  par?culier   déjà  générer  un  milliard   de  courbes  correspondant   au  1-­‐gramme  du  journal   de  Genève.  
  47. 47. 52
  48. 48. 53
  49. 49. 54 Fonda?on   du  club   en  1890
  50. 50. 55 Un  corpus  comme  le  notre  est   différent  de  celui  Google  Books   dans  la  mesure  où  il  caractérise   un  média  spécifique  avec  ses   caractéris?ques  par?culières.  
  51. 51. 56 En  étudiant  ce  corpus  nous   pouvons  non  seulement   étudier  l’évolu?on  culturelle   mais  aussi  l’évolu?on  du   média  lui-­‐même.  
  52. 52. 57 En  comparant   systéma?quement  comment   deux  medias  rendent  compte   des  évènements  du  monde   nous  pourrons  tenter  de   caractériser  finement  leur  biais.    
  53. 53. 58 “Champ attentionnel” d’un média
  54. 54. 59 Attention temporelle
  55. 55. 60
  56. 56. 61 différents  régimes   de  stabilisa?on
  57. 57. 62
  58. 58. 63
  59. 59. 64
  60. 60. 65 Attention spatiale
  61. 61. 66
  62. 62. 67 Point   de  bascule
  63. 63. 68 Equivalence  a`en?onnelle
  64. 64. 69
  65. 65. 70
  66. 66. 71
  67. 67. 72 Un  prototype  est  en   ligne   h`p://jdg.dhlab.ch/  
  68. 68. 73 Ex : Trouver un mot qui génère un pic.
  69. 69. 74 pic  a`en?onnel
  70. 70. 75
  71. 71. 76 pic  de  découverte stabilisa?on
  72. 72. 77 pic  des  piccard
  73. 73. 78 Ex : Trouver un mot qui génère un peigne.
  74. 74. 79
  75. 75. 80 Ex : Trouver un mot qui croit dans le temps.
  76. 76. 81
  77. 77. 82
  78. 78. 83
  79. 79. 84
  80. 80. 85
  81. 81. 86
  82. 82. 87 Ex : Trouver un mot qui décroit dans le temps.
  83. 83. 88
  84. 84. 89
  85. 85. 90
  86. 86. 91 Ex : Trouver un mot qui fait une colline
  87. 87. 92
  88. 88. 93 Ex : Trouver un mot qui fait deux collines
  89. 89. 94
  90. 90. 95 Ex : Trouver deux courbes qui se rejoignent en une seule.
  91. 91. 96
  92. 92. 97
  93. 93. 98
  94. 94. 99
  95. 95. 100 Ex : Trouver un mot qui remplace un autre.
  96. 96. 101
  97. 97. 102 Ex : Quelle est la courbe du mot voiture ?
  98. 98. 103
  99. 99. 104 Ex : Les Beatles sont-ils plus célèbres que le Christ ?
  100. 100. 105
  101. 101. 106 Ex : Qui l’emporte le bien ou le mal ?
  102. 102. 107
  103. 103. 108 Ex : Qui l’emporte le haut ou le bas ?
  104. 104. 109
  105. 105. 110 Ex : Qui l’emporte le chien ou le chat ?
  106. 106. 111
  107. 107. 112 Ex : Qui l’emporte la musique, la peinture ou la littérature ?
  108. 108. 113
  109. 109. 114 Ex : Qui l’emporte Mozart, Debussy ou Vivaldi ?
  110. 110. 115
  111. 111. 116 Ex : Qui l’emporte le rouge, le bleu ou le jaune ?
  112. 112. 117
  113. 113. 118 Ex : Qui l’emporte le 1, le 10 ou le 100 ?
  114. 114. 119
  115. 115. 120 Ex : Qui l’emporte le 100, le 1000 ou le 10000 ?
  116. 116. 121
  117. 117. 122 Ex : Est-ce que cela marche si les nombres sont écrits en lettres ?
  118. 118. 123
  119. 119. 124 Ex : Qui l’emporte entre le million ou le milliard ?
  120. 120. 125
  121. 121. 126 Richesse et l’importance stratégique de ce corpus de presse.
  122. 122. 127 Potentiel de l’analyse comparative avec les autres corpus numérisés.
  123. 123. 128 La prochaine étape est l’indexation sémantique
  124. 124. 129
  125. 125. 130
  126. 126. 131
  127. 127. 132 Une  nouvelle   manière  de  classifier   et  de  naviguer  au   sein  des  ar?cles.
  128. 128. 133 La  possibilité  de   construire  un   “Facebook”  du  passé.
  129. 129. 134 Rendez-­‐vous   dans  un  an.
  130. 130. 135 125 dhlab.epfl.ch ! frederic.kaplan@epfl.ch   @frederickaplan

×