1. Autour de Google Livres
BCU – Dorigny / 11 mars 2010
Alain Jacquesson
Vers.1.00
2. Deux pistes de réflexions
1. Les index de Google Livres
2. Les liens autour de Google Livres
Google / Jacquesson / Mars 2010 2
3. Les index
Google a indexé tout le Web visible
– Tous les mots de toutes les pages de tout
le Web…
Un peu plus que le Web visible
– Prêt du fichier RERO, par exemple
C‘est sa qualité
C‘est sa force
Google / Jacquesson / Mars 2010 3
4. Mais…
Seuls ~15 % du savoir se trouvent sur
le Web,
donc ~85 % du savoir se trouvent
dans les livres
Philippe Colombet, responsable de Google Livres pour la France (Paris,
BnF, janvier 2010)
Google / Jacquesson / Mars 2010 4
5. De plus…
Google veut numériser tous les livres
Google's Goal:
Digitize Every Book Ever Printed
Daniel Clancy, Chef du projet Livres chez Google (Déc. 2009)
Google / Jacquesson / Mars 2010 5
6. Quelques chiffres…
RERO 5 millions (notices)
Google Livres 12 millions (livres)
BnF 14 millions (notices)
Bibliothèque
du Congrès 32 millions (notices)
WorldCat
d’OCLC 169 millions (notices)
Google / Jacquesson / Mars 2010 6
7. Chiffres exacts d’une bibliothèque
participant à Google Livres (Michigan)
Après la numérisation de 1 million de livres (janvier 2008)
25,8 kilomètres linéaires
680 tonnes
361 millions de pages
70’000 millions d’occurrences de mots
428 Langues
135’000 Sujets (LCSH)
Google / Jacquesson / Mars 2010 7
8. Extrapolations à court terme
(En février 2010 Google a numérisé 12 millions de livres)
Google / Jacquesson / Mars 2010 8
9. Ajouts aux index de Google
Hypothèse : 15 millions de livres numérisés
1’050’000 millions Mots non-significatifs
d’occurrences
(1 billion) 80 %
Mots significatifs 210’000 millions
20 % d’occurrences de mots
Google / Jacquesson / Mars 2010 9
10. Loi de Zipf
(Vers 1920)
(Loi du moindre effort)
La fréquence d’un mot est inversement proportionnelle à son rang
Google / Jacquesson / Mars 2010 10
11. Distribution statistique des recherches sur
Internet
50 % des recherches concernent les sites
30 % des recherches ordinaires (shopping,
voyages, informations médicales, etc.)
20 % des mots rares, obscurs, spécialisés,
exotiques, …
----------------- Loi de Pareto --------------------------
-
Google / Jacquesson / Mars 2010 11
12. Qui utilisent ces mots rares ?
Les chercheurs, les spécialistes
Vocabulaire scientifique, produits, etc.
Le Grand public
Machines disparues, lieux, etc.
Google / Jacquesson / Mars 2010 12
13. Distribution valable pour tous les
types d’internautes
« Ordinary People with Extraordinary
Tastes »
- pour le grand public
Vocabulaire scientifique hautement
spécialisé
- pour les chercheurs
Google / Jacquesson / Mars 2010 13
15. Quels avantages ?
Google grâce à son projet Livres peut
répondre à beaucoup plus de questions
que ses concurrents
1 % de réponses supplémentaires
= 5 % de satisfaction supplémentaire
« Donc je reste sur Google pour la Fat
Tail »
Google / Jacquesson / Mars 2010 15
16. Critiques
Fat tail = forte concurrence
Long tail = faible concurrence
L'avantage de Google est injuste car ses concurrents
ne peuvent pas avoir accès au même corpus ; son
avance devient insurmontable
Pratiqué à cette échelle, Michael Lesk se demande si
l'indexation relève encore du fair use
Google / Jacquesson / Mars 2010 16
17. Saint Jean d’Acre
Google Livres Saint Jean Acre 457 livres
Library of Congress Acre (Israel) 64 références1
Library of Congress Acre (Syria) from old catalog 3 références
BnF Acre (Israël) 23 références
Sudoc Acre (Israël) 14 références
Rero Acre (Israël) 12 références
Rero Saint Jean d'Acre 1 référence
1Y compris des descriptions iconographiques
Google / Jacquesson / Mars 2010 17
18. Mais…
Acre (Ville d’Israël / Syrie)
Acre (Province du Brésil)
Google ne fait pas de différence !
Google / Jacquesson / Mars 2010 18
19. Pierre ollaire / Stéatite
RERO partout pierre ollaire 42 références
RERO voc contrôlé pierre ollaire 28 références
RERO partout stéatite 9 références
RERO voc controlé stéatite 7 références
RERO.DOC pierre ollaire 1 réf. / 5 occurrences
RERO.DOC stéatite 1 réf. / 5 occurrences
SUDOC pierre ollaire 51 références
SUDOC stéatite 21 références
Google Livres pierre ollaire 902 livres
Google Livres stéatite 5’610 livres
Google pierre ollaire 22’000 références
Google stéatite 289’000 références
Google / Jacquesson / Mars 2010 19
20. Et en sciences humaines… (1)
RERO partout constructivisme 396 références
RERO voc contrôlé constructivisme 277 références (Note 1)
RERO.DOC constructivisme 1 référence
SUDOC partout constructivisme 611 références
SUDOC voc contrôlé constructivisme 2 références
BnF partout constructivisme 355 références
BnF voc contrôlé constructivisme 59 références
Google Livres constructivisme 431 livres
Google Livres constructivisme 1’527 occurrences
Google constructivisme 139’000 liens
Note 1 : Avantage RERO qui fait la distinction « constructivisme (philosophie) » et
« constructivisme (psychologie) »
Google / Jacquesson / Mars 2010 20
21. Et en sciences humaines… (2)
RERO partout Faillibilisme 396 références
RERO voc contrôlé Faillibilisme 277 références
RERO.DOC Faillibilisme 1 référence
SUDOC partout Faillibilisme 611 références
SUDOC voc contrôlé Faillibilisme 2 références
BnF partout Faillibilisme 355 références
BnF voc contrôlé Faillibilisme 59 références
Google Livres Faillibilisme 295 livres
Google Livres Faillibilisme 531 occurrences
Google Faillibilisme 2’050 liens
Avantage RERO
Google / Jacquesson / Mars 2010 21
22. Et en sciences humaines… (3)
RERO partout hypostase 19 références
RERO voc contrôlé hypostase 8 références
RERO.DOC hypostase 0 références
SUDOC partout hypostase 26 références
SUDOC voc contrôlé hypostase 2 références
BnF partout hypostase 23 références
BnF voc contrôlé hypostase 10 références
Google Livres hypostase 299 livres
Google Livres hypostase 3’210 occurrences
Google hypostase 127’000 liens (Note 1)
Avantage : Google
Note 1 : Wikipedia en premier, pas de publicité à placer !
Google / Jacquesson / Mars 2010 22
23. Pour être complet…
Google Livres constructivisme 431 livres
Google Livres constructivisme 80 livres affichage complet
Google Livres faillibilisme 295 livres
Google Livres faillibilisme 1 livre affichage complet
Google Livres hypostase 301 livres
Google Livres hypostase 365 livres affichage complet
Les derniers résultats sont incohérents : l’affichage complet doit être
égal ou inférieur au premier total (recherche répétée plusieurs fois)
Interrogations faites le 6 mars 2010
Google / Jacquesson / Mars 2010 23
24. Evolution de la base de données
Août 2009 Décembre 09 Mars 2010
Stendhal 5’547 4’490 5’220 Réponses
Marie Henri Beyle 331 322 345 Réponses
Beyle Marie Henri 332 333 351 Réponses
Henri Beyle 402 363 412 Réponses
Beyle Henri 401 365 412 Réponses
Henry(sic) Beyle 24 23 45 Réponses
Beyle Henry(sic) 24 23 45 Réponses
Google / Jacquesson / Mars 2010 24
25. Conclusion provisoire
Avec la numérisation, l’indexation des livres
est passée à un stade industriel
L’indexation est désormais « autre chose »
Les bibliothèques ne pourront pas échapper à
un vaste débat sur le futur de l’indexation
manuelle
Google / Jacquesson / Mars 2010 25
26. Les liens autour de Google Livres
Les ouvrages numérisés dans Google
Livres ne sont pas isolés
De nombreux liens y arrivent
De nombreux liens en sortent
Google / Jacquesson / Mars 2010 26
27. Les liens venant du catalogue local
Google Livres
VD
VD
RERO
Google / Jacquesson / Mars 2010 27
28. Informations redondantes
WorldCat/OCLC
169 millions de notices
1,4 milliard de localisations
Google Livres
?
12 millions de
Livres numérisés
RERO
5 millions de notices
Google / Jacquesson / Mars 2010 28
29. Liens internes à Google Livres
Google Livres
Ouvrage
consulté
Google / Jacquesson / Mars 2010 29
30. Liens sur des informations
propres à Google - 1
Google / Jacquesson / Mars 2010 30
31. Liens sur des informations
propres à Google - 2
Liens venant de
Google Scholar
Google / Jacquesson / Mars 2010 31
32. Liens extérieurs à Google Livres
(Internet Archive / 1.8 million de livres numérisés)
Google / Jacquesson / Mars 2010 32
34. Le futur des liens
Vers des dictionnaires biographiques
DHS
Dictionnaire historique
de la Suisse Numérisé à Oxford le
1/4/2008
Notices d’autorité
Google Livres
Catalogues
LoC, Rero, Sudoc, …
Google / Jacquesson / Mars 2010 34
35. Constitution de grands « blocs »
d’informations contrôlées
Monographies, périodiques, brochures…
Catalogues, bibliographies, listes…
– Bibliothèques, domaines spécialisés, enseignants…
Dictionnaires, répertoires, recueils, lexiques
– Biographiques, géographiques, historiques,
techniques, scientifiques, archéologiques, etc.
Données brutes
– Astrophysiques, biologiques, géolocalisées, mais
encore juridiques (lois, règlements, jurisprudence,
etc.), culturelles, etc.
Google / Jacquesson / Mars 2010 35
36. Mais encore des « blocs » non contrôlés
Wiki (?)
– Est-ce de l’information contrôlée ?
Blogs
– Grand public, spécialisés, etc.
Commerce
– eBay, Abebooks, etc.
– (Informations volatiles)
Google / Jacquesson / Mars 2010 36
38. Nature des informations
Gratuites
– Officielles, contrôlées, libres,
personnelles, …
Payantes
– Commerciales (Elsevier, Benezit…)
– Jstor, HighWire, …
Google / Jacquesson / Mars 2010 38
39. Dans tous les cas :
des informations stables
• Des adresses permanentes
• PURL – Permanent URL
• URN – Uniform Resource Name
• DOI – Digital Object Identifier
• Handle System (Ancres)
• Des résolveurs de liens
Google / Jacquesson / Mars 2010 39
40. Google et la gestion des liens
Un savoir faire exceptionnel sur lequel
est construit initialement le moteur de
recherche
Une avance énorme
Des essais dans tous les domaines
Google / Jacquesson / Mars 2010 40
41. L’interconnexion des savoirs
Une nouvelle étape dans le domaine
des bibliothèques numériques
Les bibliothèques devront travailler
avec de nouveaux acteurs
Google / Jacquesson / Mars 2010 41
44. Les futurs moteurs de recherche…
Disposeront d’un contenu hors norme
utiliseront abondamment les liens
à travers des interfaces graphiques
et interactives
Google / Jacquesson / Mars 2010 44
45. Exemple d’interface graphique
de type « Fisheye »
http://ontology.univ-
savoie.fr/tricot/recherche/cs/realisations/demo/SystemFigureDesConnaissancesHumaines/
EyeTree/index.php
(très peu de données)
Google / Jacquesson / Mars 2010 45
46. Références complémentaires
Anatomy of the Long Tail: Ordinary People with Extraordinary Tastes
Goel, S.; Broder, A.; Gabrilovich, E.; Pang, B.
WSDM (2010)
http://research.yahoo.com/pub/3011
Google's Goal: Digitize Every Book Ever Printed
Arlington, Virginia : Public Broadcasting Services (PBS) Newshour, Dec. 30, 2009 ; 8m35s
http://www.pbs.org/newshour/bb/entertainment/july-dec09/google_12-30.html
[En anglais (américain). Avec des interviews de Daniel Clancy (Chef de projet de Google Livres), Michael Keller
(Directeur des Bibliothèques de Stanford), Garry Reback (Avocat de l'Open Book Alliance), etc. PBS est
une télévision éducative indépendante].
Google / Jacquesson / Mars 2010 46
47. Coordonnées
Alain Jacquesson
9 Route de Bellebouche
1246 Corsier (GE) / Suisse
Tél 0(0 41) 22 751 20 63
Mail alain.jacquesson@gmail.com
Google / Jacquesson / Mars 2010 47