Autour de Google Livres
  BCU – Dorigny / 11 mars 2010


       Alain Jacquesson

                            Vers.1.00
Deux pistes de réflexions



1. Les index de Google Livres


2. Les liens autour de Google Livres




                Goog...
Les index
Google a indexé tout le Web visible
  – Tous les mots de toutes les pages de tout
    le Web…
Un peu plus que ...
Mais…

 Seuls ~15 % du savoir se trouvent sur
 le Web,
 donc ~85 % du savoir se trouvent
 dans les livres
   Philippe C...
De plus…
 Google veut numériser tous les livres


 Google's Goal:
           Digitize Every Book Ever Printed

   Danie...
Quelques chiffres…
 RERO                        5 millions           (notices)
 Google Livres               12 millions ...
Chiffres exacts d’une bibliothèque
participant à Google Livres (Michigan)
  Après la numérisation de 1 million de livres (...
Extrapolations à court terme
 (En février 2010 Google a numérisé 12 millions de livres)




                   Google / Ja...
Ajouts aux index de Google
Hypothèse : 15 millions de livres numérisés




1’050’000 millions     Mots non-significatifs
d...
Loi de Zipf
                              (Vers 1920)
                     (Loi du moindre effort)




La fréquence d’un m...
Distribution statistique des recherches sur
                    Internet

50 % des recherches concernent les sites
30 % de...
Qui utilisent ces mots rares ?

Les chercheurs, les spécialistes
  Vocabulaire scientifique, produits, etc.

Le Grand publ...
Distribution valable pour tous les
          types d’internautes

 « Ordinary People with Extraordinary
 Tastes »
   - p...
Distribution dite de la
  « Longue traîne »




      Google / Jacquesson / Mars 2010   14
Quels avantages ?
 Google grâce à son projet Livres peut
  répondre à beaucoup plus de questions
  que ses concurrents
 ...
Critiques
 Fat tail          = forte concurrence
 Long tail         = faible concurrence

 L'avantage de Google est inj...
Saint Jean d’Acre
 Google Livres                         Saint Jean Acre                 457   livres



 Library of Con...
Mais…
 Acre (Ville d’Israël / Syrie)


 Acre (Province du Brésil)


 Google ne fait pas de différence !



            ...
Pierre ollaire / Stéatite
   RERO partout         pierre ollaire          42       références
   RERO voc contrôlé    pi...
Et en sciences humaines… (1)

   RERO partout                constructivisme       396        références
   RERO voc con...
Et en sciences humaines… (2)

   RERO partout          Faillibilisme           396      références
   RERO voc contrôlé ...
Et en sciences humaines… (3)

   RERO partout                            hypostase              19        références
   ...
Pour être complet…
 Google Livres                      constructivisme 431 livres
 Google Livres                      co...
Evolution de la base de données
                    Août 2009 Décembre 09                   Mars 2010
Stendhal            ...
Conclusion provisoire
 Avec la numérisation, l’indexation des livres
  est passée à un stade industriel

 L’indexation e...
Les liens autour de Google Livres

 Les ouvrages numérisés dans Google
 Livres ne sont pas isolés

 De nombreux liens y ...
Les liens venant du catalogue local


        Google Livres

   VD



            VD




                                 ...
Informations redondantes

                                         WorldCat/OCLC
                                     169 ...
Liens internes à Google Livres

                                           Google Livres




                             ...
Liens sur des informations
   propres à Google - 1




       Google / Jacquesson / Mars 2010   30
Liens sur des informations
   propres à Google - 2

                                         Liens venant de
             ...
Liens extérieurs à Google Livres
  (Internet Archive / 1.8 million de livres numérisés)




                 Google / Jacq...
Liens commerciaux
Le futur des liens
        Vers des dictionnaires biographiques

                                  DHS
                   ...
Constitution de grands « blocs »
      d’informations contrôlées
 Monographies, périodiques, brochures…
 Catalogues, bib...
Mais encore des « blocs » non contrôlés

Wiki (?)
 – Est-ce de l’information contrôlée ?
Blogs
 – Grand public, spéciali...
Google / Jacquesson / Mars 2010   37
Nature des informations
Gratuites
 – Officielles, contrôlées, libres,
   personnelles, …
Payantes
 – Commerciales (Elsev...
Dans tous les cas :
      des informations stables

• Des adresses permanentes
• PURL – Permanent URL
• URN – Uniform Reso...
Google et la gestion des liens

 Un savoir faire exceptionnel sur lequel
 est construit initialement le moteur de
 recher...
L’interconnexion des savoirs

 Une nouvelle étape dans le domaine
    des bibliothèques numériques

 Les bibliothèques ...
Google / Jacquesson / Mars 2010   42
Google / Jacquesson / Mars 2010   43
Les futurs moteurs de recherche…

 Disposeront d’un contenu hors norme


 utiliseront abondamment les liens


 à traver...
Exemple d’interface graphique
         de type « Fisheye »
http://ontology.univ-
     savoie.fr/tricot/recherche/cs/realis...
Références complémentaires
Anatomy of the Long Tail: Ordinary People with Extraordinary Tastes
Goel, S.; Broder, A.; Gabri...
Coordonnées
Alain Jacquesson
9 Route de Bellebouche
1246 Corsier (GE) / Suisse

Tél     0(0 41) 22 751 20 63
Mail    alain...
Prochain SlideShare
Chargement dans…5
×

2010 BCU Google

941 vues

Publié le

1 commentaire
4 j’aime
Statistiques
Remarques
Aucun téléchargement
Vues
Nombre de vues
941
Sur SlideShare
0
Issues des intégrations
0
Intégrations
6
Actions
Partages
0
Téléchargements
9
Commentaires
1
J’aime
4
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

2010 BCU Google

  1. 1. Autour de Google Livres BCU – Dorigny / 11 mars 2010 Alain Jacquesson Vers.1.00
  2. 2. Deux pistes de réflexions 1. Les index de Google Livres 2. Les liens autour de Google Livres Google / Jacquesson / Mars 2010 2
  3. 3. Les index Google a indexé tout le Web visible – Tous les mots de toutes les pages de tout le Web… Un peu plus que le Web visible – Prêt du fichier RERO, par exemple C‘est sa qualité C‘est sa force Google / Jacquesson / Mars 2010 3
  4. 4. Mais…  Seuls ~15 % du savoir se trouvent sur le Web,  donc ~85 % du savoir se trouvent dans les livres  Philippe Colombet, responsable de Google Livres pour la France (Paris, BnF, janvier 2010) Google / Jacquesson / Mars 2010 4
  5. 5. De plus…  Google veut numériser tous les livres  Google's Goal: Digitize Every Book Ever Printed  Daniel Clancy, Chef du projet Livres chez Google (Déc. 2009) Google / Jacquesson / Mars 2010 5
  6. 6. Quelques chiffres…  RERO 5 millions (notices)  Google Livres 12 millions (livres)  BnF 14 millions (notices)  Bibliothèque du Congrès 32 millions (notices)  WorldCat d’OCLC 169 millions (notices) Google / Jacquesson / Mars 2010 6
  7. 7. Chiffres exacts d’une bibliothèque participant à Google Livres (Michigan) Après la numérisation de 1 million de livres (janvier 2008) 25,8 kilomètres linéaires 680 tonnes 361 millions de pages 70’000 millions d’occurrences de mots 428 Langues 135’000 Sujets (LCSH) Google / Jacquesson / Mars 2010 7
  8. 8. Extrapolations à court terme (En février 2010 Google a numérisé 12 millions de livres) Google / Jacquesson / Mars 2010 8
  9. 9. Ajouts aux index de Google Hypothèse : 15 millions de livres numérisés 1’050’000 millions Mots non-significatifs d’occurrences (1 billion) 80 % Mots significatifs 210’000 millions 20 % d’occurrences de mots Google / Jacquesson / Mars 2010 9
  10. 10. Loi de Zipf (Vers 1920) (Loi du moindre effort) La fréquence d’un mot est inversement proportionnelle à son rang Google / Jacquesson / Mars 2010 10
  11. 11. Distribution statistique des recherches sur Internet 50 % des recherches concernent les sites 30 % des recherches ordinaires (shopping, voyages, informations médicales, etc.) 20 % des mots rares, obscurs, spécialisés, exotiques, … ----------------- Loi de Pareto -------------------------- - Google / Jacquesson / Mars 2010 11
  12. 12. Qui utilisent ces mots rares ? Les chercheurs, les spécialistes Vocabulaire scientifique, produits, etc. Le Grand public Machines disparues, lieux, etc. Google / Jacquesson / Mars 2010 12
  13. 13. Distribution valable pour tous les types d’internautes  « Ordinary People with Extraordinary Tastes »  - pour le grand public  Vocabulaire scientifique hautement spécialisé  - pour les chercheurs Google / Jacquesson / Mars 2010 13
  14. 14. Distribution dite de la « Longue traîne » Google / Jacquesson / Mars 2010 14
  15. 15. Quels avantages ?  Google grâce à son projet Livres peut répondre à beaucoup plus de questions que ses concurrents  1 % de réponses supplémentaires  = 5 % de satisfaction supplémentaire  « Donc je reste sur Google pour la Fat Tail » Google / Jacquesson / Mars 2010 15
  16. 16. Critiques  Fat tail = forte concurrence  Long tail = faible concurrence  L'avantage de Google est injuste car ses concurrents ne peuvent pas avoir accès au même corpus ; son avance devient insurmontable  Pratiqué à cette échelle, Michael Lesk se demande si l'indexation relève encore du fair use Google / Jacquesson / Mars 2010 16
  17. 17. Saint Jean d’Acre  Google Livres Saint Jean Acre 457 livres  Library of Congress Acre (Israel) 64 références1  Library of Congress Acre (Syria) from old catalog 3 références  BnF Acre (Israël) 23 références  Sudoc Acre (Israël) 14 références  Rero Acre (Israël) 12 références  Rero Saint Jean d'Acre 1 référence  1Y compris des descriptions iconographiques Google / Jacquesson / Mars 2010 17
  18. 18. Mais…  Acre (Ville d’Israël / Syrie)  Acre (Province du Brésil)  Google ne fait pas de différence ! Google / Jacquesson / Mars 2010 18
  19. 19. Pierre ollaire / Stéatite  RERO partout pierre ollaire 42 références  RERO voc contrôlé pierre ollaire 28 références  RERO partout stéatite 9 références  RERO voc controlé stéatite 7 références  RERO.DOC pierre ollaire 1 réf. / 5 occurrences  RERO.DOC stéatite 1 réf. / 5 occurrences  SUDOC pierre ollaire 51 références  SUDOC stéatite 21 références  Google Livres pierre ollaire 902 livres  Google Livres stéatite 5’610 livres  Google pierre ollaire 22’000 références  Google stéatite 289’000 références Google / Jacquesson / Mars 2010 19
  20. 20. Et en sciences humaines… (1)  RERO partout constructivisme 396 références  RERO voc contrôlé constructivisme 277 références (Note 1)  RERO.DOC constructivisme 1 référence  SUDOC partout constructivisme 611 références  SUDOC voc contrôlé constructivisme 2 références  BnF partout constructivisme 355 références  BnF voc contrôlé constructivisme 59 références  Google Livres constructivisme 431 livres  Google Livres constructivisme 1’527 occurrences  Google constructivisme 139’000 liens  Note 1 : Avantage RERO qui fait la distinction « constructivisme (philosophie) » et « constructivisme (psychologie) » Google / Jacquesson / Mars 2010 20
  21. 21. Et en sciences humaines… (2)  RERO partout Faillibilisme 396 références  RERO voc contrôlé Faillibilisme 277 références  RERO.DOC Faillibilisme 1 référence  SUDOC partout Faillibilisme 611 références  SUDOC voc contrôlé Faillibilisme 2 références  BnF partout Faillibilisme 355 références  BnF voc contrôlé Faillibilisme 59 références  Google Livres Faillibilisme 295 livres  Google Livres Faillibilisme 531 occurrences  Google Faillibilisme 2’050 liens  Avantage RERO Google / Jacquesson / Mars 2010 21
  22. 22. Et en sciences humaines… (3)  RERO partout hypostase 19 références  RERO voc contrôlé hypostase 8 références  RERO.DOC hypostase 0 références  SUDOC partout hypostase 26 références  SUDOC voc contrôlé hypostase 2 références  BnF partout hypostase 23 références  BnF voc contrôlé hypostase 10 références  Google Livres hypostase 299 livres  Google Livres hypostase 3’210 occurrences  Google hypostase 127’000 liens (Note 1)  Avantage : Google  Note 1 : Wikipedia en premier, pas de publicité à placer ! Google / Jacquesson / Mars 2010 22
  23. 23. Pour être complet…  Google Livres constructivisme 431 livres  Google Livres constructivisme 80 livres affichage complet  Google Livres faillibilisme 295 livres  Google Livres faillibilisme 1 livre affichage complet  Google Livres hypostase 301 livres  Google Livres hypostase 365 livres affichage complet  Les derniers résultats sont incohérents : l’affichage complet doit être égal ou inférieur au premier total (recherche répétée plusieurs fois)  Interrogations faites le 6 mars 2010 Google / Jacquesson / Mars 2010 23
  24. 24. Evolution de la base de données Août 2009 Décembre 09 Mars 2010 Stendhal 5’547 4’490 5’220 Réponses Marie Henri Beyle 331 322 345 Réponses Beyle Marie Henri 332 333 351 Réponses Henri Beyle 402 363 412 Réponses Beyle Henri 401 365 412 Réponses Henry(sic) Beyle 24 23 45 Réponses Beyle Henry(sic) 24 23 45 Réponses Google / Jacquesson / Mars 2010 24
  25. 25. Conclusion provisoire  Avec la numérisation, l’indexation des livres est passée à un stade industriel  L’indexation est désormais « autre chose »  Les bibliothèques ne pourront pas échapper à un vaste débat sur le futur de l’indexation manuelle Google / Jacquesson / Mars 2010 25
  26. 26. Les liens autour de Google Livres  Les ouvrages numérisés dans Google Livres ne sont pas isolés  De nombreux liens y arrivent  De nombreux liens en sortent Google / Jacquesson / Mars 2010 26
  27. 27. Les liens venant du catalogue local Google Livres VD VD RERO Google / Jacquesson / Mars 2010 27
  28. 28. Informations redondantes WorldCat/OCLC 169 millions de notices 1,4 milliard de localisations Google Livres ? 12 millions de Livres numérisés RERO 5 millions de notices Google / Jacquesson / Mars 2010 28
  29. 29. Liens internes à Google Livres Google Livres Ouvrage consulté Google / Jacquesson / Mars 2010 29
  30. 30. Liens sur des informations propres à Google - 1 Google / Jacquesson / Mars 2010 30
  31. 31. Liens sur des informations propres à Google - 2 Liens venant de Google Scholar Google / Jacquesson / Mars 2010 31
  32. 32. Liens extérieurs à Google Livres (Internet Archive / 1.8 million de livres numérisés) Google / Jacquesson / Mars 2010 32
  33. 33. Liens commerciaux
  34. 34. Le futur des liens Vers des dictionnaires biographiques DHS Dictionnaire historique de la Suisse Numérisé à Oxford le 1/4/2008 Notices d’autorité Google Livres Catalogues LoC, Rero, Sudoc, … Google / Jacquesson / Mars 2010 34
  35. 35. Constitution de grands « blocs » d’informations contrôlées  Monographies, périodiques, brochures…  Catalogues, bibliographies, listes… – Bibliothèques, domaines spécialisés, enseignants…  Dictionnaires, répertoires, recueils, lexiques – Biographiques, géographiques, historiques, techniques, scientifiques, archéologiques, etc.  Données brutes – Astrophysiques, biologiques, géolocalisées, mais encore juridiques (lois, règlements, jurisprudence, etc.), culturelles, etc. Google / Jacquesson / Mars 2010 35
  36. 36. Mais encore des « blocs » non contrôlés Wiki (?) – Est-ce de l’information contrôlée ? Blogs – Grand public, spécialisés, etc. Commerce – eBay, Abebooks, etc. – (Informations volatiles) Google / Jacquesson / Mars 2010 36
  37. 37. Google / Jacquesson / Mars 2010 37
  38. 38. Nature des informations Gratuites – Officielles, contrôlées, libres, personnelles, … Payantes – Commerciales (Elsevier, Benezit…) – Jstor, HighWire, … Google / Jacquesson / Mars 2010 38
  39. 39. Dans tous les cas : des informations stables • Des adresses permanentes • PURL – Permanent URL • URN – Uniform Resource Name • DOI – Digital Object Identifier • Handle System (Ancres) • Des résolveurs de liens Google / Jacquesson / Mars 2010 39
  40. 40. Google et la gestion des liens  Un savoir faire exceptionnel sur lequel est construit initialement le moteur de recherche  Une avance énorme  Des essais dans tous les domaines Google / Jacquesson / Mars 2010 40
  41. 41. L’interconnexion des savoirs  Une nouvelle étape dans le domaine des bibliothèques numériques   Les bibliothèques devront travailler avec de nouveaux acteurs  Google / Jacquesson / Mars 2010 41
  42. 42. Google / Jacquesson / Mars 2010 42
  43. 43. Google / Jacquesson / Mars 2010 43
  44. 44. Les futurs moteurs de recherche…  Disposeront d’un contenu hors norme  utiliseront abondamment les liens  à travers des interfaces graphiques  et interactives Google / Jacquesson / Mars 2010 44
  45. 45. Exemple d’interface graphique de type « Fisheye » http://ontology.univ- savoie.fr/tricot/recherche/cs/realisations/demo/SystemFigureDesConnaissancesHumaines/ EyeTree/index.php (très peu de données) Google / Jacquesson / Mars 2010 45
  46. 46. Références complémentaires Anatomy of the Long Tail: Ordinary People with Extraordinary Tastes Goel, S.; Broder, A.; Gabrilovich, E.; Pang, B. WSDM (2010) http://research.yahoo.com/pub/3011 Google's Goal: Digitize Every Book Ever Printed Arlington, Virginia : Public Broadcasting Services (PBS) Newshour, Dec. 30, 2009 ; 8m35s http://www.pbs.org/newshour/bb/entertainment/july-dec09/google_12-30.html [En anglais (américain). Avec des interviews de Daniel Clancy (Chef de projet de Google Livres), Michael Keller (Directeur des Bibliothèques de Stanford), Garry Reback (Avocat de l'Open Book Alliance), etc. PBS est une télévision éducative indépendante]. Google / Jacquesson / Mars 2010 46
  47. 47. Coordonnées Alain Jacquesson 9 Route de Bellebouche 1246 Corsier (GE) / Suisse Tél 0(0 41) 22 751 20 63 Mail alain.jacquesson@gmail.com Google / Jacquesson / Mars 2010 47

×