SlideShare une entreprise Scribd logo
1  sur  47
Télécharger pour lire hors ligne
Autour de Google Livres
  BCU – Dorigny / 11 mars 2010


       Alain Jacquesson

                            Vers.1.00
Deux pistes de réflexions



1. Les index de Google Livres


2. Les liens autour de Google Livres




                Google / Jacquesson / Mars 2010   2
Les index
Google a indexé tout le Web visible
  – Tous les mots de toutes les pages de tout
    le Web…
Un peu plus que le Web visible
  – Prêt du fichier RERO, par exemple
C‘est sa qualité
C‘est sa force
               Google / Jacquesson / Mars 2010   3
Mais…

 Seuls ~15 % du savoir se trouvent sur
 le Web,
 donc ~85 % du savoir se trouvent
 dans les livres
   Philippe Colombet, responsable de Google Livres pour la France (Paris,
    BnF, janvier 2010)



                         Google / Jacquesson / Mars 2010                     4
De plus…
 Google veut numériser tous les livres


 Google's Goal:
           Digitize Every Book Ever Printed

   Daniel Clancy, Chef du projet Livres chez Google (Déc. 2009)


                       Google / Jacquesson / Mars 2010             5
Quelques chiffres…
 RERO                        5 millions           (notices)
 Google Livres               12 millions          (livres)
 BnF                         14 millions          (notices)
 Bibliothèque
    du Congrès                 32 millions (notices)
 WorldCat
    d’OCLC                    169 millions (notices)
                 Google / Jacquesson / Mars 2010           6
Chiffres exacts d’une bibliothèque
participant à Google Livres (Michigan)
  Après la numérisation de 1 million de livres (janvier 2008)


25,8         kilomètres linéaires
680          tonnes
361          millions de pages
70’000       millions d’occurrences de mots
428          Langues
135’000      Sujets (LCSH)
                    Google / Jacquesson / Mars 2010             7
Extrapolations à court terme
 (En février 2010 Google a numérisé 12 millions de livres)




                   Google / Jacquesson / Mars 2010           8
Ajouts aux index de Google
Hypothèse : 15 millions de livres numérisés




1’050’000 millions     Mots non-significatifs
d’occurrences

(1 billion)                              80 %

                         Mots significatifs            210’000 millions
                                         20 %          d’occurrences de mots



                     Google / Jacquesson / Mars 2010                           9
Loi de Zipf
                              (Vers 1920)
                     (Loi du moindre effort)




La fréquence d’un mot est inversement proportionnelle à son rang
                       Google / Jacquesson / Mars 2010             10
Distribution statistique des recherches sur
                    Internet

50 % des recherches concernent les sites
30 % des recherches ordinaires (shopping,
  voyages, informations médicales, etc.)

20 % des mots rares, obscurs, spécialisés,
  exotiques, …

----------------- Loi de Pareto --------------------------
   -
                    Google / Jacquesson / Mars 2010     11
Qui utilisent ces mots rares ?

Les chercheurs, les spécialistes
  Vocabulaire scientifique, produits, etc.

Le Grand public
  Machines disparues, lieux, etc.



               Google / Jacquesson / Mars 2010   12
Distribution valable pour tous les
          types d’internautes

 « Ordinary People with Extraordinary
 Tastes »
   - pour le grand public


 Vocabulaire scientifique hautement
 spécialisé
   - pour les chercheurs
                Google / Jacquesson / Mars 2010   13
Distribution dite de la
  « Longue traîne »




      Google / Jacquesson / Mars 2010   14
Quels avantages ?
 Google grâce à son projet Livres peut
  répondre à beaucoup plus de questions
  que ses concurrents
 1 % de réponses supplémentaires
 = 5 % de satisfaction supplémentaire
 « Donc je reste sur Google pour la Fat
  Tail »

              Google / Jacquesson / Mars 2010   15
Critiques
 Fat tail          = forte concurrence
 Long tail         = faible concurrence

 L'avantage de Google est injuste car ses concurrents
  ne peuvent pas avoir accès au même corpus ; son
  avance devient insurmontable

 Pratiqué à cette échelle, Michael Lesk se demande si
  l'indexation relève encore du fair use

                   Google / Jacquesson / Mars 2010   16
Saint Jean d’Acre
 Google Livres                         Saint Jean Acre                 457   livres



 Library of Congress                   Acre (Israel)                 64      références1
 Library of Congress                   Acre (Syria) from old catalog 3       références

 BnF                                   Acre (Israël)                   23    références

 Sudoc                                 Acre (Israël)                   14    références

 Rero                                  Acre (Israël)                   12    références
 Rero                                  Saint Jean d'Acre               1     référence
   1Y compris des descriptions iconographiques

                                      Google / Jacquesson / Mars 2010                   17
Mais…
 Acre (Ville d’Israël / Syrie)


 Acre (Province du Brésil)


 Google ne fait pas de différence !



                Google / Jacquesson / Mars 2010   18
Pierre ollaire / Stéatite
   RERO partout         pierre ollaire          42       références
   RERO voc contrôlé    pierre ollaire          28       références
   RERO partout         stéatite                9        références
   RERO voc controlé    stéatite                7        références
   RERO.DOC             pierre ollaire          1        réf. / 5 occurrences
   RERO.DOC             stéatite                1        réf. / 5 occurrences

 SUDOC                  pierre ollaire          51       références
 SUDOC                  stéatite                21       références

 Google Livres          pierre ollaire          902      livres
 Google Livres          stéatite                5’610    livres

 Google                 pierre ollaire          22’000 références
 Google                 stéatite                289’000 références
                        Google / Jacquesson / Mars 2010                          19
Et en sciences humaines… (1)

   RERO partout                constructivisme       396        références
   RERO voc contrôlé           constructivisme       277        références (Note 1)
   RERO.DOC                    constructivisme       1          référence

   SUDOC partout               constructivisme       611        références
   SUDOC voc contrôlé          constructivisme       2          références

   BnF partout                 constructivisme       355        références
   BnF voc contrôlé            constructivisme       59         références

   Google Livres               constructivisme       431        livres
   Google Livres               constructivisme       1’527      occurrences

   Google                      constructivisme       139’000    liens

   Note 1 : Avantage RERO qui fait la distinction « constructivisme (philosophie) » et
    « constructivisme (psychologie) »
                             Google / Jacquesson / Mars 2010                            20
Et en sciences humaines… (2)

   RERO partout          Faillibilisme           396      références
   RERO voc contrôlé     Faillibilisme           277      références
   RERO.DOC              Faillibilisme           1        référence

   SUDOC partout         Faillibilisme           611      références
   SUDOC voc contrôlé    Faillibilisme           2        références

   BnF partout           Faillibilisme           355      références
   BnF voc contrôlé      Faillibilisme           59       références

   Google Livres         Faillibilisme           295      livres
   Google Livres         Faillibilisme           531      occurrences

   Google                Faillibilisme           2’050    liens

   Avantage RERO

                         Google / Jacquesson / Mars 2010                 21
Et en sciences humaines… (3)

   RERO partout                            hypostase              19        références
   RERO voc contrôlé                       hypostase              8         références
   RERO.DOC                                hypostase              0         références

   SUDOC partout                           hypostase              26        références
   SUDOC voc contrôlé                      hypostase              2         références

   BnF partout                             hypostase              23        références
   BnF voc contrôlé                        hypostase              10        références

   Google Livres                           hypostase              299       livres
   Google Livres                           hypostase              3’210     occurrences

   Google                                  hypostase              127’000   liens (Note 1)

   Avantage : Google
   Note 1 : Wikipedia en premier, pas de publicité à placer !
                                          Google / Jacquesson / Mars 2010                     22
Pour être complet…
 Google Livres                      constructivisme 431 livres
 Google Livres                      constructivisme 80 livres affichage complet

 Google Livres                      faillibilisme           295 livres
 Google Livres                      faillibilisme           1 livre affichage complet

 Google Livres                      hypostase               301 livres
 Google Livres                      hypostase               365 livres affichage complet

 Les derniers résultats sont incohérents : l’affichage complet doit être
    égal ou inférieur au premier total (recherche répétée plusieurs fois)

   Interrogations faites le 6 mars 2010



                                    Google / Jacquesson / Mars 2010                      23
Evolution de la base de données
                    Août 2009 Décembre 09                   Mars 2010
Stendhal            5’547          4’490                    5’220       Réponses
Marie Henri Beyle   331            322                      345         Réponses
Beyle Marie Henri   332            333                      351         Réponses
Henri Beyle         402            363                      412         Réponses
Beyle Henri         401            365                      412         Réponses
Henry(sic) Beyle    24             23                       45          Réponses
Beyle Henry(sic)    24             23                       45          Réponses




                          Google / Jacquesson / Mars 2010                      24
Conclusion provisoire
 Avec la numérisation, l’indexation des livres
  est passée à un stade industriel

 L’indexation est désormais « autre chose »


 Les bibliothèques ne pourront pas échapper à
  un vaste débat sur le futur de l’indexation
  manuelle

                 Google / Jacquesson / Mars 2010   25
Les liens autour de Google Livres

 Les ouvrages numérisés dans Google
 Livres ne sont pas isolés

 De nombreux liens y arrivent


 De nombreux liens en sortent


              Google / Jacquesson / Mars 2010   26
Les liens venant du catalogue local


        Google Livres

   VD



            VD




                                                     RERO




                   Google / Jacquesson / Mars 2010          27
Informations redondantes

                                         WorldCat/OCLC
                                     169 millions de notices
                                   1,4 milliard de localisations


Google Livres
                        ?
  12 millions de
Livres numérisés
                                                             RERO
                                                     5 millions de notices



                   Google / Jacquesson / Mars 2010                           28
Liens internes à Google Livres

                                           Google Livres




                                   Ouvrage
                                   consulté




         Google / Jacquesson / Mars 2010                   29
Liens sur des informations
   propres à Google - 1




       Google / Jacquesson / Mars 2010   30
Liens sur des informations
   propres à Google - 2

                                         Liens venant de
                                         Google Scholar




       Google / Jacquesson / Mars 2010                     31
Liens extérieurs à Google Livres
  (Internet Archive / 1.8 million de livres numérisés)




                 Google / Jacquesson / Mars 2010         32
Liens commerciaux
Le futur des liens
        Vers des dictionnaires biographiques

                                  DHS
                        Dictionnaire historique
                              de la Suisse                 Numérisé à Oxford le
                                                           1/4/2008




Notices d’autorité
                                                  Google Livres
  Catalogues
  LoC, Rero, Sudoc, …




                         Google / Jacquesson / Mars 2010                          34
Constitution de grands « blocs »
      d’informations contrôlées
 Monographies, périodiques, brochures…
 Catalogues, bibliographies, listes…
  – Bibliothèques, domaines spécialisés, enseignants…
 Dictionnaires, répertoires, recueils, lexiques
  – Biographiques, géographiques, historiques,
    techniques, scientifiques, archéologiques, etc.
 Données brutes
  – Astrophysiques, biologiques, géolocalisées, mais
    encore juridiques (lois, règlements, jurisprudence,
    etc.), culturelles, etc.
                   Google / Jacquesson / Mars 2010        35
Mais encore des « blocs » non contrôlés

Wiki (?)
 – Est-ce de l’information contrôlée ?
Blogs
 – Grand public, spécialisés, etc.
Commerce
 – eBay, Abebooks, etc.
 – (Informations volatiles)

                Google / Jacquesson / Mars 2010   36
Google / Jacquesson / Mars 2010   37
Nature des informations
Gratuites
 – Officielles, contrôlées, libres,
   personnelles, …
Payantes
 – Commerciales (Elsevier, Benezit…)
 – Jstor, HighWire, …



                Google / Jacquesson / Mars 2010   38
Dans tous les cas :
      des informations stables

• Des adresses permanentes
• PURL – Permanent URL
• URN – Uniform Resource Name
• DOI – Digital Object Identifier
• Handle System (Ancres)
• Des résolveurs de liens

               Google / Jacquesson / Mars 2010   39
Google et la gestion des liens

 Un savoir faire exceptionnel sur lequel
 est construit initialement le moteur de
 recherche

 Une avance énorme


 Des essais dans tous les domaines

              Google / Jacquesson / Mars 2010   40
L’interconnexion des savoirs

 Une nouvelle étape dans le domaine
    des bibliothèques numériques

 Les bibliothèques devront travailler
    avec de nouveaux acteurs



               Google / Jacquesson / Mars 2010   41
Google / Jacquesson / Mars 2010   42
Google / Jacquesson / Mars 2010   43
Les futurs moteurs de recherche…

 Disposeront d’un contenu hors norme


 utiliseront abondamment les liens


 à travers des interfaces graphiques


 et interactives
              Google / Jacquesson / Mars 2010   44
Exemple d’interface graphique
         de type « Fisheye »
http://ontology.univ-
     savoie.fr/tricot/recherche/cs/realisations/demo/SystemFigureDesConnaissancesHumaines/
     EyeTree/index.php

(très peu de données)




                               Google / Jacquesson / Mars 2010                          45
Références complémentaires
Anatomy of the Long Tail: Ordinary People with Extraordinary Tastes
Goel, S.; Broder, A.; Gabrilovich, E.; Pang, B.
WSDM (2010)
http://research.yahoo.com/pub/3011




Google's Goal: Digitize Every Book Ever Printed
Arlington, Virginia : Public Broadcasting Services (PBS) Newshour, Dec. 30, 2009 ; 8m35s
http://www.pbs.org/newshour/bb/entertainment/july-dec09/google_12-30.html
[En anglais (américain). Avec des interviews de Daniel Clancy (Chef de projet de Google Livres), Michael Keller
      (Directeur des Bibliothèques de Stanford), Garry Reback (Avocat de l'Open Book Alliance), etc. PBS est
      une télévision éducative indépendante].




                                      Google / Jacquesson / Mars 2010                                        46
Coordonnées
Alain Jacquesson
9 Route de Bellebouche
1246 Corsier (GE) / Suisse

Tél     0(0 41) 22 751 20 63
Mail    alain.jacquesson@gmail.com



             Google / Jacquesson / Mars 2010   47

Contenu connexe

En vedette

Ouvrir les données, oui, mais pourquoi ? Récit de l'origine de la politique d...
Ouvrir les données, oui, mais pourquoi ? Récit de l'origine de la politique d...Ouvrir les données, oui, mais pourquoi ? Récit de l'origine de la politique d...
Ouvrir les données, oui, mais pourquoi ? Récit de l'origine de la politique d...Sciences Po
 
Islas olivia
Islas oliviaIslas olivia
Islas oliviasliderosa
 
Rosas y claveles
Rosas y clavelesRosas y claveles
Rosas y clavelesMPueran
 
Bien Démarrer sur Weavlink
Bien Démarrer sur WeavlinkBien Démarrer sur Weavlink
Bien Démarrer sur WeavlinkWeavlink
 
Profession De Foi Ms
Profession De Foi MsProfession De Foi Ms
Profession De Foi Msbingopops
 
L'information de santé sur Internet
L'information de santé sur InternetL'information de santé sur Internet
L'information de santé sur InternetRemedeo
 
CURRICULUM RAMIRO ZUÑIGA SALOMON
CURRICULUM RAMIRO ZUÑIGA SALOMONCURRICULUM RAMIRO ZUÑIGA SALOMON
CURRICULUM RAMIRO ZUÑIGA SALOMONRamiro Zúñiga
 
Biblioteca virtual carlos quiel
Biblioteca virtual   carlos quielBiblioteca virtual   carlos quiel
Biblioteca virtual carlos quielcarlosquiel7
 
Carlos delgado
Carlos delgadoCarlos delgado
Carlos delgadoclsnake
 
Referencement geolocalise sur Google Maps
Referencement geolocalise sur Google MapsReferencement geolocalise sur Google Maps
Referencement geolocalise sur Google MapsAXIZ eBusiness
 

En vedette (20)

Ouvrir les données, oui, mais pourquoi ? Récit de l'origine de la politique d...
Ouvrir les données, oui, mais pourquoi ? Récit de l'origine de la politique d...Ouvrir les données, oui, mais pourquoi ? Récit de l'origine de la politique d...
Ouvrir les données, oui, mais pourquoi ? Récit de l'origine de la politique d...
 
Islas olivia
Islas oliviaIslas olivia
Islas olivia
 
Rosas y claveles
Rosas y clavelesRosas y claveles
Rosas y claveles
 
Foodunitofwork 1229607567953786 2
Foodunitofwork 1229607567953786 2Foodunitofwork 1229607567953786 2
Foodunitofwork 1229607567953786 2
 
Bien Démarrer sur Weavlink
Bien Démarrer sur WeavlinkBien Démarrer sur Weavlink
Bien Démarrer sur Weavlink
 
Profession De Foi Ms
Profession De Foi MsProfession De Foi Ms
Profession De Foi Ms
 
L'information de santé sur Internet
L'information de santé sur InternetL'information de santé sur Internet
L'information de santé sur Internet
 
Geometría 1 aa2.2
Geometría 1   aa2.2Geometría 1   aa2.2
Geometría 1 aa2.2
 
Bd
BdBd
Bd
 
CURRICULUM RAMIRO ZUÑIGA SALOMON
CURRICULUM RAMIRO ZUÑIGA SALOMONCURRICULUM RAMIRO ZUÑIGA SALOMON
CURRICULUM RAMIRO ZUÑIGA SALOMON
 
Projet De Vie
Projet De VieProjet De Vie
Projet De Vie
 
Saisir les Jeunes: portrait de consommateurs en puissance
Saisir les Jeunes: portrait de consommateurs en puissanceSaisir les Jeunes: portrait de consommateurs en puissance
Saisir les Jeunes: portrait de consommateurs en puissance
 
Biblioteca virtual carlos quiel
Biblioteca virtual   carlos quielBiblioteca virtual   carlos quiel
Biblioteca virtual carlos quiel
 
Proceso tecnologico
Proceso tecnologicoProceso tecnologico
Proceso tecnologico
 
Mister H 2007
Mister H 2007Mister H 2007
Mister H 2007
 
Carlos delgado
Carlos delgadoCarlos delgado
Carlos delgado
 
Indice itm
Indice itm Indice itm
Indice itm
 
Presentacion
Presentacion Presentacion
Presentacion
 
Referencement geolocalise sur Google Maps
Referencement geolocalise sur Google MapsReferencement geolocalise sur Google Maps
Referencement geolocalise sur Google Maps
 
Lkkk
LkkkLkkk
Lkkk
 

2010 BCU Google

  • 1. Autour de Google Livres BCU – Dorigny / 11 mars 2010 Alain Jacquesson Vers.1.00
  • 2. Deux pistes de réflexions 1. Les index de Google Livres 2. Les liens autour de Google Livres Google / Jacquesson / Mars 2010 2
  • 3. Les index Google a indexé tout le Web visible – Tous les mots de toutes les pages de tout le Web… Un peu plus que le Web visible – Prêt du fichier RERO, par exemple C‘est sa qualité C‘est sa force Google / Jacquesson / Mars 2010 3
  • 4. Mais…  Seuls ~15 % du savoir se trouvent sur le Web,  donc ~85 % du savoir se trouvent dans les livres  Philippe Colombet, responsable de Google Livres pour la France (Paris, BnF, janvier 2010) Google / Jacquesson / Mars 2010 4
  • 5. De plus…  Google veut numériser tous les livres  Google's Goal: Digitize Every Book Ever Printed  Daniel Clancy, Chef du projet Livres chez Google (Déc. 2009) Google / Jacquesson / Mars 2010 5
  • 6. Quelques chiffres…  RERO 5 millions (notices)  Google Livres 12 millions (livres)  BnF 14 millions (notices)  Bibliothèque du Congrès 32 millions (notices)  WorldCat d’OCLC 169 millions (notices) Google / Jacquesson / Mars 2010 6
  • 7. Chiffres exacts d’une bibliothèque participant à Google Livres (Michigan) Après la numérisation de 1 million de livres (janvier 2008) 25,8 kilomètres linéaires 680 tonnes 361 millions de pages 70’000 millions d’occurrences de mots 428 Langues 135’000 Sujets (LCSH) Google / Jacquesson / Mars 2010 7
  • 8. Extrapolations à court terme (En février 2010 Google a numérisé 12 millions de livres) Google / Jacquesson / Mars 2010 8
  • 9. Ajouts aux index de Google Hypothèse : 15 millions de livres numérisés 1’050’000 millions Mots non-significatifs d’occurrences (1 billion) 80 % Mots significatifs 210’000 millions 20 % d’occurrences de mots Google / Jacquesson / Mars 2010 9
  • 10. Loi de Zipf (Vers 1920) (Loi du moindre effort) La fréquence d’un mot est inversement proportionnelle à son rang Google / Jacquesson / Mars 2010 10
  • 11. Distribution statistique des recherches sur Internet 50 % des recherches concernent les sites 30 % des recherches ordinaires (shopping, voyages, informations médicales, etc.) 20 % des mots rares, obscurs, spécialisés, exotiques, … ----------------- Loi de Pareto -------------------------- - Google / Jacquesson / Mars 2010 11
  • 12. Qui utilisent ces mots rares ? Les chercheurs, les spécialistes Vocabulaire scientifique, produits, etc. Le Grand public Machines disparues, lieux, etc. Google / Jacquesson / Mars 2010 12
  • 13. Distribution valable pour tous les types d’internautes  « Ordinary People with Extraordinary Tastes »  - pour le grand public  Vocabulaire scientifique hautement spécialisé  - pour les chercheurs Google / Jacquesson / Mars 2010 13
  • 14. Distribution dite de la « Longue traîne » Google / Jacquesson / Mars 2010 14
  • 15. Quels avantages ?  Google grâce à son projet Livres peut répondre à beaucoup plus de questions que ses concurrents  1 % de réponses supplémentaires  = 5 % de satisfaction supplémentaire  « Donc je reste sur Google pour la Fat Tail » Google / Jacquesson / Mars 2010 15
  • 16. Critiques  Fat tail = forte concurrence  Long tail = faible concurrence  L'avantage de Google est injuste car ses concurrents ne peuvent pas avoir accès au même corpus ; son avance devient insurmontable  Pratiqué à cette échelle, Michael Lesk se demande si l'indexation relève encore du fair use Google / Jacquesson / Mars 2010 16
  • 17. Saint Jean d’Acre  Google Livres Saint Jean Acre 457 livres  Library of Congress Acre (Israel) 64 références1  Library of Congress Acre (Syria) from old catalog 3 références  BnF Acre (Israël) 23 références  Sudoc Acre (Israël) 14 références  Rero Acre (Israël) 12 références  Rero Saint Jean d'Acre 1 référence  1Y compris des descriptions iconographiques Google / Jacquesson / Mars 2010 17
  • 18. Mais…  Acre (Ville d’Israël / Syrie)  Acre (Province du Brésil)  Google ne fait pas de différence ! Google / Jacquesson / Mars 2010 18
  • 19. Pierre ollaire / Stéatite  RERO partout pierre ollaire 42 références  RERO voc contrôlé pierre ollaire 28 références  RERO partout stéatite 9 références  RERO voc controlé stéatite 7 références  RERO.DOC pierre ollaire 1 réf. / 5 occurrences  RERO.DOC stéatite 1 réf. / 5 occurrences  SUDOC pierre ollaire 51 références  SUDOC stéatite 21 références  Google Livres pierre ollaire 902 livres  Google Livres stéatite 5’610 livres  Google pierre ollaire 22’000 références  Google stéatite 289’000 références Google / Jacquesson / Mars 2010 19
  • 20. Et en sciences humaines… (1)  RERO partout constructivisme 396 références  RERO voc contrôlé constructivisme 277 références (Note 1)  RERO.DOC constructivisme 1 référence  SUDOC partout constructivisme 611 références  SUDOC voc contrôlé constructivisme 2 références  BnF partout constructivisme 355 références  BnF voc contrôlé constructivisme 59 références  Google Livres constructivisme 431 livres  Google Livres constructivisme 1’527 occurrences  Google constructivisme 139’000 liens  Note 1 : Avantage RERO qui fait la distinction « constructivisme (philosophie) » et « constructivisme (psychologie) » Google / Jacquesson / Mars 2010 20
  • 21. Et en sciences humaines… (2)  RERO partout Faillibilisme 396 références  RERO voc contrôlé Faillibilisme 277 références  RERO.DOC Faillibilisme 1 référence  SUDOC partout Faillibilisme 611 références  SUDOC voc contrôlé Faillibilisme 2 références  BnF partout Faillibilisme 355 références  BnF voc contrôlé Faillibilisme 59 références  Google Livres Faillibilisme 295 livres  Google Livres Faillibilisme 531 occurrences  Google Faillibilisme 2’050 liens  Avantage RERO Google / Jacquesson / Mars 2010 21
  • 22. Et en sciences humaines… (3)  RERO partout hypostase 19 références  RERO voc contrôlé hypostase 8 références  RERO.DOC hypostase 0 références  SUDOC partout hypostase 26 références  SUDOC voc contrôlé hypostase 2 références  BnF partout hypostase 23 références  BnF voc contrôlé hypostase 10 références  Google Livres hypostase 299 livres  Google Livres hypostase 3’210 occurrences  Google hypostase 127’000 liens (Note 1)  Avantage : Google  Note 1 : Wikipedia en premier, pas de publicité à placer ! Google / Jacquesson / Mars 2010 22
  • 23. Pour être complet…  Google Livres constructivisme 431 livres  Google Livres constructivisme 80 livres affichage complet  Google Livres faillibilisme 295 livres  Google Livres faillibilisme 1 livre affichage complet  Google Livres hypostase 301 livres  Google Livres hypostase 365 livres affichage complet  Les derniers résultats sont incohérents : l’affichage complet doit être égal ou inférieur au premier total (recherche répétée plusieurs fois)  Interrogations faites le 6 mars 2010 Google / Jacquesson / Mars 2010 23
  • 24. Evolution de la base de données Août 2009 Décembre 09 Mars 2010 Stendhal 5’547 4’490 5’220 Réponses Marie Henri Beyle 331 322 345 Réponses Beyle Marie Henri 332 333 351 Réponses Henri Beyle 402 363 412 Réponses Beyle Henri 401 365 412 Réponses Henry(sic) Beyle 24 23 45 Réponses Beyle Henry(sic) 24 23 45 Réponses Google / Jacquesson / Mars 2010 24
  • 25. Conclusion provisoire  Avec la numérisation, l’indexation des livres est passée à un stade industriel  L’indexation est désormais « autre chose »  Les bibliothèques ne pourront pas échapper à un vaste débat sur le futur de l’indexation manuelle Google / Jacquesson / Mars 2010 25
  • 26. Les liens autour de Google Livres  Les ouvrages numérisés dans Google Livres ne sont pas isolés  De nombreux liens y arrivent  De nombreux liens en sortent Google / Jacquesson / Mars 2010 26
  • 27. Les liens venant du catalogue local Google Livres VD VD RERO Google / Jacquesson / Mars 2010 27
  • 28. Informations redondantes WorldCat/OCLC 169 millions de notices 1,4 milliard de localisations Google Livres ? 12 millions de Livres numérisés RERO 5 millions de notices Google / Jacquesson / Mars 2010 28
  • 29. Liens internes à Google Livres Google Livres Ouvrage consulté Google / Jacquesson / Mars 2010 29
  • 30. Liens sur des informations propres à Google - 1 Google / Jacquesson / Mars 2010 30
  • 31. Liens sur des informations propres à Google - 2 Liens venant de Google Scholar Google / Jacquesson / Mars 2010 31
  • 32. Liens extérieurs à Google Livres (Internet Archive / 1.8 million de livres numérisés) Google / Jacquesson / Mars 2010 32
  • 34. Le futur des liens Vers des dictionnaires biographiques DHS Dictionnaire historique de la Suisse Numérisé à Oxford le 1/4/2008 Notices d’autorité Google Livres Catalogues LoC, Rero, Sudoc, … Google / Jacquesson / Mars 2010 34
  • 35. Constitution de grands « blocs » d’informations contrôlées  Monographies, périodiques, brochures…  Catalogues, bibliographies, listes… – Bibliothèques, domaines spécialisés, enseignants…  Dictionnaires, répertoires, recueils, lexiques – Biographiques, géographiques, historiques, techniques, scientifiques, archéologiques, etc.  Données brutes – Astrophysiques, biologiques, géolocalisées, mais encore juridiques (lois, règlements, jurisprudence, etc.), culturelles, etc. Google / Jacquesson / Mars 2010 35
  • 36. Mais encore des « blocs » non contrôlés Wiki (?) – Est-ce de l’information contrôlée ? Blogs – Grand public, spécialisés, etc. Commerce – eBay, Abebooks, etc. – (Informations volatiles) Google / Jacquesson / Mars 2010 36
  • 37. Google / Jacquesson / Mars 2010 37
  • 38. Nature des informations Gratuites – Officielles, contrôlées, libres, personnelles, … Payantes – Commerciales (Elsevier, Benezit…) – Jstor, HighWire, … Google / Jacquesson / Mars 2010 38
  • 39. Dans tous les cas : des informations stables • Des adresses permanentes • PURL – Permanent URL • URN – Uniform Resource Name • DOI – Digital Object Identifier • Handle System (Ancres) • Des résolveurs de liens Google / Jacquesson / Mars 2010 39
  • 40. Google et la gestion des liens  Un savoir faire exceptionnel sur lequel est construit initialement le moteur de recherche  Une avance énorme  Des essais dans tous les domaines Google / Jacquesson / Mars 2010 40
  • 41. L’interconnexion des savoirs  Une nouvelle étape dans le domaine des bibliothèques numériques   Les bibliothèques devront travailler avec de nouveaux acteurs  Google / Jacquesson / Mars 2010 41
  • 42. Google / Jacquesson / Mars 2010 42
  • 43. Google / Jacquesson / Mars 2010 43
  • 44. Les futurs moteurs de recherche…  Disposeront d’un contenu hors norme  utiliseront abondamment les liens  à travers des interfaces graphiques  et interactives Google / Jacquesson / Mars 2010 44
  • 45. Exemple d’interface graphique de type « Fisheye » http://ontology.univ- savoie.fr/tricot/recherche/cs/realisations/demo/SystemFigureDesConnaissancesHumaines/ EyeTree/index.php (très peu de données) Google / Jacquesson / Mars 2010 45
  • 46. Références complémentaires Anatomy of the Long Tail: Ordinary People with Extraordinary Tastes Goel, S.; Broder, A.; Gabrilovich, E.; Pang, B. WSDM (2010) http://research.yahoo.com/pub/3011 Google's Goal: Digitize Every Book Ever Printed Arlington, Virginia : Public Broadcasting Services (PBS) Newshour, Dec. 30, 2009 ; 8m35s http://www.pbs.org/newshour/bb/entertainment/july-dec09/google_12-30.html [En anglais (américain). Avec des interviews de Daniel Clancy (Chef de projet de Google Livres), Michael Keller (Directeur des Bibliothèques de Stanford), Garry Reback (Avocat de l'Open Book Alliance), etc. PBS est une télévision éducative indépendante]. Google / Jacquesson / Mars 2010 46
  • 47. Coordonnées Alain Jacquesson 9 Route de Bellebouche 1246 Corsier (GE) / Suisse Tél 0(0 41) 22 751 20 63 Mail alain.jacquesson@gmail.com Google / Jacquesson / Mars 2010 47