SlideShare une entreprise Scribd logo
1  sur  20
Télécharger pour lire hors ligne
L’Archivage du Web
          Julien Masanès
   Internet Memory Foundation




        Collège de France
           Mars 2012
                1
Introduction



•   Centralité du web, application de publication de
    l’internet

•   Premier artefact culturel, source pour l’histoire et
    la science du future

•   Ce que la problématique de sa préservation nous
    apprend de ce média



                           2
L’objet




   3
Mesure




•   infini (génération à la demande)

•   cela dépend de l’outil de mesure (crawler)




                     4
Mesure

•   555 millions de sites web (Décembre 2011).
    200 millions nouveaux sites en 2011

•   152 millions blogs (2010 BlogPulse).

•   250 millions tweets par jour sur Twitter en (Oct-2011)

•   30 milliards d’éléments de contenus (liens, notes, photos,
    etc.) partagés sur Facebook chaque mois (2010)




                               5
Mesure




http://www.worldwidewebsize.com/

               6
Mesure


1 million livres/an
     (Unesco)
imprimé : 109 pages


 web : 1015 pages


   x 1 million

       7
Structuré ou non ?



•   HTML URLs parsé 	

 1,486,186,868

•   Domains with Triples	

65,408,946

•   URLs with Triples 	

               302,809,140

•   Typed Entities	

              1,222,563,749

•   Triples	

                       3,294,248,652


          Web Data Commons, http://webdatacommons.org/

                               8
Un système de publication actif




• Web Information Systems
• Contrôle par le producteur
• Publication continue (y compris pages anciennes
  ‘archivées’)
• Frontières de l’objet visé sont flou (un site? )

     Conserver implique exactement l’opposé


                        9
Le Web comme artefact culturel



• Multimédia, convergence de tous les types de
  contenus numériques
• Hypertexte actionnable
• Edité globalement par des centaines de millions
  de personnes

Conservation sans le filtrage traditionnel de l’édition


                       10
Cardinalité

• Différent selon les institutions (musées, archives,
  bibliothèques)
• Cardinalité des incunables
     – 20 millions de livres
     – 30 000 éditions
     – 650
• Une cardinalité élevée donne deux avantages pour la
  conservation : la redondance et le temps




                         11
La cardinalité ‘paradoxale’ du Web




• Un nombre virtuellement infini de copies
• Mais une très forte dépendance à un serveur unique




                         12
Capture et cohérence




• extension temporelle incompressible des capture
• en contradiction avec la publication permanente
• risque d’incohérence temporelle au sein même de
  l’archive




                         13
Legend:                                        :: html

                      :: coherent                                :: image, video, audio

                      :: content incoherent (text only)          :: dns

                      :: link structure incoherent               :: javascript, flash, css, rdf

                      :: content completely removed              :: pdf, zip, ps other binary data (without multimedia)


                      Color :: Coherence Status                                 Shape :: MIME Type


                 Figure 4: Coherence defect visualization of a single crawl-recrawl pair of mpi-inf.mpg.de by visone

                                  Spaniol, A. Mazeika, D. Denev and G.Weikum:
                  ''Catch me if you can'':Visual Analysis of Coherence Defects in Web Archiving
Proceedings of the 9th International Web Archiving Workshop (IWAW 2009), in conjunction with the ECDL 2009
                                                               14
L’archive




    15
Une mémoire de la toile


•   Echantillonnage automatique raisonné et documenté
•   Saisie d’un état
•   Construction de séries temporelles pertinentes
•   Inclusion dans l’internet




                         16
Une infrastructure pour la science


• rôle dans la construction du savoir
   • quel sera l’équivalent des bibliothèque et des
     archives pour le web ?
• CERN de la Web Science
• Inclusion dans l’internet

  Internet Archive: http://archive.org/
  Internet Memory : http://internetmemory.org
  IIPC : http://netpreserve.org/
  Bibliothèque Nationale de France : http://www.bnf.fr
                         17
Figure 5: Evolution of search engines for mobile phone internet services
           M.Toyoda et M. Kitsuregawa, A system for visualizing and analyzing the evolution of the web with a time series of graphs, Salzburg,
                                                     Austria: ACM Press New York, NY, USA, 2005.  
                                                                               i                                k    k            i    k
is positioned almost at the same place over time. When c2                     Ct is merged into a main line (Ct , Ct+1 ), when Ct = Ct
                                                                                  i   k                       i
becomes greater than 1, the strictness of synchronization is                and Ct ∩ Ct+1 = ∅. In this case, Ct is attracted to the main
Quel régime d’archive ?


•   ce que l’on garde ce que l’on ne garde pas (valeur) ?
•   droit à l’oubli ?
•   vie privée
•   accès (humain/machines)
•   ...




                           19
Julien Masanès
Internet Memory Foundation

   internetmemory.org




                 Aux archivistes du Web


            20

Contenu connexe

Tendances

7Jpros : L’Europe de la coopération des bibliothèques par Dr Marian Koren #CT...
7Jpros : L’Europe de la coopération des bibliothèques par Dr Marian Koren #CT...7Jpros : L’Europe de la coopération des bibliothèques par Dr Marian Koren #CT...
7Jpros : L’Europe de la coopération des bibliothèques par Dr Marian Koren #CT...
CTLes
 
Journée de la culture ouverte - Luc Gauvreau
Journée de la culture ouverte - Luc GauvreauJournée de la culture ouverte - Luc Gauvreau
Journée de la culture ouverte - Luc Gauvreau
montrealouvert
 
L'innovation en bibliothèque universitaire
L'innovation en bibliothèque universitaireL'innovation en bibliothèque universitaire
L'innovation en bibliothèque universitaire
Olivier Tacheau
 
LibraryBox, BiblioBox, Pédagobox... CDIBox ?
LibraryBox, BiblioBox, Pédagobox... CDIBox ?LibraryBox, BiblioBox, Pédagobox... CDIBox ?
LibraryBox, BiblioBox, Pédagobox... CDIBox ?
Solène FONT
 

Tendances (20)

Réseaux de bibliothèques à l'ère du cloud : que partager ? comment travailler...
Réseaux de bibliothèques à l'ère du cloud : que partager ? comment travailler...Réseaux de bibliothèques à l'ère du cloud : que partager ? comment travailler...
Réseaux de bibliothèques à l'ère du cloud : que partager ? comment travailler...
 
Projet partenariaux Biblissima (F. Palluault)
Projet partenariaux Biblissima (F. Palluault)Projet partenariaux Biblissima (F. Palluault)
Projet partenariaux Biblissima (F. Palluault)
 
Signalétique Biblliothèque Universitaire d'Angers BUA
Signalétique Biblliothèque Universitaire d'Angers BUASignalétique Biblliothèque Universitaire d'Angers BUA
Signalétique Biblliothèque Universitaire d'Angers BUA
 
7Jpros : L’Europe de la coopération des bibliothèques par Dr Marian Koren #CT...
7Jpros : L’Europe de la coopération des bibliothèques par Dr Marian Koren #CT...7Jpros : L’Europe de la coopération des bibliothèques par Dr Marian Koren #CT...
7Jpros : L’Europe de la coopération des bibliothèques par Dr Marian Koren #CT...
 
Presentation de Biblissima (A.-M. Turcan-Verkerk)
Presentation de Biblissima (A.-M. Turcan-Verkerk)Presentation de Biblissima (A.-M. Turcan-Verkerk)
Presentation de Biblissima (A.-M. Turcan-Verkerk)
 
6jpros - Focus sur les chantiers en cours au CTLes, par Mme Bernadette Patte
6jpros - Focus sur les chantiers en cours au CTLes, par Mme Bernadette Patte6jpros - Focus sur les chantiers en cours au CTLes, par Mme Bernadette Patte
6jpros - Focus sur les chantiers en cours au CTLes, par Mme Bernadette Patte
 
Journée de la culture ouverte - Luc Gauvreau
Journée de la culture ouverte - Luc GauvreauJournée de la culture ouverte - Luc Gauvreau
Journée de la culture ouverte - Luc Gauvreau
 
L'innovation en bibliothèque universitaire
L'innovation en bibliothèque universitaireL'innovation en bibliothèque universitaire
L'innovation en bibliothèque universitaire
 
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIFMieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
 
médiatio
médiatiomédiatio
médiatio
 
Bibliobox
BiblioboxBibliobox
Bibliobox
 
La conservation du patrimoine culturel numérique (2009)
La conservation du patrimoine culturel numérique (2009)La conservation du patrimoine culturel numérique (2009)
La conservation du patrimoine culturel numérique (2009)
 
A la recherche du patrimoine écrit avec le portail Biblissima
A la recherche du patrimoine écrit avec le portail BiblissimaA la recherche du patrimoine écrit avec le portail Biblissima
A la recherche du patrimoine écrit avec le portail Biblissima
 
Comment rendre visible les ressources numériques
Comment rendre visible les ressources numériques Comment rendre visible les ressources numériques
Comment rendre visible les ressources numériques
 
Bibliotheconomie : la conservation
Bibliotheconomie : la conservationBibliotheconomie : la conservation
Bibliotheconomie : la conservation
 
LibraryBox, BiblioBox, Pédagobox... CDIBox ?
LibraryBox, BiblioBox, Pédagobox... CDIBox ?LibraryBox, BiblioBox, Pédagobox... CDIBox ?
LibraryBox, BiblioBox, Pédagobox... CDIBox ?
 
6es journées professionnelles (6jpros) - Notices biographiques et résumé
6es journées professionnelles (6jpros) - Notices biographiques et résumé6es journées professionnelles (6jpros) - Notices biographiques et résumé
6es journées professionnelles (6jpros) - Notices biographiques et résumé
 
6jpros_CollEx et le soutien au PEB, par Mme véronique de kok
6jpros_CollEx et le soutien au PEB, par Mme véronique de kok6jpros_CollEx et le soutien au PEB, par Mme véronique de kok
6jpros_CollEx et le soutien au PEB, par Mme véronique de kok
 
Bibliotheconomie : circuit du livre
Bibliotheconomie : circuit du livreBibliotheconomie : circuit du livre
Bibliotheconomie : circuit du livre
 
7Jpros : Le défi pour la coopération entre bibliothèques : trouver la bonne é...
7Jpros : Le défi pour la coopération entre bibliothèques : trouver la bonne é...7Jpros : Le défi pour la coopération entre bibliothèques : trouver la bonne é...
7Jpros : Le défi pour la coopération entre bibliothèques : trouver la bonne é...
 

Similaire à L'archivage du Web, présentation college de france

Formation Culture numerique - Focus sur le Web
Formation Culture numerique -  Focus sur le WebFormation Culture numerique -  Focus sur le Web
Formation Culture numerique - Focus sur le Web
ABES
 
infrastructure numerique_focusweb_cnfpt2011
 infrastructure numerique_focusweb_cnfpt2011 infrastructure numerique_focusweb_cnfpt2011
infrastructure numerique_focusweb_cnfpt2011
Fleury Christine
 

Similaire à L'archivage du Web, présentation college de france (20)

Rennes-archive-ertzscheid
Rennes-archive-ertzscheidRennes-archive-ertzscheid
Rennes-archive-ertzscheid
 
IIIF et Biblissima
IIIF et BiblissimaIIIF et Biblissima
IIIF et Biblissima
 
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
 
Numérique et société : outils, usages et perspectives
Numérique et société : outils, usages et perspectivesNumérique et société : outils, usages et perspectives
Numérique et société : outils, usages et perspectives
 
Les protocoles IIIF : présentation des potentialités
Les protocoles IIIF : présentation des potentialitésLes protocoles IIIF : présentation des potentialités
Les protocoles IIIF : présentation des potentialités
 
Bibliothèques et crowdsourcing
Bibliothèques et crowdsourcingBibliothèques et crowdsourcing
Bibliothèques et crowdsourcing
 
Introduction à IIIF
Introduction à IIIFIntroduction à IIIF
Introduction à IIIF
 
Petite introduction au livre numérique (BDP du Calvados)
Petite introduction au livre numérique (BDP du Calvados)Petite introduction au livre numérique (BDP du Calvados)
Petite introduction au livre numérique (BDP du Calvados)
 
Bibliotheques numeriques : contenus et mediation
Bibliotheques numeriques : contenus et mediationBibliotheques numeriques : contenus et mediation
Bibliotheques numeriques : contenus et mediation
 
Formation Culture numerique - Focus sur le Web
Formation Culture numerique -  Focus sur le WebFormation Culture numerique -  Focus sur le Web
Formation Culture numerique - Focus sur le Web
 
Les bibliothèques et leurs catalogues 20110324
Les bibliothèques et leurs catalogues   20110324Les bibliothèques et leurs catalogues   20110324
Les bibliothèques et leurs catalogues 20110324
 
infrastructure numerique_focusweb_cnfpt2011
 infrastructure numerique_focusweb_cnfpt2011 infrastructure numerique_focusweb_cnfpt2011
infrastructure numerique_focusweb_cnfpt2011
 
Les bibliotheques numeriques
Les bibliotheques numeriquesLes bibliotheques numeriques
Les bibliotheques numeriques
 
Internet et le Web : de nouveaux espaces à cartographier ?
Internet et le Web : de nouveaux espaces à cartographier ? Internet et le Web : de nouveaux espaces à cartographier ?
Internet et le Web : de nouveaux espaces à cartographier ?
 
Comprendre le web pour se positionner
Comprendre le web pour se positionnerComprendre le web pour se positionner
Comprendre le web pour se positionner
 
La Bibliotheque ClassiqueModerne
La Bibliotheque ClassiqueModerneLa Bibliotheque ClassiqueModerne
La Bibliotheque ClassiqueModerne
 
introduction : transition dans le contexte numerique
introduction :  transition dans le contexte numeriqueintroduction :  transition dans le contexte numerique
introduction : transition dans le contexte numerique
 
Gestion de projet site web
Gestion de projet site webGestion de projet site web
Gestion de projet site web
 
Normes standards (numériques)
Normes standards (numériques)Normes standards (numériques)
Normes standards (numériques)
 
Le livre numérique (Biblioquest, Montpellier 2011)
Le livre numérique (Biblioquest, Montpellier 2011)Le livre numérique (Biblioquest, Montpellier 2011)
Le livre numérique (Biblioquest, Montpellier 2011)
 

L'archivage du Web, présentation college de france

  • 1. L’Archivage du Web Julien Masanès Internet Memory Foundation Collège de France Mars 2012 1
  • 2. Introduction • Centralité du web, application de publication de l’internet • Premier artefact culturel, source pour l’histoire et la science du future • Ce que la problématique de sa préservation nous apprend de ce média 2
  • 4. Mesure • infini (génération à la demande) • cela dépend de l’outil de mesure (crawler) 4
  • 5. Mesure • 555 millions de sites web (Décembre 2011). 200 millions nouveaux sites en 2011 • 152 millions blogs (2010 BlogPulse). • 250 millions tweets par jour sur Twitter en (Oct-2011) • 30 milliards d’éléments de contenus (liens, notes, photos, etc.) partagés sur Facebook chaque mois (2010) 5
  • 7. Mesure 1 million livres/an (Unesco) imprimé : 109 pages web : 1015 pages x 1 million 7
  • 8. Structuré ou non ? • HTML URLs parsé 1,486,186,868 • Domains with Triples 65,408,946 • URLs with Triples 302,809,140 • Typed Entities 1,222,563,749 • Triples 3,294,248,652 Web Data Commons, http://webdatacommons.org/ 8
  • 9. Un système de publication actif • Web Information Systems • Contrôle par le producteur • Publication continue (y compris pages anciennes ‘archivées’) • Frontières de l’objet visé sont flou (un site? ) Conserver implique exactement l’opposé 9
  • 10. Le Web comme artefact culturel • Multimédia, convergence de tous les types de contenus numériques • Hypertexte actionnable • Edité globalement par des centaines de millions de personnes Conservation sans le filtrage traditionnel de l’édition 10
  • 11. Cardinalité • Différent selon les institutions (musées, archives, bibliothèques) • Cardinalité des incunables – 20 millions de livres – 30 000 éditions – 650 • Une cardinalité élevée donne deux avantages pour la conservation : la redondance et le temps 11
  • 12. La cardinalité ‘paradoxale’ du Web • Un nombre virtuellement infini de copies • Mais une très forte dépendance à un serveur unique 12
  • 13. Capture et cohérence • extension temporelle incompressible des capture • en contradiction avec la publication permanente • risque d’incohérence temporelle au sein même de l’archive 13
  • 14. Legend: :: html :: coherent :: image, video, audio :: content incoherent (text only) :: dns :: link structure incoherent :: javascript, flash, css, rdf :: content completely removed :: pdf, zip, ps other binary data (without multimedia) Color :: Coherence Status Shape :: MIME Type Figure 4: Coherence defect visualization of a single crawl-recrawl pair of mpi-inf.mpg.de by visone Spaniol, A. Mazeika, D. Denev and G.Weikum: ''Catch me if you can'':Visual Analysis of Coherence Defects in Web Archiving Proceedings of the 9th International Web Archiving Workshop (IWAW 2009), in conjunction with the ECDL 2009 14
  • 16. Une mémoire de la toile • Echantillonnage automatique raisonné et documenté • Saisie d’un état • Construction de séries temporelles pertinentes • Inclusion dans l’internet 16
  • 17. Une infrastructure pour la science • rôle dans la construction du savoir • quel sera l’équivalent des bibliothèque et des archives pour le web ? • CERN de la Web Science • Inclusion dans l’internet Internet Archive: http://archive.org/ Internet Memory : http://internetmemory.org IIPC : http://netpreserve.org/ Bibliothèque Nationale de France : http://www.bnf.fr 17
  • 18. Figure 5: Evolution of search engines for mobile phone internet services M.Toyoda et M. Kitsuregawa, A system for visualizing and analyzing the evolution of the web with a time series of graphs, Salzburg, Austria: ACM Press New York, NY, USA, 2005.   i k k i k is positioned almost at the same place over time. When c2 Ct is merged into a main line (Ct , Ct+1 ), when Ct = Ct i k i becomes greater than 1, the strictness of synchronization is and Ct ∩ Ct+1 = ∅. In this case, Ct is attracted to the main
  • 19. Quel régime d’archive ? • ce que l’on garde ce que l’on ne garde pas (valeur) ? • droit à l’oubli ? • vie privée • accès (humain/machines) • ... 19
  • 20. Julien Masanès Internet Memory Foundation internetmemory.org Aux archivistes du Web 20