Archivage du Web :Quelle mise en œuvre ?Mercredi 25 septembre 2012ADBS, ParisChloé Martin chloe@internetmemory.netLeïla Me...
Internet MemoryLeïla MedjkouneResponsable des services d’archivageDepuis 2007Chloé MartinResponsable des partenariats et d...
Archivage du Web :Quelle mise en œuvre ?• Etat des lieux• Vous avez dit Archivage du Web ?• Cas Pratiques• Pour aller plus...
Etat des lieux• Omniprésence du Web et de ses contenus• Pourquoi archiver le Web ?• Qui archive le Web ?• Enquête4vendredi...
Le Web ? Ici, là et ailleurs...OmniprésentDynamiqueContenu Webdiversité des formatsEphémèreprécieux5vendredi 19 octobre 2012
Omniprésence du Web• De 50 millions de sites actifs (déc.06) à 190millions (sept.11)• 2,3 milliards d’utilisateurs Interne...
Etat des lieux• Omniprésence du Web et de ses contenus• Pourquoi archiver le Web ?• Qui archive le Web ?• Enquête7vendredi...
• Patrimoine: le Web, un nouveau media• Contraintes légales• dépôt légal,• e-gouvernement,• publications en ligne,• corpor...
Etat des lieux• Omniprésence du Web et de ses contenus• Pourquoi archiver le Web ?• Qui archive le Web ?• Enquête9vendredi...
Qui archive le Web?• Institutions privées(Fondations)• Institutions publiques àvocation patrimoniale• Archives nationales ...
Quelques initiatives...๏ Internet Archive Foundation๏ Bibliothèque du Congrès๏ Archives Nationales UK๏ ...๏ International ...
Etat des lieux• Omniprésence du Web et de ses contenus• Pourquoi archiver le Web ?• Qui archive le Web ?• Enquête12vendred...
Enquête 2010 (Europe)74 réponses sur 365 institutions8%7%1%7%23%5%19%30%Yes, fully operationalYes, operational but still e...
Archivage du Web :Quelle mise en œuvre ?• Etat des lieux• Vous avez dit Archivage du Web ?• Cas Pratiques• Pour aller plus...
Vous avez dit Archivage Web ?• L’archivage du Web en un clin d’oeil• Besoin de compétences particulières ?• Solutions : en...
Quid ?Qu’est-ce qu’une archive Web ?Une copie d’un site webenregistrée par un robot (crawler)à une date et heure spécifique...
Défis d’un projet d’Archive Web• Sélectionner ce qui sera préservé• Définir des frontières• Relever des défis technologiques•...
Comment ? Workflow18vendredi 19 octobre 2012
CollecteCollection horizontale (extensif)vs.Collection verticale (intensif)19vendredi 19 octobre 2012
Vous avez dit Archivage Web ?• L’archivage du Web en un clin d’oeil• Besoin de compétences particulières ?• Solutions : en...
Compétences• Mettre en place une équipe multi-disciplinaire‣ Sélection/contrôle qualité: Bibliothécaire / Conservateur /Ar...
Vous avez dit Archivage Web ?• L’archivage du Web en un clin d’oeil• Besoin de compétences particulières ?• Solutions : en...
ArchiveWeb+ -solutioninterneContrôle de tout le processusBudgets internesEquipe en interneAutonomeRessources humainesInfra...
Outils d’archivage24• Netarchivesuite (http://netarchive.dk/suite/)‣ Open source, développé au Danemark par la RoyalLibrar...
ArchivetheNet• Software-as-a-Service ergonomique et intuitif• 3 modules de gestion automatisés :• Administration• Collecti...
Archivage du Web :Quelle mise en œuvre ?• Etat des lieux• Vous avez dit Archivage du Web ?• Cas Pratiques• Pour aller plus...
Cas pratiques• Préservation• Garder une trace de linformation en ligne au fil des années• Construire une mémoire thématique...
Préservation• Garder une trace de linformation en ligne au fil des ans✓ Parlement du Royaume-Uni✓ CERN (où le Web est né il...
Pour une institutionArchives Web du Parlement anglais29vendredi 19 octobre 2012
Pour un événementBibliothèque nationale d’Irlande146 sites archivés, avant, pendant et après la campagne électorale30vendr...
Projets de recherche• FP6 (2000-2007): 10’000+ projetsfinancés, soit 17+ milliards d’€• Analyse de 200 projets (avril 2012)...
RTS: Refonte de siteD’une refonte de site à un changement d’identité2010 début 2012 aujourd’huiversion archivée version ar...
Cas pratiques• Préservation• Garder une trace de linformation en ligne au fil des années• Construire une mémoire thématique...
Multimedia & Réseaux sociaux• Constituer des archives Web contextualisées✓ Südwestrundfunk (SWR)• Résoudre les difficultés ...
SWR: Festival Rock am RingContexte- Evénement sur 3 joursTaille de la campagne- Site officiel- Site de la TV- Sites des méd...
SWR: Festival Rock am Ring36vendredi 19 octobre 2012
Défi:Video37• Développement d’uneméthode de capture• Remplacement duplayer utilisé•Modification de l’outild’accès pour repro...
Défi :You Tube38Capture archivée Solution génériquevendredi 19 octobre 2012
Défi :Twitter39Capture archivée Solution génériquevendredi 19 octobre 2012
Cas pratiques• Préservation• Garder une trace de linformation en ligne au fil des années• Construire une mémoire thématique...
Usages : Cas des ArchivesNationales du Royaume Uni• Transparence et visibilité :✓ Redirection automatique✓ Memento• Allége...
Visibilité•Accès public•Recherche• par URL et par date de capture• plein texte• navigation par catégorie•Personnalisation•...
D’un site qui n’est plus en ligne43vendredi 19 octobre 2012
aux archives du web44vendredi 19 octobre 2012
et retour au web vivant45vendredi 19 octobre 2012
Memento• Développement pilotépar le Los AlamosNational Laboratory etfinancé par laBibliothèque du Congrès• Vise à intégrer ...
Usage et Presse01002003004005006007008009001000May11June11July11August11Sept.11Oct.11Nov.11Dec.11Jan.12Feb.12March12April1...
Cas pratiques• Préservation• Garder une trace de linformation en ligne au fil des années• Construire une mémoire thématique...
Exemples - RechercheProjet de recherche thématique : enpolitique.com• Etude de lévolution des sites web politiques lors de...
Archivage du Web :Quelle mise en œuvre ?• Etat des lieux• Vous avez dit Archivage du Web ?• Cas Pratiques• Pour aller plus...
Pour aller plus loin...... face aux nombreux challenges du Web et de son archivage• Web caché & profond• Spams & boucles• ...
Internet Memory relève le défi• Crawl sélectif :✓ LiWA (2007-2010)✓ ARCOMEM (2010-2013)• Préservation :✓ SCAPE (2010-2013)•...
Internet MemoryInternet Memory FoundationAmsterdam - Paris• Fondation à but non lucratif• Préservation & Open Accesshttp:/...
Merci de votre attention54vendredi 19 octobre 2012
Prochain SlideShare
Chargement dans…5
×

Archivage du web quelle mise en oeuvre 5à7_sep2012

1 499 vues

Publié le

0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 499
Sur SlideShare
0
Issues des intégrations
0
Intégrations
591
Actions
Partages
0
Téléchargements
10
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Archivage du web quelle mise en oeuvre 5à7_sep2012

  1. 1. Archivage du Web :Quelle mise en œuvre ?Mercredi 25 septembre 2012ADBS, ParisChloé Martin chloe@internetmemory.netLeïla Medjkoune leila.medjkoune@internetmemory.net1vendredi 19 octobre 2012
  2. 2. Internet MemoryLeïla MedjkouneResponsable des services d’archivageDepuis 2007Chloé MartinResponsable des partenariats et dudéveloppementDepuis 20102Deux entités pour une même cause, l’archivage du Web :✓ Internet Memory Foundation, 2005 (anciennement European Archive)✓ Internet Memory Research, spin-off d’IMF, 2011➡ 150 To de données, une douzaine d’institutions partenaires,plusieurs projets de recherche, 20+ ETP motivés !vendredi 19 octobre 2012
  3. 3. Archivage du Web :Quelle mise en œuvre ?• Etat des lieux• Vous avez dit Archivage du Web ?• Cas Pratiques• Pour aller plus loin...3vendredi 19 octobre 2012
  4. 4. Etat des lieux• Omniprésence du Web et de ses contenus• Pourquoi archiver le Web ?• Qui archive le Web ?• Enquête4vendredi 19 octobre 2012
  5. 5. Le Web ? Ici, là et ailleurs...OmniprésentDynamiqueContenu Webdiversité des formatsEphémèreprécieux5vendredi 19 octobre 2012
  6. 6. Omniprésence du Web• De 50 millions de sites actifs (déc.06) à 190millions (sept.11)• 2,3 milliards d’utilisateurs Internet en déc.11pour une population mondiale de 6,9 milliards• Boom des Média sociaux• Facebook (n°1): 250 millions de photos par jour• YouTube (n°2): 830 millions de vidéos par jour• Twitter (n°15): 175 millions de Tweets par jour• LinkedIn (n°29):135 millions de profils• E-gouvernement : 44% des procéduresadministratives des entreprises eur. sonttraitées par voie électronique!"#!"$!"%!"&!"!"(!")!"*!"+!",-./0"1232456.74"189-:0";-<38=0"6.7">??0=3@.0"A93.B0"C3:-."!"#$%&%()*)+,"-.*%/%6vendredi 19 octobre 2012
  7. 7. Etat des lieux• Omniprésence du Web et de ses contenus• Pourquoi archiver le Web ?• Qui archive le Web ?• Enquête7vendredi 19 octobre 2012
  8. 8. • Patrimoine: le Web, un nouveau media• Contraintes légales• dépôt légal,• e-gouvernement,• publications en ligne,• corporate• Recherche• Knowledge Management, Data miningPourquoi archiver le Web ?8vendredi 19 octobre 2012
  9. 9. Etat des lieux• Omniprésence du Web et de ses contenus• Pourquoi archiver le Web ?• Qui archive le Web ?• Enquête9vendredi 19 octobre 2012
  10. 10. Qui archive le Web?• Institutions privées(Fondations)• Institutions publiques àvocation patrimoniale• Archives nationales et régionales• Bibliothèques nationales, régionaleset universitaires• Musées• Organisations internationales➡ IIPC• Sociétés commerciales10vendredi 19 octobre 2012
  11. 11. Quelques initiatives...๏ Internet Archive Foundation๏ Bibliothèque du Congrès๏ Archives Nationales UK๏ ...๏ International InternetPreservation Consortium๏ International Web ArchivingWorkshop๏ En France‣ Bibliothèque nationale deFrance (BnF)‣ Institut national del’Audiovisuel (InA)‣ Quelques initiativesuniversitaires : IEP, université deLorraine,...11vendredi 19 octobre 2012
  12. 12. Etat des lieux• Omniprésence du Web et de ses contenus• Pourquoi archiver le Web ?• Qui archive le Web ?• Enquête12vendredi 19 octobre 2012
  13. 13. Enquête 2010 (Europe)74 réponses sur 365 institutions8%7%1%7%23%5%19%30%Yes, fully operationalYes, operational but still experimentingYes, just starting a Web Archiving projectNo, but we plan to do itNo, no fundingNo, not in our mandateNo, an other institution is already in chargeanswered questionLegal Aspects % NbYes, law is enacted or passed 50% 34Yes, law is expected 16,2% 11Lobbying are in progress 7,4% 5No, we do not applicable law 26,5% 18Answered question 68Access restriction % NbAccess is online for anyone 41% 25Access is online with restrictions 28% 17Access is on site for anyone 18% 11Access is on site with restrictions 21% 13We do not have access: contents arein a completely dark archive21% 13Answered questionAnswered question 61Archive policy % NbDomain crawls - TLD (.uk, .eu, .com…) 23% 12Thematic/selective crawls 71% 37Only our Websites and associated Websites 30,8% 16Answered questionAnswered question 5213vendredi 19 octobre 2012
  14. 14. Archivage du Web :Quelle mise en œuvre ?• Etat des lieux• Vous avez dit Archivage du Web ?• Cas Pratiques• Pour aller plus loin...14vendredi 19 octobre 2012
  15. 15. Vous avez dit Archivage Web ?• L’archivage du Web en un clin d’oeil• Besoin de compétences particulières ?• Solutions : en interne ou en externe ?Quid du Retour sur Investissement15vendredi 19 octobre 2012
  16. 16. Quid ?Qu’est-ce qu’une archive Web ?Une copie d’un site webenregistrée par un robot (crawler)à une date et heure spécifiquesur lequel on peut naviguercomme un site en ligne(vs copie d’écran et back-up)Ex: http://collections.europarchive.org/tna/*/www.tate.org.uk16vendredi 19 octobre 2012
  17. 17. Défis d’un projet d’Archive Web• Sélectionner ce qui sera préservé• Définir des frontières• Relever des défis technologiques• Préserver un contenu non stable• Rendre accessible17vendredi 19 octobre 2012
  18. 18. Comment ? Workflow18vendredi 19 octobre 2012
  19. 19. CollecteCollection horizontale (extensif)vs.Collection verticale (intensif)19vendredi 19 octobre 2012
  20. 20. Vous avez dit Archivage Web ?• L’archivage du Web en un clin d’oeil• Besoin de compétences particulières ?• Solutions : en interne ou en externe ?Quid du Retour sur Investissement20vendredi 19 octobre 2012
  21. 21. Compétences• Mettre en place une équipe multi-disciplinaire‣ Sélection/contrôle qualité: Bibliothécaire / Conservateur /Archiviste,Assistant qualité, Chef de projet‣ Capture de contenu Web/développements: Ingénieur, technicien‣ Création et administration de l’infrastructure: Ingénieur,administrateur système➡ L’archivage duWeb nécessite des compétences et une expériencecruciales, surtout dans le cas d’une solution entièrement en interne.21vendredi 19 octobre 2012
  22. 22. Vous avez dit Archivage Web ?• L’archivage du Web en un clin d’oeil• Besoin de compétences particulières ?• Solutions : en interne ou en externe ?Quid du Retour sur Investissement22vendredi 19 octobre 2012
  23. 23. ArchiveWeb+ -solutioninterneContrôle de tout le processusBudgets internesEquipe en interneAutonomeRessources humainesInfrastructuressolutionexterneDéploiement rapideCoûts adaptables aux volumescollectésEconomie d’échelleEtat de l’artDépendance à une sociétéProblèmes organisationnels(langue, décalage horaire, IP,...)En interne ou en externe ?23vendredi 19 octobre 2012
  24. 24. Outils d’archivage24• Netarchivesuite (http://netarchive.dk/suite/)‣ Open source, développé au Danemark par la RoyalLibrary et la State and University Library• Web curator tool: (http://webcurator.sourceforge.net)‣ Open source, développé par la National Library of NewZealand, la British Library, à l’initiative de IIPC(International Internet Preservation Consortium)• Archive-it (http://www.archive-it.org/)‣ service payant d’archivage Web, développé par InternetArchivevendredi 19 octobre 2012
  25. 25. ArchivetheNet• Software-as-a-Service ergonomique et intuitif• 3 modules de gestion automatisés :• Administration• Collection• Rapports• Processus entièrement automatisé (montée en charge)• Personnalisation du services grâce à des options (QA,...)• Actualisation en continu de l’outils➡ Rapide déploiement➡ Bon Retour sur Investissement (ROI)25vendredi 19 octobre 2012
  26. 26. Archivage du Web :Quelle mise en œuvre ?• Etat des lieux• Vous avez dit Archivage du Web ?• Cas Pratiques• Pour aller plus loin...26vendredi 19 octobre 2012
  27. 27. Cas pratiques• Préservation• Garder une trace de linformation en ligne au fil des années• Construire une mémoire thématique• Fin de projet de recherche• Refonte complète des sites• Multimedia et réseaux sociaux• Archives Web contextualisées dans laudiovisuel• Capture et accès: You Tube,Twitter, etc.• Au delà de la préservation, l’usage des Archives Web• Transparence et visibilité• Allègement des sites• Statistiques d’usage• Recherche27vendredi 19 octobre 2012
  28. 28. Préservation• Garder une trace de linformation en ligne au fil des ans✓ Parlement du Royaume-Uni✓ CERN (où le Web est né il y a plus de 20 ans!)• Construire une mémoire thématique de contenus en ligne✓ Bibliothèque nationale dIrlande• Fin de projets de recherche, disparition du site et du domaine✓ Retour sur les projets de recherche européens,✓ Inside Installations• Refonte complète de sites✓ RTS28vendredi 19 octobre 2012
  29. 29. Pour une institutionArchives Web du Parlement anglais29vendredi 19 octobre 2012
  30. 30. Pour un événementBibliothèque nationale d’Irlande146 sites archivés, avant, pendant et après la campagne électorale30vendredi 19 octobre 2012
  31. 31. Projets de recherche• FP6 (2000-2007): 10’000+ projetsfinancés, soit 17+ milliards d’€• Analyse de 200 projets (avril 2012)• 65% des projets ont fait l’objet d’unsite Web :➡ Tous les sites de projets finis depuismoins de 2 ans sont encoreaccessibles➡ 23% des sites de projets finis depuis3 ans ont disparu➡ 32% des sites de projets finis depuis6 ans ont disparu31vendredi 19 octobre 2012
  32. 32. RTS: Refonte de siteD’une refonte de site à un changement d’identité2010 début 2012 aujourd’huiversion archivée version archivée version en ligne32vendredi 19 octobre 2012
  33. 33. Cas pratiques• Préservation• Garder une trace de linformation en ligne au fil des années• Construire une mémoire thématique• Fin de projet de recherche• Refonte complète des sites• Multimedia et réseaux sociaux• Archives Web contextualisées dans laudiovisuel• Capture et accès: You Tube,Twitter, etc.• Au delà de la préservation, l’usage des Archives Web• Transparence et visibilité• Allègement des sites• Statistiques d’usage• Recherche33vendredi 19 octobre 2012
  34. 34. Multimedia & Réseaux sociaux• Constituer des archives Web contextualisées✓ Südwestrundfunk (SWR)• Résoudre les difficultés d’Accès pour les réseaux sociaux✓ YouTube✓ Twitter34vendredi 19 octobre 2012
  35. 35. SWR: Festival Rock am RingContexte- Evénement sur 3 joursTaille de la campagne- Site officiel- Site de la TV- Sites des médias sociaux- Forum- Sites des médiastraditionnelsFréquence: 5 fois- 3 jour avant l’événement- les 3 jours de l’événement- 3 jour après l’événementProfondeur- Complète pour 1re et 5ecaptures- Partiellement pour 2,3 et 4Limites- Budget- Limites techniques- Restrictions légales- Ressources humainesBénéfices- une vue d’ensemble- suivre l’événement entemps réel- garder une trace de laprésence médiatiqueFestival Rock-am-RingCompleteCrawlCompleteCrawlPartialCrawlPartialCrawlPartialCrawl35vendredi 19 octobre 2012
  36. 36. SWR: Festival Rock am Ring36vendredi 19 octobre 2012
  37. 37. Défi:Video37• Développement d’uneméthode de capture• Remplacement duplayer utilisé•Modification de l’outild’accès pour reproduirel’accès en lignevendredi 19 octobre 2012
  38. 38. Défi :You Tube38Capture archivée Solution génériquevendredi 19 octobre 2012
  39. 39. Défi :Twitter39Capture archivée Solution génériquevendredi 19 octobre 2012
  40. 40. Cas pratiques• Préservation• Garder une trace de linformation en ligne au fil des années• Construire une mémoire thématique• Fin de projet de recherche• Refonte complète des sites• Multimedia et réseaux sociaux• Archives Web contextualisées dans laudiovisuel• Capture et accès: You Tube,Twitter, etc.• Au delà de la préservation, l’usage des Archives Web• Transparence et visibilité• Allègement des sites• Statistiques d’usage• Recherche40vendredi 19 octobre 2012
  41. 41. Usages : Cas des ArchivesNationales du Royaume Uni• Transparence et visibilité :✓ Redirection automatique✓ Memento• Alléger le poids de son site✓ Redirection des Archives des sites vers l’Archive Web• Statistiques dusage✓ Exemple de l’Archive Web d’Irlande41vendredi 19 octobre 2012
  42. 42. Visibilité•Accès public•Recherche• par URL et par date de capture• plein texte• navigation par catégorie•Personnalisation• Logo• Bannière• Catégorie dans la rechercheavancée42vendredi 19 octobre 2012
  43. 43. D’un site qui n’est plus en ligne43vendredi 19 octobre 2012
  44. 44. aux archives du web44vendredi 19 octobre 2012
  45. 45. et retour au web vivant45vendredi 19 octobre 2012
  46. 46. Memento• Développement pilotépar le Los AlamosNational Laboratory etfinancé par laBibliothèque du Congrès• Vise à intégrer lesarchives Web à lanavigation Webvendredi 19 octobre 2012
  47. 47. Usage et Presse01002003004005006007008009001000May11June11July11August11Sept.11Oct.11Nov.11Dec.11Jan.12Feb.12March12April12May12Unique visitors per month• 21/09/2011: Lancement officiel de l’archiveWeb (Tweets)• 26/10/2011: Post sur le Blog nli.ie/blog etarticle dans thejournal.ie• 25/11/2011: article dans irishtimes.com• 20/01/2012: article dans irishtimes.com• 17/03/2012: post sursoundofthearchives.wordpress.com• 04/05/2012: article dans irisheconomy.ieCommunication de la Bibliothèque nationale d’Irlande (NLI)sur son archive Web47vendredi 19 octobre 2012
  48. 48. Cas pratiques• Préservation• Garder une trace de linformation en ligne au fil des années• Construire une mémoire thématique• Fin de projet de recherche• Refonte complète des sites• Multimedia et réseaux sociaux• Archives Web contextualisées dans laudiovisuel• Capture et accès: You Tube,Twitter, etc.• Au delà de la préservation, l’usage des Archives Web• Transparence et visibilité• Allègement des sites• Statistiques d’usage• Recherche48vendredi 19 octobre 2012
  49. 49. Exemples - RechercheProjet de recherche thématique : enpolitique.com• Etude de lévolution des sites web politiques lors decampagnes nationales (France & Québec)• Pertinence du projet face à la disparition des sitesEx: http://toushollande.fr fermé et redirigévers la page Facebook du candidat élu49vendredi 19 octobre 2012
  50. 50. Archivage du Web :Quelle mise en œuvre ?• Etat des lieux• Vous avez dit Archivage du Web ?• Cas Pratiques• Pour aller plus loin...50vendredi 19 octobre 2012
  51. 51. Pour aller plus loin...... face aux nombreux challenges du Web et de son archivage• Web caché & profond• Spams & boucles• Sites dynamiques• Média sociaux• Multimedia• Web Mining51vendredi 19 octobre 2012
  52. 52. Internet Memory relève le défi• Crawl sélectif :✓ LiWA (2007-2010)✓ ARCOMEM (2010-2013)• Préservation :✓ SCAPE (2010-2013)• Big Data et traitement del’information Web :✓ LK (2009-2012)✓ LAWA (2010-2013)✓ TrendMiner (2011-2014)✓ DOPA (2012-2014)✓ AnnoMarket (2012-2014)... et s’engage dans des projets de recherche52vendredi 19 octobre 2012
  53. 53. Internet MemoryInternet Memory FoundationAmsterdam - Paris• Fondation à but non lucratif• Préservation & Open Accesshttp://internetmemory.org@InternetMemoryInternet Memory ResearchParis• Services d’Archivagehttp://archivethe.net@ArchivetheNet• Services de traitement del’information à grande échellehttp://mignify.com@mignify53vendredi 19 octobre 2012
  54. 54. Merci de votre attention54vendredi 19 octobre 2012

×