Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Archivage du web quelle mise en oeuvre 5à7_sep2012

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Chargement dans…3
×

Consultez-les par la suite

1 sur 54 Publicité

Plus De Contenu Connexe

Les utilisateurs ont également aimé (20)

Similaire à Archivage du web quelle mise en oeuvre 5à7_sep2012 (20)

Publicité

Plus par ADBS (20)

Archivage du web quelle mise en oeuvre 5à7_sep2012

  1. 1. Archivage du Web : Quelle mise en œuvre ? Mercredi 25 septembre 2012 ADBS, Paris Chloé Martin chloe@internetmemory.net Leïla Medjkoune leila.medjkoune@internetmemory.net 1 vendredi 19 octobre 2012
  2. 2. Internet Memory Leïla Medjkoune Responsable des services d’archivage Depuis 2007 Chloé Martin Responsable des partenariats et du développement Depuis 2010 2 Deux entités pour une même cause, l’archivage du Web : ✓ Internet Memory Foundation, 2005 (anciennement European Archive) ✓ Internet Memory Research, spin-off d’IMF, 2011 ➡ 150 To de données, une douzaine d’institutions partenaires, plusieurs projets de recherche, 20+ ETP motivés ! vendredi 19 octobre 2012
  3. 3. Archivage du Web : Quelle mise en œuvre ? • Etat des lieux • Vous avez dit Archivage du Web ? • Cas Pratiques • Pour aller plus loin... 3 vendredi 19 octobre 2012
  4. 4. Etat des lieux • Omniprésence du Web et de ses contenus • Pourquoi archiver le Web ? • Qui archive le Web ? • Enquête 4 vendredi 19 octobre 2012
  5. 5. Le Web ? Ici, là et ailleurs... Omniprésent Dynamique Contenu Web diversité des formats Ephémère précieux 5 vendredi 19 octobre 2012
  6. 6. Omniprésence du Web • De 50 millions de sites actifs (déc.06) à 190 millions (sept.11) • 2,3 milliards d’utilisateurs Internet en déc.11 pour une population mondiale de 6,9 milliards • Boom des Média sociaux • Facebook (n°1): 250 millions de photos par jour • YouTube (n°2): 830 millions de vidéos par jour • Twitter (n°15): 175 millions de Tweets par jour • LinkedIn (n°29):135 millions de profils • E-gouvernement : 44% des procédures administratives des entreprises eur. sont traitées par voie électronique !" #!" $!" %!" &!" '!" (!" )!" *!" +!" , -./0"1232456.74" 189-:0" ;-<38= 0"6.7">??0= 3@.0" A93.B0" C3:-." !"#$%&'%()*)+,"-.*%/% 6 vendredi 19 octobre 2012
  7. 7. Etat des lieux • Omniprésence du Web et de ses contenus • Pourquoi archiver le Web ? • Qui archive le Web ? • Enquête 7 vendredi 19 octobre 2012
  8. 8. • Patrimoine: le Web, un nouveau media • Contraintes légales • dépôt légal, • e-gouvernement, • publications en ligne, • corporate • Recherche • Knowledge Management, Data mining Pourquoi archiver le Web ? 8 vendredi 19 octobre 2012
  9. 9. Etat des lieux • Omniprésence du Web et de ses contenus • Pourquoi archiver le Web ? • Qui archive le Web ? • Enquête 9 vendredi 19 octobre 2012
  10. 10. Qui archive le Web? • Institutions privées (Fondations) • Institutions publiques à vocation patrimoniale • Archives nationales et régionales • Bibliothèques nationales, régionales et universitaires • Musées • Organisations internationales ➡ IIPC • Sociétés commerciales 10 vendredi 19 octobre 2012
  11. 11. Quelques initiatives... ๏ Internet Archive Foundation ๏ Bibliothèque du Congrès ๏ Archives Nationales UK ๏ ... ๏ International Internet Preservation Consortium ๏ International Web Archiving Workshop ๏ En France ‣ Bibliothèque nationale de France (BnF) ‣ Institut national de l’Audiovisuel (InA) ‣ Quelques initiatives universitaires : IEP, université de Lorraine,... 11 vendredi 19 octobre 2012
  12. 12. Etat des lieux • Omniprésence du Web et de ses contenus • Pourquoi archiver le Web ? • Qui archive le Web ? • Enquête 12 vendredi 19 octobre 2012
  13. 13. Enquête 2010 (Europe) 74 réponses sur 365 institutions 8% 7% 1% 7% 23% 5% 19% 30% Yes, fully operational Yes, operational but still experimenting Yes, just starting a Web Archiving project No, but we plan to do it No, no funding No, not in our mandate No, an other institution is already in charge answered question Legal Aspects % Nb Yes, law is enacted or passed 50% 34 Yes, law is expected 16,2% 11 Lobbying are in progress 7,4% 5 No, we do not applicable law 26,5% 18 Answered question 68 Access restriction % Nb Access is online for anyone 41% 25 Access is online with restrictions 28% 17 Access is on site for anyone 18% 11 Access is on site with restrictions 21% 13 We do not have access: contents are in a completely dark archive 21% 13 Answered questionAnswered question 61 Archive policy % Nb Domain crawls - TLD (.uk, .eu, .com…) 23% 12 Thematic/selective crawls 71% 37 Only our Websites and associated Websites 30,8% 16 Answered questionAnswered question 52 13 vendredi 19 octobre 2012
  14. 14. Archivage du Web : Quelle mise en œuvre ? • Etat des lieux • Vous avez dit Archivage du Web ? • Cas Pratiques • Pour aller plus loin... 14 vendredi 19 octobre 2012
  15. 15. Vous avez dit Archivage Web ? • L’archivage du Web en un clin d’oeil • Besoin de compétences particulières ? • Solutions : en interne ou en externe ? Quid du Retour sur Investissement 15 vendredi 19 octobre 2012
  16. 16. Quid ? Qu’est-ce qu’une archive Web ? Une copie d’un site web enregistrée par un robot (crawler) à une date et heure spécifique sur lequel on peut naviguer comme un site en ligne (vs copie d’écran et back-up) Ex: http://collections.europarchive.org/tna/*/www.tate.org.uk 16 vendredi 19 octobre 2012
  17. 17. Défis d’un projet d’Archive Web • Sélectionner ce qui sera préservé • Définir des frontières • Relever des défis technologiques • Préserver un contenu non stable • Rendre accessible 17 vendredi 19 octobre 2012
  18. 18. Comment ? Workflow 18 vendredi 19 octobre 2012
  19. 19. Collecte Collection horizontale (extensif) vs. Collection verticale (intensif) 19 vendredi 19 octobre 2012
  20. 20. Vous avez dit Archivage Web ? • L’archivage du Web en un clin d’oeil • Besoin de compétences particulières ? • Solutions : en interne ou en externe ? Quid du Retour sur Investissement 20 vendredi 19 octobre 2012
  21. 21. Compétences • Mettre en place une équipe multi-disciplinaire ‣ Sélection/contrôle qualité: Bibliothécaire / Conservateur / Archiviste,Assistant qualité, Chef de projet ‣ Capture de contenu Web/développements: Ingénieur, technicien ‣ Création et administration de l’infrastructure: Ingénieur, administrateur système ➡ L’archivage duWeb nécessite des compétences et une expérience cruciales, surtout dans le cas d’une solution entièrement en interne. 21 vendredi 19 octobre 2012
  22. 22. Vous avez dit Archivage Web ? • L’archivage du Web en un clin d’oeil • Besoin de compétences particulières ? • Solutions : en interne ou en externe ? Quid du Retour sur Investissement 22 vendredi 19 octobre 2012
  23. 23. Archive Web + - solution interne Contrôle de tout le processus Budgets internes Equipe en interne Autonome Ressources humaines Infrastructures solution externe Déploiement rapide Coûts adaptables aux volumes collectés Economie d’échelle Etat de l’art Dépendance à une société Problèmes organisationnels (langue, décalage horaire, IP,...) En interne ou en externe ? 23 vendredi 19 octobre 2012
  24. 24. Outils d’archivage 24 • Netarchivesuite (http://netarchive.dk/suite/) ‣ Open source, développé au Danemark par la Royal Library et la State and University Library • Web curator tool: (http://webcurator.sourceforge.net) ‣ Open source, développé par la National Library of New Zealand, la British Library, à l’initiative de IIPC (International Internet Preservation Consortium) • Archive-it (http://www.archive-it.org/) ‣ service payant d’archivage Web, développé par Internet Archive vendredi 19 octobre 2012
  25. 25. ArchivetheNet • Software-as-a-Service ergonomique et intuitif • 3 modules de gestion automatisés : • Administration • Collection • Rapports • Processus entièrement automatisé (montée en charge) • Personnalisation du services grâce à des options (QA,...) • Actualisation en continu de l’outils ➡ Rapide déploiement ➡ Bon Retour sur Investissement (ROI) 25 vendredi 19 octobre 2012
  26. 26. Archivage du Web : Quelle mise en œuvre ? • Etat des lieux • Vous avez dit Archivage du Web ? • Cas Pratiques • Pour aller plus loin... 26 vendredi 19 octobre 2012
  27. 27. Cas pratiques • Préservation • Garder une trace de l'information en ligne au fil des années • Construire une mémoire thématique • Fin de projet de recherche • Refonte complète des sites • Multimedia et réseaux sociaux • Archives Web contextualisées dans l'audiovisuel • Capture et accès: You Tube,Twitter, etc. • Au delà de la préservation, l’usage des Archives Web • Transparence et visibilité • Allègement des sites • Statistiques d’usage • Recherche 27 vendredi 19 octobre 2012
  28. 28. Préservation • Garder une trace de l'information en ligne au fil des ans ✓ Parlement du Royaume-Uni ✓ CERN (où le Web est né il y a plus de 20 ans!) • Construire une mémoire thématique de contenus en ligne ✓ Bibliothèque nationale d'Irlande • Fin de projets de recherche, disparition du site et du domaine ✓ Retour sur les projets de recherche européens, ✓ Inside Installations • Refonte complète de sites ✓ RTS 28 vendredi 19 octobre 2012
  29. 29. Pour une institution Archives Web du Parlement anglais 29 vendredi 19 octobre 2012
  30. 30. Pour un événement Bibliothèque nationale d’Irlande 146 sites archivés, avant, pendant et après la campagne électorale 30 vendredi 19 octobre 2012
  31. 31. Projets de recherche • FP6 (2000-2007): 10’000+ projets financés, soit 17+ milliards d’€ • Analyse de 200 projets (avril 2012) • 65% des projets ont fait l’objet d’un site Web : ➡ Tous les sites de projets finis depuis moins de 2 ans sont encore accessibles ➡ 23% des sites de projets finis depuis 3 ans ont disparu ➡ 32% des sites de projets finis depuis 6 ans ont disparu 31 vendredi 19 octobre 2012
  32. 32. RTS: Refonte de site D’une refonte de site à un changement d’identité 2010 début 2012 aujourd’hui version archivée version archivée version en ligne 32 vendredi 19 octobre 2012
  33. 33. Cas pratiques • Préservation • Garder une trace de l'information en ligne au fil des années • Construire une mémoire thématique • Fin de projet de recherche • Refonte complète des sites • Multimedia et réseaux sociaux • Archives Web contextualisées dans l'audiovisuel • Capture et accès: You Tube,Twitter, etc. • Au delà de la préservation, l’usage des Archives Web • Transparence et visibilité • Allègement des sites • Statistiques d’usage • Recherche 33 vendredi 19 octobre 2012
  34. 34. Multimedia & Réseaux sociaux • Constituer des archives Web contextualisées ✓ Südwestrundfunk (SWR) • Résoudre les difficultés d’Accès pour les réseaux sociaux ✓ YouTube ✓ Twitter 34 vendredi 19 octobre 2012
  35. 35. SWR: Festival Rock am Ring Contexte - Evénement sur 3 jours Taille de la campagne - Site officiel - Site de la TV - Sites des médias sociaux - Forum - Sites des médias traditionnels Fréquence: 5 fois - 3 jour avant l’événement - les 3 jours de l’événement - 3 jour après l’événement Profondeur - Complète pour 1re et 5e captures - Partiellement pour 2,3 et 4 Limites - Budget - Limites techniques - Restrictions légales - Ressources humaines Bénéfices - une vue d’ensemble - suivre l’événement en temps réel - garder une trace de la présence médiatique Festival Rock-am-Ring Complete Crawl Complete CrawlPartial Crawl Partial Crawl Partial Crawl 35 vendredi 19 octobre 2012
  36. 36. SWR: Festival Rock am Ring 36 vendredi 19 octobre 2012
  37. 37. Défi:Video 37 • Développement d’une méthode de capture • Remplacement du player utilisé •Modification de l’outil d’accès pour reproduire l’accès en ligne vendredi 19 octobre 2012
  38. 38. Défi :You Tube 38 Capture archivée Solution générique vendredi 19 octobre 2012
  39. 39. Défi :Twitter 39 Capture archivée Solution générique vendredi 19 octobre 2012
  40. 40. Cas pratiques • Préservation • Garder une trace de l'information en ligne au fil des années • Construire une mémoire thématique • Fin de projet de recherche • Refonte complète des sites • Multimedia et réseaux sociaux • Archives Web contextualisées dans l'audiovisuel • Capture et accès: You Tube,Twitter, etc. • Au delà de la préservation, l’usage des Archives Web • Transparence et visibilité • Allègement des sites • Statistiques d’usage • Recherche 40 vendredi 19 octobre 2012
  41. 41. Usages : Cas des Archives Nationales du Royaume Uni • Transparence et visibilité : ✓ Redirection automatique ✓ Memento • Alléger le poids de son site ✓ Redirection des Archives des sites vers l’Archive Web • Statistiques d'usage ✓ Exemple de l’Archive Web d’Irlande 41 vendredi 19 octobre 2012
  42. 42. Visibilité •Accès public •Recherche • par URL et par date de capture • plein texte • navigation par catégorie •Personnalisation • Logo • Bannière • Catégorie dans la recherche avancée 42 vendredi 19 octobre 2012
  43. 43. D’un site qui n’est plus en ligne 43 vendredi 19 octobre 2012
  44. 44. aux archives du web 44 vendredi 19 octobre 2012
  45. 45. et retour au web vivant 45 vendredi 19 octobre 2012
  46. 46. Memento • Développement piloté par le Los Alamos National Laboratory et financé par la Bibliothèque du Congrès • Vise à intégrer les archives Web à la navigation Web vendredi 19 octobre 2012
  47. 47. Usage et Presse 0 100 200 300 400 500 600 700 800 900 1000 M ay 11June 11July 11 August11Sept.11O ct.11N ov.11D ec.11Jan.12Feb.12 M arch 12April12M ay 12 Unique visitors per month • 21/09/2011: Lancement officiel de l’archive Web (Tweets) • 26/10/2011: Post sur le Blog nli.ie/blog et article dans thejournal.ie • 25/11/2011: article dans irishtimes.com • 20/01/2012: article dans irishtimes.com • 17/03/2012: post sur soundofthearchives.wordpress.com • 04/05/2012: article dans irisheconomy.ie Communication de la Bibliothèque nationale d’Irlande (NLI) sur son archive Web 47 vendredi 19 octobre 2012
  48. 48. Cas pratiques • Préservation • Garder une trace de l'information en ligne au fil des années • Construire une mémoire thématique • Fin de projet de recherche • Refonte complète des sites • Multimedia et réseaux sociaux • Archives Web contextualisées dans l'audiovisuel • Capture et accès: You Tube,Twitter, etc. • Au delà de la préservation, l’usage des Archives Web • Transparence et visibilité • Allègement des sites • Statistiques d’usage • Recherche 48 vendredi 19 octobre 2012
  49. 49. Exemples - Recherche Projet de recherche thématique : enpolitique.com • Etude de l'évolution des sites web politiques lors de campagnes nationales (France & Québec) • Pertinence du projet face à la disparition des sites Ex: http://toushollande.fr fermé et redirigé vers la page Facebook du candidat élu 49 vendredi 19 octobre 2012
  50. 50. Archivage du Web : Quelle mise en œuvre ? • Etat des lieux • Vous avez dit Archivage du Web ? • Cas Pratiques • Pour aller plus loin... 50 vendredi 19 octobre 2012
  51. 51. Pour aller plus loin... ... face aux nombreux challenges du Web et de son archivage • Web caché & profond • Spams & boucles • Sites dynamiques • Média sociaux • Multimedia • Web Mining 51 vendredi 19 octobre 2012
  52. 52. Internet Memory relève le défi • Crawl sélectif : ✓ LiWA (2007-2010) ✓ ARCOMEM (2010-2013) • Préservation : ✓ SCAPE (2010-2013) • Big Data et traitement de l’information Web : ✓ LK (2009-2012) ✓ LAWA (2010-2013) ✓ TrendMiner (2011-2014) ✓ DOPA (2012-2014) ✓ AnnoMarket (2012-2014) ... et s’engage dans des projets de recherche 52 vendredi 19 octobre 2012
  53. 53. Internet Memory Internet Memory Foundation Amsterdam - Paris • Fondation à but non lucratif • Préservation & Open Access http://internetmemory.org @InternetMemory Internet Memory Research Paris • Services d’Archivage http://archivethe.net @ArchivetheNet • Services de traitement de l’information à grande échelle http://mignify.com @mignify 53 vendredi 19 octobre 2012
  54. 54. Merci de votre attention 54 vendredi 19 octobre 2012

×