"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Ma...
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Ma...
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Ma...
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Ma...
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Ma...
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Ma...
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Ma...
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Ma...
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Ma...
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Ma...
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Ma...
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Ma...
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Ma...
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Ma...
Prochain SlideShare
Chargement dans…5
×

"Il était une fois dans le web, 20 ans d'archives de l'internet en France" compte-rendu réalisé par Sébastien Pont

274 vues

Publié le

Compte-rendu de la journée d'études "Il était une fois dans le web, 20 ans d'archives de l'internet en France" (23 novembre 2016 - BnF) par Sébastien Pont, étudiant en Master II de recherche en histoire contemporaine (Aix-Marseille Université)

Publié dans : Internet
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
274
Sur SlideShare
0
Issues des intégrations
0
Intégrations
162
Actions
Partages
0
Téléchargements
2
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

"Il était une fois dans le web, 20 ans d'archives de l'internet en France" compte-rendu réalisé par Sébastien Pont

  1. 1. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 1 Compte-rendu par Sébastien Pont Janvier 2017
  2. 2. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 2 Table des matières Préambule 3 "Il était une fois dans le web, 20 ans d'archives de l'internet en France". 3 Regards croisés sur les outils d'accès à la BnF et à l'Ina. 4 L'expérience des ateliers du dépôt légal du web de l'Ina. 5 Les archives de l'internet comme sources : méthodes et représentations. 6 L'adoption de la loi DADVSI et les enjeux juridiques. 8 Archives de l'internet et territoires. 9 La reconnaissance du patrimoine nativement numérique. 10 Collecter de nouveaux objets sur internet. 11 Archivage du web, le temps des expérimentations en France. 12 La création du .fr 12 Premiers sites web, premières communautés, témoignages. 13 Bilan 14
  3. 3. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 3 Préambule Le colloque "Il était une fois dans le web, 20 ans d'archives de l'internet en France", organisé par la BnF François Mitterrand et l'Ina, avec le soutien de l'Université Paris- Lumière et Web 90, s'est tenu au sein du site François-Mitterrand de la BnF le 23 novembre 2016. Il a pour but d'effectuer un bilan de l'archivage du web. Le déroulé de la journée suit un ordre antéchronologique et fait intervenir les principaux acteurs qui ont œuvré en amont, pendant et après l'instauration du dépôt légal sur les archives de l'internet. La matinée aborde les usages actuels des archives de l'internet, en présentant tout d'abord les outils d'accès à ces archives dans les institutions dépositaires du dépôt légal que sont l'Ina et la BnF. Ensuite est présenté l'élaboration des méthodologies pour l'utilisation de ces archives, au travers de l'expérience des ateliers du dépôt légal du web organisés par l'Ina. S’ensuit les usages transdisciplinaires de ces archives qui sont présentés par des chercheurs, qui exposent par ailleurs les utilisations qui peuvent être faites avec les archives de l'internet. L'après-midi commence par un historique de la loi DADVSI et ses enjeux juridiques. En complémentarité suit une présentation des territoires de l'archive, du point de vue de ses conditions d'accès comme des enjeux nationaux qui s'y rattachent. Ensuite est traitée la reconnaissance des particularités de l'archive de l'internet du fait de son statut numérique et les formes et les expressions de sa collecte. S'ensuit le partage de l'expérience conjointe des deux dépositaires du dépôt légal et les méthodologies qu'ils emploient respectivement. Enfin, les aspects techniques de l'archivage et de son contenu sont exposés, tout comme l'expérience de pionniers du web. Premier colloque du genre en France, il se veut donc pluridisciplinaire et tend à aborder tous les enjeux de l'archivage de l'internet. Il s'adresse à toutes les personnes qui utilisent ces archives, de près ou de loin, ainsi qu'aux curieux désirant mieux en connaître les usages et le potentiel. « Il était une fois dans le web, 20 ans d'archives de l'internet en France » L'introduction de la journée est effectuée par Sylvaine Tarsot-Gillery, directrice générale de la BnF depuis 2014, et Agnès Magnien, directrice chargée des collections à l'Ina depuis 2014, chargée de représenter Laurent Vallet, président-directeur général de l'Ina depuis 2015. Sylvaine Tarsot-Gillery commence par poser ce séminaire comme une pierre d'étape. Il rassemble en effet plusieurs dates symboliques, à savoir les vingt ans des collections (en accord avec la fondation Internet Archive), les dix ans de la loi DADVSI, les cinq ans de son décret d'application et enfin la première année d'exercice du projet Corpus. Ce colloque est donc l'occasion d'un arrêt sur image pour faire le point sur les avancées, l'état actuel et les perspectives d'avenir du dépôt légal du Web. Elle souligne la matière hautement évolutive de ces collections sur le web, car lui-même par nature en perpétuel changement, et le travail du ministère de la culture pour l'évolution du cadre juridique des documents numériques va dans ce sens. En plus du
  4. 4. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 4 projet Corpus1 , la BnF a effectué la refonte de l'application permettant l'accès aux archives de l'internet, avec désormais un design repensé et de nouveaux outils. Des plateformes archives de l'internet labs ont été ouvertes à des équipes de recherches afin de travailler sur des nouveaux modes d'exploration de collections et pour documenter certains événements comme les attentats de Paris ou l'ANR Web 90 qui se charge de documenter le Web des années 1990. Elle souligne l'enjeux que représentent ces données de l'archive de l'internet - qui ont une valeur informative et patrimoniale - et leur nature très volatile, d'où la nécessité de les conserver afin de ne pas perdre la mémoire de cette production électronique. Par ailleurs, la BnF est cofondatrice d'un consortium international pour la préservation de l'internet depuis 2003. La méthode de la BnF est un juste milieu entre une collecte large quantitative et une collecte ciblée qualitative. De partenariats sont établis avec des bureaux d'enregistrements et des chercheurs afin de couvrir un champ large de l'internet et à même de couvrir une mémoire. Des campagnes sont menées pour collecter des sites plus en profondeur, avec leur architecture et la possibilité de les rafraichir et d'accéder à l'ensemble des données qu'ils comportent. Elle souligne le volume de données considérables que cela représente. D'autre part, l'accès à ces données se développe. Depuis 2008 l'accès distant aux collections du l'internet se déploie dans les bibliothèques de recherche en région. Ces efforts sont faits dans le but de contribuer aux humanités numériques et les disciplines émergentes qui valorisent ces sources nouvelles. Agnès Magnien s'associe à Sylvaine Tarsot-Gillery pour souligner l'importance de ce colloque "étape", dont les enjeux sont de réfléchir aux méthodes, objectifs et enjeux de la construction de la mémoire contemporaine et son accessibilité. Elle souligne l'importance de rendre accessibles les archives de l'internet en prenant en compte les besoins des usagers. Elle souligne enfin l'importance pour l'Ina et la BnF de travailler ensemble, dans des missions qui sont complémentaires. Regards croisés sur les outils d'accès à la BnF et à l'Ina Zeynep Pehlivan est ingénieur de recherche à l'Ina et Peter Tirling chargé de collections numériques à la BnF. La présentation de Peter et Zeynep a pour enjeux de présenter les outils d'accès développés par l'Ina et la BnF pour l'accès aux archives de l'internet. Peter Tirling commence par affirmer que le succès des archives repose sur ses outils. Son travail est de reprendre les besoins des utilisateurs, chercheurs et amateurs. Les captations s'effectuent de manière (avec une captation générale en 2016 de près de 4, 4 millions de domaines), et de manière plus ciblées, c'est-à-dire plus complètes et régulières (en 2016 près de 22 000 sites). À cela s'ajoute les acquisitions rétrospectives auprès de l'Internet Archive (Les documents antérieurs à la mise en fonction des captations par l'Ina et la BnF ont été racheté à la fondation Internet Archive). L'interface de la BnF a été refaite récemment. La page d'accueil concentre une sélection de sites effectuée par des bibliothécaires. Un outil permet une recherche par URL, un calendrier propose la visualisation de captures 1 Service d'extraction de corpus à des fins de fouille de textes et de données développé par la BnF
  5. 5. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 5 effectuées par les robots, et enfin la navigation à l'intérieur du site. Il y a la possibilité de générer un permalien afin de pouvoir citer précisément le site internet consulté. Une recherche plus thématique est possible avec des parcours guidés effectués par des chercheurs et des instituts de recherche. Enfin, la BnF est en train de tester un prototype d'outil de recherche plein texte calqué sur l'outil utilisé par la British Library. Zeynep Pehlivan poursuit en présentant l'algorithme de captation de l'Ina établit en 2009. Jusqu'en 2008, les ressources sont celles archivées par l'Internet Archive. S'ensuit une présentation de la recherche avec les outils de l'Ina. Il existe trois possibilités de recherche : par URL, au sein du catalogue ou plein texte. Ensuite, le chercheur détermine le choix du jour, de l'heure. Il peut ensuite naviguer au sein du site, de manière plus ou moins profonde suivant la captation effectuée. En 2010 est mis au point un système de captation des plateformes vidéo, et en 2011 une recherche des vidéos est permise. Les vidéos peuvent être visualisées indépendamment de leur provenance. On peut à ce titre retrouver des contenus issus des plateformes Youtube, Dailymotion ou France TV. La captation de Twitter s'effectue depuis 2015. Pour toute recherche, il est possible au chercheur de générer des statistiques d’enregistrer ses recherches, d'exporter ses résultats et de créer un corpus grâce à un compte personnel. D'autre part, une cellule de recherche ASAP a été mise en place suite aux attentats de 2015, et se veut constituer des archives de sauvegarde au sujet des attentats Paris, afin de recueillir une mémoire du web suite aux attentats de Paris. Zeynep Pehlivan conclue en listant les projets de recherche commun : l'ANR Web 90 , l'ASAP et le RESAW. L'expérience des ateliers du dépôt légal du web de l'Ina Louise Merzeau est enseignant-chercheur en sciences de l'information et de la communication à l'Université Paris Ouest Nanterre La Défense et directrice adjointe du laboratoire Dicen-IDF. Claude Mussou est responsable de l'Inathèque. Les ateliers Ina Dépôt Légal Web (abrégé Ina DL Web) ont été lancés dans le prolongement d'une formule d'ateliers de recherche méthodologique après que le dépôt légal de la télévision et de la radio ait été mis en place. Ils consistent en un travail conjoint entre institutions et chercheurs pour penser les usages des archives du dépôt légal. Il s'agit également de mettre au point et valider des outils d'accès aux archives de l'internet et entamer des recherches pour aider leur valorisation scientifique. Louise Merzeau souligne qu'il s'agit de cerner les attentes des chercheurs, c'est-à-dire de comprendre et d'accompagner leurs pratiques, créant ainsi un circuit qui va de l'archive aux usages en passant par la recherche documentaire. Il s'agit avant tout de développer une réflexivité des sciences humaines et sociales sur ces outils. Trois points essentiels sont mis en avant : prolonger les ateliers du dépôt légal de la radio et de la télévision, anticiper les usages et la consultation, et penser le web comme ressource et/ou dispositif. Au cours des ateliers, une historiographie du web est mise au jour. Il s'agit de travailler avec de nouvelles sources et de nouveaux outils, et déterminer ainsi la place du web dans nos sociétés. Claude Mussou poursuit en relevant que les projets de recherche concrets sont rares en ce qui concerne la recherche sur le web. Les ateliers Ina DL ont été réorientés en 2015 avec la création des "labs",
  6. 6. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 6 c'est-à-dire des ateliers plus concentrés dans le temps et sur des thématiques plus précises et concrètes. Le premier portait sur les tweets et les attentats de Paris en 2015, avec la collaboration de REAPS et ASAP du CNRS. Il s'agit de présenter les outils d'accès et de poursuivre la collaboration au-delà de l'atelier. Elles invitent à consulter le site DICEN IDF, à l'origine blog des ateliers devenus site à part entière. Les archives de l'internet comme sources : méthodes et représentations Valérie Beaudouin est directrice d'études à Télécom Paris-Tech - UMR 13. Sophie Gebeil est maître de conférences en histoire à l'ESPÉ d'Aix-Marseille et au laboratoire TELEMME. Francesca Musiani et Valérie Schafer sont chargés de recherche à l'ISCC, CNRS, Paris- Sorbonne, UPMC. Marie-Luce Viaud est chef de projet Recherche et développement à l'Ina. Dana Diminescu est sociologue et enseignant-chercheur à Télécom Paris-Tech. La table ronde fait intervenir des chercheurs qui utilisent les sources du Web comme base pour leurs travaux et a pour objectif de présenter ces travaux et leurs méthodologies. Sophie Gebeil entame la discussion en précisant que ses travaux se basent sur les bases de données conjointes de l'Ina et de la BnF. Ses recherches visent à comprendre comment la toile a été mobilisée par les acteurs mémoriels pour donner à voir une autre histoire de l'immigration, souvent perçue comme une mémoire minoritaire. Au départ, cinq cent références d'archive constituaient sont corpus, et il a été restreint à treize dispositifs archivés sur la décennie, privilégiant ainsi la méthode qualitative. Marie-Luce Viaud développe quant à elle des outils pour suivre l'actualité quel que soit le support ou la façon dont elle se propage. Valérie Schafer et Francesca Musiani travaillent conjointement sur les archives portant sur le web des années 1990, l'archivage de Twitter (et donc le web récent) et les incunables du web. Francesca Musiani a une démarche sociologique puisqu'elle se concentre sur les aspects techniques de l'innovation, sa mise en pratique et sa réception. Valérie Beaudouin travaille quant à elle sur la question des usages de l'internet depuis la fin des années 1990. Elle a pour priorité la constitution d'un corpus, à la vue de la nature changeante du web. Il s'agit de stabiliser un corpus de données sous peine de voir les travaux effectués sans valeur. De sa propre expérience, les corpus constitués au départ à partir de moyens personnels sont aujourd'hui inexploitables puisque n'appliquant pas une méthodologie adéquate. Depuis trois ans est mis en place un projet de recherche sur le patrimoine numérisé en ligne autour de la Grande Guerre auquel elle participe. Plutôt que d'exploiter le web vivant, par nature trop changeant, le projet de recherche a fait le choix de travailler uniquement avec les données archivées par la BnF. Il s'agit alors de cartographier l'espace de ces sites web et déterminer leurs relations. Se dégage ainsi deux sphères : d'une part une sphère institutionnelle, avec musées et lieux de mémoire officiels, et d'autre part une sphère d'amateurs très active et qui représente la moitié du corpus. Les travaux de recherche de Dana Diminescu portent sur l'étude des diasporas sur le web. Elle et son équipe de recherche ont à ce titre développé un outil disponible sur le web, "e-diaspora". Associée au départ au site internet PAJOL (Site internet pour l'aide et la défense des
  7. 7. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 7 sans-papiers), Dana Diminescu a constaté l'essoufflement du site et a eu la volonté de ne pas perdre les informations qui s'y étaient accumulées, ce qui l'a amené à s'intéresser à l'archivage du web. Les archives du web qu'elle étudie lui permettent d'analyser la migration d'auteurs de blogs personnels vers Twitter, des recherches qu'elle ne peut d'ailleurs pas mener avec d'autres sources. Ainsi, elle peut identifier de nouveaux acteurs, voir les groupes émergents et ceux dominants en ce qui concerne les diasporas en ligne. Le travail de Marie-Luce Viaud est de suivre les archives du web et d'en faire des corrélations afin de déterminer comment une communauté va réagir à des chocs. Elle prend l'exemple de la polémique apparue au cours de l'été 2016 sur le burkini. De la loi mise en application par un maire à la réaction politique gouvernementale, les outils issus du web ont pris une importance fondamentale pour la transmission de l'information, bien qu'il n'ait pas été le seul. Elle souligne que si le web donne une impression d'avoir tout vu, il reflète en réalité qu'une vision de la collecte et non de la production effective. D'autre part, dans le cas des émissions de télévisions, les interventions postées sur le web par les téléspectateurs sont par nature subjectives. Ces derniers n'en occupent pas moins la base de travaux scientifiques. Il s'agit alors d'élaborer des méthodes rigoureuses et des outils pour pouvoir travailler avec ce type de source. Valérie Beaudouin complète ce constat en précisant que les archives du web font l'objet de collectes très bien documentées par les conservateurs et les bibliothèques. Le chercheur est donc face non pas à une nature mouvante des sources relatives au web, mais face à un corpus documenté. De plus, les possibilités de l'archivage permettent de revenir aux données initiales telles qu'elles se présentaient à l'utilisateur au moment où elles ont été créées. Enfin, Valérie Beaudouin met un point d'honneur à expliciter les méthodes employées, afin de permettre la reproductibilité des recherches. En faisant des hypothèses et des choix, les travaux effectués doivent pouvoir être mis en discussion et repris par une nouvelle équipe de recherche, afin de faire avancer la recherche de façon collective. Un double discours est ainsi permis : documenter à la fois un événement et la manière de le traiter, pouvant ainsi nourrir les historiographies à venir. Dana Diminescu rappelle que l'exhaustivité du web est impossible mais suffisant pour son exploitation, dans la mesure où les contours de l'archivage s'arrêtent là où finissent les questions que les chercheurs posent. Sophie Gebeil poursuit en affirmant que les archives du web peuvent être une source pour l'histoire puisqu'elles constituent la principale source de ses travaux. Il s'agissait de vérifier la conversion numérique des auteurs et des sites web. Son travail part des archives vers les acteurs amateurs afin de recueillir une mémoire de l'immigration maghrébine. Valérie Schafer incite quant à elle sur les choix institutionnels que représentent ces archives qui visent à établir une représentativité à défaut d'exhaustivité. Le web est le reflet numérique et pas seulement institutionnel, et à ce titre les traces laissées par les internautes sont aussi recueillies. Francesca Musiani complète en disant que l'historiographie est fortement liée à l'informatique, avec ses moyens et ses technologies, et que l'utilisateur commun a des technologies limitées face aux grandes entreprises du web, et n'ont donc pas les mêmes pouvoirs d'action. Dana Diminescu rappelle que l'on ne peut pas déléguer toute une mémoire aux machines et que le regard du chercheur est indispensable. Valérie Schafer poursuit en insistant sur les collaborations qui doivent s'effectuer entre les institutions et les chercheurs, afin de permettre un travail commun. Cela nécessite au chercheur des compétences informatiques et qu'il développe des compétences en humanités numériques, et ces enseignements sont un enjeu pour l'usage plus développé de ces
  8. 8. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 8 archives du web. Une des particularités de ces digital humanities est l'interdisciplinarité. Dana Diminescu complète en disant que les digital humanities consistent aussi en une approche systémique de système complexe. A la question posée de l'avenir, Valérie Schafer répond qu'il faut tout d'abord utiliser les outils précieux mis à disposition, les comprendre et les transmettre. Ensuite, il faut également approfondir la question des métadonnées associées aux archives du web. Enfin, l'écueil pour le chercheur est de trop croire à ses données, puisqu'il s'agit avant tout d'un objet de flux. De plus, les archives du web comportent aussi des questionnements éthiques quant à leur utilisation. Il y a en effet une priorité dans la conservation, le droit à l'oubli et le droit à la mémoire. Il en va ainsi de la responsabilité du chercheur. L'adoption de la loi DADVSI et les enjeux juridiques Geneviève Piejut est directrice adjointe de la direction des collections de l'Ina jusqu'en 2014. Jean-Baptiste Soufron est avocat, journaliste (FWPA/Science Po), et ancien secrétaire général du Conseil national pour le numérique. Geneviève se propose d'effectuer un historique de la mise en place de la loi DADVSI (Loi no 2006-961 du 1er août 2006 relative au droit d’auteur et aux droits voisins dans la société de l’information). La loi DADVSI est un projet de loi initié dès 2001 mais qui n'est pas passé devant le gouvernement en raison des élections présidentielles de 2002. Concomitamment, on retrouve la LCI (Loi n°2009-669 du 12 juin 2009 favorisant la diffusion et la protection de la création sur internet, et qui crée notamment la Haute Autorité pour la Diffusion des Œuvres et la Protection des Droits sur Internet (HADOPI)), concrétisation juridique de la loi DADVSI et qui vise à protéger les droits d'auteur. Les réflexions autour de la loi DADVSI sont lancées par Jospin dans le but de démocratiser l'usage d'internet. De plus, l'internet est perçu comme un facteur de croissance économique et est donc porté par le ministère de l'économie. Il s'agissait donc au départ d'enjeux éloignés de la préoccupation patrimoniale. Toutefois, associée à Jean-Michel Rode, la réflexion sur la conservation patrimoniale des archives du web sous la forme d'un dépôt légal voit le jour. En 2004 est votée la loi LCEN (Loi no 2004-575 du 21 juin 2004 pour la confiance dans l’économie numérique). De manière à mettre en application ces lois, le premier point qu'il s'agissait de débloquer était que l'archivage de l'internet ne devait pas être une charge pour les personnes soumises au dépôt légal. C'est la raison pour laquelle les données sont collectées par des robots et que les organismes archivés ont seulement à fournir les codes d'accès à leur espace en ligne. De plus, l'archivage ne devait pas constituer une charge financière pour le dépositaire et il revient à l'Etat d'en assumer les coûts. Dans ce cadre, les outils de la collecte ne doivent pas représenter une charge excessive et s'effectuer dans une économie raisonnable. Il s'agissait également d'établir le périmètre du web français pour le système de sélection et d'échantillonnage, et de mettre en place des procédures de collectes les plus automatisées possibles. Il fallait aussi garantir des conditions de consultation en respectant les droits d'auteurs, pour ne pas fragiliser l'économie du secteur, et pour ce faire le même système que l'Inathèque a été adopté. Il fallait aussi mettre en place une collaboration entre l'Ina et la BnF pour ne pas que
  9. 9. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 9 leurs actions se recoupent. Jean-Baptiste Soufron commence par dire que les valeurs véhiculées par DADVSI sont importantes et il craint qu'elles aient été laissées de côté depuis quelques années. La loi DADVSI obéit à une logique réglementaire : s'adapter à l'évolution des technologies. Elle se compose en deux parties, d'une part le dépôt légal et d'autre par la question des droits d'auteur des fonctionnaires. Aujourd'hui la loi de la république numérique est un sujet à l'ouverture mais pas le dépôt légal, il existe pourtant des zones de frictions. La république numérique est une mise à disposition des données, et elle créée de nouveaux concepts de données de référence. Les transformations opérées sont plus d'ouverture mais le traitement des questions d'interopérabilité est non résolu. De plus, il regrette le manque de décision sur les définitions standard en matière d'archivage et sur la recherche concernant l'archivage. La loi DADVSI a légiféré sur l'émergence du web (blogs, etc.), c'est à dire un web standardisé. Or, les pratiques d'accès à internet se sont diversifiées, confirmant une tendance à une balkanisation du numérique. Il pose alors la question de repérer les acteurs, certains étant devenus invisibles. Par ailleurs, il met en évidence les tunnels informationnels : le web est un moyen de communication qui se passe des médias traditionnels. Enfin, il pose les questions du droit à l'oubli et propose d'archiver les règles des algorithmes et des contenus, puisqu'ils sont aussi signifiants que les contenus en eux-mêmes. Archives de l'internet et territoires Fabienne Greffet est maître de conférences en science politique à l'Université de Lorraine, et chercheur à l'IRENEE et à Pacte-CNRS. David Lesvenan est président de l'association www.bzh, registre gestionnaire de l'extension internet bretonne ".bzh". Frédéric-David Martin est adjoint à la directrice du département de la Coopération (BnF). Jérôme Scheitzer est directeur adjoint du développement des collections de la bibliothèque nationale et universitaire de Strasbourg, responsable du pôle d'excellence "Alsatiques". Marta Severo est maître de conférences en sciences de la communication à l'Université Paris Ouest Nanterre La Défense. Anne Pavis est responsable documentaire à l'Inathèque. Marta Severo commence par poser la question de savoir comment les archives du web peuvent permettre d'étudier les nouveaux territoires du web et comment utiliser les archives pour étudier les espaces géographiques. Richard Roger définit quant à lui le web national : les sites qui font partie du .fr sont des sites gérés par des acteurs français et qui parlent d'un certain pays. La répartition territoriale des postes de consultation Ina et BnF est ensuite présentée. Jérôme Scheitzer mène une réflexion sur la collecte d'un web local, une définition plus restreinte. David Lesvenan parle du web régional et de la création du domaine ".bzh". Il n'y a pas de définition de champ géographique strict comme pour le .fr. Donc l'attribution du domaine concerne des personnes qui marquent un attachement à la région bretonne, ou des personnes qui en parlent (ailleurs dans le monde ou en France). La notion d'attachement a été définie par Bruno Latour : c'est une vérification qui intervient a posteriori. De plus 98% des sites du domaine sont basés en France. Jérôme Scheitzer continue sur les noms de domaine et les enjeux de définition.
  10. 10. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 10 Strasbourg se définit par exemple en .eu, en référence à la dimension européenne de la ville. Fabienne Greffet souligne en ce sens que les enjeux de collecte sont uniquement nationaux puisque définis par des bibliothèques nationales, et pose la question de l'indexation et de la définition d'un domaine comme .eu. La conservation transnationale est motivée par des enjeux nationaux, et des recherches transnationales devraient être initiées, mais les sources ne le permettent pas puisqu'il n'existe pas d'archivage transnational. Il est alors paradoxal de raisonner en matière de frontière pour des archives ou des médias qui se jouent des frontières. La reconnaissance du patrimoine nativement numérique Eric Guichard est maître de conférences HDR à l'ENSSIB et responsable de l'équipe Réseaux Savoirs & Territoires de l'Ens-Ulm. Camille Paloque-Berges, docteur en Sciences de l'information et de la communication, a été empêchée et n'a pas pu intervenir. Eric Guichard commence par souligner que le temps de construction du patrimoine culturel est indéfinissable, puisque déterminé suivant les personnes qui s'y intéressent. Le patrimoine nativement numérique signifie des pratiques nouvelles des historiens, des données numériques complémentaires à des données papiers. Le numérique fait appel aux nombres, ce qui demande une formation à des méthodes dont sont généralement peu coutumiers les chercheurs des sciences sociales. A cela s'ajoute l'instabilité de la conservation de ces archives du fait des technologies qui évoluent et deviennent rapidement obsolètes, jusqu'à ne plus permettre la lecture de certaines archives. La culture numérique, constitutive de la culture et donc du patrimoine, est une culture technique et réflexive de l’écriture du moment. Il pose la question d'imaginer un patrimoine numérique à l’heure de l’inculture généralisée et souligne qu'il n'y a pas de pensée critique sans une culture de l’écrit. Le patrimoine, dans une version non autoritaire, pose la question de la culture numérique. C’est aussi elle qui définira les cadres principaux du premier. Collecter de nouveaux objets sur internet Ariane Bouchard est adjointe à la responsable du dépôt légal des livres numériques à la BnF. Louise Fauduet est chef du service Multimédia au département de l'audiovisuel à la BnF. Thomas Drugeon est responsable du dépôt légal du web à l'Ina. Philippe Mezzasalma est conservateur et chef du service Presse à la BnF. Thomas Drugeon commence par signaler le mouvement actuel qui se crée pour la télévision à la demande (VOD) et les événements en direct (sportifs ou médiatiques). Le web accompagne la télévision et il donne l'exemple de fils Twitter qui peuvent passer en bandeaux au cours d'un émission télévisée. De même, certaines émissions radio sont filmées et diffusées en ligne en direct, constituant ainsi une extension sur le web de la radio. Enfin, les émissions de radio ou de
  11. 11. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 11 télévision sont souvent disponibles intégralement sur le web, et parfois même diffusées partiellement à la télévision ou la radio mais pouvant se retrouver en intégralité sur le web. L'Ina effectue une captation du web en direct qui est équivalente à 32 chaînes captées 24 h/24. Il poursuit en posant le problème de la vidéo hébergée une plateforme comme Youtube. Elle est éditorialisée sur le site mais également dans des contextes différents. Les interprétations de la vidéo peuvent alors fortement varier suivant leur contexte. La captation de la vidéo par l'Ina s'effectue d'abord en dehors de son contexte, puis l'enregistrement des métadonnées s'effectue dans un second temps. L'Ina effectue des captations sur des périmètres larges et des objets parfois à l'extérieur du web, alors que la BnF capte sans en sortir les objets. Louise Fauduet poursuit en décrivant la captation de Dailymotion effectuée par la BnF. Elle a été effectuée par des membres associés, et a enregistré l'intégralité des choix éditoriaux du site dans le cadre de journées témoin. Ariane Bouchard complète ce tableau avec le volet du livre numérique. Il n'existe pas de collecte spécifique au livre numérique. La captation des sites s'effectue par robots, puis les données sont traitées et accessibles à la consultation dans les archives de l'internet. Les fichiers .epub sont enregistrés, tout comme les sites se présentent comme des livres. Cependant la collecte comporte plusieurs limites : elle capte uniquement les contenus gratuits, la logique de dépôt pour les éditions commerciales étant en train de se mettre en place. Une question soulevée par membre du public : la plateforme Youtube est éditorialisée en fonction de l'utilisateur et de sa navigation internet, par le biais des cookies. Comment gérer un contenu par définition personnalisé ? Thomas Drugeon répond que le robot de collecte est dépersonnalisé et dans le sens om il ne comporte pas de cookies. Il capte alors des contenus standard en fonction de son adresse IP. Il collecte ainsi des tendances, des modes, mais pas des parcours. Archivage du web, le temps des expérimentations en France Bruno Bachimont est enseignant-chercheur à l'Université de technologie de Compiègne. Julien Masanes est président de l'Internet Memory Foundation. Ayant travaillé côte à côte lors de l'établissement du dépôt légal du web, tous deux veulent présenter le processus de partage des missions entre les deux institutions de la BnF et de l'Ina. Ces relations furent de leur propre aveu concurrentielles mais stimulantes, et ont le mérite de mettre en évidence les vues et les moyens employés par ces derniers. Bruno Bachimont commence par poser la question de la différence entre un média et un medium. Il en donne la réponse : le médium est pour la diffusion, le média la transmission. Deux points de vue s'affrontent alors. D'une part, il s'agit de prolonger les collections (médium), et d'autre part il s'agit de délivrer un contenu nouveau associé à de nouvelles pratiques (médias). Conserver le dépôt légal du web est alors un juste milieu entre rendre compte de l'innovation et garder une cohérence patrimoniale pour des collections déjà constituées. Il poursuit en remarquant que l'archive du web à un rapport indiciaire. Elle ne peut pas être consultée à l'identique, contrairement au livre dans le sens où l'objet est resté le même. Le web reste une trace, et pose donc des questions de définition et d'appréhension. Il poursuit en faisant un autre constat : le web
  12. 12. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 12 est un milieu. Ce milieu nous environne, nous interagissons avec celui-ci et nous met précisément en relation avec un environnement. Il donne la métaphore du poisson qui ne voit pas l'eau : le poisson nous représente et l'eau représente le web. Il s'agit alors d'assumer l'arbitraire, car archiver le web est illusoire, et il est important d'archiver des objets qui permettent de révéler ce milieu. Julien Masanes continue en soulignant que le côté technique est important. Cependant le challenge principal est la dissolution des intermédiaires, ce milieu d'acteurs qui produisent des filtres, des routes, etc. Avec ce web ce milieu s'est dissout, et les acteurs traditionnels ne suffisent plus. La démocratisation et la diffusion permises grâce à internet laissent des traces comme jamais auparavant de par tout le monde, et les acteurs traditionnels comme les grands journaux côtoient les acteurs individuels comme Twitter. Les archives permettent de créer une mémoire sur laquelle toutes les générations futures pourront travailler. Cependant, ce contenu techniquement très fragile et la publication instantanée est très dépendante du serveur d'origine. Les outils développés permettent le suivi des liens, une série de micro décisions et des contraintes qui construisent l'artefact de l'archive. Il finit par poser la question de la légitimité des contenus et comment se positionner par rapport à eux, et conclut qu'il faut capter indépendamment d'une opinion générale. La création du .fr Loïc Damilaville est directeur marketing de l'AFNIC. L'année 2016 célèbre le trentième anniversaire de la création de l'extension ".fr". Le système des noms de domaine est ce qui précède la création du web, c'est-à-dire des machines connectées entre elles et identifiées par des adresses IP. Cette pratique était lisible pour les machines mais difficilement exploitable par les humains, d'où la création en 1985 du DNS, Domain Name System, qui permet l'association d'une adresse IP à un nom de domaine. Aux extensions génériques telles que ".com" se succédèrent des extensions plus spécifiques, en fonction du pays comme le ".fr" (France), ".su" (Union soviétique) ou le ".yu" (ex-Yougoslavie, aujourd'hui supprimé). Aujourd'hui, seuls les noms de domaine ".com" et ".net" sont ouverts à tous. Les autres sont soumis à des contrôles par les organismes chargés de leur gestion, et à ce titre l'AFNIC se charge entre autres de la gestion du .fr. En tout ce sont 1226 extensions génériques et 311 extensions géographiques. Loïc Damilaville se propose ensuite d'effectuer un rapide historique de la création du nom de domaine .fr. Destiné dans un premiers temps aux chercheurs de l'INRIA, son usage s'est peu à peu étendu à l'ensemble de la communauté française. Des années 1986 à 1997, l'INRIA assure également l'administration du réseau Fnet, seul support de l’internet en France jusqu’en 1992. Cette même année, l'INRIA crée un service ad hoc pour gérer le .fr, le NIC France, petit à petit autofinancé (adhésions des opérateurs/bureaux d’enregistrement et création/renouvellement des noms de domaine). En 1996, une charte de nommage met l'accent sur le .fr en tant que zone de confiance, dans un contexte où le droit des noms de domaine est encore à ses débuts, notamment en ce qui concerne la protection des marques. En 1999 est créé l'UDRP, Uniform Dispute Resolution Policy, afin de gérer les extensions génériques. Le nombre
  13. 13. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 13 de domaines est alors limité et il faut pour les acquéreurs justifier d'un droit afin de bénéficier un nom de domaine. Les flux financiers devenant de plus en plus importants, l'INRIA externalise la gestion du .fr, et en 1997 est créé l'AFNIC, composée de dix membres (cinq nommés par l'Etat et cinq élus). Petit à petit, la charte de nommage s’assouplit et recherche une meilleure facilité d’enregistrement combinée avec une meilleure protection des ayants droits. En 2001 est créé l'extension .com.fr, ou les justificatifs ne sont pas demandés, et d’un .nom.fr destiné aux particuliers. En 2004, la limitation du nombre de domaine est abandonnée et il n'est plus nécessaire de justifier d’un droit sur un nom de domaine pour le déposer. En effet, des vérifications sur des bases de données accessibles en ligne permettent l’automatisation du processus d’enregistrement. Dans le même temps est mis en place la procédure de résolution des litiges (PARL) en partenariat avec l'Organisation mondiale de la propriété intellectuelle (OMPI) et le Centre de médiation et d’arbitrage de Paris (CMAP). En 2006, suivant la même logique, le .fr s'ouvre aux particuliers français, et en 2011 aux particuliers européens. En 2008 est mis en place la procédure PREDEC (remplaçant la PARL) et en 2016 la PARL Expert est assurée par l'OMPI. Le nombre de domaines ouvert, surtout après l'ouverture aux particuliers et l'abandon du droit au nom en 2004, ne cesse d'augmenter. Premiers sites web, premières communautés, témoignages Roei Amit est directeur chargé du numérique à la RMN - Grand Palais. Isabelle Aveline est responsable Innovation et développement numérique, fondatrice du site zazieweb.com. Alexandre Gefen est chercheur au Centre d'Etude de la Langue et des Littératures Françaises, fondateur du site Fabula.org (OBVIL). Stéphane Ramezi est directeur adjoint à la diffusion et à l'innovation à l'Ina. Stéphane Ramezzo commence par répondre à la question de la place du web dans les années 1990. Selon lui, le web est un nouveau terrain d'expression infini et illimité, contrairement aux médias traditionnels. Roei Amit poursuit en présentant le site grand public de l'Ina, ina.fr. Il a été lancé en 2006 dans le contexte du lancement des plateformes vidéo telles que Youtube ou Dailymotion. Le site est d'abord destiné aux professionnels, puis a été ensuite ouvert au grand public. Le projet était d'ailleurs initialement intitulé "archives pour tous". Alexandre Gefen souligne l'existence d'une culture de l'open access, c'est-à-dire communiquer à grande échelle et rejoint ce qui se fait dans les autres sciences (comme Calenda par exemple). La recherche se met au diapason de la culture de l'open access. Isabelle Aveline propose quant à elle une vision un peu différente, qui n'est pas celle d'un chercheur mais celle d'un inventeur. Elle souligne l'égalité qui existait aux débuts du web entre les "metteurs de contenu", et les instances officielles comme les particuliers bénéficiaient de la même interface. Ensuite, Alexandre Gefen remarque que l'accumulation des données des archives du web n'est rien sans que l'on puisse les exploiter. Il s'agit alors de mettre en place des outils qui en permettent l'exploitation, notamment des outils statistiques, afin d'exploiter le nombre de donnée très conséquent (comme le logiciel Google Ngram qui permet d'observer l'évolution de la fréquence d'un ou de plusieurs mots à travers le
  14. 14. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 14 temps dans les imprimés). Roei Amit se joint à ces souhaits, en ajoutant la création d'API. Les intervenants soulignent également la personnalisation du web qui devient de plus en plus importante. Les utilisateurs accèdent à un espace personnalisé, à travers des applications dédiées qui permettent aussi plus de mobilité. Le web n'est alors plus un espace public, ce qui pose des questions nouvelles pour son archivage. L'archive évolue, et il s'agit d'en suivre le mouvement. Bilan Le colloque "Il était une fois dans le web, 20 ans d'archives de l'internet en France" a montré le processus de patrimonialisation de l'archive de l'internet et la mise en place des politiques de conservation par l'Ina et la BnF, accompagné par une série de lois sur l’internet et ses usages entamée dès la fin des années 1990 et toujours d’actualité. Il en a proposé un historique efficace et un point sur les outils disponibles proposés par l'Ina et la BnF et les applications possibles, notamment dans le champ des sciences humaines. Il en ressort qu'aborder les archives de l'internet demande une veille constante et une formation spécifique, et les participants ont souvent souligné l'importance de sensibiliser aux outils offerts par les institutions et le potentiel de ces archives, afin de susciter de nouvelles recherches. Ils ont souligné également l'importance de la mise en place de nouvelles méthodologies et d'outils pour les aborder. Les collectes, qui consistent en un juste milieu entre captation quantitative et qualitative, sont effectuées suivant les besoins des chercheurs et de la mémoire collective, et le contenu de l’archive a autant d’importance que ses méthodes. Sur les perspectives ouvertes de l'archive, il a été précisé que l'agora public que pouvait être le web, où tout le monde avait une certaine forme d'égalité, est en train de disparaitre au profit d'un web de plus en plus mobile et individualisé. Archiver le web est aborder une matière mouvante et en constante redéfinition, et ce colloque a relevé le défi d'en tracer les contours en prenant soin de souligner les aspects techniques, territoriaux, juridiques et historiques qui s'y rattachaient. La fin de la journée fait finalement ressortir plus de questions qu'à son commencement : espérons qu'un nouveau colloque dans quelques années nous permettra d'y répondre. En attendant, on lira avec profit le numéro de la revue RESET consacré au patrimoine et à la patrimonialisation numériques.

×