L’archivage du Web à la Bibliothèque nationale de France Département de Médiation Culturelle  de Paris III 5 janvier 2012 Clément Oury Chef du service du dépôt légal numérique  Bibliothèque nationale de France clement"point"oury"a"bnf"point"fr
Éviter le « trou de mémoire » numérique  Les contenus en ligne se multiplient Documents « nés numériques » ou dématérialisation Tous les types de publications sont désormais concernés Les institutions patrimoniales doivent trouver des solutions Juridiques et techniques Dans la continuité de leurs missions scientifiques
Une mission impossible ? Solutions juridiques et techniques
Difficultés juridiques La copie de sites Web suppose d’avoir l’autorisation de l’auteur… Dans un univers où la notion d’auteur tend à s’effacer Œuvres collaboratives Récupérations et  mash-ups
Solutions juridiques Auto-archivage Suppose qu’on dispose déjà de tous les droits Demande d’autorisation Procédures longues et peu fructueuses Possibilité d’adapter les droits d’usage « Opt-out » Procédure conforme à l’« esprit » du Web mais juridiquement fragile C’est la solution des moteurs de recherche Dépôt légal
1537  : les livres 1648  : les estampes, cartes et plans 1793  :  les partitions musicales 1925  : les photographies, arts graphiques de toute nature 1938  : les phonogrammes 1975  : les vidéogrammes et les documents multimédias 1992  : radio, télévision, logiciels 2006 : L’Internet Le dépôt légal
Ce que dit le Code du Patrimoine Définition très large  : s’applique aux  « signes, signaux, écrits, sons ou messages de toute nature qui font l’objet d’une communication au public par voie électronique » Deux institutions dépositaires  :  L’Institut national de l’Audiovisuel   collectera les sites du domaine de la communication audiovisuelle (en particulier ceux de la radio et de la télévision) et la  Bibliothèque nationale de France   tous les autres. Inversion du rapport éditeur/dépositaire  : L’obligation de dépôt légal  n’implique pas de démarche particulière de la part des producteurs  (sauf à fournir les codes et les informations techniques   susceptibles de faciliter l’archivage de leurs sites en cas de difficulté) L’objectif du DL est modifié :  L’idéal  d’exhaustivité  est remplacé par un souci de  représentativité Une importante contrepartie  : Le décret autorise la  consultation   des archives de la Toile par des chercheurs dûment accrédité,  dans les seules emprises de la BnF   (salles de recherche), comme pour les autres collections issues du dépôt légal.
Logiciel appelé robot de collecte, « aspirateur », « araignée » ou « moissonneur » de sites Part d'une liste d'adresses URL « graines » Extrait les liens dans le code des pages, les suit comme un internaute automatique Copie les éléments qu’il trouve et qui font partie du périmètre de la collecte  Une affaire de moissonnage
Le vrai visage du robot
Les difficultés techniques 1/2 La masse : près de 2 millions de sites Web en .fr début 2012 Des contenus inaccessibles Le Web profond Le problème des liens introuvables : flash, javascript La diffusion en flux ( streaming ) Les contenus payants
Les difficultés techniques 2/2 Le trop-plein Des sites fictifs… Des pages fictives Faut-il respecter le protocole robots.txt?
L’archivage du Web : les différentes initiatives Les institutions nationales Le rôle d’Internet Archive Les initiatives privées Les prestataires de service Les moteurs de recherche
Une mission impossible ? La réponse de la BnF
Le circuit  du document Accès Préservation Sélection Collecte Chargés de collections  numériques Experts de préservation Ingénieurs Ingénieurs Chargés de collections  thématiques
État des fonds en 2012 Sept collectes larges du domaine national depuis 2004 Des acquisitions rétrospectives 1996-2005, auprès d’Internet Archive Une vingtaine de milliers de sites en collecte ciblée, certains remontant à 2002 Soit actuellement 16,5 milliards de fichiers 240 Téraoctets de données
La coopération nationale L’exemple des  élections de 2010
La coopération internationale : le consortium IIPC
Les collections et leurs usages Que doit-on archiver ?
Une collection légitime ? Des contenus sans valeur ? La fin du modèle de l’éditeur Régime de la publication contre régime de la communication L’exemple des blogs d’adolescents Droit à l’oubli ?  Droit au retrait ? Là encore, le cadre du dépôt légal fournit une réponse
Archiver un « espace » documentaire ? Année calendaire Nom-bre de sites Collectes larges : - annuelles - internalisées en 2010 Collectes courantes : - sur toute l’année - sites d’actualité ou de référence Collectes projet : - ponctuelles  - liées à un événement ou un thème particulier
Les différentes approches L’approche par contenu L’approche événementielle …  dont l’événementiel non programmé L’approche par type d’émetteur L’approche par type de document
Les collections et leurs usages Une remise en contexte
 
 
 
 
Merci de votre attention !

C. Oury_Archivage du web à la BNF (2012)

  • 1.
    L’archivage du Webà la Bibliothèque nationale de France Département de Médiation Culturelle de Paris III 5 janvier 2012 Clément Oury Chef du service du dépôt légal numérique Bibliothèque nationale de France clement"point"oury"a"bnf"point"fr
  • 2.
    Éviter le « troude mémoire » numérique Les contenus en ligne se multiplient Documents « nés numériques » ou dématérialisation Tous les types de publications sont désormais concernés Les institutions patrimoniales doivent trouver des solutions Juridiques et techniques Dans la continuité de leurs missions scientifiques
  • 3.
    Une mission impossible? Solutions juridiques et techniques
  • 4.
    Difficultés juridiques Lacopie de sites Web suppose d’avoir l’autorisation de l’auteur… Dans un univers où la notion d’auteur tend à s’effacer Œuvres collaboratives Récupérations et mash-ups
  • 5.
    Solutions juridiques Auto-archivageSuppose qu’on dispose déjà de tous les droits Demande d’autorisation Procédures longues et peu fructueuses Possibilité d’adapter les droits d’usage « Opt-out » Procédure conforme à l’« esprit » du Web mais juridiquement fragile C’est la solution des moteurs de recherche Dépôt légal
  • 6.
    1537  : leslivres 1648  : les estampes, cartes et plans 1793  : les partitions musicales 1925  : les photographies, arts graphiques de toute nature 1938 : les phonogrammes 1975  : les vidéogrammes et les documents multimédias 1992  : radio, télévision, logiciels 2006 : L’Internet Le dépôt légal
  • 7.
    Ce que ditle Code du Patrimoine Définition très large : s’applique aux « signes, signaux, écrits, sons ou messages de toute nature qui font l’objet d’une communication au public par voie électronique » Deux institutions dépositaires : L’Institut national de l’Audiovisuel collectera les sites du domaine de la communication audiovisuelle (en particulier ceux de la radio et de la télévision) et la Bibliothèque nationale de France tous les autres. Inversion du rapport éditeur/dépositaire : L’obligation de dépôt légal n’implique pas de démarche particulière de la part des producteurs (sauf à fournir les codes et les informations techniques susceptibles de faciliter l’archivage de leurs sites en cas de difficulté) L’objectif du DL est modifié : L’idéal d’exhaustivité est remplacé par un souci de représentativité Une importante contrepartie : Le décret autorise la consultation des archives de la Toile par des chercheurs dûment accrédité, dans les seules emprises de la BnF (salles de recherche), comme pour les autres collections issues du dépôt légal.
  • 8.
    Logiciel appelé robotde collecte, « aspirateur », « araignée » ou « moissonneur » de sites Part d'une liste d'adresses URL « graines » Extrait les liens dans le code des pages, les suit comme un internaute automatique Copie les éléments qu’il trouve et qui font partie du périmètre de la collecte Une affaire de moissonnage
  • 9.
  • 10.
    Les difficultés techniques1/2 La masse : près de 2 millions de sites Web en .fr début 2012 Des contenus inaccessibles Le Web profond Le problème des liens introuvables : flash, javascript La diffusion en flux ( streaming ) Les contenus payants
  • 11.
    Les difficultés techniques2/2 Le trop-plein Des sites fictifs… Des pages fictives Faut-il respecter le protocole robots.txt?
  • 12.
    L’archivage du Web: les différentes initiatives Les institutions nationales Le rôle d’Internet Archive Les initiatives privées Les prestataires de service Les moteurs de recherche
  • 13.
    Une mission impossible? La réponse de la BnF
  • 14.
    Le circuit du document Accès Préservation Sélection Collecte Chargés de collections numériques Experts de préservation Ingénieurs Ingénieurs Chargés de collections thématiques
  • 15.
    État des fondsen 2012 Sept collectes larges du domaine national depuis 2004 Des acquisitions rétrospectives 1996-2005, auprès d’Internet Archive Une vingtaine de milliers de sites en collecte ciblée, certains remontant à 2002 Soit actuellement 16,5 milliards de fichiers 240 Téraoctets de données
  • 16.
    La coopération nationaleL’exemple des élections de 2010
  • 17.
    La coopération internationale: le consortium IIPC
  • 18.
    Les collections etleurs usages Que doit-on archiver ?
  • 19.
    Une collection légitime? Des contenus sans valeur ? La fin du modèle de l’éditeur Régime de la publication contre régime de la communication L’exemple des blogs d’adolescents Droit à l’oubli ? Droit au retrait ? Là encore, le cadre du dépôt légal fournit une réponse
  • 20.
    Archiver un « espace »documentaire ? Année calendaire Nom-bre de sites Collectes larges : - annuelles - internalisées en 2010 Collectes courantes : - sur toute l’année - sites d’actualité ou de référence Collectes projet : - ponctuelles - liées à un événement ou un thème particulier
  • 21.
    Les différentes approchesL’approche par contenu L’approche événementielle … dont l’événementiel non programmé L’approche par type d’émetteur L’approche par type de document
  • 22.
    Les collections etleurs usages Une remise en contexte
  • 23.
  • 24.
  • 25.
  • 26.
  • 27.
    Merci de votreattention !

Notes de l'éditeur

  • #18 38 institutions membres