L’archivage du Web à la Bibliothèque nationale de France Département de Médiation Culturelle  de Paris III 5 janvier 2012 ...
Éviter le « trou de mémoire » numérique  <ul><li>Les contenus en ligne se multiplient </li></ul><ul><ul><li>Documents « né...
Une mission impossible ? Solutions juridiques et techniques
Difficultés juridiques <ul><li>La copie de sites Web suppose d’avoir l’autorisation de l’auteur… </li></ul><ul><li>Dans un...
Solutions juridiques <ul><li>Auto-archivage </li></ul><ul><ul><li>Suppose qu’on dispose déjà de tous les droits </li></ul>...
<ul><li>1537  : les livres </li></ul><ul><li>1648  : les estampes, cartes et plans </li></ul><ul><li>1793  :  les partitio...
Ce que dit le Code du Patrimoine <ul><li>Définition très large  : s’applique aux  « signes, signaux, écrits, sons ou messa...
<ul><li>Logiciel appelé robot de collecte, « aspirateur », « araignée » ou « moissonneur » de sites </li></ul><ul><li>Part...
Le vrai visage du robot
Les difficultés techniques 1/2 <ul><li>La masse : près de 2 millions de sites Web en .fr début 2012 </li></ul><ul><li>Des ...
Les difficultés techniques 2/2 <ul><li>Le trop-plein </li></ul><ul><ul><li>Des sites fictifs… </li></ul></ul><ul><ul><li>D...
L’archivage du Web : les différentes initiatives <ul><li>Les institutions nationales </li></ul><ul><li>Le rôle d’Internet ...
Une mission impossible ? La réponse de la BnF
Le circuit  du document Accès Préservation Sélection Collecte Chargés de collections  numériques Experts de préservation I...
État des fonds en 2012 <ul><li>Sept collectes larges du domaine national depuis 2004 </li></ul><ul><li>Des acquisitions ré...
La coopération nationale L’exemple des  élections de 2010
La coopération internationale : le consortium IIPC
Les collections et leurs usages Que doit-on archiver ?
Une collection légitime ? <ul><li>Des contenus sans valeur ? </li></ul><ul><ul><li>La fin du modèle de l’éditeur </li></ul...
Archiver un « espace » documentaire ? Année calendaire Nom-bre de sites Collectes larges : - annuelles - internalisées en ...
Les différentes approches <ul><li>L’approche par contenu </li></ul><ul><li>L’approche événementielle </li></ul><ul><li>…  ...
Les collections et leurs usages Une remise en contexte
 
 
 
 
Merci de votre attention !
Prochain SlideShare
Chargement dans…5
×

C. Oury_Archivage du web à la BNF (2012)

2 244 vues

Publié le

Ppt de la présentation de Clément Oury, responsable du dépôt légal du web à la BNF, aux étudiants de L2 de Médiation culturelle de Paris III/Censier/Sorbonne nouvelle. Le 5 janvier 2012.

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
2 244
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1 613
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • 38 institutions membres
  • C. Oury_Archivage du web à la BNF (2012)

    1. 1. L’archivage du Web à la Bibliothèque nationale de France Département de Médiation Culturelle de Paris III 5 janvier 2012 Clément Oury Chef du service du dépôt légal numérique Bibliothèque nationale de France clement&quot;point&quot;oury&quot;a&quot;bnf&quot;point&quot;fr
    2. 2. Éviter le « trou de mémoire » numérique <ul><li>Les contenus en ligne se multiplient </li></ul><ul><ul><li>Documents « nés numériques » ou dématérialisation </li></ul></ul><ul><ul><li>Tous les types de publications sont désormais concernés </li></ul></ul><ul><li>Les institutions patrimoniales doivent trouver des solutions </li></ul><ul><ul><li>Juridiques et techniques </li></ul></ul><ul><ul><li>Dans la continuité de leurs missions scientifiques </li></ul></ul>
    3. 3. Une mission impossible ? Solutions juridiques et techniques
    4. 4. Difficultés juridiques <ul><li>La copie de sites Web suppose d’avoir l’autorisation de l’auteur… </li></ul><ul><li>Dans un univers où la notion d’auteur tend à s’effacer </li></ul><ul><ul><li>Œuvres collaboratives </li></ul></ul><ul><ul><li>Récupérations et mash-ups </li></ul></ul>
    5. 5. Solutions juridiques <ul><li>Auto-archivage </li></ul><ul><ul><li>Suppose qu’on dispose déjà de tous les droits </li></ul></ul><ul><li>Demande d’autorisation </li></ul><ul><ul><li>Procédures longues et peu fructueuses </li></ul></ul><ul><ul><li>Possibilité d’adapter les droits d’usage </li></ul></ul><ul><li>« Opt-out » </li></ul><ul><ul><li>Procédure conforme à l’« esprit » du Web mais juridiquement fragile </li></ul></ul><ul><ul><li>C’est la solution des moteurs de recherche </li></ul></ul><ul><li>Dépôt légal </li></ul>
    6. 6. <ul><li>1537  : les livres </li></ul><ul><li>1648  : les estampes, cartes et plans </li></ul><ul><li>1793  : les partitions musicales </li></ul><ul><li>1925  : les photographies, arts graphiques de toute nature </li></ul><ul><li>1938 : les phonogrammes </li></ul><ul><li>1975  : les vidéogrammes et les documents multimédias </li></ul><ul><li>1992  : radio, télévision, logiciels </li></ul><ul><li>2006 : L’Internet </li></ul>Le dépôt légal
    7. 7. Ce que dit le Code du Patrimoine <ul><li>Définition très large : s’applique aux « signes, signaux, écrits, sons ou messages de toute nature qui font l’objet d’une communication au public par voie électronique » </li></ul><ul><li>Deux institutions dépositaires : L’Institut national de l’Audiovisuel collectera les sites du domaine de la communication audiovisuelle (en particulier ceux de la radio et de la télévision) et la Bibliothèque nationale de France tous les autres. </li></ul><ul><li>Inversion du rapport éditeur/dépositaire : L’obligation de dépôt légal n’implique pas de démarche particulière de la part des producteurs (sauf à fournir les codes et les informations techniques susceptibles de faciliter l’archivage de leurs sites en cas de difficulté) </li></ul><ul><li>L’objectif du DL est modifié : L’idéal d’exhaustivité est remplacé par un souci de représentativité </li></ul><ul><li>Une importante contrepartie : Le décret autorise la consultation des archives de la Toile par des chercheurs dûment accrédité, dans les seules emprises de la BnF (salles de recherche), comme pour les autres collections issues du dépôt légal. </li></ul>
    8. 8. <ul><li>Logiciel appelé robot de collecte, « aspirateur », « araignée » ou « moissonneur » de sites </li></ul><ul><li>Part d'une liste d'adresses URL « graines » </li></ul><ul><li>Extrait les liens dans le code des pages, les suit comme un internaute automatique </li></ul><ul><li>Copie les éléments qu’il trouve et qui font partie du périmètre de la collecte </li></ul>Une affaire de moissonnage
    9. 9. Le vrai visage du robot
    10. 10. Les difficultés techniques 1/2 <ul><li>La masse : près de 2 millions de sites Web en .fr début 2012 </li></ul><ul><li>Des contenus inaccessibles </li></ul><ul><ul><li>Le Web profond </li></ul></ul><ul><ul><li>Le problème des liens introuvables : flash, javascript </li></ul></ul><ul><ul><li>La diffusion en flux ( streaming ) </li></ul></ul><ul><ul><li>Les contenus payants </li></ul></ul>
    11. 11. Les difficultés techniques 2/2 <ul><li>Le trop-plein </li></ul><ul><ul><li>Des sites fictifs… </li></ul></ul><ul><ul><li>Des pages fictives </li></ul></ul><ul><li>Faut-il respecter le protocole robots.txt? </li></ul>
    12. 12. L’archivage du Web : les différentes initiatives <ul><li>Les institutions nationales </li></ul><ul><li>Le rôle d’Internet Archive </li></ul><ul><li>Les initiatives privées </li></ul><ul><li>Les prestataires de service </li></ul><ul><li>Les moteurs de recherche </li></ul>
    13. 13. Une mission impossible ? La réponse de la BnF
    14. 14. Le circuit du document Accès Préservation Sélection Collecte Chargés de collections numériques Experts de préservation Ingénieurs Ingénieurs Chargés de collections thématiques
    15. 15. État des fonds en 2012 <ul><li>Sept collectes larges du domaine national depuis 2004 </li></ul><ul><li>Des acquisitions rétrospectives 1996-2005, auprès d’Internet Archive </li></ul><ul><li>Une vingtaine de milliers de sites en collecte ciblée, certains remontant à 2002 </li></ul><ul><li>Soit actuellement </li></ul><ul><ul><li>16,5 milliards de fichiers </li></ul></ul><ul><ul><li>240 Téraoctets de données </li></ul></ul>
    16. 16. La coopération nationale L’exemple des élections de 2010
    17. 17. La coopération internationale : le consortium IIPC
    18. 18. Les collections et leurs usages Que doit-on archiver ?
    19. 19. Une collection légitime ? <ul><li>Des contenus sans valeur ? </li></ul><ul><ul><li>La fin du modèle de l’éditeur </li></ul></ul><ul><li>Régime de la publication contre régime de la communication </li></ul><ul><ul><li>L’exemple des blogs d’adolescents </li></ul></ul><ul><li>Droit à l’oubli ? </li></ul><ul><li>Droit au retrait ? </li></ul><ul><li>Là encore, le cadre du dépôt légal fournit une réponse </li></ul>
    20. 20. Archiver un « espace » documentaire ? Année calendaire Nom-bre de sites Collectes larges : - annuelles - internalisées en 2010 Collectes courantes : - sur toute l’année - sites d’actualité ou de référence Collectes projet : - ponctuelles - liées à un événement ou un thème particulier
    21. 21. Les différentes approches <ul><li>L’approche par contenu </li></ul><ul><li>L’approche événementielle </li></ul><ul><li>… dont l’événementiel non programmé </li></ul><ul><li>L’approche par type d’émetteur </li></ul><ul><li>L’approche par type de document </li></ul>
    22. 22. Les collections et leurs usages Une remise en contexte
    23. 27. Merci de votre attention !

    ×