12. El proyecto de la BNE: Primeros pasos El archivo de Internet, bibliotecas que piensan en el futuro
13.
14.
15.
16. El proyecto de la BNE: Planes inmediatos El archivo de Internet, bibliotecas que piensan en el futuro
17. El proyecto de la BNE: Planes inmediatos El archivo de Internet, bibliotecas que piensan en el futuro
18.
19.
20. Mar Pérez Morillo Servicio de Coordinación Web [email_address] Pº de Recoletos, 20-22 28071 Madrid España T +34 915 807 800 www.bne.es BIBLIOTECA NACIONAL DE ESPAÑA
Notes de l'éditeur
En las directrices publicadas por la UNESCO en marzo de 2003 para la preservaci ó n del patrimonio digital ya se reconoce el problema de la preservaci ó n de la informaci ó n digital y se proponen l í neas de acci ó n para resolverlo. En primer lugar se parte del reconocimiento de los contenidos nacidos digitales como parte del patrimonio cultural. A partir de este reconocimiento surge la necesidad de preservar dicho patrimonio. En el prefacio de esas directrices se dice que: “ Gran parte de la ingente cantidad de informaci ó n que se produce en el mundo es de origen digital y existe en una gran variedad de formatos: texto, bases de datos, grabaciones sonoras, pel í culas, im á genes. Para las instituciones culturales que tienen a su cargo el acopio y la preservaci ó n del patrimonio cultural, definir qu é elementos deben conservarse para las generaciones futuras y c ó mo proceder en su selecci ó n y conservaci ó n, se est á volviendo un problema apremiante. El enorme tesoro de informaci ó n digital producida hoy d í a en pr á cticamente todas las á reas de las actividades humanas y concebida para ser consultada con computadoras, podr í a perderse si no se elaboran t é cnicas y pol í ticas espec í ficas para su conservaci ó n. ” As í mismo se se ñ alan las dificultades de preservaci ó n de toda esta informaci ó n y se alerta sobre el peligro de p é rdida. La UNESCO insta a elaborar estrategias y pol í ticas encaminadas a preservar este patrimonio, teniendo en cuenta el grado de urgencia, las circunstancias locales, los medios disponibles y las previsiones de futuro, y as í mismo anima a los creadores, titulares de derechos de autor e instituciones competentes a colaborar en la consecuci ó n de este objetivo. La tarea que se nos presenta parece inabarcable – y en cierto modo as í lo es-, y la propia UNESCO -en estas Directrices y reconociendo las dificultades que plantea el proceso- dice literalmente que “ aunque no sea de manera exhaustiva ni impecable … m á s vale avanzar a peque ñ os pasos que no avanzar. ”
Estamos ante una tarea llena de retos por las especiales caracter í sticas del material a preservar. Desde finales de los 90 se vio claro que la web iba a jugar un papel fundamental en el desarrollo de las comunicaciones y en la difusi ó n del conocimiento. Los documentos en l í nea no se degradan con el tiempo, sino que desaparecen de repente. Nos falta distancia y perspectiva temporal para saber qu é partes de la producci ó n digital contempor á nea y en crecimiento constante deber í an formar parte o no del patrimonio cultural. A lo largo de la Historia hay bastantes ejemplos de p é rdidas notables por unos criterios de selecci ó n err ó neos (obras de autores cl á sicos, pinturas murales rom á nicas … ). El bibliotecario digital tiene que hacer frente a unos retos parecidos a los del archivero. ¿ Qui é n es é l para juzgar y elegir lo que ser á de inter é s para las generaciones futuras? El valor futuro de la informaci ó n de hoy no se puede predecir. La web es m á s una red, un proceso, una historia en progresi ó n que un dep ó sito de documentos. Hay que tener en cuenta que: Incluso en comparaci ó n con las colecciones bibliotecarias m á s grandes, la web es extremadamente grande. T é cnica, legal y culturalmente las nociones de naci ó n y territorio son muy dif í ciles de reflejar en la web, que es fundamentalmente un medio internacional. Incluso las diferencias de idioma, no resultan muy clarificadoras en este sentido. As í que dif í cilmente se pueden hacer clasificaciones atendiendo a la lengua o la geograf í a. El í ndice de cambio y desaparici ó n de publicaciones en l í nea es mucho m á s alto que el de materiales impresos. La web est á formada por archivos virtuales. Las p á ginas web muestran archivos de datos, formatos y reproductores muy heterog é neos, muchos de los cuales no est á n normalizados ni documentados, lo que los hace m á s dif í ciles de identificar, describir y, por lo tanto, preservar a largo plazo. Universalidad: casi cualquiera puede publicar casi todo en casi cualquier parte de la web (blogs, wikis, Facebook … ). El nivel de detalle de las p á ginas o los sitios web -y los enlaces hipertextuales entre ellos- hacen muy dif í cil delimitar lo que los bibliotecarios llamar í an un documento. Capturar la web implica mostrar su estructura org á nica y sus enlaces, no s ó lo sus datos. Esto hace m á s dif í cil definir los l í mites de este nuevo documento.
El Consorcio Internacional para la Preservaci ó n de Internet (IIPC) fue fundado en 2003 por Internet Archive, la Biblioteca del Congreso y otras 10 bibliotecas nacionales m á s (Canad á , Australia, Dinamarca, Finlandia, Francia, Islandia, Italia, Noruega, Suecia y Reino Unido). Hoy son ya 40 sus miembros. Su misi ó n es preservar la informaci ó n en internet para las generaciones futuras a trav é s de la colaboraci ó n internacional. Sus objetivos son: Posibilitar la recolecci ó n, preservaci ó n y acceso a largo plazo de un corpus nutrido de contenidos de internet de todo el mundo. Apoyar el desarrollo y uso de herramientas, t é cnicas y normas comunes para la creaci ó n de archivos internacionales. Defender iniciativas y legislaciones internacionales que faciliten la recolecci ó n, preservaci ó n y acceso al contenido en internet. Animar y apoyar a bibliotecas, archivos, museos e instituciones patrimoniales de todas partes que se dediquen a recolectar y preservar contenido de internet.
La actividad de la organizaci ó n gira en torno a tres grupos de trabajo, dedicados a los tres aspectos fundamentales en estos proyectos: El proceso de recolecci ó n de los sitios web El acceso a las colecciones archivadas La preservaci ó n de dichas colecciones En un entorno de colaboraci ó n muy din á mico, la informaci ó n y el apoyo entre las instituciones integrantes es muy fluido: Facebook Wikileaks Iniciativa de Internet Archive para recolectar webs relacionadas con la reciente cat á strofe en Jap ó n, en apoyo de la Biblioteca Nacional del Jap ó n Olimpiadas 2012 Memento (del Laboratorio Nacional de Los Álamos, en EE.UU): proyecto para integrar los archivos web en la web viva.
Dependiendo de sus recursos y su legislaci ó n los distintos proyectos internacionales: dan acceso o no a sus colecciones, dan acceso p ú blico en l í nea o s ó lo a investigadores en sus instalaciones, necesitan permiso expreso de los propietarios de los sitios web para recolectarlos o no. Bibliotecas como la francesa, la austriaca o la danesa dan s ó lo acceso a los archivos web recolectados a investigadores en los ordenadores de sus instituciones. La BnF empez ó archivando su web a trav é s de contratos con Internet Archive en 2002. Desde hace un par de a ñ os, la BnF lleva a cabo todo el proceso de rastreo, recolecci ó n, archivado y acceso con recursos propios. Sus recolecciones son mixtas: combinan recolecciones masivas del dominio .fr con selectivas por temas y por acontecimientos. En 2010 el tama ñ o del archivo web franc é s era ya de 180 TB. Su ley de Dep ó sito Legal les permite recolectar sin pedir permiso a los propietarios de los derechos de las p á ginas web, pero, por otro lado, deben respetar la protecci ó n de datos y la propiedad intelectual, lo que les obliga a dar acceso a su colecci ó n s ó lo a trav é s de ordenadores dedicados a tal efecto en su sede. La Biblioteca Nacional de Austria comenz ó haciendo s ó lo recolecci ó n selectiva y de acontecimientos determinados. En 2010 -y gracias a la cobertura legal que supuso la aprobaci ó n en 2009 de una nueva Ley de Medios- hicieron su primera recolecci ó n masiva del dominio .at. Su pol í tica en este campo contempla la combinaci ó n de los tres tipos de recolecciones (masiva, selectiva y por acontecimientos) incluyendo p á ginas establecidas en Austria y otras de especial conexi ó n con el pa í s. Ambas bibliotecas utilizan el conjunto de herramientas Netarchive Suite, que es un desarrollo de la Biblioteca Nacional Danesa.
Recientemente la Biblioteca Nacional de Portugal ha creado una wiki en la que se incluyen todas las iniciativas de archivado de la web en el mundo y distintos datos de importancia relacionados con cada proyecto. De esta forma, se insta a todos los participantes a mantener actualizados los datos que les afectan.
En el decreto de 1957 que contiene el Reglamento del Servicio de Dep ó sito Legal, a ú n vigente, se recoge la preocupaci ó n constante de las autoridades competentes por regular “ el Dep ó sito Legal de obras derivadas de los inventos modernos en el campo de las artes gr á ficas y en el de los nuevos procedimientos de reproducci ó n ” . Por aquel entonces, aparte de los impresos, preocupaba especialmente regular el Dep ó sito Legal de “ Producciones fotogr á ficas, obras cinematogr á ficas y, en general, todas las producciones de im á genes realizadas por artes gr á ficas o qu í micas en ejemplares m ú ltiples ” , as í como “ Las impresiones o grabaciones sonoras realizadas por cualquiera de los procedimientos o sistemas empleados en la actualidad o en el futuro. ” En el anteproyecto de ley de Dep ó sito Legal que se aprobar á en breve: Se considera objetivo del DL “ recopilar, almacenar y conservar … las publicaciones que constituyen el patrimonio bibliogr á fico, sonoro, visual, audiovisual y digital espa ñ ol, con objeto de preservarlo y legarlo a las generaciones futuras, velar por su difusi ó n y permitir el acceso al mismo para garantizar el derecho de acceso a la cultura, a la informaci ó n y a la investigaci ó n. ” Otro objetivo: “ Permitir el acceso y la consulta de las publicaciones almacenadas, bien en las instalaciones de los propios centros de conservaci ó n o bien a trav é s de bases de datos en l í nea de acceso restringido, asegurando su correcta conservaci ó n y respetando en todo caso la legislaci ó n sobre propiedad intelectual y la normativa sobre accesibilidad. ” “ Son objeto de dep ó sito legal todo tipo de publicaciones, producidas o editadas en Espa ñ a, por cualquier procedimiento de producci ó n, edici ó n o difusi ó n, y distribuidas en cualquier soporte, tangible o intangible. ” “ El dep ó sito legal comprender á… (entre otros, los) sitios web fijables o registrables cuyo contenido pueda variar en el tiempo y sea susceptible de ser copiado en un momento dado. ” “ Se habilita a los centros de conservaci ó n … a detectar y reproducir los sitios web libremente accesibles a trav é s de redes de comunicaciones que puedan resultar de inter é s para los fines del DL, respetando en todo caso la legislaci ó n sobre protecci ó n de datos y propiedad intelectual. ”
Los resultados obtenidos de las primeras recolecciones son: 30 TB de información almacenada Más de 875 millones de URL, de los cuales: Más de 317 corresponden al primer rastreo El resto de recolecciones dieron como resultado un número menor de URL El acceso del que disponemos a la colección archivada del dominio .es se realiza a través de una interfaz que requiere de una personalización para adaptarla a la imagen institucional de la BNE. Ofrece la posibilidad de buscar por URL y también a texto completo, que necesita depuración.
A través de ella tenemos acceso a: la cantidad de URL recolectadas en cada rastreo Los informes: MIME especifica el método que debe utilizarse para devolver el archivo a su forma original cuando se muestra; respuestas de los servidores 200 (petición con éxito), 404 (la página solicitada no existe), 3xx (de redireccionamiento) servidores todos los servidores recolectados con el número de bytes y de URL exclusiones por tamaño, excesivo tiempo de descarga o exclusión de robots.txt. Los archivos que quedan excluidos de la recolección lo son por varios motivos: Tardan más de 20 minutos en descargarse Su tamaño es superior a 200 MB Afectados por la exclusión de robots.txt Estamos llevando a cabo un análisis de la colección, que nunca podrá ser exhaustivo debido a su tamaño. Investigamos la manera de aplicar sistemas de análisis automáticos en cierta medida, que nos permitan analizar un porcentaje mayor de la colección. Sobre todo queremos saber: Si las páginas que aparecen como recolectadas lo están siempre Hasta qué niveles de navegación se ha llegado a recolectar (aprox. 2-3 niveles) Qué porcentaje de webs guardadas han desaparecido de la web viva Qué dominios –aparte del .es, que era el objetivo de la recolección- se han capturado accidentalmente (aparecen incluso páginas en guaraní) Cierta aproximación a una clasificación temática gruesa de lo recolectado
En nuestros planes inmediatos está renovar el contrato con Internet Archive, en virtud del cual llevemos a cabo: 2 recolecciones masivas del dominio .es 2 recolecciones selectivas: en función de criterios temáticos y por acontecimientos (Elecciones Generales 2012) Estas recolecciones se alternarán, de manera que podamos hacer 2 masivas dentro de 2011 y una selectiva en 2011 y otra en 2012. Vamos depurando los objetivos. En esta línea, para llevar a cabo las recolecciones selectivas sería deseable poder contar con las propuestas de profesionales especializados (universitarios y bibliotecarios de la BNE). En este sentido vamos a lanzar una propuesta al personal de la BNE: Cita en la BNE, formulario de propuesta de materias y URL a recolectar (organizaciones culturales, cabeceras de prensa, organismos oficiales, literatura, fondo antiguo, historia, geografía española…) Con las recolecciones previstas en este segundo contrato probablemente duplicaremos la colección existente ahora mismo. En esta segunda fase, trataremos de analizar más de cerca los resultados de las recolecciones para poder rellenar en los rastreos de parcheado los huecos que se detecten. Con apoyos a tiempo parcial del personal de la Casa, queremos llevar a cabo pruebas de rastreo propias con el software NetarchiveSuite, que es fácilmente configurable y muy manejable. Estamos pensando probar con las elecciones municipales de este próximo mes de mayo. De esta manera podríamos evaluar en algunos aspectos nuestra capacidad de autogestión, al menos en lo que a recolección atañe. Otra cosa es el almacenamiento, acceso y preservación de lo recolectado.
Estas pruebas ya se están haciendo, con la instalación de NetarchiveSuite en una máquina virtual. Se han rastreado 20 sitios web de las principales cabeceras de prensa más los principales partidos políticos y alguna otra web como tomalaplaza.net.