Ponencia presentada en la 1ª Jornada de Software Libre para Unidades y Servicios de Información (2007)
http://infonautica.net/docs/jsoftlibre/programa.html
Experiencias con software libre en repositorios de e-información
1. Experiencias con software libre en
repositorios colectivos de e-información
Ricard de la Vega
Centre de Supercomputació de Catalunya (CESCA)
1ª Jornada de software libre para servicios y unidades
de información
10 de mayo de 2007
2. Experiencias con software libre en
repositorios colectivos de e-información
1. Introducción
2. TDR
3. RECERCAT
4. RACO
5. PADICAT
6. Conclusiones
3. Introducción: ¿Qué es el CESCA?
Consorcio público, creado en 1991 y formado por:
• Generalitat de Catalunya
• Fundació Catalana per a la Recerca i la Innovació
• 9 universidades: UB, UAB, UPC, UPF, UdG URV, UdL, UOC y URL
• CSIC
Gestión de e-infraestructuras de soporte a la universidad y
la investigación:
• Sistemas
– Supercomputación, SED, SDF, repositorios y portales universitarios
• Comunicaciones
– Anella Científica, CATNIX y nodo de RedIRIS en Cataluña
• Promoción
– Difusión, formación y edición de la revista Teraflop
4. Introducción
Repositorios electrónicos colectivos institucionales de
e-información
• El Scholarly Publishing and Academic Resources Coalition (SPARC)
define los repositorios electrónicos institucionales como una
colección digital que captura y preserva los resultados intelectuales
de una o más de una institución.
e-información= tesis, docs. investigación, artículos, webs...
2001
Con el patrocinio de:
2005
+
2006
5. Introducción
Repositorios electrónicos colectivos institucionales de
e-información
• El Scholarly Publishing and Academic Resources Coalition (SPARC)
define los repositorios electrónicos institucionales como una
colección digital que captura y preserva los resultados intelectuales
de una o más de una institución.
e-información= tesis, docs. investigación, artículos, webs...
Con el patrocinio de:
2006
7. Introducción
4 ejes básicos!
Acceso abierto
Colectivos
Interoperatividad
(OAI-PMH)
Software libre
• Facilitan la adopción de procedimientos comunes
• Compartición de costes
• Mayor visibilidad
8. Experiencias con software libre en
repositorios colectivos de e-información
1. Introducción
2. TDR
3. RECERCAT
4. RACO
5. PADICAT
6. Conclusiones
9. Tesis Doctorales en Red (TDR)
http://www.tesisenred.net
Más de 4.400 tesis doctorales
Acceso abierto a texto completo en formato PDF
Más de 200.000 consultas mensuales
Entorno multilingüe
Proveedor de datos OAI-PMH
17 universidades
10. Tesis Doctorales en Red (TDR)
http://www.tesisenred.net
Más de 4.400 tesis doctorales
Acceso abierto a texto completo en PDF
Más de 200.000 consultas mensuales
Entorno multilingüe
Proveedor de datos OAI-PMH
17 universidades
12. Tesis Doctorales en Red (TDR)
Primer recolector OAI-PMH de tesis españolas
Desde principios de mayo
De momento, con Dialnet, e-archivo y el propio TDR
13. Dipòsit de la Recerca de Catalunya (RECERCAT)
http://www.recercat.net
Más de 3.500 documentos de investigación consultables
Acceso abierto a texto completo a más de 2.000 docs.
Creative Commons de Reconocimiento-NoComercial-SinObraDerivada
13 instituciones
OAI-PHM service provider y data provider
14. Dipòsit de la Recerca de Catalunya (RECERCAT)
RePEc
Scripts
migración
Plugin
Harvester
OAI
05-07-06
15. Revistes Catalanes amb Accés Obert (RACO)
http://www.raco.cat
Más de 25.000 artículos
117 revistas
Acceso abierto a los artículos
24 instituciones
OAI-PHM data provider
16. Revistes Catalanes amb Accés Obert (RACO)
XML
OAI-PMH
Data Provider
Plugin
Import / Export
Open Journal Systems
Módulo de
carga simplificado
17. Patrimoni Digital de Catalunya (PADICAT)
http://www.padi.cat
El objetivo es archivar el web catalán
Webs con dominio .cat, bajo otros dominios en lengua catalana, ubicados en servidores
catalanes o relacionados temáticamente con Cataluña
Modelo híbrido (captura sistemática y acciones selectivas)
300 acuerdos con instituciones, empresas, administraciones y particulares
18. Patrimoni Digital de Catalunya (PADICAT)
Internet Archive
• 35 M webs
• 2 PB
Kulturarw3 (Suecia)
• 350.000 webs
• 13 TB
PANDORA
(Australia)
• 9.000 webs
• 1,2 TB
19. Patrimoni Digital de Catalunya (PADICAT)
PADICAT 11-09-06
• 30 webs
• 9 GB
PADICAT hoy
• 646 versiones
• 110 webs
• 200 GB
PADICAT en 2009
• 100.000 webs
• 30 TB
20. Patrimoni Digital de Catalunya (PADICAT)
Recolector
Indexador
Interfaz
gráfica + WERA +
buscador
índices
webs.arc
21. Experiencias con software libre en
repositorios colectivos de e-información
1. Introducción
2. TDR
3. RECERCAT
4. RACO
5. PADICAT
6. Conclusiones
22. Conclusiones
Uso de software libre en todas las capas. Cluster de alta
disponibilidad con Linux, Apache, Tomcat, MySQL, PostgreSQL,
etd@vt, DSpace, OJS, Heritrix, NutchWAX, WERA...
Independencia de proveedor, comunidad, corrección de errores, pero,
sobretodo, adaptabilidad a los requisitos concretos de cada proyecto
No al tópico que el software libre es barato. Cuesta mucho tiempo y
recursos. Una solución es compartir costes con e-infraestructuras
colectivas
TDR, RECERCAT, RACO y PADICAT son casos de éxito de uso de
software libre.