SlideShare une entreprise Scribd logo
1  sur  36
Control de integridad y
calidad en repositorios
DSPACE
Motivación. Condiciones actuales
1. El origen de los datos es diverso (autoarchivo, cosechas
OAI-PMH, depósito vía SWORD, etc) y por tanto varían sus
características
○ Es necesario validar que los ítems archivados respeten
la política de contenidos.
2. Con el tiempo cambian los requerimientos mínimos que
debe cumplir un ítem en el repositorio
○ Surge la necesidad de verificar periódicamente estos
requerimientos mínimos
3. A medida que aumenta el volumen de datos, cada vez es
más complicado detectar anomalías
○ Se necesitan mecanismos de control/monitoreo de
metadatos y archivos.
Herramientas para Control de datos
en repositorios DSpace
● ChecksumChecker
○ Verifica la integridad de los archivos
● MediaFilter
○ Transforma un bitstream de un ítem o extrae uno nuevo
derivado del anterior. Ejemplo: imágenes eb miniatura, fulltext,
etc.
● EmbargoChecker
○ Verifica que todas las partes de un ítem embargado (ítem,
bundle, bitstream) se mantengan ocultas
● Curation Tasks o Tareas de Curation
○ permite un control semi-automático de objetos del repositorio
Curation Tasks en DSpace
● Permite aplicar una “pieza de software” sobre uno o varios objetos
del repositorio.
● Una tarea
○ se aplica sobre un objeto puntual (ítem, Collection,
Community)
○ puede acceder y modificar cualquier aspecto de su contexto
como metadatos, bitstreams, etc.
● Provee varias tareas predefinidas. Por ejemplo:
○ Format Profiling → análisis de formatos de archivos
○ Required metadata → metadatos requeridos
○ ClamScan → detección de virus en los archivos
○ Microsoft translator → traduccion automática
○ Link Checker → Validacion de links
Tareas para control de calidad y
preservación. Propuesta
I. Control y preservación de datos a partir de tareas
de curation que realicen:
o chequeos de calidad,
o control de integridad y
o extracción/generación de nuevos metadatos

I. Extensiones al módulo de curation de Dspace para:
o mejorar las estrategias de selección de recursos a procesar.
o agregar nuevas estrategias de ejecución de tareas para reducir
su costo de ejecución (en tiempo y recursos)
Tarea 1 Chequeo de links muertos
Casi todos los ítems de repositorio tienen al menos un
link en sus metadatos. Por ejemplo:
●
●
●
●

URL a la licencia de uso
URL de acceso al recurso (para recursos externos)
URL al origen del registro
URL a otras versiones o trabajos relacionados

Con el tiempo los links suelen dejar de funcionar:
● temporalmente: error interno, servidor en proceso de actualización,
etc
● permanentemente: Cambio en el dominio o ruta, servicio
descontinuado, etc
Tarea 1 Chequeo de links muertos.
Implementaciones DSpace
DSpace provee 2 implementaciones básicas para
verificación de enlaces en los metadatos:
1. BasicLinkChecker : chequea y genera un reporte para
cada metadato cuyo calificador es “uri” (i.e.
dc.rights.uri).
1. MetadataValueLinkChecker: selecciona todos los
metadatos de un ítem y analiza para cada uno si su
contenido comienza con “http://” o “https://”. En caso
afirmativo, chequea el enlace y reporta el resultado de
la prueba.
Tarea 1 Chequeo de links muertos.
Implementaciones DSpace (2)
Ambas tareas presentan los mismos inconvenientes. No permiten:
○ configurar el metadato que debe validarse
■ → No queremos chequear dc.rights.uri
■ → Sí queremos chequear dc.relation.isPartOf
○ Definir timeout de conexión
○ Cache de respuestas
■ → El 50% de los ítems en SEDICI tiene una de las 6 licencias CC
con las mismas URL. En promedio cada URL de licencia CC se
chequea unas 2500 veces. Ej.
http://creativecommons.org/licenses/by-nc/3.0/
○ Redirecciones Web (i.e. STATUS 3xx)
Estos problemas hacen que la ejecución de la tarea sea extremadamente
lenta, ineficiente y que el reporte sea inexacto, dado que pueden haber URL
reportadas como fallidas que no lo están.
Tarea 1 Chequeo de links muertos.
Propuesta
Tarea de Curation que permita
● indicar cuáles metadatos deben validarse
● manejar redirecciones 301 (permanentes), 302
(temporales) y 303 (see other, las que usa
handle.net)
● permita indicar un timeout de conexión máximo
● mantenga un historial de URL chequeadas durante
la ejecución actual (como una cache muy simple)
Tarea 2 Metadatos conectados con
Autoridades. Modelo Dspace

•

•
•

DSpace no brinda soporte para gestión de autoridades
o Se asume que estos datos están disponibles pero que se gestionan
por fuera de la aplicación.

Es posible conectar/vincular metadatos y autoridades a
través de extensiones denominadas ChoiceAuthority
o recuperan datos desde servicios complementarios para luego
guardarlos en un metadato.

Los datos provistos pueden ser:
○ internos. Ej: Términos de un vocabulario interno (XML Controlled
Vocabularies)
○ externos al software. Ej: Materias de un sistema de clasificación
○ externos al repositorio. Ej: Autores de un sistema institucional.
Tarea 2 Metadatos conectados con
Autoridades. Representación

•

En el entorno de DSpace, los autoridades sólo “existen”
en los metadatos que las referencian.
o Cada metadato puede mantener un vínculo con una
autoridad a partir del guardado de su clave y texto
representativo.

Por ejemplo
dc.contributor.author=(“156442”, “Tim Berners-Lee”)
o el metadato “dc.contributor.author” referencia al autor
Tim Berners-Lee existente en la base de Autores de la
biblioteca.
Tarea 2 Metadatos conectados con
Autoridades. Problema
El vínculo es débil ya que no cumple con los principios de
integridad referencial. Si la autoridad es modificada en el
sistema de gestión de autoridades externo, el vínculo
no se actualiza ya que Dspace no se entera y los datos
quedan:
1. descoordinados: se referencia a una autoridad que ha
cambiado su nombre pero en el repositorio se tiene el
nombre viejo, o aún peor,
2. con referencias colgantes: se apunta a un autoridad que
no existe más
Tarea 2 Metadatos conectados con
Autoridades. Propuesta
Se propone la creación de una curation task que
1. se ejecute periódicamente,
2. verifique la existencia de las autoridades apuntadas desde los
metadatos en el ChoiceAuthority
○ permite detectar referencias colgantes a autoridades
eliminadas
○ podría desconectar el metadato y dejar solo el texto
3. contraste el texto de los metadatos controlados con el valor
retornado por el ChoiceAuthority
○ detecta modificaciones en los textos
○ podría corregir el dato local, copiando el nuevo
4. genere un reporte con las discrepancias y acciones tomadas
Tarea 3 Accesibilidad de objetos
digitales. Ubicación
Según las políticas de contenidos, algunos objetos digitales pueden
estar alojados fuera del repositorio.
● Los recursos externos suelen referenciarse a partir de una URL o a
partir de identificador persistente
● Algunas razones comunes son:
○ falta de derechos sobre la obra,
○ incapacidad de gestionar los datos. (ej. por tamaño excesivo).
Cualquiera sea el caso, el repositorio siempre debe dar acceso al
objeto digital, ya sea directa o indirectamente.
Tarea 3 Accesibilidad de objetos
digitales. Propuesta
Corrobora para cada ítem que al menos un objeto digital sea accesible
a partir de al menos:
● uno o más bitstreams públicamente accesibles, o
● un metadato (configurable) cuyo contenido sea
○ una URL al archivo alojado en un servidor externo. Por
ejemplo en ”dc.identifier.uri”, o
○ un identificador persistente (diferente al del ítem actual). Por
ejemplo: a partir de hdl: 1822/24377→ generamos
http://hdl.handle.net/1822/24377
El resultado de la ejecución es un reporte con los ítems que no
cumplen las restricciones definidas de archivo o de enlace.
Tarea 4 Metadatos obligatorios
La obligatoriedad de un metadato está definida en base a:
1. requisitos globales, para cualquier clase de ítem. Ej:
fecha, título, autor
1. requisitos según la tipología documental. Ej: ISBN
para libros, ISSN para revistas.
1. otros criterios institucionales como licencias de uso,
fuente de financiación, reglamentación local, etc.
Tarea 4 Metadatos obligatorios
en Dspace

•

Configuración única: input-forms.xml
o especifica el procedimiento de carga de documentos
(submission process)
o rige la tarea de curation RequiredMetadata
 revisa los documentos y
 genera un reporte con todos los metadatos
obligatorios globales ausentes.
Tarea 4 Metadatos obligatorios.
Propuesta

•

Desde la versión 3, es posible indicar campos
opcionales y obligatorios según el tipo de documento
o se considera solo para la carga

Solución simple
● Extender la curation task de Dspace para que:
○ valide los metadatos globales obligatorios
○ según el tipo del documento (dc.type) y de acuerdo
a la configuración, valide los metadatos necesarios
Tarea 5 Validación del dominio de
metadatos. Contexto
● Un metadato posee un dominio que determina
○ cuáles son los valores que puede tomar o
○ al menos qué sintaxis debe respetar según el tipo de dato.

Ejemplos
○ dc.contributor.author debe ser un texto
○ dc.date debe ser una fecha en formato ISO8601
○ dc.language debe ser un ISO 3166 (en, es, pt, etc)
El control de dominio debe realizarse:
1. inicialmente en la carga
2. periódicamente sobre los recursos existentes
Tarea 5 Validación del dominio de
metadatos. ¿Qué hace DSpace?
● No permite asociar un dominio a un metadato
○ no brinda un mecanismo para validar su contenido.
● Define algunos controles de carga que “ayudan” a que
los datos sean correctos:
○ fecha, caja de texto, vocabulario controlado
● Problemas:
○ los controles de carga poco estrictos representan un
riesgo para la calidad de los nuevos registros.
○ Si existen metadatos con valores inválidos el
sistema no lo nota
Tarea 5 Validación del dominio de
metadatos. Propuesta

•
•
•

Tarea de curation corrobore que el valor de ciertos
metadatos respeta el dominio correspondiente.
Alternativas para definir las reglas:
a. la tarea de curation,
b. el registro de metadatos de DSpace,
c. archivo de configuración de carga (input-forms.xml)
La última opción es la elegida:
a. es relativamente simple,
b. no invasivo, dado que no modifica el modelo
c. permite que se use desde el resto del sistema,
d. provee mayor flexibilidad de configuración
Tarea 5 Validación de metadatos
según su dominio. Casos a soportar
● Tipos básicos: boolean, fechas, números, textos de una
línea, multilínea.
● Enumerativos (value-pairs): se controla que sea uno de
los valores permitidos
● Vocabularios controlados: se puede reusar la tarea 2.

•

Potencial para tipos de
datos más avanzados:
URL, HTML, geolocation,
doi, hdl, LaTeX, etc.

Ejemplo
<field>
<dc-schema>dc</dc-schema>
<dc-element>identifier</dcelement>
<dc-qualifier>uri</dc-qualifier>
<label>Alternate URI</label>
<domain>URI</domain>
</field>
Tarea 6 Extracción de metadatos de
preservación
Para asegurar la usabilidad de los recursos digitales en el
tiempo, el repositorio debe:
1. garantizar su accesibilidad
○ es decir, que los archivos no se pierdan,
2. evitar su obsolescencia
○ es decir, verificar los formatos de los archivos y
transformarlos en caso de ser necesario.
El análisis de formatos de recursos requiere:
la información de los recursos ,
los objetos digitales (los archivos) y
el contexto necesario para acceder a cada objeto (software,
versión, etc)

•
•
•
Tarea 6 Extracción de metadatos de
preservación
• La información asequible a partir de los archivos dependerá
en gran medida de los formatos, pero en general incluye:
o plataforma,
o datos del software con el que se generó el archivo
(nombre, versiones, etc),
o fechas.

Ejemplo: un archivo PDF mantiene al menos tamaño físico de
las páginas, software, y versión con el que se creó el archivo
fuente y el PDF, fecha, autor y datos de la PC usada.
Dspace registra de cada bitstream/archivo sólo su formato,
representado por su tipo MIME
Tarea 6 Extracción de metadatos de
preservación. Propuesta

•

Desarrollo de una tarea de curation que permita
1) realizar la extracción de datos de los archivos
2) almacenar los metadatos de preservación asociados a cada
bitstream.
Parte 1: Extracción de datos de los archivos.
o Hay muchas aplicaciones y librerías estables que lo
hacen.
o Ej: Apache Tika soporta
 imágenes (JPEG, PNG, etc),
 audio y video (MPEG, AVI, etc),
 MS Office (DOC, XLS, etc),
 y muchos más.

•
Tarea 6 Extracción de metadatos de
preservación. Propuesta (2)
● Parte 2: Guardado de metadatos de preservación
○ DSpace no permite metadatos en bitstreams.
○ Opción 1: extender DSpace para que los soporte
■ Muy complejo
■ seguramente será agregado pronto por Dspace
○ Opción 2: crear un bitstream que almacene los datos en un
Bundle de preservación oculto:
■ Es menos complejo
■ No es invasivo
Tarea 7 Generación de reportes en
base a expresiones
● Los administradores precisan detectar y analizar casos complejos
en los ítems y sus metadatos. Por ejemplo:
○ registros con pocos metadatos
○ registros con metadatos faltantes (no obligatorios)
○ registros con múltiples valores de un mismo metadato
● El módulo de búsqueda de Dspace sólo considera metadatos
públicos, es decir, no es posible
○ buscar por metadatos administrativos u ocultos
○ acceder a información de los recursos que no está en los
metadato. Ej: última fecha de modificación.
Tarea 7 Generación de reportes en
base a expresiones. Propuesta
Tarea de curation para selección y reporte de objetos DSpace en base a
expresiones lógicas simples.
● Las expresiones permiten analizar y comparar los datos asociados a
cada objeto:
○ ítem → datos del ítem, bundles, bitstreams y metadatos
○ colección → datos de la colección y comunidad padre
○ comunidad → datos de la comunidad, comunidades padre e
hijas, colecciones hijas.
● Procedimiento: para cada objeto analizado (un ítem, una Colección o
una Comunidad):

1. se almacena el objeto en un espacio común “ValueStack”
2. se evalúa la expresión lógica sobre el ValueStack
3. segun el caso, se incluye el objeto en el reporte final o no.
Tarea 7 Generación de reportes en
base a expresiones. Propuesta
● las expresiones usan notación puntual para acceder al ValueStack y
deben evaluar a verdadero o falso
● el ValueStack brinda acceso a los parámetros de configuración y a
los datos del objeto (según el tipo)
● Alternativas de implementación:
○ expresiones algebraicas tradicionales
○ Criteria
Ejemplos

•

○ cantidad de bitstreams en el Bundle ORIGINAL de un ítem
■ ítem.bundle(„ORIGINAL‟).bitstream().count() > 0
○ cantidad de metadatos dc.title de un ítem
■ ítem.metadata(„dc.title‟).count() > 0
○ metadatos dependientes
■ if(ítem.metadata(„metadato1‟).count() >
0, ítem.metadata(„metadato2‟).count() > 0,true)
Estrategia de selección de ítems.
DSpace
● Dspace permite aplicar una tarea sobre
○ un ítem,
○ una colección y su contenido,
○ una comunidad y su contenido, o
○ todo el contenido del repositorio.
● Para aplicar otros criterios hay que agregar la lógica de
inclusión/exclusión de ítems a la tarea en sí.
■ se dificulta la programación de la tarea
■ se dificulta el reuso de tareas.
Estrategia de selección de ítems.
DSpace. Propuesta
•
•

Extender el módulo de curation de DSpace para
o permitir la aplicación de una tarea sobre un subconjunto de ítems
del repositorio.
Los criterios de selección serían expresiones lógicas simples (como
las planteadas para la tarea 7).
o Ejemplo:
 invocación sobre todos los artículos
“ítem.metadata(„dc.type‟) = „Article‟”
■ otros criterios podrían ser
● fecha de carga,
● fecha de última modificación,
● etc.

•
Características comunes de las
tareas de control de datos
1. realizan controles de sólo lectura, o al menos idempotentes
2. su ejecución es independiente de la ejecución de la misma tarea
sobre otros ítems
a. no dependen del orden de ejecución
b. pueden ser paralelizadas
3. deben estar optimizadas para reducir su impacto en el sistema
a. dado que se aplican regularmente sobre todo el repositorio.
Estrategia de aplicación de tareas en
DSpace
● el orden de aplicación de una tarea sobre los ítems considerados
es secuencial y síncrono.
○ al crecer el volumen del repositorio, aumenta el tiempo de
procesamiento de las tareas
○ una tarea lenta y frecuente, podría superponerse con la
siguiente ejecución.

● el orden de ejecución entre tareas es secuencial y síncrono:
○ si varias tareas lanzadas en simultáneo, se completa la
aplicación de cada tarea sobre todo el conjunto de ítems, antes
de pasar a la siguiente.
○ Genera overhead: cada ítem se levanta por cada tarea
Estrategia de aplicación de tareas.
Extensiones propuestas
•

Ejecución de tareas por bloques de ítems,
o para reducir el impacto en la performance general del sistema.
o el consumo de recursos es por ráfagas

● Ejecución de tareas en paralelo
○ para reducir el tiempo total de ejecución de tareas lentas como
Control de links muertos.
● Ejecución de tareas compuestas
○ para permitir controles complejos sobre los ítems.
○ Por ejemplo: tarea estadísticas que indique el “riesgo” de los
recursos en base al % de registros incompletos o incorrectos,
según la salida de varias tareas de control.
Trabajos Futuros
Las tareas y estrategias planteadas representan solo una pequeña
muestra de las acciones de control/monitoreo de datos que puede
desarrollar un repositorio para tratar de preservar sus recursos a
largo plazo.

Otras tareas no consideradas

•
•
•

detección de duplicados
relación de ítems (obras similares, etc)
diagnóstico de formatos internos en base a servicios externos,
como PRONOM
¡Muchas gracias!
Marisa De Giusti
marisa.degiusti@sedici.unlp.edu.ar

Ariel Lira
alira@sedici.unlp.edu.ar

Nestor Oviedo
oviedonestor@gmail.com

Gonzalo Villarreal
gonzalo@sedici.unlp.edu.ar

Contenu connexe

Tendances

Implementación de directorio Activo usando openLDAP en Ubuntu
Implementación de directorio Activo usando openLDAP en UbuntuImplementación de directorio Activo usando openLDAP en Ubuntu
Implementación de directorio Activo usando openLDAP en Ubuntudanthology
 
Sistema de Archivos Distribuidos
Sistema de Archivos DistribuidosSistema de Archivos Distribuidos
Sistema de Archivos DistribuidosRene Guaman-Quinche
 
Transferencia de bases de datos entre sistemas gestores
Transferencia de bases de datos entre sistemas gestoresTransferencia de bases de datos entre sistemas gestores
Transferencia de bases de datos entre sistemas gestoresTotus Muertos
 
Las principales bases de datos existentes
Las principales bases de datos existentesLas principales bases de datos existentes
Las principales bases de datos existentesrulascch
 
NOSQL: Primeros Pasos en MongoDB
NOSQL: Primeros Pasos en MongoDBNOSQL: Primeros Pasos en MongoDB
NOSQL: Primeros Pasos en MongoDBVictor Cuervo
 
Tarea1Cesar Ortiz
Tarea1Cesar OrtizTarea1Cesar Ortiz
Tarea1Cesar Ortizorlandito33
 
Arquitectura de oracle
Arquitectura de oracleArquitectura de oracle
Arquitectura de oraclealexparada01
 
Estructura de Almacenamiento en Oracle. TableSpaceZ052 07
Estructura de Almacenamiento en Oracle. TableSpaceZ052 07Estructura de Almacenamiento en Oracle. TableSpaceZ052 07
Estructura de Almacenamiento en Oracle. TableSpaceZ052 07Alexander Calderón
 

Tendances (13)

Implementación de directorio Activo usando openLDAP en Ubuntu
Implementación de directorio Activo usando openLDAP en UbuntuImplementación de directorio Activo usando openLDAP en Ubuntu
Implementación de directorio Activo usando openLDAP en Ubuntu
 
Sistema de Archivos Distribuidos
Sistema de Archivos DistribuidosSistema de Archivos Distribuidos
Sistema de Archivos Distribuidos
 
Transferencia de bases de datos entre sistemas gestores
Transferencia de bases de datos entre sistemas gestoresTransferencia de bases de datos entre sistemas gestores
Transferencia de bases de datos entre sistemas gestores
 
Bases de datos
Bases de datos Bases de datos
Bases de datos
 
Implantación de los
Implantación de losImplantación de los
Implantación de los
 
Las principales bases de datos existentes
Las principales bases de datos existentesLas principales bases de datos existentes
Las principales bases de datos existentes
 
Block
BlockBlock
Block
 
NOSQL: Primeros Pasos en MongoDB
NOSQL: Primeros Pasos en MongoDBNOSQL: Primeros Pasos en MongoDB
NOSQL: Primeros Pasos en MongoDB
 
Tarea1Cesar Ortiz
Tarea1Cesar OrtizTarea1Cesar Ortiz
Tarea1Cesar Ortiz
 
Arquitectura de oracle
Arquitectura de oracleArquitectura de oracle
Arquitectura de oracle
 
Estructura de Almacenamiento en Oracle. TableSpaceZ052 07
Estructura de Almacenamiento en Oracle. TableSpaceZ052 07Estructura de Almacenamiento en Oracle. TableSpaceZ052 07
Estructura de Almacenamiento en Oracle. TableSpaceZ052 07
 
Migracion de datos
Migracion de datosMigracion de datos
Migracion de datos
 
Que es MongoDB
Que es MongoDBQue es MongoDB
Que es MongoDB
 

Similaire à Control de integridad y calidad en repositorios DSpace

Introducción a DSpace - Universidad Nacional del Altiplano, Puno
Introducción a DSpace - Universidad Nacional del Altiplano, PunoIntroducción a DSpace - Universidad Nacional del Altiplano, Puno
Introducción a DSpace - Universidad Nacional del Altiplano, PunoElwin Huaman
 
Caracteristicas dbms (1)
Caracteristicas dbms (1)Caracteristicas dbms (1)
Caracteristicas dbms (1)Javier Plazas
 
Guia Basica Directorio Activo, Domain Controller y Exchange
Guia Basica Directorio Activo, Domain Controller y ExchangeGuia Basica Directorio Activo, Domain Controller y Exchange
Guia Basica Directorio Activo, Domain Controller y ExchangeJulian Molano Grautoff
 
SO Unidad 2: Mecanismos de comunicación y sincronización de procesos
SO Unidad 2: Mecanismos de comunicación y sincronización de procesosSO Unidad 2: Mecanismos de comunicación y sincronización de procesos
SO Unidad 2: Mecanismos de comunicación y sincronización de procesosFranklin Parrales Bravo
 
11-Unidad 2: Aplicaciones Windows Forms-2.3 Ado-net
11-Unidad 2: Aplicaciones Windows Forms-2.3 Ado-net11-Unidad 2: Aplicaciones Windows Forms-2.3 Ado-net
11-Unidad 2: Aplicaciones Windows Forms-2.3 Ado-netLuis Fernando Aguas Bucheli
 
Funciones del aministrador
Funciones del aministradorFunciones del aministrador
Funciones del aministradorsergio
 
Funciones del aministrador
Funciones del aministradorFunciones del aministrador
Funciones del aministradorsergio
 
Meetup En mi local funciona - Mi primer diseño con Apache Kafka
Meetup En mi local funciona - Mi primer diseño con Apache KafkaMeetup En mi local funciona - Mi primer diseño con Apache Kafka
Meetup En mi local funciona - Mi primer diseño con Apache KafkaatSistemas
 
Modoconexion
ModoconexionModoconexion
Modoconexionfanyto
 
Glosario base de datos jeison cruz
Glosario base de datos jeison cruzGlosario base de datos jeison cruz
Glosario base de datos jeison cruzJeison Cruz
 
Glosario base de datos Jeison Cruz
Glosario base de datos Jeison CruzGlosario base de datos Jeison Cruz
Glosario base de datos Jeison CruzJeison Cruz
 
Procesos e Hilos en los Sistemas Operativos
Procesos e Hilos en los Sistemas OperativosProcesos e Hilos en los Sistemas Operativos
Procesos e Hilos en los Sistemas OperativosEmmanuel Fortuna
 

Similaire à Control de integridad y calidad en repositorios DSpace (20)

Introducción a DSpace - Universidad Nacional del Altiplano, Puno
Introducción a DSpace - Universidad Nacional del Altiplano, PunoIntroducción a DSpace - Universidad Nacional del Altiplano, Puno
Introducción a DSpace - Universidad Nacional del Altiplano, Puno
 
Control de integridad y calidad en repositorios DSpace
Control de integridad y calidad en repositorios DSpaceControl de integridad y calidad en repositorios DSpace
Control de integridad y calidad en repositorios DSpace
 
Caracteristicas dbms (1)
Caracteristicas dbms (1)Caracteristicas dbms (1)
Caracteristicas dbms (1)
 
Experiencia en el harvesting de documentos OAI en el proyecto SeDiCI
Experiencia en el harvesting de documentos OAI en el proyecto SeDiCIExperiencia en el harvesting de documentos OAI en el proyecto SeDiCI
Experiencia en el harvesting de documentos OAI en el proyecto SeDiCI
 
Guia Basica Directorio Activo, Domain Controller y Exchange
Guia Basica Directorio Activo, Domain Controller y ExchangeGuia Basica Directorio Activo, Domain Controller y Exchange
Guia Basica Directorio Activo, Domain Controller y Exchange
 
Base de datos
Base de datosBase de datos
Base de datos
 
SO Unidad 2: Mecanismos de comunicación y sincronización de procesos
SO Unidad 2: Mecanismos de comunicación y sincronización de procesosSO Unidad 2: Mecanismos de comunicación y sincronización de procesos
SO Unidad 2: Mecanismos de comunicación y sincronización de procesos
 
11-Unidad 2: Aplicaciones Windows Forms-2.3 Ado-net
11-Unidad 2: Aplicaciones Windows Forms-2.3 Ado-net11-Unidad 2: Aplicaciones Windows Forms-2.3 Ado-net
11-Unidad 2: Aplicaciones Windows Forms-2.3 Ado-net
 
Base de datos
Base de datosBase de datos
Base de datos
 
Sistemas distribuidos
Sistemas distribuidosSistemas distribuidos
Sistemas distribuidos
 
Funciones del aministrador
Funciones del aministradorFunciones del aministrador
Funciones del aministrador
 
Funciones del aministrador
Funciones del aministradorFunciones del aministrador
Funciones del aministrador
 
Meetup En mi local funciona - Mi primer diseño con Apache Kafka
Meetup En mi local funciona - Mi primer diseño con Apache KafkaMeetup En mi local funciona - Mi primer diseño con Apache Kafka
Meetup En mi local funciona - Mi primer diseño con Apache Kafka
 
Active Directory
Active DirectoryActive Directory
Active Directory
 
Oracle
OracleOracle
Oracle
 
Actividad2uni3
Actividad2uni3Actividad2uni3
Actividad2uni3
 
Modoconexion
ModoconexionModoconexion
Modoconexion
 
Glosario base de datos jeison cruz
Glosario base de datos jeison cruzGlosario base de datos jeison cruz
Glosario base de datos jeison cruz
 
Glosario base de datos Jeison Cruz
Glosario base de datos Jeison CruzGlosario base de datos Jeison Cruz
Glosario base de datos Jeison Cruz
 
Procesos e Hilos en los Sistemas Operativos
Procesos e Hilos en los Sistemas OperativosProcesos e Hilos en los Sistemas Operativos
Procesos e Hilos en los Sistemas Operativos
 

Plus de Servicio de Difusión de la Creación Intelectual (SEDICI)

Plus de Servicio de Difusión de la Creación Intelectual (SEDICI) (20)

Panorama y definiciones sobre acceso abierto y repositorios institucionales: ...
Panorama y definiciones sobre acceso abierto y repositorios institucionales: ...Panorama y definiciones sobre acceso abierto y repositorios institucionales: ...
Panorama y definiciones sobre acceso abierto y repositorios institucionales: ...
 
Un entorno de aprendizaje y una propuesta de enseñanza de Simulación de Event...
Un entorno de aprendizaje y una propuesta de enseñanza de Simulación de Event...Un entorno de aprendizaje y una propuesta de enseñanza de Simulación de Event...
Un entorno de aprendizaje y una propuesta de enseñanza de Simulación de Event...
 
Los beneficios del desarrollo dirigido por modelos en los repositorios instit...
Los beneficios del desarrollo dirigido por modelos en los repositorios instit...Los beneficios del desarrollo dirigido por modelos en los repositorios instit...
Los beneficios del desarrollo dirigido por modelos en los repositorios instit...
 
SeDiCI - Desafíos y experiencias en la vida de un repositorio digital
SeDiCI - Desafíos y experiencias en la vida de un repositorio digitalSeDiCI - Desafíos y experiencias en la vida de un repositorio digital
SeDiCI - Desafíos y experiencias en la vida de un repositorio digital
 
El desarrollo de software dirigido por modelos en los repositorios institucio...
El desarrollo de software dirigido por modelos en los repositorios institucio...El desarrollo de software dirigido por modelos en los repositorios institucio...
El desarrollo de software dirigido por modelos en los repositorios institucio...
 
SeDiCI - Desafíos y experiencias en la vida de un repositorio digital
SeDiCI - Desafíos y experiencias en la vida de un repositorio digitalSeDiCI - Desafíos y experiencias en la vida de un repositorio digital
SeDiCI - Desafíos y experiencias en la vida de un repositorio digital
 
Proyecto Celsius3: software para gestionar pedidos de material bibliográfico ...
Proyecto Celsius3: software para gestionar pedidos de material bibliográfico ...Proyecto Celsius3: software para gestionar pedidos de material bibliográfico ...
Proyecto Celsius3: software para gestionar pedidos de material bibliográfico ...
 
Interoperabilidad entre el Repositorio Institucional y servicios en línea en ...
Interoperabilidad entre el Repositorio Institucional y servicios en línea en ...Interoperabilidad entre el Repositorio Institucional y servicios en línea en ...
Interoperabilidad entre el Repositorio Institucional y servicios en línea en ...
 
Preservación digital: un experimento con SEDICI-DSpace
Preservación digital: un experimento con SEDICI-DSpacePreservación digital: un experimento con SEDICI-DSpace
Preservación digital: un experimento con SEDICI-DSpace
 
LibLink (Library Linkages): Estrategias, proyectos y acciones 2013-2014
LibLink (Library Linkages): Estrategias, proyectos y acciones 2013-2014LibLink (Library Linkages): Estrategias, proyectos y acciones 2013-2014
LibLink (Library Linkages): Estrategias, proyectos y acciones 2013-2014
 
Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...
Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...
Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...
 
Digitalización y reconocimiento de documentos manuscritos para la preservació...
Digitalización y reconocimiento de documentos manuscritos para la preservació...Digitalización y reconocimiento de documentos manuscritos para la preservació...
Digitalización y reconocimiento de documentos manuscritos para la preservació...
 
Generación automática de resúmenes de congresos e integración con el Reposito...
Generación automática de resúmenes de congresos e integración con el Reposito...Generación automática de resúmenes de congresos e integración con el Reposito...
Generación automática de resúmenes de congresos e integración con el Reposito...
 
Ibero-American Science and Education Consortium (ISTEC): New challenges in a ...
Ibero-American Science and Education Consortium (ISTEC): New challenges in a ...Ibero-American Science and Education Consortium (ISTEC): New challenges in a ...
Ibero-American Science and Education Consortium (ISTEC): New challenges in a ...
 
Las actividades y el planeamiento de la preservación en un repositorio instit...
Las actividades y el planeamiento de la preservación en un repositorio instit...Las actividades y el planeamiento de la preservación en un repositorio instit...
Las actividades y el planeamiento de la preservación en un repositorio instit...
 
Interoperabilidad con el repositorio institucional
Interoperabilidad con el repositorio institucionalInteroperabilidad con el repositorio institucional
Interoperabilidad con el repositorio institucional
 
SeDiCI (Servicio de Difusión de la Creación Intelectual): un recorrido de exp...
SeDiCI (Servicio de Difusión de la Creación Intelectual): un recorrido de exp...SeDiCI (Servicio de Difusión de la Creación Intelectual): un recorrido de exp...
SeDiCI (Servicio de Difusión de la Creación Intelectual): un recorrido de exp...
 
GPSS interactive learning environment
GPSS interactive learning environmentGPSS interactive learning environment
GPSS interactive learning environment
 
GPSS interactive learning environment
GPSS interactive learning environmentGPSS interactive learning environment
GPSS interactive learning environment
 
Extract, transform and load architecture for metadata collection
Extract, transform and load architecture for metadata collectionExtract, transform and load architecture for metadata collection
Extract, transform and load architecture for metadata collection
 

Dernier

Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónLourdes Feria
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.amayarogel
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADauxsoporte
 
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdfGUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdfPaolaRopero2
 
Estrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptxEstrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptxdkmeza
 
plan de capacitacion docente AIP 2024 clllll.pdf
plan de capacitacion docente  AIP 2024          clllll.pdfplan de capacitacion docente  AIP 2024          clllll.pdf
plan de capacitacion docente AIP 2024 clllll.pdfenelcielosiempre
 
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...JAVIER SOLIS NOYOLA
 
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Carlos Muñoz
 
PIAR v 015. 2024 Plan Individual de ajustes razonables
PIAR v 015. 2024 Plan Individual de ajustes razonablesPIAR v 015. 2024 Plan Individual de ajustes razonables
PIAR v 015. 2024 Plan Individual de ajustes razonablesYanirisBarcelDelaHoz
 
plande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfplande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfenelcielosiempre
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptxFelicitasAsuncionDia
 
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdfCurso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdfFrancisco158360
 
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxSEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxYadi Campos
 
origen y desarrollo del ensayo literario
origen y desarrollo del ensayo literarioorigen y desarrollo del ensayo literario
origen y desarrollo del ensayo literarioELIASAURELIOCHAVEZCA1
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAEl Fortí
 
Sesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxSesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxMaritzaRetamozoVera
 
Ley 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularLey 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularMooPandrea
 

Dernier (20)

Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcción
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDAD
 
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdfGUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
GUIA DE CIRCUNFERENCIA Y ELIPSE UNDÉCIMO 2024.pdf
 
Unidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la InvestigaciónUnidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la Investigación
 
Estrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptxEstrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptx
 
plan de capacitacion docente AIP 2024 clllll.pdf
plan de capacitacion docente  AIP 2024          clllll.pdfplan de capacitacion docente  AIP 2024          clllll.pdf
plan de capacitacion docente AIP 2024 clllll.pdf
 
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
 
Sesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronósticoSesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronóstico
 
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
 
Fe contra todo pronóstico. La fe es confianza.
Fe contra todo pronóstico. La fe es confianza.Fe contra todo pronóstico. La fe es confianza.
Fe contra todo pronóstico. La fe es confianza.
 
PIAR v 015. 2024 Plan Individual de ajustes razonables
PIAR v 015. 2024 Plan Individual de ajustes razonablesPIAR v 015. 2024 Plan Individual de ajustes razonables
PIAR v 015. 2024 Plan Individual de ajustes razonables
 
plande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfplande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdf
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptx
 
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdfCurso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
 
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxSEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
 
origen y desarrollo del ensayo literario
origen y desarrollo del ensayo literarioorigen y desarrollo del ensayo literario
origen y desarrollo del ensayo literario
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
 
Sesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxSesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docx
 
Ley 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularLey 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circular
 

Control de integridad y calidad en repositorios DSpace

  • 1. Control de integridad y calidad en repositorios DSPACE
  • 2. Motivación. Condiciones actuales 1. El origen de los datos es diverso (autoarchivo, cosechas OAI-PMH, depósito vía SWORD, etc) y por tanto varían sus características ○ Es necesario validar que los ítems archivados respeten la política de contenidos. 2. Con el tiempo cambian los requerimientos mínimos que debe cumplir un ítem en el repositorio ○ Surge la necesidad de verificar periódicamente estos requerimientos mínimos 3. A medida que aumenta el volumen de datos, cada vez es más complicado detectar anomalías ○ Se necesitan mecanismos de control/monitoreo de metadatos y archivos.
  • 3. Herramientas para Control de datos en repositorios DSpace ● ChecksumChecker ○ Verifica la integridad de los archivos ● MediaFilter ○ Transforma un bitstream de un ítem o extrae uno nuevo derivado del anterior. Ejemplo: imágenes eb miniatura, fulltext, etc. ● EmbargoChecker ○ Verifica que todas las partes de un ítem embargado (ítem, bundle, bitstream) se mantengan ocultas ● Curation Tasks o Tareas de Curation ○ permite un control semi-automático de objetos del repositorio
  • 4. Curation Tasks en DSpace ● Permite aplicar una “pieza de software” sobre uno o varios objetos del repositorio. ● Una tarea ○ se aplica sobre un objeto puntual (ítem, Collection, Community) ○ puede acceder y modificar cualquier aspecto de su contexto como metadatos, bitstreams, etc. ● Provee varias tareas predefinidas. Por ejemplo: ○ Format Profiling → análisis de formatos de archivos ○ Required metadata → metadatos requeridos ○ ClamScan → detección de virus en los archivos ○ Microsoft translator → traduccion automática ○ Link Checker → Validacion de links
  • 5. Tareas para control de calidad y preservación. Propuesta I. Control y preservación de datos a partir de tareas de curation que realicen: o chequeos de calidad, o control de integridad y o extracción/generación de nuevos metadatos I. Extensiones al módulo de curation de Dspace para: o mejorar las estrategias de selección de recursos a procesar. o agregar nuevas estrategias de ejecución de tareas para reducir su costo de ejecución (en tiempo y recursos)
  • 6. Tarea 1 Chequeo de links muertos Casi todos los ítems de repositorio tienen al menos un link en sus metadatos. Por ejemplo: ● ● ● ● URL a la licencia de uso URL de acceso al recurso (para recursos externos) URL al origen del registro URL a otras versiones o trabajos relacionados Con el tiempo los links suelen dejar de funcionar: ● temporalmente: error interno, servidor en proceso de actualización, etc ● permanentemente: Cambio en el dominio o ruta, servicio descontinuado, etc
  • 7. Tarea 1 Chequeo de links muertos. Implementaciones DSpace DSpace provee 2 implementaciones básicas para verificación de enlaces en los metadatos: 1. BasicLinkChecker : chequea y genera un reporte para cada metadato cuyo calificador es “uri” (i.e. dc.rights.uri). 1. MetadataValueLinkChecker: selecciona todos los metadatos de un ítem y analiza para cada uno si su contenido comienza con “http://” o “https://”. En caso afirmativo, chequea el enlace y reporta el resultado de la prueba.
  • 8. Tarea 1 Chequeo de links muertos. Implementaciones DSpace (2) Ambas tareas presentan los mismos inconvenientes. No permiten: ○ configurar el metadato que debe validarse ■ → No queremos chequear dc.rights.uri ■ → Sí queremos chequear dc.relation.isPartOf ○ Definir timeout de conexión ○ Cache de respuestas ■ → El 50% de los ítems en SEDICI tiene una de las 6 licencias CC con las mismas URL. En promedio cada URL de licencia CC se chequea unas 2500 veces. Ej. http://creativecommons.org/licenses/by-nc/3.0/ ○ Redirecciones Web (i.e. STATUS 3xx) Estos problemas hacen que la ejecución de la tarea sea extremadamente lenta, ineficiente y que el reporte sea inexacto, dado que pueden haber URL reportadas como fallidas que no lo están.
  • 9. Tarea 1 Chequeo de links muertos. Propuesta Tarea de Curation que permita ● indicar cuáles metadatos deben validarse ● manejar redirecciones 301 (permanentes), 302 (temporales) y 303 (see other, las que usa handle.net) ● permita indicar un timeout de conexión máximo ● mantenga un historial de URL chequeadas durante la ejecución actual (como una cache muy simple)
  • 10. Tarea 2 Metadatos conectados con Autoridades. Modelo Dspace • • • DSpace no brinda soporte para gestión de autoridades o Se asume que estos datos están disponibles pero que se gestionan por fuera de la aplicación. Es posible conectar/vincular metadatos y autoridades a través de extensiones denominadas ChoiceAuthority o recuperan datos desde servicios complementarios para luego guardarlos en un metadato. Los datos provistos pueden ser: ○ internos. Ej: Términos de un vocabulario interno (XML Controlled Vocabularies) ○ externos al software. Ej: Materias de un sistema de clasificación ○ externos al repositorio. Ej: Autores de un sistema institucional.
  • 11. Tarea 2 Metadatos conectados con Autoridades. Representación • En el entorno de DSpace, los autoridades sólo “existen” en los metadatos que las referencian. o Cada metadato puede mantener un vínculo con una autoridad a partir del guardado de su clave y texto representativo. Por ejemplo dc.contributor.author=(“156442”, “Tim Berners-Lee”) o el metadato “dc.contributor.author” referencia al autor Tim Berners-Lee existente en la base de Autores de la biblioteca.
  • 12. Tarea 2 Metadatos conectados con Autoridades. Problema El vínculo es débil ya que no cumple con los principios de integridad referencial. Si la autoridad es modificada en el sistema de gestión de autoridades externo, el vínculo no se actualiza ya que Dspace no se entera y los datos quedan: 1. descoordinados: se referencia a una autoridad que ha cambiado su nombre pero en el repositorio se tiene el nombre viejo, o aún peor, 2. con referencias colgantes: se apunta a un autoridad que no existe más
  • 13. Tarea 2 Metadatos conectados con Autoridades. Propuesta Se propone la creación de una curation task que 1. se ejecute periódicamente, 2. verifique la existencia de las autoridades apuntadas desde los metadatos en el ChoiceAuthority ○ permite detectar referencias colgantes a autoridades eliminadas ○ podría desconectar el metadato y dejar solo el texto 3. contraste el texto de los metadatos controlados con el valor retornado por el ChoiceAuthority ○ detecta modificaciones en los textos ○ podría corregir el dato local, copiando el nuevo 4. genere un reporte con las discrepancias y acciones tomadas
  • 14. Tarea 3 Accesibilidad de objetos digitales. Ubicación Según las políticas de contenidos, algunos objetos digitales pueden estar alojados fuera del repositorio. ● Los recursos externos suelen referenciarse a partir de una URL o a partir de identificador persistente ● Algunas razones comunes son: ○ falta de derechos sobre la obra, ○ incapacidad de gestionar los datos. (ej. por tamaño excesivo). Cualquiera sea el caso, el repositorio siempre debe dar acceso al objeto digital, ya sea directa o indirectamente.
  • 15. Tarea 3 Accesibilidad de objetos digitales. Propuesta Corrobora para cada ítem que al menos un objeto digital sea accesible a partir de al menos: ● uno o más bitstreams públicamente accesibles, o ● un metadato (configurable) cuyo contenido sea ○ una URL al archivo alojado en un servidor externo. Por ejemplo en ”dc.identifier.uri”, o ○ un identificador persistente (diferente al del ítem actual). Por ejemplo: a partir de hdl: 1822/24377→ generamos http://hdl.handle.net/1822/24377 El resultado de la ejecución es un reporte con los ítems que no cumplen las restricciones definidas de archivo o de enlace.
  • 16. Tarea 4 Metadatos obligatorios La obligatoriedad de un metadato está definida en base a: 1. requisitos globales, para cualquier clase de ítem. Ej: fecha, título, autor 1. requisitos según la tipología documental. Ej: ISBN para libros, ISSN para revistas. 1. otros criterios institucionales como licencias de uso, fuente de financiación, reglamentación local, etc.
  • 17. Tarea 4 Metadatos obligatorios en Dspace • Configuración única: input-forms.xml o especifica el procedimiento de carga de documentos (submission process) o rige la tarea de curation RequiredMetadata  revisa los documentos y  genera un reporte con todos los metadatos obligatorios globales ausentes.
  • 18. Tarea 4 Metadatos obligatorios. Propuesta • Desde la versión 3, es posible indicar campos opcionales y obligatorios según el tipo de documento o se considera solo para la carga Solución simple ● Extender la curation task de Dspace para que: ○ valide los metadatos globales obligatorios ○ según el tipo del documento (dc.type) y de acuerdo a la configuración, valide los metadatos necesarios
  • 19. Tarea 5 Validación del dominio de metadatos. Contexto ● Un metadato posee un dominio que determina ○ cuáles son los valores que puede tomar o ○ al menos qué sintaxis debe respetar según el tipo de dato. Ejemplos ○ dc.contributor.author debe ser un texto ○ dc.date debe ser una fecha en formato ISO8601 ○ dc.language debe ser un ISO 3166 (en, es, pt, etc) El control de dominio debe realizarse: 1. inicialmente en la carga 2. periódicamente sobre los recursos existentes
  • 20. Tarea 5 Validación del dominio de metadatos. ¿Qué hace DSpace? ● No permite asociar un dominio a un metadato ○ no brinda un mecanismo para validar su contenido. ● Define algunos controles de carga que “ayudan” a que los datos sean correctos: ○ fecha, caja de texto, vocabulario controlado ● Problemas: ○ los controles de carga poco estrictos representan un riesgo para la calidad de los nuevos registros. ○ Si existen metadatos con valores inválidos el sistema no lo nota
  • 21. Tarea 5 Validación del dominio de metadatos. Propuesta • • • Tarea de curation corrobore que el valor de ciertos metadatos respeta el dominio correspondiente. Alternativas para definir las reglas: a. la tarea de curation, b. el registro de metadatos de DSpace, c. archivo de configuración de carga (input-forms.xml) La última opción es la elegida: a. es relativamente simple, b. no invasivo, dado que no modifica el modelo c. permite que se use desde el resto del sistema, d. provee mayor flexibilidad de configuración
  • 22. Tarea 5 Validación de metadatos según su dominio. Casos a soportar ● Tipos básicos: boolean, fechas, números, textos de una línea, multilínea. ● Enumerativos (value-pairs): se controla que sea uno de los valores permitidos ● Vocabularios controlados: se puede reusar la tarea 2. • Potencial para tipos de datos más avanzados: URL, HTML, geolocation, doi, hdl, LaTeX, etc. Ejemplo <field> <dc-schema>dc</dc-schema> <dc-element>identifier</dcelement> <dc-qualifier>uri</dc-qualifier> <label>Alternate URI</label> <domain>URI</domain> </field>
  • 23. Tarea 6 Extracción de metadatos de preservación Para asegurar la usabilidad de los recursos digitales en el tiempo, el repositorio debe: 1. garantizar su accesibilidad ○ es decir, que los archivos no se pierdan, 2. evitar su obsolescencia ○ es decir, verificar los formatos de los archivos y transformarlos en caso de ser necesario. El análisis de formatos de recursos requiere: la información de los recursos , los objetos digitales (los archivos) y el contexto necesario para acceder a cada objeto (software, versión, etc) • • •
  • 24. Tarea 6 Extracción de metadatos de preservación • La información asequible a partir de los archivos dependerá en gran medida de los formatos, pero en general incluye: o plataforma, o datos del software con el que se generó el archivo (nombre, versiones, etc), o fechas. Ejemplo: un archivo PDF mantiene al menos tamaño físico de las páginas, software, y versión con el que se creó el archivo fuente y el PDF, fecha, autor y datos de la PC usada. Dspace registra de cada bitstream/archivo sólo su formato, representado por su tipo MIME
  • 25. Tarea 6 Extracción de metadatos de preservación. Propuesta • Desarrollo de una tarea de curation que permita 1) realizar la extracción de datos de los archivos 2) almacenar los metadatos de preservación asociados a cada bitstream. Parte 1: Extracción de datos de los archivos. o Hay muchas aplicaciones y librerías estables que lo hacen. o Ej: Apache Tika soporta  imágenes (JPEG, PNG, etc),  audio y video (MPEG, AVI, etc),  MS Office (DOC, XLS, etc),  y muchos más. •
  • 26. Tarea 6 Extracción de metadatos de preservación. Propuesta (2) ● Parte 2: Guardado de metadatos de preservación ○ DSpace no permite metadatos en bitstreams. ○ Opción 1: extender DSpace para que los soporte ■ Muy complejo ■ seguramente será agregado pronto por Dspace ○ Opción 2: crear un bitstream que almacene los datos en un Bundle de preservación oculto: ■ Es menos complejo ■ No es invasivo
  • 27. Tarea 7 Generación de reportes en base a expresiones ● Los administradores precisan detectar y analizar casos complejos en los ítems y sus metadatos. Por ejemplo: ○ registros con pocos metadatos ○ registros con metadatos faltantes (no obligatorios) ○ registros con múltiples valores de un mismo metadato ● El módulo de búsqueda de Dspace sólo considera metadatos públicos, es decir, no es posible ○ buscar por metadatos administrativos u ocultos ○ acceder a información de los recursos que no está en los metadato. Ej: última fecha de modificación.
  • 28. Tarea 7 Generación de reportes en base a expresiones. Propuesta Tarea de curation para selección y reporte de objetos DSpace en base a expresiones lógicas simples. ● Las expresiones permiten analizar y comparar los datos asociados a cada objeto: ○ ítem → datos del ítem, bundles, bitstreams y metadatos ○ colección → datos de la colección y comunidad padre ○ comunidad → datos de la comunidad, comunidades padre e hijas, colecciones hijas. ● Procedimiento: para cada objeto analizado (un ítem, una Colección o una Comunidad): 1. se almacena el objeto en un espacio común “ValueStack” 2. se evalúa la expresión lógica sobre el ValueStack 3. segun el caso, se incluye el objeto en el reporte final o no.
  • 29. Tarea 7 Generación de reportes en base a expresiones. Propuesta ● las expresiones usan notación puntual para acceder al ValueStack y deben evaluar a verdadero o falso ● el ValueStack brinda acceso a los parámetros de configuración y a los datos del objeto (según el tipo) ● Alternativas de implementación: ○ expresiones algebraicas tradicionales ○ Criteria Ejemplos • ○ cantidad de bitstreams en el Bundle ORIGINAL de un ítem ■ ítem.bundle(„ORIGINAL‟).bitstream().count() > 0 ○ cantidad de metadatos dc.title de un ítem ■ ítem.metadata(„dc.title‟).count() > 0 ○ metadatos dependientes ■ if(ítem.metadata(„metadato1‟).count() > 0, ítem.metadata(„metadato2‟).count() > 0,true)
  • 30. Estrategia de selección de ítems. DSpace ● Dspace permite aplicar una tarea sobre ○ un ítem, ○ una colección y su contenido, ○ una comunidad y su contenido, o ○ todo el contenido del repositorio. ● Para aplicar otros criterios hay que agregar la lógica de inclusión/exclusión de ítems a la tarea en sí. ■ se dificulta la programación de la tarea ■ se dificulta el reuso de tareas.
  • 31. Estrategia de selección de ítems. DSpace. Propuesta • • Extender el módulo de curation de DSpace para o permitir la aplicación de una tarea sobre un subconjunto de ítems del repositorio. Los criterios de selección serían expresiones lógicas simples (como las planteadas para la tarea 7). o Ejemplo:  invocación sobre todos los artículos “ítem.metadata(„dc.type‟) = „Article‟” ■ otros criterios podrían ser ● fecha de carga, ● fecha de última modificación, ● etc. •
  • 32. Características comunes de las tareas de control de datos 1. realizan controles de sólo lectura, o al menos idempotentes 2. su ejecución es independiente de la ejecución de la misma tarea sobre otros ítems a. no dependen del orden de ejecución b. pueden ser paralelizadas 3. deben estar optimizadas para reducir su impacto en el sistema a. dado que se aplican regularmente sobre todo el repositorio.
  • 33. Estrategia de aplicación de tareas en DSpace ● el orden de aplicación de una tarea sobre los ítems considerados es secuencial y síncrono. ○ al crecer el volumen del repositorio, aumenta el tiempo de procesamiento de las tareas ○ una tarea lenta y frecuente, podría superponerse con la siguiente ejecución. ● el orden de ejecución entre tareas es secuencial y síncrono: ○ si varias tareas lanzadas en simultáneo, se completa la aplicación de cada tarea sobre todo el conjunto de ítems, antes de pasar a la siguiente. ○ Genera overhead: cada ítem se levanta por cada tarea
  • 34. Estrategia de aplicación de tareas. Extensiones propuestas • Ejecución de tareas por bloques de ítems, o para reducir el impacto en la performance general del sistema. o el consumo de recursos es por ráfagas ● Ejecución de tareas en paralelo ○ para reducir el tiempo total de ejecución de tareas lentas como Control de links muertos. ● Ejecución de tareas compuestas ○ para permitir controles complejos sobre los ítems. ○ Por ejemplo: tarea estadísticas que indique el “riesgo” de los recursos en base al % de registros incompletos o incorrectos, según la salida de varias tareas de control.
  • 35. Trabajos Futuros Las tareas y estrategias planteadas representan solo una pequeña muestra de las acciones de control/monitoreo de datos que puede desarrollar un repositorio para tratar de preservar sus recursos a largo plazo. Otras tareas no consideradas • • • detección de duplicados relación de ítems (obras similares, etc) diagnóstico de formatos internos en base a servicios externos, como PRONOM
  • 36. ¡Muchas gracias! Marisa De Giusti marisa.degiusti@sedici.unlp.edu.ar Ariel Lira alira@sedici.unlp.edu.ar Nestor Oviedo oviedonestor@gmail.com Gonzalo Villarreal gonzalo@sedici.unlp.edu.ar