Este documento presenta un proyecto de investigación sobre el control de registros bibliográficos duplicados en las bases de datos. El objetivo es identificar las causas de duplicidad y desarrollar un método para detectarlos y corregirlos. Se analizan 1120 registros cargados en Absys y la base de datos de CCPB. Se utiliza Linux, BRS y un script para identificar 125 títulos duplicados. Luego se comprueban las descripciones y 57 registros pasan a ser fondos asociados a CCPB, mientras que otros 22 se mantienen
1. Universidad de Granada
Facultad: Facultad de Comunicación y Documentación
Departamento: Biblioteconomía y Documentación
Nombre: Josefina Vílchez Pardo
Proyecto de investigación
Control de registros bibliográficos
duplicados en las bases de datos
Nombre: José Mario Martín Rivas
Asignatura: Práctica y Memoria
Curso: 3º B
Fecha:04.07.2011
2. ÍNDICE
INTRODUCCIÓN............................................................................. 3
METODOLOGÍA Y OBJETIVOS ......................................................... 3
DESARROLLO ................................................................................. 4
CONCLUSIONES ........................................................................... 13
BIBLIOGRAFÍA ............................................................................ 15
2
3. INTRODUCCIÓN
En la sociedad del conocimiento en la cual hoy estamos inmersos, la información se
ha convertido en un pilar importante para la generación de dicho conocimiento.
Existen diversas fuentes que posibilitan el acceso a la información. Una de ellas son
los catálogos automatizados de las bibliotecas. En ellos se puede encontrar los
distintos fondos bibliográficos de una biblioteca y las localizaciones de sus registros.
Estos catálogos pueden ser propios de una sola biblioteca o pertenecer a un
colectivo de estas. Tanto en un caso como en otro, se esta produciendo un
problema de graves consecuencias. Este es, la duplicidad de registros bibliográficos.
Esta cuestión produce un aumento cuantitativo del catálogo de la biblioteca de una
manera negativa y de forma paralela, un conflicto para la recuperación de
documentos. Las localizaciones de estos documentos se encontrarán dispersas por
distintos registros bibliográficos.
Esta investigación, tratará sobre la identificación de las causas de esta situación.
Además se desarrollará un método de control para minimizarla. He aquí la
importancia a nivel personal y social de esta investigación.
En esta investigación he buscado conexiones con otros trabajos que me ayuden a
desarrollar los datos obtenidos. He utilizado el artículo con título “Evaluación de la
calidad en la automatización de bibliotecas” (1).
Para este estudio, me baso en mi trabajo en la empresa Baratz, donde he trabajado
con distintas cargas de registros bibliográficos de fondo antiguo, para su posterior
carga en el Catálogo Colectivo del Patrimonio Bibliográfico (a partir de ahora CCPB).
En los siguientes puntos se desarrollarán las aplicaciones utilizadas, los errores
identificados y el método de control.
METODOLOGÍA Y OBJETIVOS
1. Aplicaciones y bases de datos
Se han utilizado las siguientes aplicaciones:
3
4. § Sistema de Gestión Bibliotecaria Absys v.7. Los registros bibliográficos que
se han catalogado y que se van a volcar en la base de datos del CCPB, se ha
realizado con el Sistema de Gestión Bibliográfica Absys v.7, en el módulo de
catalogación. La carga contiene 1120 registros bibliográficos, que antes de
ser realizados, han sido buscados en la base de datos de CCPB (cd de abril
de 2010), para comprobar si ya estaban incluidos.
§ Base de datos de CCPB correspondiente a la última actualización mandada
por CCPB de abril de 2010.
§ Servidor con sistema operativo Linux Red HAT AS4, y se trabajará con el
Editor VI de dicho sistema operativo
2. Técnicas
Se cargarán en Linux tanto la carga de registros nuevos realizados con Absys y la
perteneciente a la base de datos de CCPB. Se trabaja en BRS y con la utilización de
un script, se identificarán los registros duplicados entre las dos cargas. Con el
Editor VI, se corregirá los errores detectados.
3. Objetivos
Los objetivos de esta investigación es identificar las distintas causas de la
duplicidad de registros en la base de datos del CCPB producidas por el volcado de
cargas. Así como desarrollar un método que posibilite la detección de estos casos y
su posterior corrección.
DESARROLLO
1. Casuística
Como se ha comentado anteriormente, en este trabajo, se va a relacionar la
investigación con el artículo de título “Evaluación de la calidad en la automatización
de bibliotecas” (1). En este artículo, entre otros datos, se identifican algunas de las
posibles causas de la existencia de duplicados en las bases de datos bibliográficas.
En él se habla de los volcados de información a las bases de datos, como una de las
causas:
“Las nuevas tecnologías que permiten el volcado de grandes cantidades de información con un escaso
proceso de elaboración, conformando bases de datos bibliográficas que pretenden poner en entredicho la
4
5. necesidad y la validez de los sistemas tradicionales de información, basados en un costoso proceso de
análisis documental”
Otra de las causas identificadas, son los distintos métodos de trabajo, como
consecuencia de los cambios de software, la no elaboración de manuales de
procedimientos, señalando las especificaciones a seguir para conseguir un trabajo
unificado, e incluso la falta de preparación de los centros:
“Los cambios en el software documental que derivan en transvases de información, con las consiguientes
perdidas de datos y errónea distribución de información en los campos marc.
La inexistencia de un manual de procedimiento común de introducción de datos en los centros de
información que permitan recoger toda la casuística surgida para obtener la uniformidad en el proceso.
Los numerosos cambios en los métodos de trabajo, que dificultan la homogeneización en los registros.
La inexperiencia de algunos centros así como la escasa preparación de su personal en procesos de
automatización de fondos bibliográficos”
Una causa más, para la baja calidad de las bases de datos bibliográficas, se
produce con la asignación de puntos de acceso:
“Asignar correctamente los términos de acceso:
§ Autores y entidades
§ Títulos
§ Series
§ Materias
§ Control de clasificación
§ Homogeneización entre clasificación y materia”
La mayor parte de estas causas, han sido identificadas en la investigación, en
relación a la base de datos bibliográficos de CCPB. En un principio, este catálogo se
nutría de las bases de datos de las distintas Comunidades Autónomas. Cada una
con un software, especificaciones de procedimiento y métodos de trabajo
diferentes. Así como algunos centros con inexperiencia y escasa formación de su
personal.
Esto produjo, un volcado de información masivo, donde se observan registros
duplicados, con diferentes descripciones, por ejemplo, en relación a puntos de
acceso o a la reunificación de ediciones distintas.
Hay que decir que por parte de CCPB, existe un proceso exhaustivo para la
identificación de estos duplicados y la posterior asociación de sus localizaciones.
5
6. En esta investigación se han detectado, otras razones para este problema, en
relación a las cargas realizadas en los distintos centros:
Ø Omisión de información en los registros de CCPB. Esto genera el
hecho de que las búsquedas no den los resultados esperados y
por tanto se catalogue de nuevo el documento.
Ø Errores de ortografía y gramaticales, tanto en la sentencia de
búsqueda como en los registros de CCPB, produciendo unos
resultados de búsqueda negativos. No son tanto los errores de
ortografía como los errores de transcripción de los caracteres en
latín de obras de siglos XVI al XVIII, donde la utilización de los
caracteres “v” y “i” en detrimento de la “u” y “j”, producen graves
problemas.
Ø Los plazos de entrega para el volcado de las cargas, demasiado
largos, y que producen que registros ya catalogados, pero aún no
visibles en el catálogo, sean de nuevo descritos.
2. Proceso de detección de duplicados
Este proceso se ha desarrollado para la detección de los registros duplicados y su
posterior corrección, previo a su volcado en la base de datos de CCPB.
Consta de varias fases:
§ Fase 1: se cargan los registros bibliográficos, tanto los realizados con el
Absys 7 y los pertenecientes al CCPB, en el servidor con el sistema operativo
Linux. A partir de este momento todo el trabajo se realizará en este entorno,
con la posterior utilización del gestor documental BRS y del Editor VI.
ABSYS7_CCPB>brsload prue -create -file rae_SD -force -ver
Start of BRS Load Process for PRUE -- Thu Jun 30 10:01:17 2011
Input file is rae_SD
BRS Load Process -- Loading All Documents
************************************************** 50
************************************************** 100
************************************************** 150
************************************************** 200
************************************************** 250
************************************************** 300
************************************************** 350
************************************************** 400
************************************************** 450
************************************************** 500
************************************************** 550
************************************************** 600
6
7. ************************************************** 650
************************************************** 700
************************************************** 750
************************************************** 800
************************************************** 850
************************************************** 900
************************************************** 950
************************************************** 1000
************************************************** 1050
************************************************** 1100
*************************
Text Update Step Statistics:
Documents: Added 1125, Dropped 0, Total in DB 1125
Words: Added 105593, Dropped 0, Stopped 0
Values: Added 5260, Dropped 0, Abbreviations 1820
Amount of Input Processed: 51670 lines
Space left by deleted documents: 0 bytes
Unchanged words dropped from sort process: 0
§ Fase 2: se desarrolla un script 1, el cual ejecutará diversas acciones:
Ø De cada una de las cargas, tomará la primera línea del campo
marc 245.
Ø Eliminará todos los signos de puntuaciones ortográficos y las
mayúsculas.
Ø Realiza una comparativa de caracteres entre las dos cargas e
identifica aquellos que contiene la misma cadena de
caracteres
Ø El resultado será un fichero, el cual contiene los títulos
duplicados y el número de repeticiones
El resultado de este fichero en la muestra utilizada en esta investigación, es
de 125 títulos (10,42 %) con un máximo de tres repeticiones.
-rw-rw-r-- 1 absys absys 1258 may 29 15:45 t245_dup
ABSYS7_CCPB>vi t245_dup
2 a los electores del distrito de los martires
2 asturianadas por bulerias que se va el vapor cantadas por
2 bonito tango de cadiz titulado los gallos dedicado al derribo de las
2 bulla de indulgencia plenaria concedida para las animas de los fieles
3 coleccion de canciones modernas
2 el cantor de las hermosas trovas de amor dedicadas al bello sexo
3 juana la valerosa hechos memorables y atrocidades que cometio esta
2 la tia girula chiste moderno acaecido en el pueblo de almeria con
2 lista de los abogados del llustre colegio de la audiencia de caceres
2 lista de los numeros y doncellas para la extraccion de la real loteria
2 minuete sacramental para gozo del alma y diversion del cuerpo de los
2 noticia de las obras pertenecientes a la direccion de trabajos hidrograficos
2 primera y segunda parte del testamento que ordeno el serenisimo señor
1
Este script es solo uno de los utilizados en el control de calidad por parte de Baratz. A pesar de ser
desarrollados para esta investigación, la propiedad de estos es de la empresa, y por tanto su contenido
no puede ser mostrado.
7
8. 2 soneto
2 trujillo a su excelsa patrona la virgen de la victoria en sus fiestas
5 villancicos que se han de cantar en la santa iglesia cathedral de la
2 villancicos que se han de cantar en la sta iglesia cathedral de la
2 Comedia famosa. El legitimo bastardo
2 Diui Antonini Archiepiscopi florentini
2 I Fantasmi
~
………………………. (hasta 125 títulos)
§ Fase 3: en esta fase se utilizará tanto el BRS como el Editor VI. Con el
fichero de títulos duplicados, se hará la búsqueda de estos títulos en las dos
cargas y se comparará las descripciones bibliográficas. En el caso afirmativo
de ser un duplicado, el registro bibliográfico de la carga de Absys, será
eliminado y su localización, ósea su campo marc 852, pasará a ser un fondo
bibliográfico que estará asociado a un registro de CCPB. En caso negativo el
registro quedará igual.
El resultado final del fichero de duplicados, que contiene 125 títulos, después
de trabajar en esta última fase es el siguiente:
1. 57 registros bibliográficos son duplicados (45,5%), por tanto pasan a ser
fondos bibliográficos.
Ejemplo:
Villancicos que se han de cantar en la santa iglesia catedral
Registro de ccpb:
8
9. Registro de absys:
León Marchante, Manuel de
Villancicos que se han de cantar en la Santa Iglesia Magistral de S. Iusto y Pastor de Alcalá de
Henares la noche de Navidad deste año de 1674. -- [S.l. : s.n.], 1674
8 p. ; 4º
Segun Catalina, nº 1212, el autor es Manuel de León Marchante y figuran en el tomo II de sus
"Poesias". Lo cita como impresor en Alcalá de Henares
Sign.: A4
Texto a dos col.
1. Villancicos españoles--S. XVII.
MISMO TÍTULO /
MISMO AUTOR /
IGUAL EDICIÓN
REGISTRO
DUPLICADO TRANSFORMACIÓN
A REGISTRO DE
FONDO
2. 7 registros bibliográficos no son duplicados (8,75%). Estos presentan el
mismo título, pero pertenecían a autores diferentes. Se mantienen como
registros bibliográficos.
Ejemplo:
Comedia famosa. El legitimo bastardo / de ... Christoval de Morales
Valencia : en la imprenta de la Viuda de Joseph de Orga, 1764
Comedia famosa. El legitimo bastardo / de don Agustin Moreto
Barcelona : por Juan Serra y : Nadal, [s.a.]
9
10. MISMO TÍTULO /
DISTINTAS
EDICIONES
REGISTRO
NO MANTENIMIENTO
DUPLICADO REGISTRO
BIBLIOGRÁFICO
3. 15 registros bibliográficos no son duplicados (18,75%). Estos presentan
el mismo título, pero son obras por volúmenes y con años de publicación
diferentes. Se mantendrán como registros bibliográficos.
Ejemplo:
Diui Antonini Archiepiscopi florentini ... Chronicorum secunda pars : quae a diuo Syluestro Port. Max.
vsque ad Innocentium III ... res toto fere orbe gestas, & vitas ... Sanctorum ... doctorumque maxime
celebrium dicta praeclara complectitur
Lugduni : ex officina Iuntarum et Pauli Guittii, 1586
Diui Antonini Archiepiscopi florentini ... Chronicorum tertia pars : quae ab Innocentio III. Pont. Max. vsque
ad Pium II ... res toto fere orbe gestas exponit ; adiectis etiam aliquot doctorum catholicorum sententiis ...
totius iuris Canonici capitibus, necnon & quorundam Sanctorum ...
Lugduni : ex officina Iuntarum et Pauli Guittii, 1587
MISMO TÍTULO /
DISTINTOS
VOLUMENES
REGISTRO
NO MANTENIMIENTO
DUPLICADO REGISTRO
BIBLIOGRÁFICO
10
11. 4. 46 registros bibliográficos no son duplicados (36,8%). Aunque presentan
el mismo título, son ediciones diferentes. Se mantienen como registros
bibliográficos.
Ejemplo:
I Fantasmi / comedia del S. Hercole Bentiuoglio
In Vinegia : appresso Gabriel Giolito de Ferrari, 1544
I Fantasmi, comedia del S. Hercole Bentivoglio
Vinegia : appresso Gabriel Giolito de Ferrari, 1547
MISMO TÍTULO /
DISTINTAS
EDICIONES
REGISTRO
NO MANTENIMIENTO
DUPLICADO REGISTRO
BIBLIOGRÁFICO
Como último paso de esta investigación, se ha realizado una prueba de control para
evaluar la validez del proceso. Esta consiste en la búsqueda de los registros
bibliográficos de Absys que no están presentes en el fichero de duplicados, un total
de 995 registros, en la base de datos de CCPB. El resultado es el siguiente:
5. 3 registros bibliográficos (0,9%). Aunque presentan el mismo título, son
ediciones diferentes. Se mantienen como registros bibliográficos.
La no localización de estos registros por parte del proceso de control, se debe a la
presencia de errores ortográficos en los títulos de la base de datos de CCPB.
11
12. Gráfico del proceso de detección de duplicados:
CARGA DE ABSYS BASE DE DATOS
DE CCPB
F
A
S
E
LINUX
1
F
SCRIP A
S
E
FICHERO CON TÍTULOS 2
DUPLICADOS
BUSQUEDA DE TÍTULOS
CARGA DE BASE DE
ABSYS DATOS DE
CCPB F
A
S
E
COMPARATIVA DE
3
REGISTROS
SI NO
SE PASA LA SE MANTIENE COMO
LOCALIZACIÓN (852) A REGISTRO BIBLIOGRÁFICO
FONDO BIBLIOGRÁFICO
12
13. CONCLUSIONES
La calidad de las bases de datos lleva consigo un aumento de la calidad de los
distintos procesos que la conforman. El resultado de este avance en la calidad, es la
mejora del sistema de información y por tanto del servicio que se les da a los
usuarios.
En esta investigación, nos hemos centrado en unos de sus puntos más importantes,
como son los registros bibliográficos duplicados y las distintas causas que los
producen.
Pienso que hay soluciones previas al comienzo de cualquier proyecto de
catalogación, que ayudaría a disminuir esta situación. Estas serían:
§ Utilización de un mismo software.
§ Mayor implicación de las personas pertenecientes al proyecto.
§ Elaboración de un manual de especificaciones que contengan todas las
casuísticas que se pueden dar en un proyecto de esta envergadura.
§ Elección de los distintos puntos de acceso.
§ Depuración de registros duplicados en la base de datos de origen.
13
14. MISMO MAYOR
SOFTWARE IMPLICACIÓN
DEL PERSONAL
DEPURACIÓN
REGISTROS
DUPLICADOS MANUAL DE
PROCEDIMIEN
TO
ELECCIÓN
PUNTOS DE
ACCESO
Además de estas soluciones, los procesos de control de calidad en cualquier
proyecto, es unos de los puntos más importantes para su buena finalización. Por
tanto creo, que el proceso que he desarrollado, basándome en los resultados
obtenidos, tiene una gran validez para la detección y corrección de este tipo de
situaciones.
Pienso que con este tipo de proceso, se elimina la posibilidad de aumentar los
registros duplicados en una base de datos. Con un tipo de control como el
desarrollado, la calidad de la base de datos aumenta.
La solución para un futuro próximo, podría ser la utilización de un software para la
catalogación vía web. Este tipo de solución, trae consigo multitud de ventajas:
§ Trabajar sobre una base de datos actualizada.
§ Posibilidad de la conexión de múltiples usuarios.
§ La realización de registros duplicados sería en porcentajes mínimos.
§ La localizaciones se asociarían en el momento
§ Base de datos de autoridades y encabezamientos de materia unificada.
14
15. En conclusión, todos los esfuerzo que se realicen para la mejora de los catálogos,
revierten en una mayor calidad en el acceso a la información y por tanto en un
mejor servicio para el usuario.
BIBLIOGRAFÍA
1. CEREZO LÓPEZ, Eva María, ALONSO CERVERO, Beatriz y GÓMEZ
PÉREZ, Ana María. “Evaluación de la calidad en la automatización de
bibliotecas” [artículo en línea]. El profesional de la información, vol. 11, nº
2, marzo-abril 2002. [Fecha de consulta: 30/06/11]
http://www.elprofesionaldelainformacion.com/contenidos/2002/marzo/7.pdf
15