SlideShare une entreprise Scribd logo
1  sur  15
Télécharger pour lire hors ligne
Universidad de Granada
Facultad: Facultad de Comunicación y Documentación
Departamento: Biblioteconomía y Documentación
Nombre: Josefina Vílchez Pardo




             Proyecto de investigación

       Control de registros bibliográficos
       duplicados en las bases de datos




                                       Nombre: José Mario Martín Rivas
                                       Asignatura: Práctica y Memoria
                                       Curso: 3º B
                                       Fecha:04.07.2011
ÍNDICE

INTRODUCCIÓN............................................................................. 3

METODOLOGÍA Y OBJETIVOS ......................................................... 3

DESARROLLO ................................................................................. 4

CONCLUSIONES ........................................................................... 13

BIBLIOGRAFÍA ............................................................................ 15




                                                                                            2
INTRODUCCIÓN

En la sociedad del conocimiento en la cual hoy estamos inmersos, la información se
ha convertido en un pilar importante para la generación de dicho conocimiento.


Existen diversas fuentes que posibilitan el acceso a la información. Una de ellas son
los catálogos automatizados de las bibliotecas. En ellos se puede encontrar los
distintos fondos bibliográficos de una biblioteca y las localizaciones de sus registros.


Estos catálogos pueden ser propios de una sola biblioteca o pertenecer a un
colectivo de estas. Tanto en un caso como en otro, se esta produciendo un
problema de graves consecuencias. Este es, la duplicidad de registros bibliográficos.


Esta cuestión produce un aumento cuantitativo del catálogo de la biblioteca de una
manera negativa y de forma paralela, un conflicto para la recuperación de
documentos. Las localizaciones de estos documentos se encontrarán dispersas por
distintos registros bibliográficos.


Esta investigación, tratará sobre la identificación de las causas de esta situación.
Además se desarrollará un método de control para minimizarla. He aquí la
importancia a nivel personal y social de esta investigación.


En esta investigación he buscado conexiones con otros trabajos que me ayuden a
desarrollar los datos obtenidos. He utilizado el artículo con título “Evaluación de la
calidad en la automatización de bibliotecas” (1).


Para este estudio, me baso en mi trabajo en la empresa Baratz, donde he trabajado
con distintas cargas de registros bibliográficos de fondo antiguo, para su posterior
carga en el Catálogo Colectivo del Patrimonio Bibliográfico (a partir de ahora CCPB).
En los siguientes puntos se desarrollarán las aplicaciones utilizadas, los errores
identificados y el método de control.




METODOLOGÍA Y OBJETIVOS
   1. Aplicaciones y bases de datos

Se han utilizado las siguientes aplicaciones:




                                                                                       3
§   Sistema de Gestión Bibliotecaria Absys v.7. Los registros bibliográficos que
        se han catalogado y que se van a volcar en la base de datos del CCPB, se ha
        realizado con el Sistema de Gestión Bibliográfica Absys v.7, en el módulo de
        catalogación. La carga contiene 1120 registros bibliográficos, que antes de
        ser realizados, han sido buscados en la base de datos de CCPB (cd de abril
        de 2010), para comprobar si ya estaban incluidos.


    §   Base de datos de CCPB correspondiente a la última actualización mandada
        por CCPB de abril de 2010.


    §   Servidor con sistema operativo Linux Red HAT AS4, y se trabajará con el
        Editor VI de dicho sistema operativo


    2. Técnicas

Se cargarán en Linux tanto la carga de registros nuevos realizados con Absys y la
perteneciente a la base de datos de CCPB. Se trabaja en BRS y con la utilización de
un script, se identificarán los registros duplicados entre las dos cargas. Con el

Editor VI, se corregirá los errores detectados.


    3. Objetivos

Los objetivos de esta investigación es identificar las distintas causas de la
duplicidad de registros en la base de datos del CCPB producidas por el volcado de
cargas. Así como desarrollar un método que posibilite la detección de estos casos y
su posterior corrección.


DESARROLLO
    1. Casuística

Como se ha comentado anteriormente, en este trabajo, se va a relacionar la
investigación con el artículo de título “Evaluación de la calidad en la automatización
de bibliotecas” (1). En este artículo, entre otros datos, se identifican algunas de las
posibles causas de la existencia de duplicados en las bases de datos bibliográficas.


En él se habla de los volcados de información a las bases de datos, como una de las
causas:


“Las nuevas tecnologías que permiten el volcado de grandes cantidades de información con un escaso
proceso de elaboración, conformando bases de datos bibliográficas que pretenden poner en entredicho la



                                                                                                    4
necesidad y la validez de los sistemas tradicionales de información, basados en un costoso proceso de
análisis documental”



Otra de las causas identificadas, son los distintos métodos de trabajo, como
consecuencia de los cambios de software, la no elaboración de manuales de
procedimientos, señalando las especificaciones a seguir para conseguir un trabajo
unificado, e incluso la falta de preparación de los centros:


“Los cambios en el software documental que derivan en transvases de información, con las consiguientes
perdidas de datos y errónea distribución de información en los campos marc.
La inexistencia de un manual de procedimiento común de introducción de datos en los centros de
información que permitan recoger toda la casuística surgida para obtener la uniformidad en el proceso.
Los numerosos cambios en los métodos de trabajo, que dificultan la homogeneización en los registros.
La inexperiencia de algunos centros así como la escasa preparación de su personal en procesos de
automatización de fondos bibliográficos”



Una causa más, para la baja calidad de las bases de datos bibliográficas, se
produce con la asignación de puntos de acceso:


“Asignar correctamente los términos de acceso:



    §   Autores y entidades
    §   Títulos
    §   Series
    §   Materias
    §   Control de clasificación
    §   Homogeneización entre clasificación y materia”



La mayor parte de estas causas, han sido identificadas en la investigación, en
relación a la base de datos bibliográficos de CCPB. En un principio, este catálogo se
nutría de las bases de datos de las distintas Comunidades Autónomas. Cada una
con un software,          especificaciones de procedimiento              y métodos de trabajo
diferentes. Así como algunos centros con inexperiencia y escasa formación de su
personal.


Esto produjo, un volcado de información masivo, donde se observan registros
duplicados, con diferentes descripciones, por ejemplo, en relación a puntos de
acceso o a la reunificación de ediciones distintas.



Hay que decir que por parte de CCPB, existe un proceso exhaustivo para la
identificación de estos duplicados y la posterior asociación de sus localizaciones.



                                                                                                         5
En esta investigación se han detectado, otras razones para este problema, en
relación a las cargas realizadas en los distintos centros:


              Ø   Omisión de información en los registros de CCPB. Esto genera el
                  hecho de que las búsquedas no den los resultados esperados y
                  por tanto se catalogue de nuevo el documento.


              Ø   Errores de ortografía y gramaticales, tanto en la sentencia de
                  búsqueda como en los registros de CCPB, produciendo unos
                  resultados de búsqueda negativos. No son tanto los errores de
                  ortografía como los errores de transcripción de los caracteres en
                  latín de obras de siglos XVI al XVIII, donde la utilización de los
                  caracteres “v” y “i” en detrimento de la “u” y “j”, producen graves
                  problemas.


              Ø   Los plazos de entrega para el volcado de las cargas, demasiado
                  largos, y que producen que registros ya catalogados, pero aún no
                  visibles en el catálogo, sean de nuevo descritos.


   2. Proceso de detección de duplicados

Este proceso se ha desarrollado para la detección de los registros duplicados y su
posterior corrección, previo a su volcado en la base de datos de CCPB.
Consta de varias fases:


   §   Fase 1: se cargan los registros bibliográficos, tanto los realizados con el
       Absys 7 y los pertenecientes al CCPB, en el servidor con el sistema operativo
       Linux. A partir de este momento todo el trabajo se realizará en este entorno,
       con la posterior utilización del gestor documental BRS y del Editor VI.

              ABSYS7_CCPB>brsload prue -create -file rae_SD -force -ver
              Start of BRS Load Process for PRUE -- Thu Jun 30 10:01:17 2011
               Input file is rae_SD


       BRS Load Process -- Loading All Documents
       **************************************************          50
       **************************************************          100
       **************************************************          150
       **************************************************          200
       **************************************************          250
       **************************************************          300
       **************************************************          350
       **************************************************          400
       **************************************************          450
       **************************************************          500
       **************************************************          550
       **************************************************          600



                                                                                   6
**************************************************                     650
        **************************************************                     700
        **************************************************                     750
        **************************************************                     800
        **************************************************                     850
        **************************************************                     900
        **************************************************                     950
        **************************************************                     1000
        **************************************************                     1050
        **************************************************                     1100
        *************************
          Text Update Step Statistics:

              Documents: Added 1125, Dropped    0, Total in DB 1125
                Words: Added 105593, Dropped   0,    Stopped   0
               Values: Added 5260, Dropped   0, Abbreviations 1820

                  Amount of Input Processed: 51670 lines
               Space left by deleted documents:  0 bytes
               Unchanged words dropped from sort process:            0



    §   Fase 2: se desarrolla un script 1, el cual ejecutará diversas acciones:


                      Ø   De cada una de las cargas, tomará la primera línea del campo
                          marc 245.
                      Ø   Eliminará todos los signos de puntuaciones ortográficos y las
                          mayúsculas.
                      Ø   Realiza una comparativa de caracteres entre las dos cargas e
                          identifica    aquellos     que     contiene     la   misma      cadena     de
                          caracteres
                      Ø   El resultado será un fichero, el cual contiene los títulos
                          duplicados y el número de repeticiones


        El resultado de este fichero en la muestra utilizada en esta investigación, es
        de 125 títulos (10,42 %) con un máximo de tres repeticiones.

        -rw-rw-r-- 1 absys absys       1258 may 29 15:45 t245_dup

          ABSYS7_CCPB>vi t245_dup

            2 a los electores del distrito de los martires
            2 asturianadas por bulerias que se va el vapor cantadas por
            2 bonito tango de cadiz titulado los gallos dedicado al derribo de las
            2 bulla de indulgencia plenaria concedida para las animas de los fieles
            3 coleccion de canciones modernas
            2 el cantor de las hermosas trovas de amor dedicadas al bello sexo
            3 juana la valerosa hechos memorables y atrocidades que cometio esta
            2 la tia girula chiste moderno acaecido en el pueblo de almeria con
            2 lista de los abogados del llustre colegio de la audiencia de caceres
            2 lista de los numeros y doncellas para la extraccion de la real loteria
            2 minuete sacramental para gozo del alma y diversion del cuerpo de los
            2 noticia de las obras pertenecientes a la direccion de trabajos hidrograficos
            2 primera y segunda parte del testamento que ordeno el serenisimo señor


1
 Este script es solo uno de los utilizados en el control de calidad por parte de Baratz. A pesar de ser
desarrollados para esta investigación, la propiedad de estos es de la empresa, y por tanto su contenido
no puede ser mostrado.



                                                                                                          7
2   soneto
        2   trujillo a su excelsa patrona la virgen de la victoria en sus fiestas
        5   villancicos que se han de cantar en la santa iglesia cathedral de la
        2   villancicos que se han de cantar en la sta iglesia cathedral de la
        2   Comedia famosa. El legitimo bastardo
        2   Diui Antonini Archiepiscopi florentini
        2   I Fantasmi

    ~
        ………………………. (hasta 125 títulos)

§   Fase 3: en esta fase se utilizará tanto el BRS como el Editor VI. Con el
    fichero de títulos duplicados, se hará la búsqueda de estos títulos en las dos
    cargas y se comparará las descripciones bibliográficas. En el caso afirmativo
    de ser un duplicado, el registro bibliográfico de la carga de Absys, será
    eliminado y su localización, ósea su campo marc 852, pasará a ser un fondo
    bibliográfico que estará asociado a un registro de CCPB. En caso negativo el
    registro quedará igual.


    El resultado final del fichero de duplicados, que contiene 125 títulos, después
    de trabajar en esta última fase es el siguiente:


    1. 57 registros bibliográficos son duplicados (45,5%), por tanto pasan a ser
        fondos bibliográficos.


    Ejemplo:

    Villancicos que se han de cantar en la santa iglesia catedral

    Registro de ccpb:




                                                                                    8
Registro de absys:

    León Marchante, Manuel de
    Villancicos que se han de cantar en la Santa Iglesia Magistral de S. Iusto y Pastor de Alcalá de
    Henares la noche de Navidad deste año de 1674. -- [S.l. : s.n.], 1674
    8 p. ; 4º

    Segun Catalina, nº 1212, el autor es Manuel de León Marchante y figuran en el tomo II de sus
    "Poesias". Lo cita como impresor en Alcalá de Henares

    Sign.: A4
    Texto a dos col.


    1. Villancicos españoles--S. XVII.




                                                                  MISMO TÍTULO /
                                                                  MISMO AUTOR /
                                                                  IGUAL EDICIÓN


               REGISTRO
              DUPLICADO                                      TRANSFORMACIÓN
                                                              A REGISTRO DE
                                                                  FONDO




    2. 7 registros bibliográficos no son duplicados (8,75%). Estos presentan el
        mismo título, pero pertenecían a autores diferentes. Se mantienen como
        registros bibliográficos.


   Ejemplo:

Comedia famosa. El legitimo bastardo / de ... Christoval de Morales
Valencia : en la imprenta de la Viuda de Joseph de Orga, 1764

Comedia famosa. El legitimo bastardo / de don Agustin Moreto
Barcelona : por Juan Serra y : Nadal, [s.a.]




                                                                                                       9
MISMO TÍTULO /
                                                                      DISTINTAS
                                                                      EDICIONES


               REGISTRO
                  NO                                           MANTENIMIENTO
              DUPLICADO                                          REGISTRO
                                                               BIBLIOGRÁFICO




    3. 15 registros bibliográficos no son duplicados (18,75%). Estos presentan
         el mismo título, pero son obras por volúmenes y con años de publicación
         diferentes. Se mantendrán como registros bibliográficos.


    Ejemplo:

Diui Antonini Archiepiscopi florentini ... Chronicorum secunda pars : quae a diuo Syluestro Port. Max.
vsque ad Innocentium III ... res toto fere orbe gestas, & vitas ... Sanctorum ... doctorumque maxime
celebrium dicta praeclara complectitur
Lugduni : ex officina Iuntarum et Pauli Guittii, 1586

Diui Antonini Archiepiscopi florentini ... Chronicorum tertia pars : quae ab Innocentio III. Pont. Max. vsque
ad Pium II ... res toto fere orbe gestas exponit ; adiectis etiam aliquot doctorum catholicorum sententiis ...
totius iuris Canonici capitibus, necnon & quorundam Sanctorum ...
Lugduni : ex officina Iuntarum et Pauli Guittii, 1587




                                                          MISMO TÍTULO /
                                                            DISTINTOS
                                                            VOLUMENES


      REGISTRO
         NO                                          MANTENIMIENTO
     DUPLICADO                                         REGISTRO
                                                     BIBLIOGRÁFICO




                                                                                                            10
4. 46 registros bibliográficos no son duplicados (36,8%). Aunque presentan
             el mismo título, son ediciones diferentes. Se mantienen como registros
             bibliográficos.


       Ejemplo:

   I Fantasmi / comedia del S. Hercole Bentiuoglio
   In Vinegia : appresso Gabriel Giolito de Ferrari, 1544

    I Fantasmi, comedia del S. Hercole Bentivoglio
    Vinegia : appresso Gabriel Giolito de Ferrari, 1547




                                                            MISMO TÍTULO /
                                                              DISTINTAS
                                                              EDICIONES


         REGISTRO
            NO                                            MANTENIMIENTO
        DUPLICADO                                           REGISTRO
                                                          BIBLIOGRÁFICO




Como último paso de esta investigación, se ha realizado una prueba de control para
evaluar la validez del proceso. Esta consiste en la búsqueda de los registros
bibliográficos de Absys que no están presentes en el fichero de duplicados, un total
de 995 registros, en la base de datos de CCPB. El resultado es el siguiente:


        5. 3 registros bibliográficos (0,9%). Aunque presentan el mismo título, son
             ediciones diferentes. Se mantienen como registros bibliográficos.


La no localización de estos registros por parte del proceso de control, se debe a la
presencia de errores ortográficos en los títulos de la base de datos de CCPB.




                                                                                 11
Gráfico del proceso de detección de duplicados:


    CARGA DE ABSYS                                 BASE DE DATOS
                                                   DE CCPB


                                                                          F
                                                                          A
                                                                          S
                                                                          E
                                 LINUX
                                                                          1




                                                                          F
                                             SCRIP                        A
                                                                          S
                                                                          E

                    FICHERO CON TÍTULOS                                   2
                    DUPLICADOS




                    BUSQUEDA DE TÍTULOS




              CARGA DE                            BASE DE
              ABSYS                               DATOS DE
                                                  CCPB                    F
                                                                          A
                                                                          S
                                                                          E
                          COMPARATIVA DE
                                                                          3
                          REGISTROS


                  SI                                 NO



          SE PASA LA                        SE MANTIENE COMO
          LOCALIZACIÓN (852) A              REGISTRO BIBLIOGRÁFICO
          FONDO BIBLIOGRÁFICO




                                                                     12
CONCLUSIONES
La calidad de las bases de datos lleva consigo un aumento de la calidad de los
distintos procesos que la conforman. El resultado de este avance en la calidad, es la
mejora del sistema de información y por tanto del servicio que se les da a los
usuarios.


En esta investigación, nos hemos centrado en unos de sus puntos más importantes,
como son los registros bibliográficos duplicados y las distintas causas que los
producen.


Pienso que hay soluciones previas al         comienzo   de cualquier proyecto     de
catalogación, que ayudaría a disminuir esta situación. Estas serían:



   §   Utilización de un mismo software.


   §   Mayor implicación de las personas pertenecientes al proyecto.


   §   Elaboración de un manual de especificaciones que contengan todas las
       casuísticas que se pueden dar en un proyecto de esta envergadura.


   §   Elección de los distintos puntos de acceso.


   §   Depuración de registros duplicados en la base de datos de origen.




                                                                                  13
MISMO                                 MAYOR
                  SOFTWARE                            IMPLICACIÓN
                                                     DEL PERSONAL




       DEPURACIÓN
        REGISTROS
       DUPLICADOS                                                 MANUAL DE
                                                                 PROCEDIMIEN
                                                                     TO


                                     ELECCIÓN
                                    PUNTOS DE
                                      ACCESO




Además de estas soluciones, los procesos de control de calidad en cualquier
proyecto, es unos de los puntos más importantes para su buena finalización. Por
tanto creo, que el proceso que he desarrollado, basándome en los resultados
obtenidos, tiene una gran validez para la detección y corrección de este tipo de
situaciones.


Pienso que con este tipo de proceso, se elimina la posibilidad de aumentar los
registros duplicados en una base de datos. Con un tipo de control como el
desarrollado, la calidad de la base de datos aumenta.


La solución para un futuro próximo, podría ser la utilización de un software para la
catalogación vía web. Este tipo de solución, trae consigo multitud de ventajas:


   §    Trabajar sobre una base de datos actualizada.

   §    Posibilidad de la conexión de múltiples usuarios.

   §    La realización de registros duplicados sería en porcentajes mínimos.

   §    La localizaciones se asociarían en el momento

   §    Base de datos de autoridades y encabezamientos de materia unificada.


                                                                                  14
En conclusión, todos los esfuerzo que se realicen para la mejora de los catálogos,
revierten en una mayor calidad en el acceso a la información y por tanto en un
mejor servicio para el usuario.




BIBLIOGRAFÍA



   1. CEREZO LÓPEZ, Eva María, ALONSO CERVERO, Beatriz y GÓMEZ
       PÉREZ, Ana María. “Evaluación de la calidad en la automatización de
       bibliotecas” [artículo en línea]. El profesional de la información, vol. 11, nº
       2,     marzo-abril     2002.      [Fecha      de      consulta:     30/06/11]
       http://www.elprofesionaldelainformacion.com/contenidos/2002/marzo/7.pdf




                                                                                   15

Contenu connexe

Similaire à Control de calidad de cargas bibliográficas

diseno deunsistemainformaticoparalagestiondelosrecu
diseno deunsistemainformaticoparalagestiondelosrecudiseno deunsistemainformaticoparalagestiondelosrecu
diseno deunsistemainformaticoparalagestiondelosrecuFernando Martinez
 
Resumen base de datos
Resumen base de datos Resumen base de datos
Resumen base de datos RicardoBRICEO7
 
BIBLIOTECARIO CATALOGADOR UANL ppwwr point
BIBLIOTECARIO CATALOGADOR UANL ppwwr pointBIBLIOTECARIO CATALOGADOR UANL ppwwr point
BIBLIOTECARIO CATALOGADOR UANL ppwwr pointjubandarmz
 
Trabajo Final ADSI II - Diseñe de Sistemas de Información
Trabajo Final ADSI II - Diseñe de Sistemas de InformaciónTrabajo Final ADSI II - Diseñe de Sistemas de Información
Trabajo Final ADSI II - Diseñe de Sistemas de Informaciónharr2662
 
LILACS y LILDBI-WEB
LILACS y LILDBI-WEBLILACS y LILDBI-WEB
LILACS y LILDBI-WEBOPS Colombia
 
Protocolo captura 2011
Protocolo captura 2011Protocolo captura 2011
Protocolo captura 2011Katalogador
 
Rebiss Cat Vir0508
Rebiss Cat Vir0508Rebiss Cat Vir0508
Rebiss Cat Vir0508dvargas
 
Identificacion y organizacion de archivos
Identificacion y organizacion de archivosIdentificacion y organizacion de archivos
Identificacion y organizacion de archivos90070674911
 
Proyecto quichimbo pupiales
Proyecto quichimbo pupialesProyecto quichimbo pupiales
Proyecto quichimbo pupialesdanilopupiales
 
Actividad practica adsi II
Actividad practica adsi IIActividad practica adsi II
Actividad practica adsi IIandrefa
 
traducción Comparing Bibliometric Analysis Using PubMed, Scopus, and Web of S...
traducción Comparing Bibliometric Analysis Using PubMed, Scopus, and Web of S...traducción Comparing Bibliometric Analysis Using PubMed, Scopus, and Web of S...
traducción Comparing Bibliometric Analysis Using PubMed, Scopus, and Web of S...FabianAraya16
 
Cuestionario (1)
Cuestionario (1)Cuestionario (1)
Cuestionario (1)diego941
 

Similaire à Control de calidad de cargas bibliográficas (20)

diseno deunsistemainformaticoparalagestiondelosrecu
diseno deunsistemainformaticoparalagestiondelosrecudiseno deunsistemainformaticoparalagestiondelosrecu
diseno deunsistemainformaticoparalagestiondelosrecu
 
Experiencia en el harvesting de documentos OAI en el proyecto SeDiCI
Experiencia en el harvesting de documentos OAI en el proyecto SeDiCIExperiencia en el harvesting de documentos OAI en el proyecto SeDiCI
Experiencia en el harvesting de documentos OAI en el proyecto SeDiCI
 
proyecto grado
proyecto gradoproyecto grado
proyecto grado
 
Proceso de migración de sistemas de automatización de bibliotecas
Proceso de migración de sistemas de automatización de bibliotecasProceso de migración de sistemas de automatización de bibliotecas
Proceso de migración de sistemas de automatización de bibliotecas
 
Resumen base de datos
Resumen base de datos Resumen base de datos
Resumen base de datos
 
BIBLIOTECARIO CATALOGADOR UANL ppwwr point
BIBLIOTECARIO CATALOGADOR UANL ppwwr pointBIBLIOTECARIO CATALOGADOR UANL ppwwr point
BIBLIOTECARIO CATALOGADOR UANL ppwwr point
 
Trabajo Final ADSI II - Diseñe de Sistemas de Información
Trabajo Final ADSI II - Diseñe de Sistemas de InformaciónTrabajo Final ADSI II - Diseñe de Sistemas de Información
Trabajo Final ADSI II - Diseñe de Sistemas de Información
 
Taller cc lildbi y lilacs mayo 2010
Taller cc lildbi y lilacs mayo 2010Taller cc lildbi y lilacs mayo 2010
Taller cc lildbi y lilacs mayo 2010
 
LILACS y LILDBI-WEB
LILACS y LILDBI-WEBLILACS y LILDBI-WEB
LILACS y LILDBI-WEB
 
CAMPI
CAMPICAMPI
CAMPI
 
Bigdata
Bigdata Bigdata
Bigdata
 
Protocolo captura 2011
Protocolo captura 2011Protocolo captura 2011
Protocolo captura 2011
 
Rebiss Cat Vir0508
Rebiss Cat Vir0508Rebiss Cat Vir0508
Rebiss Cat Vir0508
 
Actividad teorico práctica
Actividad teorico prácticaActividad teorico práctica
Actividad teorico práctica
 
Identificacion y organizacion de archivos
Identificacion y organizacion de archivosIdentificacion y organizacion de archivos
Identificacion y organizacion de archivos
 
Proyecto quichimbo pupiales
Proyecto quichimbo pupialesProyecto quichimbo pupiales
Proyecto quichimbo pupiales
 
Actividad practica adsi II
Actividad practica adsi IIActividad practica adsi II
Actividad practica adsi II
 
traducción Comparing Bibliometric Analysis Using PubMed, Scopus, and Web of S...
traducción Comparing Bibliometric Analysis Using PubMed, Scopus, and Web of S...traducción Comparing Bibliometric Analysis Using PubMed, Scopus, and Web of S...
traducción Comparing Bibliometric Analysis Using PubMed, Scopus, and Web of S...
 
Metada librarian
Metada librarianMetada librarian
Metada librarian
 
Cuestionario (1)
Cuestionario (1)Cuestionario (1)
Cuestionario (1)
 

Control de calidad de cargas bibliográficas

  • 1. Universidad de Granada Facultad: Facultad de Comunicación y Documentación Departamento: Biblioteconomía y Documentación Nombre: Josefina Vílchez Pardo Proyecto de investigación Control de registros bibliográficos duplicados en las bases de datos Nombre: José Mario Martín Rivas Asignatura: Práctica y Memoria Curso: 3º B Fecha:04.07.2011
  • 2. ÍNDICE INTRODUCCIÓN............................................................................. 3 METODOLOGÍA Y OBJETIVOS ......................................................... 3 DESARROLLO ................................................................................. 4 CONCLUSIONES ........................................................................... 13 BIBLIOGRAFÍA ............................................................................ 15 2
  • 3. INTRODUCCIÓN En la sociedad del conocimiento en la cual hoy estamos inmersos, la información se ha convertido en un pilar importante para la generación de dicho conocimiento. Existen diversas fuentes que posibilitan el acceso a la información. Una de ellas son los catálogos automatizados de las bibliotecas. En ellos se puede encontrar los distintos fondos bibliográficos de una biblioteca y las localizaciones de sus registros. Estos catálogos pueden ser propios de una sola biblioteca o pertenecer a un colectivo de estas. Tanto en un caso como en otro, se esta produciendo un problema de graves consecuencias. Este es, la duplicidad de registros bibliográficos. Esta cuestión produce un aumento cuantitativo del catálogo de la biblioteca de una manera negativa y de forma paralela, un conflicto para la recuperación de documentos. Las localizaciones de estos documentos se encontrarán dispersas por distintos registros bibliográficos. Esta investigación, tratará sobre la identificación de las causas de esta situación. Además se desarrollará un método de control para minimizarla. He aquí la importancia a nivel personal y social de esta investigación. En esta investigación he buscado conexiones con otros trabajos que me ayuden a desarrollar los datos obtenidos. He utilizado el artículo con título “Evaluación de la calidad en la automatización de bibliotecas” (1). Para este estudio, me baso en mi trabajo en la empresa Baratz, donde he trabajado con distintas cargas de registros bibliográficos de fondo antiguo, para su posterior carga en el Catálogo Colectivo del Patrimonio Bibliográfico (a partir de ahora CCPB). En los siguientes puntos se desarrollarán las aplicaciones utilizadas, los errores identificados y el método de control. METODOLOGÍA Y OBJETIVOS 1. Aplicaciones y bases de datos Se han utilizado las siguientes aplicaciones: 3
  • 4. § Sistema de Gestión Bibliotecaria Absys v.7. Los registros bibliográficos que se han catalogado y que se van a volcar en la base de datos del CCPB, se ha realizado con el Sistema de Gestión Bibliográfica Absys v.7, en el módulo de catalogación. La carga contiene 1120 registros bibliográficos, que antes de ser realizados, han sido buscados en la base de datos de CCPB (cd de abril de 2010), para comprobar si ya estaban incluidos. § Base de datos de CCPB correspondiente a la última actualización mandada por CCPB de abril de 2010. § Servidor con sistema operativo Linux Red HAT AS4, y se trabajará con el Editor VI de dicho sistema operativo 2. Técnicas Se cargarán en Linux tanto la carga de registros nuevos realizados con Absys y la perteneciente a la base de datos de CCPB. Se trabaja en BRS y con la utilización de un script, se identificarán los registros duplicados entre las dos cargas. Con el Editor VI, se corregirá los errores detectados. 3. Objetivos Los objetivos de esta investigación es identificar las distintas causas de la duplicidad de registros en la base de datos del CCPB producidas por el volcado de cargas. Así como desarrollar un método que posibilite la detección de estos casos y su posterior corrección. DESARROLLO 1. Casuística Como se ha comentado anteriormente, en este trabajo, se va a relacionar la investigación con el artículo de título “Evaluación de la calidad en la automatización de bibliotecas” (1). En este artículo, entre otros datos, se identifican algunas de las posibles causas de la existencia de duplicados en las bases de datos bibliográficas. En él se habla de los volcados de información a las bases de datos, como una de las causas: “Las nuevas tecnologías que permiten el volcado de grandes cantidades de información con un escaso proceso de elaboración, conformando bases de datos bibliográficas que pretenden poner en entredicho la 4
  • 5. necesidad y la validez de los sistemas tradicionales de información, basados en un costoso proceso de análisis documental” Otra de las causas identificadas, son los distintos métodos de trabajo, como consecuencia de los cambios de software, la no elaboración de manuales de procedimientos, señalando las especificaciones a seguir para conseguir un trabajo unificado, e incluso la falta de preparación de los centros: “Los cambios en el software documental que derivan en transvases de información, con las consiguientes perdidas de datos y errónea distribución de información en los campos marc. La inexistencia de un manual de procedimiento común de introducción de datos en los centros de información que permitan recoger toda la casuística surgida para obtener la uniformidad en el proceso. Los numerosos cambios en los métodos de trabajo, que dificultan la homogeneización en los registros. La inexperiencia de algunos centros así como la escasa preparación de su personal en procesos de automatización de fondos bibliográficos” Una causa más, para la baja calidad de las bases de datos bibliográficas, se produce con la asignación de puntos de acceso: “Asignar correctamente los términos de acceso: § Autores y entidades § Títulos § Series § Materias § Control de clasificación § Homogeneización entre clasificación y materia” La mayor parte de estas causas, han sido identificadas en la investigación, en relación a la base de datos bibliográficos de CCPB. En un principio, este catálogo se nutría de las bases de datos de las distintas Comunidades Autónomas. Cada una con un software, especificaciones de procedimiento y métodos de trabajo diferentes. Así como algunos centros con inexperiencia y escasa formación de su personal. Esto produjo, un volcado de información masivo, donde se observan registros duplicados, con diferentes descripciones, por ejemplo, en relación a puntos de acceso o a la reunificación de ediciones distintas. Hay que decir que por parte de CCPB, existe un proceso exhaustivo para la identificación de estos duplicados y la posterior asociación de sus localizaciones. 5
  • 6. En esta investigación se han detectado, otras razones para este problema, en relación a las cargas realizadas en los distintos centros: Ø Omisión de información en los registros de CCPB. Esto genera el hecho de que las búsquedas no den los resultados esperados y por tanto se catalogue de nuevo el documento. Ø Errores de ortografía y gramaticales, tanto en la sentencia de búsqueda como en los registros de CCPB, produciendo unos resultados de búsqueda negativos. No son tanto los errores de ortografía como los errores de transcripción de los caracteres en latín de obras de siglos XVI al XVIII, donde la utilización de los caracteres “v” y “i” en detrimento de la “u” y “j”, producen graves problemas. Ø Los plazos de entrega para el volcado de las cargas, demasiado largos, y que producen que registros ya catalogados, pero aún no visibles en el catálogo, sean de nuevo descritos. 2. Proceso de detección de duplicados Este proceso se ha desarrollado para la detección de los registros duplicados y su posterior corrección, previo a su volcado en la base de datos de CCPB. Consta de varias fases: § Fase 1: se cargan los registros bibliográficos, tanto los realizados con el Absys 7 y los pertenecientes al CCPB, en el servidor con el sistema operativo Linux. A partir de este momento todo el trabajo se realizará en este entorno, con la posterior utilización del gestor documental BRS y del Editor VI. ABSYS7_CCPB>brsload prue -create -file rae_SD -force -ver Start of BRS Load Process for PRUE -- Thu Jun 30 10:01:17 2011 Input file is rae_SD BRS Load Process -- Loading All Documents ************************************************** 50 ************************************************** 100 ************************************************** 150 ************************************************** 200 ************************************************** 250 ************************************************** 300 ************************************************** 350 ************************************************** 400 ************************************************** 450 ************************************************** 500 ************************************************** 550 ************************************************** 600 6
  • 7. ************************************************** 650 ************************************************** 700 ************************************************** 750 ************************************************** 800 ************************************************** 850 ************************************************** 900 ************************************************** 950 ************************************************** 1000 ************************************************** 1050 ************************************************** 1100 ************************* Text Update Step Statistics: Documents: Added 1125, Dropped 0, Total in DB 1125 Words: Added 105593, Dropped 0, Stopped 0 Values: Added 5260, Dropped 0, Abbreviations 1820 Amount of Input Processed: 51670 lines Space left by deleted documents: 0 bytes Unchanged words dropped from sort process: 0 § Fase 2: se desarrolla un script 1, el cual ejecutará diversas acciones: Ø De cada una de las cargas, tomará la primera línea del campo marc 245. Ø Eliminará todos los signos de puntuaciones ortográficos y las mayúsculas. Ø Realiza una comparativa de caracteres entre las dos cargas e identifica aquellos que contiene la misma cadena de caracteres Ø El resultado será un fichero, el cual contiene los títulos duplicados y el número de repeticiones El resultado de este fichero en la muestra utilizada en esta investigación, es de 125 títulos (10,42 %) con un máximo de tres repeticiones. -rw-rw-r-- 1 absys absys 1258 may 29 15:45 t245_dup ABSYS7_CCPB>vi t245_dup 2 a los electores del distrito de los martires 2 asturianadas por bulerias que se va el vapor cantadas por 2 bonito tango de cadiz titulado los gallos dedicado al derribo de las 2 bulla de indulgencia plenaria concedida para las animas de los fieles 3 coleccion de canciones modernas 2 el cantor de las hermosas trovas de amor dedicadas al bello sexo 3 juana la valerosa hechos memorables y atrocidades que cometio esta 2 la tia girula chiste moderno acaecido en el pueblo de almeria con 2 lista de los abogados del llustre colegio de la audiencia de caceres 2 lista de los numeros y doncellas para la extraccion de la real loteria 2 minuete sacramental para gozo del alma y diversion del cuerpo de los 2 noticia de las obras pertenecientes a la direccion de trabajos hidrograficos 2 primera y segunda parte del testamento que ordeno el serenisimo señor 1 Este script es solo uno de los utilizados en el control de calidad por parte de Baratz. A pesar de ser desarrollados para esta investigación, la propiedad de estos es de la empresa, y por tanto su contenido no puede ser mostrado. 7
  • 8. 2 soneto 2 trujillo a su excelsa patrona la virgen de la victoria en sus fiestas 5 villancicos que se han de cantar en la santa iglesia cathedral de la 2 villancicos que se han de cantar en la sta iglesia cathedral de la 2 Comedia famosa. El legitimo bastardo 2 Diui Antonini Archiepiscopi florentini 2 I Fantasmi ~ ………………………. (hasta 125 títulos) § Fase 3: en esta fase se utilizará tanto el BRS como el Editor VI. Con el fichero de títulos duplicados, se hará la búsqueda de estos títulos en las dos cargas y se comparará las descripciones bibliográficas. En el caso afirmativo de ser un duplicado, el registro bibliográfico de la carga de Absys, será eliminado y su localización, ósea su campo marc 852, pasará a ser un fondo bibliográfico que estará asociado a un registro de CCPB. En caso negativo el registro quedará igual. El resultado final del fichero de duplicados, que contiene 125 títulos, después de trabajar en esta última fase es el siguiente: 1. 57 registros bibliográficos son duplicados (45,5%), por tanto pasan a ser fondos bibliográficos. Ejemplo: Villancicos que se han de cantar en la santa iglesia catedral Registro de ccpb: 8
  • 9. Registro de absys: León Marchante, Manuel de Villancicos que se han de cantar en la Santa Iglesia Magistral de S. Iusto y Pastor de Alcalá de Henares la noche de Navidad deste año de 1674. -- [S.l. : s.n.], 1674 8 p. ; 4º Segun Catalina, nº 1212, el autor es Manuel de León Marchante y figuran en el tomo II de sus "Poesias". Lo cita como impresor en Alcalá de Henares Sign.: A4 Texto a dos col. 1. Villancicos españoles--S. XVII. MISMO TÍTULO / MISMO AUTOR / IGUAL EDICIÓN REGISTRO DUPLICADO TRANSFORMACIÓN A REGISTRO DE FONDO 2. 7 registros bibliográficos no son duplicados (8,75%). Estos presentan el mismo título, pero pertenecían a autores diferentes. Se mantienen como registros bibliográficos. Ejemplo: Comedia famosa. El legitimo bastardo / de ... Christoval de Morales Valencia : en la imprenta de la Viuda de Joseph de Orga, 1764 Comedia famosa. El legitimo bastardo / de don Agustin Moreto Barcelona : por Juan Serra y : Nadal, [s.a.] 9
  • 10. MISMO TÍTULO / DISTINTAS EDICIONES REGISTRO NO MANTENIMIENTO DUPLICADO REGISTRO BIBLIOGRÁFICO 3. 15 registros bibliográficos no son duplicados (18,75%). Estos presentan el mismo título, pero son obras por volúmenes y con años de publicación diferentes. Se mantendrán como registros bibliográficos. Ejemplo: Diui Antonini Archiepiscopi florentini ... Chronicorum secunda pars : quae a diuo Syluestro Port. Max. vsque ad Innocentium III ... res toto fere orbe gestas, & vitas ... Sanctorum ... doctorumque maxime celebrium dicta praeclara complectitur Lugduni : ex officina Iuntarum et Pauli Guittii, 1586 Diui Antonini Archiepiscopi florentini ... Chronicorum tertia pars : quae ab Innocentio III. Pont. Max. vsque ad Pium II ... res toto fere orbe gestas exponit ; adiectis etiam aliquot doctorum catholicorum sententiis ... totius iuris Canonici capitibus, necnon & quorundam Sanctorum ... Lugduni : ex officina Iuntarum et Pauli Guittii, 1587 MISMO TÍTULO / DISTINTOS VOLUMENES REGISTRO NO MANTENIMIENTO DUPLICADO REGISTRO BIBLIOGRÁFICO 10
  • 11. 4. 46 registros bibliográficos no son duplicados (36,8%). Aunque presentan el mismo título, son ediciones diferentes. Se mantienen como registros bibliográficos. Ejemplo: I Fantasmi / comedia del S. Hercole Bentiuoglio In Vinegia : appresso Gabriel Giolito de Ferrari, 1544 I Fantasmi, comedia del S. Hercole Bentivoglio Vinegia : appresso Gabriel Giolito de Ferrari, 1547 MISMO TÍTULO / DISTINTAS EDICIONES REGISTRO NO MANTENIMIENTO DUPLICADO REGISTRO BIBLIOGRÁFICO Como último paso de esta investigación, se ha realizado una prueba de control para evaluar la validez del proceso. Esta consiste en la búsqueda de los registros bibliográficos de Absys que no están presentes en el fichero de duplicados, un total de 995 registros, en la base de datos de CCPB. El resultado es el siguiente: 5. 3 registros bibliográficos (0,9%). Aunque presentan el mismo título, son ediciones diferentes. Se mantienen como registros bibliográficos. La no localización de estos registros por parte del proceso de control, se debe a la presencia de errores ortográficos en los títulos de la base de datos de CCPB. 11
  • 12. Gráfico del proceso de detección de duplicados: CARGA DE ABSYS BASE DE DATOS DE CCPB F A S E LINUX 1 F SCRIP A S E FICHERO CON TÍTULOS 2 DUPLICADOS BUSQUEDA DE TÍTULOS CARGA DE BASE DE ABSYS DATOS DE CCPB F A S E COMPARATIVA DE 3 REGISTROS SI NO SE PASA LA SE MANTIENE COMO LOCALIZACIÓN (852) A REGISTRO BIBLIOGRÁFICO FONDO BIBLIOGRÁFICO 12
  • 13. CONCLUSIONES La calidad de las bases de datos lleva consigo un aumento de la calidad de los distintos procesos que la conforman. El resultado de este avance en la calidad, es la mejora del sistema de información y por tanto del servicio que se les da a los usuarios. En esta investigación, nos hemos centrado en unos de sus puntos más importantes, como son los registros bibliográficos duplicados y las distintas causas que los producen. Pienso que hay soluciones previas al comienzo de cualquier proyecto de catalogación, que ayudaría a disminuir esta situación. Estas serían: § Utilización de un mismo software. § Mayor implicación de las personas pertenecientes al proyecto. § Elaboración de un manual de especificaciones que contengan todas las casuísticas que se pueden dar en un proyecto de esta envergadura. § Elección de los distintos puntos de acceso. § Depuración de registros duplicados en la base de datos de origen. 13
  • 14. MISMO MAYOR SOFTWARE IMPLICACIÓN DEL PERSONAL DEPURACIÓN REGISTROS DUPLICADOS MANUAL DE PROCEDIMIEN TO ELECCIÓN PUNTOS DE ACCESO Además de estas soluciones, los procesos de control de calidad en cualquier proyecto, es unos de los puntos más importantes para su buena finalización. Por tanto creo, que el proceso que he desarrollado, basándome en los resultados obtenidos, tiene una gran validez para la detección y corrección de este tipo de situaciones. Pienso que con este tipo de proceso, se elimina la posibilidad de aumentar los registros duplicados en una base de datos. Con un tipo de control como el desarrollado, la calidad de la base de datos aumenta. La solución para un futuro próximo, podría ser la utilización de un software para la catalogación vía web. Este tipo de solución, trae consigo multitud de ventajas: § Trabajar sobre una base de datos actualizada. § Posibilidad de la conexión de múltiples usuarios. § La realización de registros duplicados sería en porcentajes mínimos. § La localizaciones se asociarían en el momento § Base de datos de autoridades y encabezamientos de materia unificada. 14
  • 15. En conclusión, todos los esfuerzo que se realicen para la mejora de los catálogos, revierten en una mayor calidad en el acceso a la información y por tanto en un mejor servicio para el usuario. BIBLIOGRAFÍA 1. CEREZO LÓPEZ, Eva María, ALONSO CERVERO, Beatriz y GÓMEZ PÉREZ, Ana María. “Evaluación de la calidad en la automatización de bibliotecas” [artículo en línea]. El profesional de la información, vol. 11, nº 2, marzo-abril 2002. [Fecha de consulta: 30/06/11] http://www.elprofesionaldelainformacion.com/contenidos/2002/marzo/7.pdf 15