SlideShare une entreprise Scribd logo
1  sur  31
Télécharger pour lire hors ligne
Modelado de Documentos y Sistemas de Información con XML




  Modelado de Documentos y
  Sistemas de Información con
             XML




Proyecto Fin de Carrera de la Licenciatura de Documentación
                        del alumno:
          José Manuel Sánchez Navarro
                    Dirigido por el profesor:
              Juan Antonio Pastor Sánchez


                                                                        1
Modelado de Documentos y Sistemas de Información con XML

                                                                                  Contenido

I. INTRODUCCIÓN………………………………………………………………...                                                 3

II. OBJETIVOS……………………………………………………………………...                                                 4

III. METODOLOGÍA……………………………………………………………….                                                  4

IV. RESULTADOS…………………………………………………………………                                                    5
       1. Los Sistemas de Información Documental……………………………….                              5
                1.1. Los subsistemas de un Sistema Integral de Gestión de la
                Información………………………………………………………….                                         7
                         1.1.1. La base de datos documental………………………….                     7
                         1.1.2. El correo electrónico…………………………………..                       9
                         1.1.3. El subsistema de base de datos relacional…………….            9
                         1.1.4. El subsistema de thesaurus……………………………                      10
                         1.1.5. El subsistema de imágenes y OCR……………………                    11
                         1.1.6. El subsistema de Workflow…………………………...                     12
                         1.1.7. El subsistema de Groupware………………………….                      12
                         1.1.8. El subsistema de DSI………………………………….                         13
       2. El lenguaje XML y sus especificaciones………………………………….                             14
                2.1. Orígenes del lenguaje XML…………………………………….                              14
                2.2. Características del lenguaje XML………………………………                          15
                2.3. Algunas especificaciones derivadas de XML: RDF, OWL y SKOS-
                CORE………………………………………………………...                                               16
                         2.3.1. RDF……………………………………………………                                    17
                         2.3.2. OWL…………………………………………………..                                   18
                         2.3.3. SKOS-CORE………………………………………….                                 19
       3. Aplicación del XML en un Sistema de Información……………………...                       20
                3.1. Ventajas de la utilización de XML en un Sistema Integral de Gestión
                de Información……………………………………………...                                         20
                3.2. Infraestructura…………………………………………………...                                 21
                3.3. Los subsistemas de base de datos documental y relacional…….           21
                         3.3.1. La entrada o carga de documentos…………………….                  22
                         3.3.2. El almacenamiento…………………………………….                           23
                         3.3.3. La recuperación de información………………………                    24
                         3.3.4. Conectividad entre la base de datos documental y
                         relacional……………………………………………………..                                  26
                3.4. El subsistema de tesauro………………………………………...                            27
                3.5. El subsistema de publicación de contenidos y DSI……………..               28

V. CONCLUSIONES……………………………………………………………….                                                   30

VI. BIBLIOGRAFÍA………………………………………………………………..                                                 31




                                                                                                2
Modelado de Documentos y Sistemas de Información con XML

I. INTRODUCCIÓN

        El Proyecto fin de Carrera (PFC) es una asignatura obligatoria incluida dentro del plan de
estudios vigente en la titulación “Licenciado en Documentación” de nuestra Universidad. Se entiende
como el resultado final de un proyecto o trabajo personal del alumno, donde manifieste los
conocimientos y aptitudes adquiridos a los largo de la titulación de Licenciado en Documentación.

       Para el presente PFC se ha escogido el tema "Modelado de documentos y sistemas de
información con XML". La aplicación de las tecnologías de la información originadas en Internet
está cambiando de forma cualitativa y cuantitativa las dinámicas de gestión de información y
documentación en las organizaciones.

        En una primera fase de desarrollo tecnológico han proliferado las actuaciones para la creación
y mantenimiento de sistemas de información mediante Intranets y la elaboración de productos y
servicios de información para Web.

        En la actualidad se han identificado una serie de problemáticas en este tipo de desarrollos.
Estas problemáticas tienen su origen en las carencias del uso de la Web para el análisis y gestión del
contenido informativo de los documentos HTML. Hay que recordar que la Web se ideó como un
medio para la comunicación de información y no para su gestión.

        Sin embargo, hoy día existen soluciones basadas en XML que permiten aportar un mayor
contenido semántico a la descripción de los documentos electrónicos. Por lo tanto se abren nuevas
posibilidades de gestión y reutilización de los contenidos informativos de los documentos digitales. La
tecnología XML supone un punto de partida para el desarrollo de sistemas de información y el
modelado de documentos que doten de mayor relevancia al contenidos y la estructura de los
documentos y no a su forma y presentación. Esta nueva orientación tiene su origen en la idea de Web
Semántica.

         La Web Semántica es una Web extendida, dotada de mayor significado en la que cualquier
usuario en Internet podrá encontrar respuestas a sus preguntas de forma más rápida y sencilla gracias a
una información mejor definida. Al dotar a la Web de más significado y, por lo tanto, de más
semántica, se pueden obtener soluciones a problemas habituales en la búsqueda de información gracias
a la utilización de una infraestructura común, mediante la cual es posible compartir, procesar y
transferir información de forma sencilla.

        Esta Web extendida y basada en el significado, se apoya en lenguajes universales que
resuelven los problemas ocasionados por una Web carente de semántica en la que, en ocasiones, el
acceso a la información se convierte en una tarea difícil y frustrante. A partir de XML se han
desarrollado múltiples especificaciones que permiten desarrollar la idea de Web Semántica, tales como
RDF, OWL o SKOS-CORE.


                                                                                                     3
Modelado de Documentos y Sistemas de Información con XML



II. OBJETIVOS

    Los objetivos del presente PFC son los siguientes:

       Estudiar las funcionalidades de un Sistema de Información Documental.

       Identificar los principales subsistemas que componen un Sistema de Información Documental.

       Elaborar una visión integral de un Sistema de Información Documental mediante una
        adecuada estructuración de los diferentes subsistemas.

       Identificar las especificaciones XML más adecuadas para su aplicación en los distintos
        subsistemas del Sistema de Información Documental atendiendo a las funcionalidades de los
        mismos.

       Detallar la forma en la que se pueden aplicar las especificaciones XML identificadas dentro de
        un Sistema de Información Documental.




III. METODOLOGÍA

       La metodología seguida en este PFC se basa en un análisis de los diferentes subsistemas que
componen un Sistema de Información Documental dentro del ámbito de las Tecnologías de la
Información.

        No solamente se han identificado dichos subsistemas, sino que además se han estudiado las
diferentes relaciones que existen entre los mismos.

        Posteriormente se ha realizado un estudio de las especificaciones XML que se han
considerado más adecuadas para su aplicación en los diferentes subsistemas. En este estudio las
especificaciones XML seleccionadas han sido: RDF, OWL Y SKOS-CORE. El motivo de escoger
estas especificaciones se debe a que cubren, junto con el uso general de XML para la descripción de
documentos, los principales procesos que realiza un Sistema de Información Documental.

       Finalmente se ha procedido a un trabajo de síntesis en donde se ha realizado una propuesta de
aplicación de las especificaciones XML estudiadas en un Sistema de Información Documental.

        Se ha tenido en cuenta que dichas especificaciones pueden utilizarse tanto dentro de cada uno
de los subsistema analizados como en las relaciones que pueden establecerse entre los mismos.



                                                                                                     4
Modelado de Documentos y Sistemas de Información con XML



IV. RESULTADOS

       A continuación se detallan los resultados obtenidos tras la aplicación de la metodología
que se ha detallado en el anterior apartado.


1. Los Sistemas de Información Documental

        En los últimos años, las organizaciones han venido incorporando las Tecnologías de la
Información y la Comunicación (TIC's) a sus procesos de producción y de gestión, modificándose así
la forma de trabajar dentro de las mismas. La información, tanto interna como externa, se ha
convertido en un elemento de vital importancia para las organizaciones, desde el punto de vista
estratégico y para mejorar su competitividad. Más aún, se ha pasado a un modelo basado en la gestión
adecuada de los llamados “activos intangibles” y el “capital intelectual”, llegando así a lo que se
conoce como “Gestión del Conocimiento” (Knowledge Management). De este modo, además de la
clásica gestión de los documentos en la organización, se ha pasado a la implementación de
herramientas que mejoran la gestión y generación de conocimiento nuevo, como los sistemas de
Workflow o Data Warehouse.

       Desde una primera etapa donde se definían simplemente como sistemas de gestión de la
documentación, se ha llegado a una concepción global y corporativa de la gestión de la información.
Estos sistemas deben llegar, como señala M.A. Esteban Navarro a “administrar y controlar de modo
conjunto, mediante el auxilio de la informática, todo tipo de datos, documentos, conocimiento y
habilidades existentes en la organización en la que se aplica 1”.

       Los objetivos de estos sistemas deben adecuarse a los de la organización donde se encuentran,
aunque hay una serie de elementos básicos que serían aplicables a todos los entornos. Por lo tanto, lo
que pretende un Sistema Integral de Gestión de la Información es:

        Facilitar a las personas que trabajan en la organización el trabajo con los documentos. Los
         documentos deben poder encontrarse rápidamente y sus usuarios deben saber cuáles hay que
         guardar, dónde y cómo. Deben poder gestionar los diferentes formatos de documento con los
         que la organización trabaje. Tienen que cubrir todo el ciclo vital de los documentos.

        Permitir que la información se comparta y se aproveche como un recurso colectivo.

        Conservar la memoria de la organización más allá de los individuos que trabajan en ella y
         poder aprovechar el valor de los contenidos en los que queda plasmada la experiencia, evitando
         empezar de cero sobre aspectos en los que ya hay experiencia acumulada.

1
    ESTEBAN NAVARRO, Miguel Ángel. La técnica de gestión integral de la información: nuevas tendencias de representación y la
    organización del conocimiento en los sistemas de información en las organizaciones. Organización del Conocimiento en Sistemas de
    Información y Documentación, v. 2, 1997, pp. 285-209.
                                                                                                                                       5
Modelado de Documentos y Sistemas de Información con XML


      Evolucionar al mismo tiempo que la organización, con un carácter abierto y dinámico.

       Estos objetivos establecen el marco de los distintos subsistemas que deberán integrarse. Cada
herramienta responderá a una necesidad en la gestión de la información, aunque el Sistema Integral de
Gestión de la Información se verá determinado por el funcionamiento de todas en su conjunto.

        Veamos los diferentes subsistemas que puede implementar un Sistema Integral de Gestión de
la Información:

        Todos los procesos relacionados con la elaboración, archivo, importación, recuperación,
           agrupación, lectura y referenciación de documentos de texto se llevarán a cabo mediante la
           incorporación de un subsistema de Base de datos documental, que integre un sistema de
           gestión del Correo Electrónico y otras herramientas de Ofimática e Internet.

          La recuperación de documentos puede hacer necesaria la implementación de un
           subsistema de Thesaurus. Según el caso, este subsistema puede indexar y referenciar
           documentos externos (CD-ROM, Internet, etc.)

          Para la gestión de documentos en formato de imagen (escaneados) será necesario un
           subsistema de Imágenes, enlazado normalmente con un subsistema de Base de datos
           Relacional, aunque estas imágenes también se podrán enlazar con el subsistema de Base de
           Datos Documental. (Sin embargo, es importante destacar aquí que, en la actualidad, el
           origen de los documentos manejados por las organizaciones es, en gran medida, digital.)

          El paso de imágenes de texto a documentos textuales, mediante el escáner para obtener
           datos de imágenes, se realizará mediante un subsistema de Reconocimiento Óptico de
           Caracteres (OCR).

          También es posible que sea preciso enviar periódicamente a determinados usuarios una
           serie de documentos que se correspondan con su perfil de interés, a medida que éstos vayan
           llegando al sistema, para ello podría implementarse un subsistema de Difusión Selectiva
           de la Información (DSI).

          Los flujos de información (documentos) y los procesos en el seno de la organización deben
           ser racionales, estar coordinados y deben poder monitorizarse. Para lograr este objetivo se
           puede implantar una solución de Workflow en la organización.

          El trabajo colaborativo entre las personas que trabajan en la organización se puede
           gestionar mediante herramientas de tipo Groupware, como pueden ser los Entornos
           colaborativos.



                                                                                                    6
Modelado de Documentos y Sistemas de Información con XML

1.1. Los subsistemas de un Sistema Integral de Gestión de la Información

1.1.1. La base de datos documental

         Cuando se trata de un sistema que gestiona grandes cantidades de documentos en formato
texto, hipertexto o hipermedia, es preciso integrar un Sistema de Gestión Documental. Estos sistemas
deben soportar la importación, archivo, control de versiones, replicación, clasificación, indexación,
búsqueda, visualización, edición, distribución y administración de los documentos.


A) La importación de los documentos

         La base de datos documental debe permitir tanto importaciones masivas de documentos (carga
inicial, migración desde otro sistema, etc.) como las propias de las gestiones diarias del sistema. Las
fuentes desde las que se cargarán estos documentos pueden ser muy variadas: entradas de fax, correo
electrónico, correspondencia ordinaria, documentos internos, publicaciones interesantes para la
organización, discos ópticos, Internet... Los documentos que llegan al sistema en formato papel serán
escaneados para de este modo obtener su imagen, que podrá ser enlazada a un documento “principal”
de texto o bien pasada por un OCR para cargar la información obtenida como un documento de texto.


B) La creación de documentos

        El subsistema de base de datos documental debe proveer herramientas que ayuden a la
creación de documentos, ya sea creándolos desde cero mediante la integración con herramientas
ofimáticas para tal fin, editando los ya existentes o enlazando otros objetos a los mismos, entre otras
posibilidades.


C) La búsqueda de documentos en la base de datos

        El subsistema debe permitir buscar por varios procedimientos:

      1. Por texto completo (full text): combinaciones de palabras expresadas mediante operadores
         booleanos, búsquedas por proximidad, frase completa, etc.
      2. Por hiperenlaces: se refiere a poder saltar de un documento a otro de la base de datos por
         medio de enlaces predefinidos e indicados en los mismos. Se trataría de una búsqueda
         “manual”, ya que es el propio usuario quien “navega” (browsing) por el contenido de los
         documentos y a través de las conexiones semánticas que ofrecen los enlaces. Estos
         hiperenlaces los podrá definir el usuario explícitamente en el momento de la referenciación o
         el propio sistema implícitamente. Para esto último el sistema deberá aplicar un criterio
         homogéneo para la asignación de conceptos a los diferentes documentos.
      3. Por descriptores de documentos: son palabras o grupos de palabras que representan el
         contenido de un documento. Estos términos se extraen de lenguajes documentales, tales

                                                                                                     7
Modelado de Documentos y Sistemas de Información con XML

            como listas de autoridades, encabezamientos de materias, o tesauros, permitiendo la
            recuperación de documentos a partir de palabras que no están presentes en el documento
            original. Se pueden combinar mediante operadores booleanos.
        4. Por categorías: los documentos se clasifican por los campos que contienen, y en función de
            éstos se ordenan de forma jerárquica (arborescente).
        5. Debería ser posible buscar también por medio del Thesaurus del sistema, ya sea mediante los
            términos elegidos o mediante sinónimos u otros relacionados en la estructura del mismo.


D) La “referenciación” de documentos

        Un aspecto importante es el de la definición de los campos de los documentos que van a ser
referenciados y de las diferentes agrupaciones de documentos que se van a constituir. Esta actividad
debe facilitar posteriormente las búsquedas que se realicen en la base de datos. De este modo, el
subsistema debe permitir definir campos dentro de los documentos, listas de descriptores o bien
enlaces a otros documentos, referenciándolos siempre con un criterio común y evitando la repetición
de esfuerzos.

        Aquí es importante destacar el concepto de hipertexto, fundamental en los sistemas de
información modernos, o de hipermedia, en el caso de que los documentos contengan imágenes,
vídeo, sonido u otros objetos diferentes del texto. El sistema de gestión integral de la información debe
permitir “navegar” por los documentos que contiene (browsing).

        Los conceptos contenidos en el documento se constituyen en enlaces a los que el usuario
puede acceder en sus búsquedas y que le llevarán a otros documentos relacionados a nivel de
contenido. Esto nos acerca también a la idea de hipertexto a dos niveles2: los documentos se
representan desde el punto de vista de su contenido y al mismo tiempo éste se abstrae en una red
conceptual. De ahí los dos niveles, por un lado la red semántica estructurada en descriptores que
definen el contenido de los documentos y, por otro, los subconjuntos de éstos últimos que tienen en
común esos descriptores. Así, el usuario puede realizar browsing en un documento cualquiera de la
base de datos documental haciendo clic en los enlaces definidos en el mismo y que son representativos
del contenido del mismo. Esto le llevará a otros documentos que también contienen ese descriptor, por
lo que están semánticamente relacionados.


1.1.2. El correo electrónico

        El subsistema de correo electrónico es un vehículo de comunicación de decisiones de trabajo,
negociaciones con clientes o encargos de trabajo, cuya implantación ha tenido un éxito sin precedentes
en el seno de las organizaciones. El subsistema debe permitir que la información intercambiada
mediante correo electrónico o mensajería interna no se pierda y sea accesible para el conjunto de la
organización.

2
    PASTOR, J. A. y SAORÍN, T., “La escritura hipermedia” [en línea]. En: Cuadernos de Documentación Multimedia, números 6-7, 1997-
    98, pp. 221-238. Puede consultarse en red en: <http://www.ucm.es/info/multidoc/multidoc/revista/cuad6-7/saorin.htm> [Consulta: 24
    mayo 2005]
                                                                                                                                   8
Modelado de Documentos y Sistemas de Información con XML


       Entendiendo la globalidad y el carácter corporativo de los Sistemas Integrales de Gestión de la
Información, es preciso que el subsistema de correo electrónico esté integrado con el de gestión
documental. Debería permitir añadir a los mensajes información obtenida del sistema de gestión
documental o consultar el mismo sin necesidad de abandonar el correo.

        Es más, el subsistema de gestión documental debería ser capaz de comunicarse con los
usuarios del sistema por medio del correo electrónico, difundiendo la información del mismo a
aquellos que puedan necesitarla o bien enviando alertas para informar de la presencia de un
documento nuevo de interés.


1.1.3. El subsistema de base de datos relacional

        Hemos de tener en cuenta que una base de datos relacional es un subsistema de propósito
general, y que proporciona soporte a otros subsistemas para el manejo de datos, aportando las
funcionalidades necesarias para manejarlos, preservarlos y recuperarlos. Éste subsistema funciona
como un servidor, proporcionando los datos a los usuarios que se conectan a él. Existen numerosas
soluciones de base de datos, tanto libres (MySql, PostgreSQL, etc.) como comerciales (Oracle, SQL
Server, etc.).

        El subsistema de base de datos relacional sirve de soporte a la referenciación que antes se
mencionaba, concretamente en el caso del subsistema de imágenes y en el caso de trabajar con
documentos en formato de audio o vídeo. La base de datos contendrá el código que haga referencia a
la imagen en cuestión y el resto de datos que sirvan para referenciarla unívocamente y poder así
localizarla cuando sea preciso.

        Es preciso apuntar aquí que la base de datos relacional no funciona de forma “aislada” a la
base documental, sino que puede contener registros haciendo referencia a determinados documentos,
ya sean texto plano, hipertexto o hipermedia.

        Junto a esta funcionalidad, la base de datos relacional podrá contener datos vitales para el
sistema: inventarios, usuarios y roles, control de accesos, información de configuración, etc. Estos
datos se distribuirían entre diversos servidores.

         Cabe destacar aquí un tipo especial de base de datos orientada a la toma de decisiones en la
organización. Se trata de los Data Warehouse. Si bien tienen similitudes con las relacionales, éstas se
pueden considerar más bien bases de datos multidimensionales, ya que su estructura depende de una
serie de dimensiones predefinidas en la BD (geografía, tiempo, productos, etc.).

        Se nutre de los datos extraídos y filtrados de otros subsistemas, transformándolos,
integrándolos, sumariándolos y almacenándolos en un repositorio, de manera que se pueda acceder a
ellos cuando sea preciso. La información de interés se distribuye por medio de diversas herramientas
de consulta y de creación de informes, orientadas a la toma de decisiones. Permite también el empleo
                                                                                                     9
Modelado de Documentos y Sistemas de Información con XML

de técnicas avanzadas de extracción de información como el Data Mining.3


1.1.4. El subsistema de thesaurus

        Este subsistema puede encontrarse integrado en la base de datos documental o bien funcionar
como una aplicación aparte. El thesaurus dota al sistema de funciones que mejoran sustancialmente las
búsquedas. En la actualidad destacan por sus potencialidades hipertextuales: las relaciones entre
términos se representan con enlaces. El tesauro sirve como base a la navegación hipertextual de la
base documental, ya que especifica las relaciones entre los términos representativos del contenido de
los documentos.

        El hipertexto a dos niveles, del que se hablaba anteriormente, depende de la existencia de una
red conceptual subyacente, en este caso el tesauro cumple esa función. Esto finalmente conseguirá que
el lenguaje del sistema (thesaurus) haga de “guía” del usuario en las búsquedas por navegación en los
documentos (browsing), ofreciéndole documentos relacionados con la materia que buscaba, pero que
en un principio no se hallaban en su formulación de búsqueda. Además de buscar por palabras
concretas contenidas en los textos mediante los clásicos operadores booleanos, el subsistema de
thesaurus encuentra sinónimos o términos relacionados, aumentando así en gran medida el número de
documentos encontrados.

        La combinación de estas funcionalidades puede servir para elaborar perfiles de búsqueda,
bastante más avanzados que las búsquedas normales, y que pueden ser almacenados y llamados en
cualquier momento. A la hora de determinar qué descriptores van a caracterizar un determinado
documento, el thesaurus también representa una ventaja, ya que puede sustituir a la determinación de
descriptores clásica. El thesaurus debería integrarse en el sistema de forma transparente al usuario,
teniendo acceso a los documentos de la base de datos documental, relacional y el correo electrónico.


1.1.5. El subsistema de imágenes y el OCR

        Responde a la necesidad de tratar los documentos que no están sobre soporte de fichero
informático de texto, ni de audio o vídeo, esto es, documentos en formato papel, transparencias,
fotografías, diapositivas, planos, faxes, imágenes de objetos tridimensionales, etc. El objetivo de este
subsistema es capturar, editar, visualizar e imprimir estas imágenes y permitir que puedan ser
almacenadas y gestionadas en red. Como es obvio, se encontrará integrado con un subsistema de base
de datos documental o relacional.

        La incorporación de imágenes al sistema puede realizarse a través de una carga masiva inicial,
una migración desde otro sistema o bien con las entradas de documentos diarias. A partir de los
documentos físicos en diversos soportes, se crean unos ficheros de imágenes. Para ello se emplea
generalmente el escáner, que dispone de una aplicación informática ligada, a su vez subordinada a la
aplicación principal de imágenes del sistema. Estas imágenes posteriormente deben poder ser
buscadas, visualizadas en pantalla o bien imprimidas. Se suele distinguir entre “digitalización gráfica”
3
    J.M. Franco, EDS-Institut Prometheus, "El Data Warehouse. El Data Mining", Ediciones Gestión 2000, 1997.
                                                                                                               10
Modelado de Documentos y Sistemas de Información con XML

y “digitalización del texto”, según sea el propósito final de dicha digitalización del documento.

        El sistema de Reconocimiento Óptico de Caracteres (OCR) permite reconocer texto y datos
que se encuentran en los ficheros informáticos de imágenes. Pueden leer tanto el texto completo
contenido en un fichero de imagen como determinadas zonas del mismo. La primera funcionalidad
tiene por objetivo el volcado del texto en documentos que pasarán a formar parte de la base de datos
documental. La segunda, enviar los datos extraídos a la base de datos relacional, siendo lo más común
en el caso de digitalizar lotes de formularios o documentos con un formato fijo. Este subsistema
acostumbra a integrarse con el de gestión documental.

         Sin embargo, volvemos a reiterar aquí que el uso de herramientas ofimáticas está desplazando
a la tradicional gestión de documentos en papel. Los documentos se generan en formato digital y el
sistema de gestión integral de la información trabaja con ellos directamente. Aspectos como la
compatibilidad y el uso de estándares son importantes aquí, ya que el intercambio de documentos con
las aplicaciones que los generan debe poder hacerse sin conversiones previas.


1.1.6. El subsistema de Workflow

        En estrecha relación con las aplicaciones de trabajo en grupo (groupware), propone el
establecimiento de una serie de reglas y pautas en las que se especifican las tareas y pasos que se han
de seguir para la consecución de un proceso de negocio. En estos procesos se suele generar
información abundante, ahí es donde entra en juego el sistema de gestión integral de la información,
para capturar ese conocimiento, almacenarlo y procesarlo para generar conocimiento nuevo.

        Decimos que pertenece a la aplicaciones de groupware, porque va destinado a facilitar el
trabajo en grupo, dándole una estructura racional. El workflow, al mismo tiempo, permite coordinar y
automatizar los procesos de negocio, balanceando cargas de trabajo, gestionando los plazos de entrega
o bien pasando tareas de un empleado a otro según sea conveniente. No sólo eso, el workflow también
está dotado de un sistema de monitorización de las tareas realizadas y del estado de los procesos, lo
que permitirá futuras modificaciones e incluso el completo rediseño del proceso de negocio para
adaptarlo a las necesidades del mercado.


1.1.7. El subsistema de Groupware

       Básicamente se puede definir al groupware como el software que permite trabajar de forma
cooperativa a un equipo u organización a través del correo electrónico, bases de datos compartidas,
gestión de flujos de trabajo, etc. Por lo tanto, se define como «herramientas con las que las personas
puedan trabajar juntas en un marco colectivo de comunicación, colaboración y coordinación»4. Si la
comunicación entre los miembros del equipo es en tiempo real, pueden emplearse medios que faciliten
la votación o la generación de nuevas ideas, siempre y cuando puedan reunirse en el mismo lugar; de
no ser así, se puede recurrir al teléfono, la videoconferencia o la mensajería instantánea. De tratarse de
4
    SAGREDO, ÁNGEL (1996): «El trabajo en grupo en la Internet», Actas del I Congreso Nacional de Usuarios de Internet. Madrid,
    Asociación de Usuarios de Internet, 1996, 213-239.
                                                                                                                                  11
Modelado de Documentos y Sistemas de Información con XML

una comunicación asíncrona, entrará en juego el correo electrónico, fax, buzón de voz, los grupos de
discusión o los entornos colaborativos. La variedad de aplicaciones de tipo groupware es enorme, sin
embargo puede establecerse una taxonomía de las mismas:

       Herramientas de comunicaciones: incluyen la mensajería, el correo electrónico, el fax, la
        telefonía, los foros de discusión, etc.

       Herramientas de coordinación: facilita que los componentes de un grupo de trabajo se pongan
        de acuerdo y trabajen en una misma dirección. Pueden incluirse aquí las Agendas de grupo o
        las de Seguimiento de una actividad. Si el tiempo es vital para la tarea, aquí entran en juego
        los Organizadores personales, las Agendas de red o incluso los Sistemas de gestión de
        proyectos.

       Herramientas de workflow: ya mencionadas anteriormente, tratan de conseguir la
        coordinación de usuarios, tareas e información para el logro de la meta de la organización.
        Entre otros ejemplos aquí cabe citar: Automatización y control de procesos, Rutas dinámicas
        de documentos, firmas digitales, etc.

       Repositorios de información: permiten la distribución de información de y para los usuarios.
        Los usuarios pueden publicarla o recibirla, esto siempre mediante la acción directa del mismo.
        Ejemplos: bases de datos de documentos, control de versiones, servidores web en Internet, etc.

       Entornos colaborativos: permiten que personas que se encuentran ubicadas en diferentes
        localizaciones puedan trabajar juntas en tiempo real. Estos entornos permite trabajar a un
        grupo de personas sobre los mismos documentos al mismo tiempo, y pueden integrar
        herramientas como el control de versiones, agendas de red, videoconferencia, pizarras
        colaborativas, compartición de pantalla, etc.


1.1.8. El subsistema de DSI

         La Difusión Selectiva de la Información consiste en un tratamiento y explotación periódica de
las informaciones documentales más recientes, memorizadas y difundidas periódicamente en respuesta
a los perfiles documentales definidos por los usuarios. Estos perfiles se construyen en base a los
términos o palabras clave que constituyen la “necesidad documental” del usuario. Una vez definido el
perfil, el usuario recibe periódicamente la información ajustada a su demanda.

        Los sistemas actuales, disponen de dos opciones relativas a los sistemas DSI:

       El cliente consulta directamente información de algún tema concreto en base a un listado. Es
        el método tipo “PULL”, ya que es el usuario el que decide acceder a los contenidos cuando él
        lo desea.

       El cliente se suscribe a los perfiles de información que le interesan y recibe periódicamente en
                                                                                                     12
Modelado de Documentos y Sistemas de Información con XML

        su correo electrónico boletines con las novedades de la base de datos documental. Es el
        método tipo “PUSH”, ya que el usuario recibe periódicamente la información de forma
        continuada.

        En todo caso, el sistema debe permitir que el usuario sugiera nuevos perfiles de DSI en
función de sus intereses cambiantes.




               Figura 1. Esquema funcional del sistema integral de gestión de la información.




2. El lenguaje XML y sus especificaciones

2.1. Orígenes del lenguaje XML

        Como se verá posteriormente, XML trata el contenido de un documento digital como una
estructura arbórea de elementos. Este enfoque tiene su origen en las técnicas empleadas por los
primeros procesadores de texto.

        En los años 60 se escribía en primer lugar el texto digital y luego se aplicaba el formato
deseado. Por lo general este texto terminaba siendo impreso y se asociaba la descripción referente a la
presentación del documento. Algunas de esas “anotaciones” siguen vigentes hoy en día, como en el
caso del formato RTF (Rich Text Format). Poco después aparecería el marcado de formato, que
consistía en marcar directamente el texto mediante una serie de etiquetas.


                                                                                                    13
Modelado de Documentos y Sistemas de Información con XML

        La aparición de los sistemas WYSIWYG (what you see is what you get) trajo consigo el
desarrollo de lenguajes de etiquetas más complejos. Mientras tanto, los procesadores de texto
evolucionaron cualitativamente hasta llegar a los actuales: Pagemaker, MsWord, WordPerfect,
StarOffice, ect.

         Esto llevó a una proliferación de formatos y, con ellos, diferentes formas de representar la
información. Así, a finales de los 60, IBM creó el GML (General Markup Language), que
posteriormente se convertiría en SGML (Standard Generalized Markup Language), que adquirió el
estatus de norma ISO en 1986 (ISO 8879).

       SGML permite especificar la estructura de un documento mediante una definición formal
llamada DTD (Document Type Definition). La DTD especifica qué elementos constituyen un
documento, como por ejemplo secciones, subsecciones, párrafos, títulos, etc.

         El precedente de Internet, ARPANET, apareció a principios de los 70. Uno de los principios
en que se basaba era el hipertexto, esto es, la organización no secuencial de los documentos, lo que
supone criterios de asociación de conceptos como principio organizador. Los dos elementos clave en
este sistema son el enlace y el nodo. Un nodo en Internet es un documento digital relacionado con
otros por medio de enlaces. La mayor parte de los nodos o documentos digitales que se encuentran en
Internet están codificados en HTML, que no es ni más ni menos que una DTD de SGML que
especifica qué “elementos” componen un documento digital publicado en la web.

         El World Wide Web Consortium (W3C) ha centralizado desde 1996 el desarrollo de HTML.
Esta misma entidad ha sido la que ha propuesto y desarrollado el formato XML, fundamentalmente
por tres motivos:

       Se buscaba una norma para intercambiar información estructurada entre dos puntos de la red,
        con independencia de la plataforma o la aplicación. Pese a que SGML era el candidato ideal,
        su tamaño y complejidad hicieron necesaria la creación de otro estándar.
       Se quería publicar documentos digitales en la WWW a gran escala.
       HTML sólo sirve para describir el formato de los documentos y no su contenido.

        Para ello se creó un subconjunto de SGML que es lo que ha dado lugar a la actual
especificación XML.

        Lo más interesante de esta evolución es constatar cómo en un momento determinado se
produjo una separación entre presentación y contenido. En estos momentos la estructuración del
contenido de la web concentra el interés y los esfuerzos de usuarios y desarrolladores. De ahí el éxito
actual del formato XML, ya que es un medio para estructurar el contenido de los documentos digitales.


2.2. Características del lenguaje XML


                                                                                                    14
Modelado de Documentos y Sistemas de Información con XML

         Por medio de XML es posible definir los documentos con el grado de exhaustividad que se
requiera. Una de las características principales de un documento XML es que permite organizar
jerárquicamente todas las unidades informativas de un documento mediante estructuras lógicas. En la
terminología de XML, estas unidades se denominan entidades (entities) y no son sino datos
(contenidos) dispuestos para ser interpretados por la máquina. XML posee mecanismos que permiten
revisar la estructura lógica de los documentos con el propósito de que las máquinas que se
interconecten entre sí para operar con estos datos lo puedan hacer de manera fluida. El acceso a los
documentos XML se realiza mediante un procesador que revisa la estructura de los documentos e
interpreta los contenidos de acuerdo con una gramática.

      La gramática de los lenguajes XML, es decir, la estructura y elementos permitidos en los
documentos XML, se define mediante:

       DTD (Document Type Definition): Documento ASCII plano que especifica tanto los
        elementos que forman un tipo de documento dado, como las relaciones que se dan entre ellos.

       XSD (XML Schema Definition): Mejoran los DTD’s porque están escritos en XML y
        permiten nuevas características:

        - Definir tipos de datos.
        - Utilizar espacios de nombre.
        - Definir intervalos de valores para los atributos y elementos.
        - Características Orientadas a Objetos.

        El éxito de XML ha propiciado la demanda de nuevas funcionalidades, que se abordan
definiendo extensiones adicionales para:

       Estructurar documentos (XML Schema)
       Enlaces y direccionamiento (Xpath, Xlink, Xpointer)
       Transformación y presentación (XSL, CSS2)
       Consultas (Xquery)
       Programación (DOM, SAX)
       Otros (Namespaces, Xinclude, Xbase...)



<?xml version=“1.0”?>
 <contacts>
  <contact>
   <name>
    <first>John</first>
    <last>Belcher</last>
   </name>

                                    Figura 2. Código de ejemplo XML.


                                                                                                   15
Modelado de Documentos y Sistemas de Información con XML



2.3. Algunas especificaciones derivadas de XML: RDF, OWL Y
SKOS-CORE

        Aunque XML es un lenguaje válido para describir con exhaustividad el contenido de un
documento, tiene serias limitaciones en contextos donde se precisa que la semántica de los datos con
que se trabaja sea explícita. Es decir, cuando “codificamos” un documento en XML, no estamos
diciendo nada sobre el significado de esas estructuras que estamos creando. Pese a ser un gran
lenguaje para el intercambio de datos en la web y entre aplicaciones, no permite expresar la semántica
de esos datos. Del mismo modo, usando XML, las propiedades de esos datos (y de los metadatos) no
pueden ser inferidas de ninguna manera.

       Como solución a esto surgen otros lenguajes que, apoyándose en la sintaxis de XML, sí están
dotados de capacidades para definir la semántica y las propiedades de los datos que manejan.


2.3.1. RDF

        En 1999 se publicó la primera versión de RDF (Resource Description Framework), un
lenguaje para la definición de ontologías y metadatos en la web. El objetivo de RDF fue solucionar el
acceso y gestión de contenidos en la web mediante un lenguaje de metacontenidos. RDF es hoy el
estándar más popular y extendido en la comunidad de la web semántica.

         Este lenguaje es importante para la descripción de los objetos y los tipos de objetos que se
encuentran en la red (a los que se suele llamar “recursos”). RDF se basa en la idea de que podemos
identificar los elementos a partir de URIs (Uniform Resource Identification) describiendo los recursos
en términos de propiedades simples o pares propiedad-valor. Esto permite representar las
declaraciones simples sobre recursos como un grafo de nodos y arcos que representan los recursos, sus
propiedades y sus valores. Por tanto, el elemento de construcción básica en RDF es el “triple” o
sentencia, que consiste en dos nodos (sujeto y objeto) unidos por un arco (predicado), donde los nodos
representan recursos, y los arcos propiedades.

         Con RDF Schema (RDFS) se pueden definir jerarquías de clases de recursos, especificando las
propiedades y relaciones que se admiten entre ellas. En RDF las clases, relaciones, y las propias
sentencias son también recursos, y por lo tanto se pueden examinar y recorrer como parte del grafo, o
incluso asertar sentencias sobre ellas. Se han definido diferentes formas sintácticas para la formulación
escrita de RDF, pero quizás la más extendida es la basada en XML (serialización). Es por ello que
RDF se presenta a menudo como una extensión de XML.

        Pese a la potencia de RDF para describir recursos, hay que tener en cuenta que también tiene
algunas debilidades:


                                                                                                      16
Modelado de Documentos y Sistemas de Información con XML

       Dos documentos pueden usar definiciones diferentes del mismo concepto y no se puede
        decidir que son equivalentes.
       Tiene problemas de ambigüedad en la definición de sus elementos.
       No se permite el manejo/ definición de restricciones de integridad.



<?xml version="1.0"?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:contact="http://www.w3.org/2000/10/swap/pim/contact#">
  <contact:Person rdf:about="http://www.w3.org/People/EM/contact#em">
    <contact:fullName>Eric Miller</contact:fullName>
    <contact:mailbox rdf:resource="mailto:em@w3.org"/>
    <contact:personalTitle>Dr.</contact:personalTitle>
  </contact:Person>
</rdf:RDF>

                                   Figura 3. Código de ejemplo RDF.


2.3.2. OWL

        Al lenguaje RDF le siguieron OIL (Ontology Inference Language), desarrollado en Europa, y
DAML (DARPA Agent Markup Language), en EE.UU., dos lenguajes muy similares que de hecho se
terminaron fundiendo en DAML+OIL. A partir de esta unión se definió el lenguaje OWL (Web
Ontology Language), con el propósito de reunir todas las ventajas de DAML+OIL y resolver los
problemas de este lenguaje.

        OWL se puede formular en RDF, por lo que se suele considerar una extensión de éste. OWL
incluye toda la capacidad expresiva de RDF(S) y la extiende con la posibilidad de utilizar expresiones
lógicas. OWL permite, por ejemplo, definir clases mediante condiciones sobre sus miembros (p.e. la
clase de los cuadros creados por pintores españoles), mediante combinación booleana de clases (Tinto
and Rioja and not Crianza en una ontología de vinos), o por enumeración de las instancias que
pertenecen a la clase (i.e. por extensión). Además OWL permite atribuir ciertas propiedades a las
relaciones, como cardinalidad, simetría, transitividad, o relaciones inversas.

        El lenguaje OWL permite todas las operaciones que son propias de una ontología, como crear
descripciones sobre clases de individuos, con restricciones y relaciones con otras descripciones. Se
divide en tres sublenguajes: OWL-Lite, OWL-DL y OWL-Full, cada uno de los cuales proporciona un
conjunto definido sobre el que trabajar, siendo el más sencillo OWL-Lite y el más completo OWL-
Full.

        Con todo esto y pese a ser válido como lenguaje de elaboración de ontologías, hay que
recordar que OWL también tiene algunas desventajas:

       Debe existir un número limitado de constructores / axiomas para que el proceso de inferencia
        sea decidible.

                                                                                                   17
Modelado de Documentos y Sistemas de Información con XML

       No es muy natural.
       No permite definir/ chequear restricciones de integridad.
       Complejidad.



<owl:Class rdf:ID="QualityRating">
  <owl:oneOf rdf:parseType="Collection">
   <QualityRating rdf:ID="qualityRating_Excellent"/>
   <QualityRating rdf:ID="qualityRating_Good"/>
   <QualityRating rdf:ID="qualityRating_Average"/>
   <QualityRating rdf:ID="qualityRating_Poor"/>
  </owl:oneOf>
</owl:Class>

                                   Figura 4. Código de ejemplo OWL.


2.3.3. SKOS-CORE

        Se trata de la propuesta más concreta que hay hoy en dia para la elaboración de tesauros en el
entorno de la web semántica. SKOS-Core es un schema RDF para la representación de tesauros y
sistemas similares de organización de conocimiento. Esta aproximación es la propuesta por el W3C.
El objetivo fundamental de SKOS-Core es proporcionar un modelo para la migración de sistemas de
organización de conocimiento al entorno de la web semántica. Además sirve para construir esquemas
de conceptos simples para su utilización en la Web.

         SKOS-Core está pensado como un complemento a OWL, ya que proporciona un marco básico
para la construcción de esquemas de conceptos pero sin la definición semántica tan estricta que exige
la utilización de OWL. Se trata en cierta medida una simplificación mayor de la que encontramos ya
en OWL-Lite, lo cual permite acceder a un mayor número de personas a este tipo de tecnologías para
la representación del conocimiento.

        La idea base de este schema RDF reside en su capacidad para permitir la definición de
conceptos y esquemas de conceptos. Un concepto se define como una unidad de pensamiento que
puede ser definida o descrita. A su vez, un esquema de conceptos no es otra cosa que una colección de
conceptos. Un concepto puede tener una serie de etiquetas asociadas, donde cada etiqueta es una
palabra, frase o símbolo que suele utilizarse para referirse a ese concepto.




                                                                                                   18
Modelado de Documentos y Sistemas de Información con XML


<rdf:RDF
  xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
  xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
  xmlns:skos="http://www.w3.org/2004/02/skos/core#"
  xmlns:dc="http://purl.org/dc/elements/1.1/">
  <skos:ConceptScheme rdf:about="http:/spines.org/thesaurus">
    <dc:title>SPINES</dc:title>
    <dc:description>Tesauro de política científica</dc:description>
    <dc:creator>UNESCO</dc:creator>
  </skos:ConceptScheme>
</rdf:RDF>

                                Figura 5. Código de ejemplo SKOS-Core.




3. Aplicación del XML en un Sistema de Información

3.1. Ventajas de la utilización de XML en un Sistema Integral de
Gestión de la Información

        Con lo visto hasta ahora, se ha elaborado un diseño funcional y operativo de un Sistema
Integral de Gestión de la Información. Se distinguieron en él todos los subsistemas de los que depende
la entrada, el proceso y la salida de información, junto con las relaciones entre los diferentes módulos
que lo componen. Como segundo paso, se ha expuesto la tecnología XML y las diferentes
especificaciones, que vienen a cubrir diferentes necesidades de descripción de recursos web (RDF),
ontologías (OWL) y tesauros (SKOS-Core).

         A partir de aquí es necesario plantearse la utilidad de implementar estas tecnologías al diseño
de los Sistemas de Información, esto es, determinar en qué grado mejorarán la descripción, la gestión
y el intercambio de información. La decisión de implementar una tecnología u otra no es una decisión
que deba tomarse a la ligera. Ha de seleccionarse un estándar que cubra las necesidades arriba
descritas y al mismo tiempo disponga de aceptación general, garantizándose que no quede obsoleto en
un breve espacio de tiempo.

       Como se ha dicho anteriormente, la principal virtud de XML se encuentra en su capacidad para
definir el contenido de los documentos de forma jerárquica, estructurando sus unidades informativas
de forma lógica. Dicho de otra forma, permite “estructurar” la información contenida en los
documentos. Esta cualidad, aplicada a los documentos de nuestro sistema, nos permitirá:


                                                                                                     19
Modelado de Documentos y Sistemas de Información con XML

             Crear una base de datos de componentes de documentos. Ya que XML es una notación que
              preserva las abstracciones, los datos de los documentos XML pueden tratarse como el resto
              de datos, esto es, automatizarse, procesarse, reutilizarse, clasificarse y recuperarse.

             Salidas múltiples. Los datos en un documento XML se almacenan independientemente del
              medio utilizado. Esto permite que las organizaciones documentales entreguen su
              información automáticamente desde un sólo depósito a la Web, por medio de un disco
              óptico, para su impresión o cualquier otro medio. Por lo tanto, XML facilita el intercambio
              de información por tratarse de un estándar donde la presentación es independiente de los
              datos.

             Reutilización de la información. En ocasiones las organizaciones vuelven a crear
              información ya existente en lugar de reutilizarla. Esta gestión ineficaz provoca
              imprecisiones, versiones erróneas, fallos de entrega y, por supuesto, un aumento en los
              costes. Estos costes superfluos pueden evitarse construyendo un depósito de documentos
              estructurado, que permitirá el mayor número posible de reutilizaciones de la información ya
              existente. Esta base de datos permitirá mantener la integridad de los datos que contiene
              independientemente del momento, lugar o frecuencia con que se utilicen.

             Automatización. Si se representan los documentos en XML y se almacenan en un depósito,
              se pueden obtener mejoras mediante una automatización intensiva que genera el mismo tipo
              de ventajas que si se implantaran bases de datos relacionales para reemplazar registros
              introducidos de forma manual.




3.2. Infraestructura

       El hardware, junto con el software de base, constituye la infraestructura de trabajo de un
sistema integral de gestión de la información. Está integrada tanto por los computadores que utilizan
los usuarios (clientes del sistema) como por los que centralizan las bases de datos documentales /
relacionales (servidores); además de la red que interconecta todas las máquinas y el sistema operativo
sobre el que funciona el software de gestión de la información.




3.3. Los subsistemas de base de datos documental y relacional

    Una vez enumeradas las ventajas de la aplicación de XML y sus especificaciones a un sistema de
información, podemos estudiar su aplicación en la base de datos documental y en la relacional. En este
punto será de vital importancia tratar aspectos como:

           La caracterización de los documentos en el momento de su entrada (carga) en el sistema,
                                                                                                      20
Modelado de Documentos y Sistemas de Información con XML

        teniendo en cuenta el formato en que llegan (si se precisa la conversión a otro) y la
        correspondiente estructuración de la información contenida en ellos.
       El almacenamiento en la base de datos, tanto los clásicos registros de la base de datos
        relacional como el repositorio de componentes XML que formará nuestra base de datos
        documental.
       La recuperación de información, acercándonos a las diferentes opciones en lo relativo a
        lenguajes de consulta y la interfaz de usuario
       La conectividad entre la base de datos documental y la relacional, que se efectuará también a
        través de XML y será clave en el momento de la recuperación de información y para el
        subsistema de publicación de contenidos y DSI.


3.3.1. La entrada o carga de documentos

        Los documentos llegan al sistema por muchas vías: el clásico OCR integrado en el subsistema
de imágenes, documentos electrónicos recibidos desde la web o generados en la misma organización,
procedentes de discos ópticos u otros dispositivos de almacenamiento, etc. El problema no se
encuentra en las múltiples vías de llegada de documentos, sino en la diversidad de formatos, que
obliga a una conversión de éstos al formato propio de carga en el sistema, de manera que puedan
aplicarse a los mismos las modificaciones pertinentes.

        Se dice que, en una base de datos relacional, sólo se encuentran datos abstractos, es decir,
información estructurada. Sin embargo, en el archivo informático de un procesador de texto, por
ejemplo, se encontrará la información de estilo mezclada con la información real -el contenido de los
datos- del documento.

        Por tanto, se puede decir que los documentos tienen estructura, aunque la forma en que están
almacenados “oculta” los datos abstractos que indican el aspecto que deberían tener en su
presentación.

       Dicho de otro modo, las bases de datos relacionales contienen abstracciones y los archivos
documentales contienen, generalmente, reproducciones. La idea aquí, por tanto, es almacenar los
documentos de manera que su estructura natural y los datos que contienen puedan distinguirse
siempre, gestionar los documentos como si se tratara de datos.

        Evidentemente, el proceso de “etiquetado” XML es una tarea que se debe realizar de forma
automática, siendo la aplicación la que reconozca los campos de los documentos que previamente se
le han especificado.

         Está claro que esto supone un problema de formalización de los documentos cargados en el
sistema: no todos lo documentos tendrán los mismos campos (capítulo, título, sección, subsección,
etc.), por lo que en ocasiones será precisa la intervención manual. De todos modos, hasta en los casos
donde sea más difícil la estructuración por XML, siempre se podrán efectuar búsquedas a texto
completo.
                                                                                                   21
Modelado de Documentos y Sistemas de Información con XML


3.3.2. El almacenamiento

        En el actual panorama de los sistemas de gestión documental, se tiende hacia la orientación a
objetos como paradigma de almacenamiento 5, considerando que un documento se compone de objetos
de información (fotos, capítulos, secciones, etc.), que además incluye información sobre cómo estos
objetos deben ensamblarse.

        En el momento de la presentación de resultados de una búsqueda, debe poder mostrarse a los
usuarios documentos virtuales diferentes, adaptando el ensamblaje de las partes a las características de
cada usuario.

         En definitiva, se trataría de evolucionar desde el clásico almacenamiento estático de los
documentos hacia un almacenamiento que permita su composición en el mismo momento en que van
a ser utilizados por los usuarios6.




                          Figura 6. Evolución en la estructura de los documentos electrónicos.


        La propuesta de este trabajo consiste en la construcción de una base de datos de componentes
de documentos XML, de manera que cada documento individual contenido en la misma se encuentre
estructurado jerárquicamente a partir de los campos predefinidos en él. Un componente, por tanto, es
un fragmento de información que puede utilizarse de forma independiente, como un párrafo, un
capítulo, un procedimiento con instrucciones, una nota de aviso, un número de parte, una cantidad de
un pedido, un gráfico, una historia parcial, secuencias de vídeo y una variedad infinita de tipos de
información. Tratados mediante un sistema de gestión de contenidos, estos fragmentos pueden
controlarse, revisarse, reutilizarse y agruparse en documentos nuevos.
5
    MARTÍNEZ, José Manuel; HILERA, José Ramón; MARTÍNEZ, Javier y GUTIÉRREZ, José A. (1996): "Orientación a Objetos en la
    Documentación Hipermedia". Actas de las II Jornadas sobre Tecnologías de Objetos. Madrid, Asociación de Técnicos de Informática,
    SIMO TCI, 1996, 49-54.
6
    MARTÍNEZ José Manuel; HILERA José Ramón. Los sistemas de gestión documental en el ámbito del trabajo corporativo. Revista
    General De Información y Documentación, 1997;7:237-255.
                                                                                                                                   22
Modelado de Documentos y Sistemas de Información con XML


         Por lo tanto, nuestra base de datos documental no contendrá realmente documentos
“completos”, sino componentes de los mismos con información acerca de su ensamblaje. Esto
permitirá recuperar los documentos enteros, o bien sólo secciones de los mismos que sean de nuestro
interés, pudiendo incluso generar documentos nuevos a partir de los fragmentos que seleccionemos.
Cuanto más pequeños y específicos sean estos componentes, más manipulables y reutilizables
resultarán. Junto con este repositorio de componentes, la base de datos documental también contendrá
la “colección” de DTD's de las diferentes tipologías de documentos XML.

         La base de datos relacional, en nuestro modelo, puede servir tanto para almacenar registros de
datos de importancia para la organización, como para localizar los objetos de información situados en
la base de datos documental, sobre todo cuando se trate de imágenes, vídeos, gráficos u otros. Así
pues, nuestro Sistema Integral de Gestión de la Información almacenará una colección de “objetos” de
los tipos descritos arriba. Desde la perspectiva del usuario, debe poder recuperarse de igual manera un
vídeo que un documento completo o un registro de la base de datos. Aunque este aspecto se abordará
en mayor profundidad en el siguiente punto, lo fundamental en este punto es que se recupere la
información sin tener en cuenta en qué forma se encuentre esta.



3.3.3. La recuperación de información

         Un punto clave en el diseño de una base de datos documental es el relativo al sistema de
recuperación de información. Por muy bien que la base de datos almacene sus registros, si estos no
pueden ser recuperados de forma eficiente, ésta carecerá de utilidad. En el Sistema Integral de Gestión
de Información tenemos tanto bases de datos documentales como de tipo relacional. En este segundo
supuesto la recuperación de información (datos más bien en este caso) se efectuará mediante el
lenguaje más apropiado, SQL. Este lenguaje es perfecto para realizar búsquedas en una base de datos
relacional, al tiempo que permite el almacenamiento de consultas. No es preciso que nos extendamos
en detalles acerca de la recuperación de información con SQL, ya que no es el lugar apropiado y la
bibliografía es abundante; resulta de mayor interés tratar la recuperación en la base documental y la
interfaz de consulta.


XQUERY

       De manera rápida podemos definir XQuery con un símil en el que XQuery es a XML lo
mismo que SQL es a las bases de datos relacionales.

        XQuery es un lenguaje de consulta diseñado para escribir consultas sobre colecciones de datos
expresadas en XML. Abarca desde archivos XML hasta bases de datos relacionales con funciones de
conversión de registros a XML. Su principal función es extraer información de un conjunto de datos
organizados como un árbol n-ário de etiquetas XML. En este sentido XQuery es independiente del
origen de los datos.

                                                                                                    23
Modelado de Documentos y Sistemas de Información con XML


        XQuery es un lenguaje funcional, lo que significa que, en vez de ejecutar una lista de
comandos como un lenguaje procedimental clásico, cada consulta es una expresión que es evaluada y
devuelve un resultado, al igual que en SQL. Diversas expresiones pueden combinarse de una manera
muy flexible con otras expresiones para crear nuevas expresiones más complejas y de mayor potencia
semántica. XQuery está llamado a ser el futuro estándar de consultas sobre documentos XML
Actualmente, XQuery es un conjunto de borradores 7 en el que trabaja el grupo W3C. Sin embargo, a
pesar de no tener una redacción definitiva ya existen o están en proceso numerosas implementaciones
de motores y herramientas que lo soportan.

        Aunque XQuery y SQL puedan considerarse similares en casi la totalidad de sus aspectos, el
modelo de datos sobre el que se sustenta XQuery es muy distinto del modelo de datos relacional sobre
el que apoya SQL, ya que XML incluye conceptos como jerarquía y orden de los datos que no están
presentes en el modelo relacional. Por ejemplo, a diferencia de SQL, en XQuery el orden es que se
encuentren los datos es importante y determinante, ya que no es lo mismo buscar una etiqueta <B>
dentro de una etiqueta <A> que todas las etiquetas <B> del documento (que pueden estar anidadas
dentro de una etiqueta <A> o fuera).

        XQuery ha sido construido sobre la base de Xpath 8. Xpath es un lenguaje declarativo para la
localización de nodos y fragmentos de información en árboles XML. XQuery se basa en este lenguaje
para realizar la selección de información y la iteración a través del conjunto de datos.

        Una consulta en XQuery es una expresión que lee una secuencia de datos en XML y devuelve
como resultado otra secuencia de datos en XML. Un detalle importante es que, a diferencia de lo que
sucede en SQL, en XQuery las expresiones y los valores que devuelven son dependientes del contexto.
En XQuery, cuando usamos el térmico tupla, nos estamos refiriendo a cada uno de los valores que
toma una variable. A continuación se muestra un ejemplo de consulta con XQuery.



     for $b in doc("libros.xml")//libro
     let $c := $b//autor
     where count($c) > 2
     order by $b/titulo
     return $b/ titulo

    Figura 7. Ejemplo de consulta con XQuery: devuelve los títulos de los libros que tengan más de dos autores,
                                           ordenados por su título.



     <title>Data on the Web</title>

                                        Figura 8. Resultado de la consulta anterior.



7
     Documento principal del grupo de trabajo Xquery: http://www.w3.org/TR/xmlquery-req
8
     Documentación sobre Xpath: http://www.w3.org/TR/xpath20/
                                                                                                              24
Modelado de Documentos y Sistemas de Información con XML

        La propuesta de este trabajo se centra en la posibilidad de un único lenguaje de consulta para
ambas bases de datos, esto es, aprovechar la potencia de XQuery para consultar al mismo tiempo y de
forma transparente la base documental y la relacional. Como se comentó anteriormente, se busca
diseñar un sistema dotado de una integración total de la información contenida en el mismo, donde el
usuario realice consultas con independencia del formato de la información buscada. XQuery actuará
como lenguaje-interfaz para unificar todas las consultas a las bases de datos del sistema, recuperando
de forma transparente al usuario cualquier información en cualquier formato.

        La interfaz de usuario debe permitir buscar de la forma tradicional, por medio de los clásicos
operadores booleanos o por frase exacta, como en cualquier sistema de búsqueda de propósito general.
En un sistema como este, sería fundamental implementar una opción de incluir campos por los que
recuperar la información. Pero ese sólo sería el primer paso. Tras esta búsqueda inicial, los resultados
se mostrarán al usuario por medio de un ranking con enlaces a los documentos. A partir de la selección
de un documento resultado comenzará un proceso de browsing, desde los documentos seleccionados
hasta otros que tengan semántica similar, es decir, que traten temas similares. Esta navegación por la
red semántica se apoya en la existencia de un tesauro subyacente que al mismo tiempo tiene la función
más clásica de lenguaje del sistema.



3.3.4. Conectividad entre la base de datos documental y relacional

        De lo expuesto en el punto anterior, puede desprenderse que para lograr una total eficiencia en
la recuperación de información de forma integrada es preciso un alto grado de conectividad entre las
dos bases de información del sistema.

         Debe proporcionarse tanto un lenguaje que sirva de interfaz común a la recuperación de
información, como un medio de comunicación de registros entre ambas. Por supuesto, ha de tenerse en
cuenta las particularidades de ambas bases de datos, ya que proporcionan diferentes niveles de
flexibilidad a la hora de emplear lenguajes de programación sobre ellas.

        Por un lado, las bases de datos, ya sean comerciales o libres, suelen estar dotadas de conexión
a diversos lenguajes de programación y poseen herramientas de desarrollo de aplicaciones compatibles
con ellas. Sin embargo, el caso de las bases de datos documentales es diferente: aquí el margen de
maniobra es menor, no suele proporcionarse el código de la aplicación y disponen de conexiones muy
limitadas con lenguajes de programación.

        De nuevo, XML es la respuesta a las necesidades de intercambio de información entre
aplicaciones. XML funciona perfectamente como interfaz de exportación e intercambio de registros
entre las dos bases de datos, si bien normalmente se precisa de algún lenguaje de script que exporte
primero esa información a XML. En el caso de la base de datos relacional, PHP o Perl pueden ser una
buena solución como lenguaje de exportación a XML; en el caso de la base de datos documental
dependerá de la aplicación concreta (por ejemplo, en el caso de Lotus Domino, “Lotus Script”).

                                                                                                     25
Modelado de Documentos y Sistemas de Información con XML




                      Figura 9. Modelo de conectividad base de datos relacional / documental.




3.4. El subsistema de tesauro

        La definición más aceptada de tesauro es la de “un lenguaje documental de estructura
combinatoria, de carácter especializado, que se basa en expresiones conceptuales llamadas
descriptores, provistas de relaciones semánticas de tres tipos: equivalencia, asociación y jerarquía 9”.

        Los tesauros son realmente instrumentos de control terminológico en entornos de RI y, aunque
se pueden encontrar ciertas analogías con otros recursos como las ontologías, la estructura de los
tesauros suele ser más mucho más simple y menos definida, además de contar con una menor
diferenciación léxico-semántica.

         El tesauro servirá como base al lenguaje del sistema, siendo de utilidad tanto en el momento
de la selección de términos de indización como en el momento de la recuperación de información.

        Como se comentó anteriormente, la especificación XML elegida para trabajar con el tesauro
del sistema es SKOS-Core. Este lenguaje a día de hoy es la propuesta más concreta para la
representación de tesauros en el entorno de la web semántica.

        SKOS-Core permitirá diseñar la estructura del tesauro de forma eficiente y ofrece todas las
ventajas en gestión de la información que cualquier especificación XML. Este tesauro será la base de
9
    PÉREZ AGÜERA, JOSÉ RAMÓN (2004): “Automatización de tesauros y su utilización en la web semántica”, BiD: textos universitaris
    de biblioteconomía i documentació, 2004, 13.
                                                                                                                              26
Modelado de Documentos y Sistemas de Información con XML

toda las estructura de browsing del sistema de recuperación, guiando al usuario desde los documentos
obtenidos en respuesta a una consulta hasta otros semánticamente relacionados.

        Los documentos, además de estar fragmentados en componentes XML, han de ser indizados
de acuerdo a la terminología elegida para este tesauro. Los descriptores definientes de la semántica de
los documentos se convierten en nuestro sistema en enlaces a otros nuevos documentos, que quizá no
aparecieron en la consulta original, pero que tienen alguno de éstos términos en común.

       De este modo, el tesauro puede guiar la navegación del usuario, llevándole a encontrar
documentos que, o bien no supo encontrar en la formulación de la búsqueda inicial, o bien abren
nuevas vías o interrogantes a su investigación.

        Esta idea nos lleva de nuevo a la propuesta del hipertexto a dos niveles de Pastor y Saorín: la
abstracción de la semántica de los documentos en una red conceptual subyacente (en este caso el
tesauro), accesible a través de enlaces mediante una interfaz de browsing.




       Figura 10. Hipertexto a dos niveles: un mismo concepto puede aparecer en varios documentos.




3.5. El subsistema de publicación de contenidos y DSI

        La sindicación de contenidos se presenta como una forma de aunar lo mejor de las tecnologías
push y pull. Se trata de una enorme ganancia que combina la tecnología push (de empujar contenidos a
los portales) pero también la pull porque agrega información dispersa y la presenta de modo
consolidado en múltiples sitios. Todos estos aspectos tienen que ver con la denominada gestión de
contenidos, encargada de capturar información desde diferentes fuentes (en este caso las más

                                                                                                     27
Modelado de Documentos y Sistemas de Información con XML

importantes serán las bases de datos documentales y relacionales del sistema), analizándola,
categorizándola y finalmente entregándola a los usuarios de forma personalizada si se requiere así.

        Efectivamente, el sistema de sindicación de contenidos debe estar dotado de una metodología
de personalización de la información que publica, o de canales temáticos que reúnan a determinados
grupos de usuarios con intereses comunes. Llegados a este punto, debe destacarse también que, en un
sistema de sindicación de contenidos, la presentación de la información se encuentra separada de los
datos mismos, para esto se pueden emplear hojas de estilo, como XSL, que definan la forma en que se
muestra al usuario. La información publicada en este subsistema puede ser reutilizada posteriormente,
lo que añade al mismo un nuevo valor añadido.

        El lenguaje a emplear para la difusión de la información en este sistema de gestión de
contenidos es RDF. Ya que vamos a trabajar con datos heterogéneos procedentes en su mayor parte de
las bases de datos relacionales y documentales del sistema, RDF es la solución para describir estos
recursos.

        A partir del repositorio de información que constituyen las dos bases de información del
sistema, el Subsistema de Publicación de Contenidos va actualizándose periódicamente. La
información es servida en distintos niveles, desde la página principal del portal de la organización con
información general hasta el espacio propio de un usuario concreto. Aquí se hace patente el concepto
de Difusión Selectiva de la Información (DSI), ya que la sindicación de contenidos se adaptará a las
necesidades informativas concretas del usuario.

        El proceso de sindicación de contenidos tiene lugar tras la entrada y descripción de los
documentos nuevos en el sistema. Tras haberlos indizado y convertido a XML, el subsistema de
publicación de contenidos actuará como “filtro” a partir del contenido semántico de los mismos
(descriptores).

        La publicación en el portal corporativo se efectuará mediante RDF, pudiendo crear pequeños
resúmenes del sitio mediante RSS si es preciso. Aquí es donde entra en juego el método push, ya que
la información de interés se “empuja” hacia el espacio del usuario o hacia los canales temáticos. La
información servida se ordenará por ranking de importancia para el usuario, dejando en la parte
superior los nuevos documentos entrantes que coincidan más con el perfil de interés informativo.

        El correo electrónico es también interesante para efectuar avisos sobre la entrada de
información nueva de interés, implementado un mecanismo de envío automático de mensajes de alerta
a los usuarios.




                                                                                                     28
Modelado de Documentos y Sistemas de Información con XML




                      Figura 11. Proceso de subsistema de publicación de contenidos.




V. Conclusiones
        El presente trabajo ha mostrado que es posible el empleo de XML y lenguajes derivados en el
diseño de documentos y sistemas de información, y que esto trae consigo una serie de ventajas. La
potencia de este lenguaje para la descripción de los documentos y la facilidad que ofrece para el
intercambio de información, lo hace ideal para el diseño de sistemas de información.

         Se ha demostrado que, desde el momento de la entrada en el sistema, los documentos pueden
ser estructurados y gestionados de forma modular según sus partes constituyentes, facilitando de este
modo su almacenaje y una recuperación más inteligente. Este último aspecto, el de la recuperación, ha
sido cubierto con el empleo del lenguaje de consulta XQuery, aún en fase de desarrollo, aunque su
capacidad de consulta en bases de datos relacionales y documentales lo hacen sumamente interesante.

         De los diversos derivados de XML, se han analizado aquellos que podían ser aplicados al
diseño de los subsistemas de nuestro sistema de información. SKOS-Core se presenta como la mejor
opción para el diseño del Lenguaje del Sistema, el Tesauro, facilitando en gran medida su modelado y
la reutilización de sus contenidos. En referencia al Subsistema de Publicación de Contenidos, se ha
presentado RDF como la mejor propuesta para la sindicación de los objetos de información, de
acuerdo a los perfiles de interés de los usuarios.

        Con todo lo visto, cabe destacar que, el empleo de XML en sistemas de información aporta
importantes mejoras en el ámbito de la gestión de la información documental, su intercambio y
difusión.

        Sin embargo, las dificultades se centran en la multiplicidad de derivados de XML, las
diferentes versiones de los lenguajes (que pueden crear incompatibilidades) y la falta de desarrollo de
algunas de las propuestas. A pesar de ello, una vez salvados estos escollos, se facilitará enormemente
el diseño de sistemas de información totalmente integrados, donde los documentos,

                                                                                                    29
Modelado de Documentos y Sistemas de Información con XML

independientemente del formato, sean tratados como objetos de información.

        Estos objetos podrán ser tratados, recuperados y difundidos con independencia de su forma y
de manera transparente al usuario. Esta integración entre los diferentes subsistemas también ayudará a
eliminar las tareas duplicadas, permitiendo la reutilización de los objetos de información, y mejorará la
fluidez en el intercambio de los mismos.




VI. Bibliografía
ABAITUA, J.; BARRUTIETA, G.; DÍAZ, J.; JACOB, I.; QUINTANA, F., 2003, Contenidos y
metacontenidos en la edición digital. Letras de Deusto, núm. 100, vol. 33. Págs11-52. Bilbao.
Universidad de Deusto, 2003.

ANGOS ULLATE, J.M.; FERNANDEZ RUIZ, M.J.; SALVADOR OLIVÁN, J.A.; VILAS LARRÉ,
M. Necesidad de una metodología que optimice la gestión documental: estudio de un caso práctico.
Valencia, FESABID, 1998. 13 p. (VI Jornadas Españolas de Documentación).

MARTÍN GALÁN, B.; RODRÍGUEZ MATEOS, D. "Estructuración de la información mediante
XML: un nuevo reto para la gestión documental". En: Jornadas de Documentación (7ª. Bilbao. 2000).
Bilbao: Universidad del País Vasco; FESABID, 2000, pp. 113-123.

MÉNDEZ RODRÍGUEZ, E.M. Metadatos y Tesauros: aplicación de XML/RDF a los sistemas de
organización del conocimiento en Intranets. En: Jornadas Españolas de Documentación (7. 2000.
Bilbao) . La gestión del conocimiento: Retos y soluciones de los profesionales de la información.
[Bilbao]: Universidad del País Vasco, 2000, p. 211-219.

GOLDFARB, C.F. Manual de XML / Charles F. Goldfarb y Paul Prescod. -- Madrid, [etc.] : Prentice-
Hall, 1999.

HILERA GONZÁLEZ, J. R; MARTÍNEZ SÁNCHEZ, J. M. El papel de la documentación en la
gestión automatizada de flujos de trabajo. Revista General de Información y Documentación, 1998,
vol. 8, nº 2, p. 141-147.

NOGALES FLORES, J. T.; MARTÍN GALÁN, B.; ARELLANO PARDO, M.C. "Informática,
Derecho y Documentación. Experiencias y posibilidades de aplicación de los lenguajes de marcado de
texto (SGML, HTML y XML) a los documentos jurídicos". En: Encuentro sobre Informática y
Derecho. (16º. Madrid. 2002). Madrid: Instituto de Informática Jurídica, Universidad Pontificia de
Comillas, 2003.


                                                                                                      30
Modelado de Documentos y Sistemas de Información con XML

MARTÍNEZ SÁNCHEZ, J. M.; HILERA GONZÁLEZ, J. R. Los sistemas de gestión documental en
el ámbito del trabajo corporativo. Revista General De Información y Documentación. 1997;7:237-255.

MARTÍNEZ SÁNCHEZ, J. M.; HILERA GONZÁLEZ, J. R.; MARTÍNEZ, J. Y GUTIÉRREZ, J. A.
(1996): "Orientación a Objetos en la Documentación Hipermedia". Actas de las II Jornadas sobre
Tecnologías de Objetos. Madrid, Asociación de Técnicos de Informática, SIMO TCI, 1996, 49-54.

MORRISON, M. XML al descubierto : la solución más completa / Michael Morrison...[et al.]. --
Madrid, [etc.] : Prentice-Hall, 2000.

PASTOR SÁNCHEZ, J.A.; SAORÍN PÉREZ, T. “El hipertexto documental como solución a la crisis
conceptual del hipertexto: El reto de los documentos cooperativos en redes”. En: Cuadernos de
Documentación Multimedia, nº 4, 1995.

PASTOR SÁNCHEZ, J. A.; SAORÍN PÉREZ, T. “La escritura hipermedia”. Cuadernos de
Documentación Hipermedia , 1997-8, nº 6-7, p. 221-238.

PÉREZ AGÜERA, J.R. (2004): “Automatización de tesauros y su utilización en la web semántica”,
BiD: textos universitaris de biblioteconomía i documentació, 2004, 13.

SENSO, J. A.; ROSA, A. DE LA. Especificaciones XML aplicadas a la documentación. En:
FUENTES I PUJOL, María Eulàlia (dir.). Bibliodoc 1999. Anuario de biblioteconomía,
documentación e información. Barcelona: Col•legi oficial de bibliotecaris-documentalistes de
Catalunya, 1999.

SIMINIANI, M. Intranets, empresa y gestión documental : cómo enfocar en la práctica la tecnología
desde la necesidad de eficiencia en todo tipo de empresas / Mariano Siminiani. -- Madrid [etc.] :
McGraw-Hill, D.L. 1997.




                                                                                               31

Contenu connexe

Similaire à Modelado de Documentos y Sistemas de Información con XML

Cuaderno practico aplicacionesinformaticas
Cuaderno practico aplicacionesinformaticasCuaderno practico aplicacionesinformaticas
Cuaderno practico aplicacionesinformaticasNewstartlife
 
CuadernoPractico_AplicacionesInformaticas.pdf
CuadernoPractico_AplicacionesInformaticas.pdfCuadernoPractico_AplicacionesInformaticas.pdf
CuadernoPractico_AplicacionesInformaticas.pdfvanessaguadalinfo
 
Tema 2. bases de datos orientadas a objetos
Tema 2. bases de datos orientadas a objetosTema 2. bases de datos orientadas a objetos
Tema 2. bases de datos orientadas a objetosSara Naminao Cayuqueo
 
Trabajo de tecnologas compeltt pdf..
Trabajo de tecnologas compeltt pdf..Trabajo de tecnologas compeltt pdf..
Trabajo de tecnologas compeltt pdf..laloroxy
 
Directrices lucis-bd-2
Directrices lucis-bd-2Directrices lucis-bd-2
Directrices lucis-bd-2puracastillo
 
sql server
sql serversql server
sql serverPcentro
 
Que es un sistema operativo
Que es un sistema operativoQue es un sistema operativo
Que es un sistema operativocarolcarreon
 
Proyecyo final de analisis estructurado
Proyecyo final de analisis estructuradoProyecyo final de analisis estructurado
Proyecyo final de analisis estructuradoJuan Jose Flores
 
Guia programacion ii segundo semestre 2011 unipamplona
Guia programacion ii segundo semestre 2011 unipamplonaGuia programacion ii segundo semestre 2011 unipamplona
Guia programacion ii segundo semestre 2011 unipamplonaCarlos Andrés
 
Sistemas de Gestión Documental y Sistemas de Acceso Archivístico: ¿fricción o...
Sistemas de Gestión Documental y Sistemas de Acceso Archivístico: ¿fricción o...Sistemas de Gestión Documental y Sistemas de Acceso Archivístico: ¿fricción o...
Sistemas de Gestión Documental y Sistemas de Acceso Archivístico: ¿fricción o...Julián Moyano Collado
 
Tics de gestión documental
Tics de gestión documentalTics de gestión documental
Tics de gestión documentaledgartc
 
Tics de gestión documental
Tics de gestión documentalTics de gestión documental
Tics de gestión documentaledgartc
 

Similaire à Modelado de Documentos y Sistemas de Información con XML (20)

Cuaderno practico aplicacionesinformaticas
Cuaderno practico aplicacionesinformaticasCuaderno practico aplicacionesinformaticas
Cuaderno practico aplicacionesinformaticas
 
CuadernoPractico_AplicacionesInformaticas.pdf
CuadernoPractico_AplicacionesInformaticas.pdfCuadernoPractico_AplicacionesInformaticas.pdf
CuadernoPractico_AplicacionesInformaticas.pdf
 
Tema 2. bases de datos orientadas a objetos
Tema 2. bases de datos orientadas a objetosTema 2. bases de datos orientadas a objetos
Tema 2. bases de datos orientadas a objetos
 
tesisJavierSolis (1).pdf
tesisJavierSolis (1).pdftesisJavierSolis (1).pdf
tesisJavierSolis (1).pdf
 
Basededatos.pdf
Basededatos.pdfBasededatos.pdf
Basededatos.pdf
 
Trabajo de tecnologas compeltt pdf..
Trabajo de tecnologas compeltt pdf..Trabajo de tecnologas compeltt pdf..
Trabajo de tecnologas compeltt pdf..
 
Directrices lucis-bd-2
Directrices lucis-bd-2Directrices lucis-bd-2
Directrices lucis-bd-2
 
sql server
sql serversql server
sql server
 
Informa1
Informa1Informa1
Informa1
 
Informa1
Informa1Informa1
Informa1
 
Que es un sistema operativo
Que es un sistema operativoQue es un sistema operativo
Que es un sistema operativo
 
Proyecyo final de analisis estructurado
Proyecyo final de analisis estructuradoProyecyo final de analisis estructurado
Proyecyo final de analisis estructurado
 
Base de Datos - Daniela Monsalve
Base de Datos - Daniela MonsalveBase de Datos - Daniela Monsalve
Base de Datos - Daniela Monsalve
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Guia programacion ii segundo semestre 2011 unipamplona
Guia programacion ii segundo semestre 2011 unipamplonaGuia programacion ii segundo semestre 2011 unipamplona
Guia programacion ii segundo semestre 2011 unipamplona
 
Sistemas de Gestión Documental y Sistemas de Acceso Archivístico: ¿fricción o...
Sistemas de Gestión Documental y Sistemas de Acceso Archivístico: ¿fricción o...Sistemas de Gestión Documental y Sistemas de Acceso Archivístico: ¿fricción o...
Sistemas de Gestión Documental y Sistemas de Acceso Archivístico: ¿fricción o...
 
Sistemas operativos 1
Sistemas operativos 1Sistemas operativos 1
Sistemas operativos 1
 
Universidad nacional del callao dsi
Universidad nacional del callao dsiUniversidad nacional del callao dsi
Universidad nacional del callao dsi
 
Tics de gestión documental
Tics de gestión documentalTics de gestión documental
Tics de gestión documental
 
Tics de gestión documental
Tics de gestión documentalTics de gestión documental
Tics de gestión documental
 

Dernier

guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfJulian Lamprea
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 

Dernier (13)

guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 

Modelado de Documentos y Sistemas de Información con XML

  • 1. Modelado de Documentos y Sistemas de Información con XML Modelado de Documentos y Sistemas de Información con XML Proyecto Fin de Carrera de la Licenciatura de Documentación del alumno: José Manuel Sánchez Navarro Dirigido por el profesor: Juan Antonio Pastor Sánchez 1
  • 2. Modelado de Documentos y Sistemas de Información con XML Contenido I. INTRODUCCIÓN………………………………………………………………... 3 II. OBJETIVOS……………………………………………………………………... 4 III. METODOLOGÍA………………………………………………………………. 4 IV. RESULTADOS………………………………………………………………… 5 1. Los Sistemas de Información Documental………………………………. 5 1.1. Los subsistemas de un Sistema Integral de Gestión de la Información…………………………………………………………. 7 1.1.1. La base de datos documental…………………………. 7 1.1.2. El correo electrónico………………………………….. 9 1.1.3. El subsistema de base de datos relacional……………. 9 1.1.4. El subsistema de thesaurus…………………………… 10 1.1.5. El subsistema de imágenes y OCR…………………… 11 1.1.6. El subsistema de Workflow…………………………... 12 1.1.7. El subsistema de Groupware…………………………. 12 1.1.8. El subsistema de DSI…………………………………. 13 2. El lenguaje XML y sus especificaciones…………………………………. 14 2.1. Orígenes del lenguaje XML……………………………………. 14 2.2. Características del lenguaje XML……………………………… 15 2.3. Algunas especificaciones derivadas de XML: RDF, OWL y SKOS- CORE………………………………………………………... 16 2.3.1. RDF…………………………………………………… 17 2.3.2. OWL………………………………………………….. 18 2.3.3. SKOS-CORE…………………………………………. 19 3. Aplicación del XML en un Sistema de Información……………………... 20 3.1. Ventajas de la utilización de XML en un Sistema Integral de Gestión de Información……………………………………………... 20 3.2. Infraestructura…………………………………………………... 21 3.3. Los subsistemas de base de datos documental y relacional……. 21 3.3.1. La entrada o carga de documentos……………………. 22 3.3.2. El almacenamiento……………………………………. 23 3.3.3. La recuperación de información……………………… 24 3.3.4. Conectividad entre la base de datos documental y relacional…………………………………………………….. 26 3.4. El subsistema de tesauro………………………………………... 27 3.5. El subsistema de publicación de contenidos y DSI…………….. 28 V. CONCLUSIONES………………………………………………………………. 30 VI. BIBLIOGRAFÍA……………………………………………………………….. 31 2
  • 3. Modelado de Documentos y Sistemas de Información con XML I. INTRODUCCIÓN El Proyecto fin de Carrera (PFC) es una asignatura obligatoria incluida dentro del plan de estudios vigente en la titulación “Licenciado en Documentación” de nuestra Universidad. Se entiende como el resultado final de un proyecto o trabajo personal del alumno, donde manifieste los conocimientos y aptitudes adquiridos a los largo de la titulación de Licenciado en Documentación. Para el presente PFC se ha escogido el tema "Modelado de documentos y sistemas de información con XML". La aplicación de las tecnologías de la información originadas en Internet está cambiando de forma cualitativa y cuantitativa las dinámicas de gestión de información y documentación en las organizaciones. En una primera fase de desarrollo tecnológico han proliferado las actuaciones para la creación y mantenimiento de sistemas de información mediante Intranets y la elaboración de productos y servicios de información para Web. En la actualidad se han identificado una serie de problemáticas en este tipo de desarrollos. Estas problemáticas tienen su origen en las carencias del uso de la Web para el análisis y gestión del contenido informativo de los documentos HTML. Hay que recordar que la Web se ideó como un medio para la comunicación de información y no para su gestión. Sin embargo, hoy día existen soluciones basadas en XML que permiten aportar un mayor contenido semántico a la descripción de los documentos electrónicos. Por lo tanto se abren nuevas posibilidades de gestión y reutilización de los contenidos informativos de los documentos digitales. La tecnología XML supone un punto de partida para el desarrollo de sistemas de información y el modelado de documentos que doten de mayor relevancia al contenidos y la estructura de los documentos y no a su forma y presentación. Esta nueva orientación tiene su origen en la idea de Web Semántica. La Web Semántica es una Web extendida, dotada de mayor significado en la que cualquier usuario en Internet podrá encontrar respuestas a sus preguntas de forma más rápida y sencilla gracias a una información mejor definida. Al dotar a la Web de más significado y, por lo tanto, de más semántica, se pueden obtener soluciones a problemas habituales en la búsqueda de información gracias a la utilización de una infraestructura común, mediante la cual es posible compartir, procesar y transferir información de forma sencilla. Esta Web extendida y basada en el significado, se apoya en lenguajes universales que resuelven los problemas ocasionados por una Web carente de semántica en la que, en ocasiones, el acceso a la información se convierte en una tarea difícil y frustrante. A partir de XML se han desarrollado múltiples especificaciones que permiten desarrollar la idea de Web Semántica, tales como RDF, OWL o SKOS-CORE. 3
  • 4. Modelado de Documentos y Sistemas de Información con XML II. OBJETIVOS Los objetivos del presente PFC son los siguientes:  Estudiar las funcionalidades de un Sistema de Información Documental.  Identificar los principales subsistemas que componen un Sistema de Información Documental.  Elaborar una visión integral de un Sistema de Información Documental mediante una adecuada estructuración de los diferentes subsistemas.  Identificar las especificaciones XML más adecuadas para su aplicación en los distintos subsistemas del Sistema de Información Documental atendiendo a las funcionalidades de los mismos.  Detallar la forma en la que se pueden aplicar las especificaciones XML identificadas dentro de un Sistema de Información Documental. III. METODOLOGÍA La metodología seguida en este PFC se basa en un análisis de los diferentes subsistemas que componen un Sistema de Información Documental dentro del ámbito de las Tecnologías de la Información. No solamente se han identificado dichos subsistemas, sino que además se han estudiado las diferentes relaciones que existen entre los mismos. Posteriormente se ha realizado un estudio de las especificaciones XML que se han considerado más adecuadas para su aplicación en los diferentes subsistemas. En este estudio las especificaciones XML seleccionadas han sido: RDF, OWL Y SKOS-CORE. El motivo de escoger estas especificaciones se debe a que cubren, junto con el uso general de XML para la descripción de documentos, los principales procesos que realiza un Sistema de Información Documental. Finalmente se ha procedido a un trabajo de síntesis en donde se ha realizado una propuesta de aplicación de las especificaciones XML estudiadas en un Sistema de Información Documental. Se ha tenido en cuenta que dichas especificaciones pueden utilizarse tanto dentro de cada uno de los subsistema analizados como en las relaciones que pueden establecerse entre los mismos. 4
  • 5. Modelado de Documentos y Sistemas de Información con XML IV. RESULTADOS A continuación se detallan los resultados obtenidos tras la aplicación de la metodología que se ha detallado en el anterior apartado. 1. Los Sistemas de Información Documental En los últimos años, las organizaciones han venido incorporando las Tecnologías de la Información y la Comunicación (TIC's) a sus procesos de producción y de gestión, modificándose así la forma de trabajar dentro de las mismas. La información, tanto interna como externa, se ha convertido en un elemento de vital importancia para las organizaciones, desde el punto de vista estratégico y para mejorar su competitividad. Más aún, se ha pasado a un modelo basado en la gestión adecuada de los llamados “activos intangibles” y el “capital intelectual”, llegando así a lo que se conoce como “Gestión del Conocimiento” (Knowledge Management). De este modo, además de la clásica gestión de los documentos en la organización, se ha pasado a la implementación de herramientas que mejoran la gestión y generación de conocimiento nuevo, como los sistemas de Workflow o Data Warehouse. Desde una primera etapa donde se definían simplemente como sistemas de gestión de la documentación, se ha llegado a una concepción global y corporativa de la gestión de la información. Estos sistemas deben llegar, como señala M.A. Esteban Navarro a “administrar y controlar de modo conjunto, mediante el auxilio de la informática, todo tipo de datos, documentos, conocimiento y habilidades existentes en la organización en la que se aplica 1”. Los objetivos de estos sistemas deben adecuarse a los de la organización donde se encuentran, aunque hay una serie de elementos básicos que serían aplicables a todos los entornos. Por lo tanto, lo que pretende un Sistema Integral de Gestión de la Información es:  Facilitar a las personas que trabajan en la organización el trabajo con los documentos. Los documentos deben poder encontrarse rápidamente y sus usuarios deben saber cuáles hay que guardar, dónde y cómo. Deben poder gestionar los diferentes formatos de documento con los que la organización trabaje. Tienen que cubrir todo el ciclo vital de los documentos.  Permitir que la información se comparta y se aproveche como un recurso colectivo.  Conservar la memoria de la organización más allá de los individuos que trabajan en ella y poder aprovechar el valor de los contenidos en los que queda plasmada la experiencia, evitando empezar de cero sobre aspectos en los que ya hay experiencia acumulada. 1 ESTEBAN NAVARRO, Miguel Ángel. La técnica de gestión integral de la información: nuevas tendencias de representación y la organización del conocimiento en los sistemas de información en las organizaciones. Organización del Conocimiento en Sistemas de Información y Documentación, v. 2, 1997, pp. 285-209. 5
  • 6. Modelado de Documentos y Sistemas de Información con XML  Evolucionar al mismo tiempo que la organización, con un carácter abierto y dinámico. Estos objetivos establecen el marco de los distintos subsistemas que deberán integrarse. Cada herramienta responderá a una necesidad en la gestión de la información, aunque el Sistema Integral de Gestión de la Información se verá determinado por el funcionamiento de todas en su conjunto. Veamos los diferentes subsistemas que puede implementar un Sistema Integral de Gestión de la Información:  Todos los procesos relacionados con la elaboración, archivo, importación, recuperación, agrupación, lectura y referenciación de documentos de texto se llevarán a cabo mediante la incorporación de un subsistema de Base de datos documental, que integre un sistema de gestión del Correo Electrónico y otras herramientas de Ofimática e Internet.  La recuperación de documentos puede hacer necesaria la implementación de un subsistema de Thesaurus. Según el caso, este subsistema puede indexar y referenciar documentos externos (CD-ROM, Internet, etc.)  Para la gestión de documentos en formato de imagen (escaneados) será necesario un subsistema de Imágenes, enlazado normalmente con un subsistema de Base de datos Relacional, aunque estas imágenes también se podrán enlazar con el subsistema de Base de Datos Documental. (Sin embargo, es importante destacar aquí que, en la actualidad, el origen de los documentos manejados por las organizaciones es, en gran medida, digital.)  El paso de imágenes de texto a documentos textuales, mediante el escáner para obtener datos de imágenes, se realizará mediante un subsistema de Reconocimiento Óptico de Caracteres (OCR).  También es posible que sea preciso enviar periódicamente a determinados usuarios una serie de documentos que se correspondan con su perfil de interés, a medida que éstos vayan llegando al sistema, para ello podría implementarse un subsistema de Difusión Selectiva de la Información (DSI).  Los flujos de información (documentos) y los procesos en el seno de la organización deben ser racionales, estar coordinados y deben poder monitorizarse. Para lograr este objetivo se puede implantar una solución de Workflow en la organización.  El trabajo colaborativo entre las personas que trabajan en la organización se puede gestionar mediante herramientas de tipo Groupware, como pueden ser los Entornos colaborativos. 6
  • 7. Modelado de Documentos y Sistemas de Información con XML 1.1. Los subsistemas de un Sistema Integral de Gestión de la Información 1.1.1. La base de datos documental Cuando se trata de un sistema que gestiona grandes cantidades de documentos en formato texto, hipertexto o hipermedia, es preciso integrar un Sistema de Gestión Documental. Estos sistemas deben soportar la importación, archivo, control de versiones, replicación, clasificación, indexación, búsqueda, visualización, edición, distribución y administración de los documentos. A) La importación de los documentos La base de datos documental debe permitir tanto importaciones masivas de documentos (carga inicial, migración desde otro sistema, etc.) como las propias de las gestiones diarias del sistema. Las fuentes desde las que se cargarán estos documentos pueden ser muy variadas: entradas de fax, correo electrónico, correspondencia ordinaria, documentos internos, publicaciones interesantes para la organización, discos ópticos, Internet... Los documentos que llegan al sistema en formato papel serán escaneados para de este modo obtener su imagen, que podrá ser enlazada a un documento “principal” de texto o bien pasada por un OCR para cargar la información obtenida como un documento de texto. B) La creación de documentos El subsistema de base de datos documental debe proveer herramientas que ayuden a la creación de documentos, ya sea creándolos desde cero mediante la integración con herramientas ofimáticas para tal fin, editando los ya existentes o enlazando otros objetos a los mismos, entre otras posibilidades. C) La búsqueda de documentos en la base de datos El subsistema debe permitir buscar por varios procedimientos: 1. Por texto completo (full text): combinaciones de palabras expresadas mediante operadores booleanos, búsquedas por proximidad, frase completa, etc. 2. Por hiperenlaces: se refiere a poder saltar de un documento a otro de la base de datos por medio de enlaces predefinidos e indicados en los mismos. Se trataría de una búsqueda “manual”, ya que es el propio usuario quien “navega” (browsing) por el contenido de los documentos y a través de las conexiones semánticas que ofrecen los enlaces. Estos hiperenlaces los podrá definir el usuario explícitamente en el momento de la referenciación o el propio sistema implícitamente. Para esto último el sistema deberá aplicar un criterio homogéneo para la asignación de conceptos a los diferentes documentos. 3. Por descriptores de documentos: son palabras o grupos de palabras que representan el contenido de un documento. Estos términos se extraen de lenguajes documentales, tales 7
  • 8. Modelado de Documentos y Sistemas de Información con XML como listas de autoridades, encabezamientos de materias, o tesauros, permitiendo la recuperación de documentos a partir de palabras que no están presentes en el documento original. Se pueden combinar mediante operadores booleanos. 4. Por categorías: los documentos se clasifican por los campos que contienen, y en función de éstos se ordenan de forma jerárquica (arborescente). 5. Debería ser posible buscar también por medio del Thesaurus del sistema, ya sea mediante los términos elegidos o mediante sinónimos u otros relacionados en la estructura del mismo. D) La “referenciación” de documentos Un aspecto importante es el de la definición de los campos de los documentos que van a ser referenciados y de las diferentes agrupaciones de documentos que se van a constituir. Esta actividad debe facilitar posteriormente las búsquedas que se realicen en la base de datos. De este modo, el subsistema debe permitir definir campos dentro de los documentos, listas de descriptores o bien enlaces a otros documentos, referenciándolos siempre con un criterio común y evitando la repetición de esfuerzos. Aquí es importante destacar el concepto de hipertexto, fundamental en los sistemas de información modernos, o de hipermedia, en el caso de que los documentos contengan imágenes, vídeo, sonido u otros objetos diferentes del texto. El sistema de gestión integral de la información debe permitir “navegar” por los documentos que contiene (browsing). Los conceptos contenidos en el documento se constituyen en enlaces a los que el usuario puede acceder en sus búsquedas y que le llevarán a otros documentos relacionados a nivel de contenido. Esto nos acerca también a la idea de hipertexto a dos niveles2: los documentos se representan desde el punto de vista de su contenido y al mismo tiempo éste se abstrae en una red conceptual. De ahí los dos niveles, por un lado la red semántica estructurada en descriptores que definen el contenido de los documentos y, por otro, los subconjuntos de éstos últimos que tienen en común esos descriptores. Así, el usuario puede realizar browsing en un documento cualquiera de la base de datos documental haciendo clic en los enlaces definidos en el mismo y que son representativos del contenido del mismo. Esto le llevará a otros documentos que también contienen ese descriptor, por lo que están semánticamente relacionados. 1.1.2. El correo electrónico El subsistema de correo electrónico es un vehículo de comunicación de decisiones de trabajo, negociaciones con clientes o encargos de trabajo, cuya implantación ha tenido un éxito sin precedentes en el seno de las organizaciones. El subsistema debe permitir que la información intercambiada mediante correo electrónico o mensajería interna no se pierda y sea accesible para el conjunto de la organización. 2 PASTOR, J. A. y SAORÍN, T., “La escritura hipermedia” [en línea]. En: Cuadernos de Documentación Multimedia, números 6-7, 1997- 98, pp. 221-238. Puede consultarse en red en: <http://www.ucm.es/info/multidoc/multidoc/revista/cuad6-7/saorin.htm> [Consulta: 24 mayo 2005] 8
  • 9. Modelado de Documentos y Sistemas de Información con XML Entendiendo la globalidad y el carácter corporativo de los Sistemas Integrales de Gestión de la Información, es preciso que el subsistema de correo electrónico esté integrado con el de gestión documental. Debería permitir añadir a los mensajes información obtenida del sistema de gestión documental o consultar el mismo sin necesidad de abandonar el correo. Es más, el subsistema de gestión documental debería ser capaz de comunicarse con los usuarios del sistema por medio del correo electrónico, difundiendo la información del mismo a aquellos que puedan necesitarla o bien enviando alertas para informar de la presencia de un documento nuevo de interés. 1.1.3. El subsistema de base de datos relacional Hemos de tener en cuenta que una base de datos relacional es un subsistema de propósito general, y que proporciona soporte a otros subsistemas para el manejo de datos, aportando las funcionalidades necesarias para manejarlos, preservarlos y recuperarlos. Éste subsistema funciona como un servidor, proporcionando los datos a los usuarios que se conectan a él. Existen numerosas soluciones de base de datos, tanto libres (MySql, PostgreSQL, etc.) como comerciales (Oracle, SQL Server, etc.). El subsistema de base de datos relacional sirve de soporte a la referenciación que antes se mencionaba, concretamente en el caso del subsistema de imágenes y en el caso de trabajar con documentos en formato de audio o vídeo. La base de datos contendrá el código que haga referencia a la imagen en cuestión y el resto de datos que sirvan para referenciarla unívocamente y poder así localizarla cuando sea preciso. Es preciso apuntar aquí que la base de datos relacional no funciona de forma “aislada” a la base documental, sino que puede contener registros haciendo referencia a determinados documentos, ya sean texto plano, hipertexto o hipermedia. Junto a esta funcionalidad, la base de datos relacional podrá contener datos vitales para el sistema: inventarios, usuarios y roles, control de accesos, información de configuración, etc. Estos datos se distribuirían entre diversos servidores. Cabe destacar aquí un tipo especial de base de datos orientada a la toma de decisiones en la organización. Se trata de los Data Warehouse. Si bien tienen similitudes con las relacionales, éstas se pueden considerar más bien bases de datos multidimensionales, ya que su estructura depende de una serie de dimensiones predefinidas en la BD (geografía, tiempo, productos, etc.). Se nutre de los datos extraídos y filtrados de otros subsistemas, transformándolos, integrándolos, sumariándolos y almacenándolos en un repositorio, de manera que se pueda acceder a ellos cuando sea preciso. La información de interés se distribuye por medio de diversas herramientas de consulta y de creación de informes, orientadas a la toma de decisiones. Permite también el empleo 9
  • 10. Modelado de Documentos y Sistemas de Información con XML de técnicas avanzadas de extracción de información como el Data Mining.3 1.1.4. El subsistema de thesaurus Este subsistema puede encontrarse integrado en la base de datos documental o bien funcionar como una aplicación aparte. El thesaurus dota al sistema de funciones que mejoran sustancialmente las búsquedas. En la actualidad destacan por sus potencialidades hipertextuales: las relaciones entre términos se representan con enlaces. El tesauro sirve como base a la navegación hipertextual de la base documental, ya que especifica las relaciones entre los términos representativos del contenido de los documentos. El hipertexto a dos niveles, del que se hablaba anteriormente, depende de la existencia de una red conceptual subyacente, en este caso el tesauro cumple esa función. Esto finalmente conseguirá que el lenguaje del sistema (thesaurus) haga de “guía” del usuario en las búsquedas por navegación en los documentos (browsing), ofreciéndole documentos relacionados con la materia que buscaba, pero que en un principio no se hallaban en su formulación de búsqueda. Además de buscar por palabras concretas contenidas en los textos mediante los clásicos operadores booleanos, el subsistema de thesaurus encuentra sinónimos o términos relacionados, aumentando así en gran medida el número de documentos encontrados. La combinación de estas funcionalidades puede servir para elaborar perfiles de búsqueda, bastante más avanzados que las búsquedas normales, y que pueden ser almacenados y llamados en cualquier momento. A la hora de determinar qué descriptores van a caracterizar un determinado documento, el thesaurus también representa una ventaja, ya que puede sustituir a la determinación de descriptores clásica. El thesaurus debería integrarse en el sistema de forma transparente al usuario, teniendo acceso a los documentos de la base de datos documental, relacional y el correo electrónico. 1.1.5. El subsistema de imágenes y el OCR Responde a la necesidad de tratar los documentos que no están sobre soporte de fichero informático de texto, ni de audio o vídeo, esto es, documentos en formato papel, transparencias, fotografías, diapositivas, planos, faxes, imágenes de objetos tridimensionales, etc. El objetivo de este subsistema es capturar, editar, visualizar e imprimir estas imágenes y permitir que puedan ser almacenadas y gestionadas en red. Como es obvio, se encontrará integrado con un subsistema de base de datos documental o relacional. La incorporación de imágenes al sistema puede realizarse a través de una carga masiva inicial, una migración desde otro sistema o bien con las entradas de documentos diarias. A partir de los documentos físicos en diversos soportes, se crean unos ficheros de imágenes. Para ello se emplea generalmente el escáner, que dispone de una aplicación informática ligada, a su vez subordinada a la aplicación principal de imágenes del sistema. Estas imágenes posteriormente deben poder ser buscadas, visualizadas en pantalla o bien imprimidas. Se suele distinguir entre “digitalización gráfica” 3 J.M. Franco, EDS-Institut Prometheus, "El Data Warehouse. El Data Mining", Ediciones Gestión 2000, 1997. 10
  • 11. Modelado de Documentos y Sistemas de Información con XML y “digitalización del texto”, según sea el propósito final de dicha digitalización del documento. El sistema de Reconocimiento Óptico de Caracteres (OCR) permite reconocer texto y datos que se encuentran en los ficheros informáticos de imágenes. Pueden leer tanto el texto completo contenido en un fichero de imagen como determinadas zonas del mismo. La primera funcionalidad tiene por objetivo el volcado del texto en documentos que pasarán a formar parte de la base de datos documental. La segunda, enviar los datos extraídos a la base de datos relacional, siendo lo más común en el caso de digitalizar lotes de formularios o documentos con un formato fijo. Este subsistema acostumbra a integrarse con el de gestión documental. Sin embargo, volvemos a reiterar aquí que el uso de herramientas ofimáticas está desplazando a la tradicional gestión de documentos en papel. Los documentos se generan en formato digital y el sistema de gestión integral de la información trabaja con ellos directamente. Aspectos como la compatibilidad y el uso de estándares son importantes aquí, ya que el intercambio de documentos con las aplicaciones que los generan debe poder hacerse sin conversiones previas. 1.1.6. El subsistema de Workflow En estrecha relación con las aplicaciones de trabajo en grupo (groupware), propone el establecimiento de una serie de reglas y pautas en las que se especifican las tareas y pasos que se han de seguir para la consecución de un proceso de negocio. En estos procesos se suele generar información abundante, ahí es donde entra en juego el sistema de gestión integral de la información, para capturar ese conocimiento, almacenarlo y procesarlo para generar conocimiento nuevo. Decimos que pertenece a la aplicaciones de groupware, porque va destinado a facilitar el trabajo en grupo, dándole una estructura racional. El workflow, al mismo tiempo, permite coordinar y automatizar los procesos de negocio, balanceando cargas de trabajo, gestionando los plazos de entrega o bien pasando tareas de un empleado a otro según sea conveniente. No sólo eso, el workflow también está dotado de un sistema de monitorización de las tareas realizadas y del estado de los procesos, lo que permitirá futuras modificaciones e incluso el completo rediseño del proceso de negocio para adaptarlo a las necesidades del mercado. 1.1.7. El subsistema de Groupware Básicamente se puede definir al groupware como el software que permite trabajar de forma cooperativa a un equipo u organización a través del correo electrónico, bases de datos compartidas, gestión de flujos de trabajo, etc. Por lo tanto, se define como «herramientas con las que las personas puedan trabajar juntas en un marco colectivo de comunicación, colaboración y coordinación»4. Si la comunicación entre los miembros del equipo es en tiempo real, pueden emplearse medios que faciliten la votación o la generación de nuevas ideas, siempre y cuando puedan reunirse en el mismo lugar; de no ser así, se puede recurrir al teléfono, la videoconferencia o la mensajería instantánea. De tratarse de 4 SAGREDO, ÁNGEL (1996): «El trabajo en grupo en la Internet», Actas del I Congreso Nacional de Usuarios de Internet. Madrid, Asociación de Usuarios de Internet, 1996, 213-239. 11
  • 12. Modelado de Documentos y Sistemas de Información con XML una comunicación asíncrona, entrará en juego el correo electrónico, fax, buzón de voz, los grupos de discusión o los entornos colaborativos. La variedad de aplicaciones de tipo groupware es enorme, sin embargo puede establecerse una taxonomía de las mismas:  Herramientas de comunicaciones: incluyen la mensajería, el correo electrónico, el fax, la telefonía, los foros de discusión, etc.  Herramientas de coordinación: facilita que los componentes de un grupo de trabajo se pongan de acuerdo y trabajen en una misma dirección. Pueden incluirse aquí las Agendas de grupo o las de Seguimiento de una actividad. Si el tiempo es vital para la tarea, aquí entran en juego los Organizadores personales, las Agendas de red o incluso los Sistemas de gestión de proyectos.  Herramientas de workflow: ya mencionadas anteriormente, tratan de conseguir la coordinación de usuarios, tareas e información para el logro de la meta de la organización. Entre otros ejemplos aquí cabe citar: Automatización y control de procesos, Rutas dinámicas de documentos, firmas digitales, etc.  Repositorios de información: permiten la distribución de información de y para los usuarios. Los usuarios pueden publicarla o recibirla, esto siempre mediante la acción directa del mismo. Ejemplos: bases de datos de documentos, control de versiones, servidores web en Internet, etc.  Entornos colaborativos: permiten que personas que se encuentran ubicadas en diferentes localizaciones puedan trabajar juntas en tiempo real. Estos entornos permite trabajar a un grupo de personas sobre los mismos documentos al mismo tiempo, y pueden integrar herramientas como el control de versiones, agendas de red, videoconferencia, pizarras colaborativas, compartición de pantalla, etc. 1.1.8. El subsistema de DSI La Difusión Selectiva de la Información consiste en un tratamiento y explotación periódica de las informaciones documentales más recientes, memorizadas y difundidas periódicamente en respuesta a los perfiles documentales definidos por los usuarios. Estos perfiles se construyen en base a los términos o palabras clave que constituyen la “necesidad documental” del usuario. Una vez definido el perfil, el usuario recibe periódicamente la información ajustada a su demanda. Los sistemas actuales, disponen de dos opciones relativas a los sistemas DSI:  El cliente consulta directamente información de algún tema concreto en base a un listado. Es el método tipo “PULL”, ya que es el usuario el que decide acceder a los contenidos cuando él lo desea.  El cliente se suscribe a los perfiles de información que le interesan y recibe periódicamente en 12
  • 13. Modelado de Documentos y Sistemas de Información con XML su correo electrónico boletines con las novedades de la base de datos documental. Es el método tipo “PUSH”, ya que el usuario recibe periódicamente la información de forma continuada. En todo caso, el sistema debe permitir que el usuario sugiera nuevos perfiles de DSI en función de sus intereses cambiantes. Figura 1. Esquema funcional del sistema integral de gestión de la información. 2. El lenguaje XML y sus especificaciones 2.1. Orígenes del lenguaje XML Como se verá posteriormente, XML trata el contenido de un documento digital como una estructura arbórea de elementos. Este enfoque tiene su origen en las técnicas empleadas por los primeros procesadores de texto. En los años 60 se escribía en primer lugar el texto digital y luego se aplicaba el formato deseado. Por lo general este texto terminaba siendo impreso y se asociaba la descripción referente a la presentación del documento. Algunas de esas “anotaciones” siguen vigentes hoy en día, como en el caso del formato RTF (Rich Text Format). Poco después aparecería el marcado de formato, que consistía en marcar directamente el texto mediante una serie de etiquetas. 13
  • 14. Modelado de Documentos y Sistemas de Información con XML La aparición de los sistemas WYSIWYG (what you see is what you get) trajo consigo el desarrollo de lenguajes de etiquetas más complejos. Mientras tanto, los procesadores de texto evolucionaron cualitativamente hasta llegar a los actuales: Pagemaker, MsWord, WordPerfect, StarOffice, ect. Esto llevó a una proliferación de formatos y, con ellos, diferentes formas de representar la información. Así, a finales de los 60, IBM creó el GML (General Markup Language), que posteriormente se convertiría en SGML (Standard Generalized Markup Language), que adquirió el estatus de norma ISO en 1986 (ISO 8879). SGML permite especificar la estructura de un documento mediante una definición formal llamada DTD (Document Type Definition). La DTD especifica qué elementos constituyen un documento, como por ejemplo secciones, subsecciones, párrafos, títulos, etc. El precedente de Internet, ARPANET, apareció a principios de los 70. Uno de los principios en que se basaba era el hipertexto, esto es, la organización no secuencial de los documentos, lo que supone criterios de asociación de conceptos como principio organizador. Los dos elementos clave en este sistema son el enlace y el nodo. Un nodo en Internet es un documento digital relacionado con otros por medio de enlaces. La mayor parte de los nodos o documentos digitales que se encuentran en Internet están codificados en HTML, que no es ni más ni menos que una DTD de SGML que especifica qué “elementos” componen un documento digital publicado en la web. El World Wide Web Consortium (W3C) ha centralizado desde 1996 el desarrollo de HTML. Esta misma entidad ha sido la que ha propuesto y desarrollado el formato XML, fundamentalmente por tres motivos:  Se buscaba una norma para intercambiar información estructurada entre dos puntos de la red, con independencia de la plataforma o la aplicación. Pese a que SGML era el candidato ideal, su tamaño y complejidad hicieron necesaria la creación de otro estándar.  Se quería publicar documentos digitales en la WWW a gran escala.  HTML sólo sirve para describir el formato de los documentos y no su contenido. Para ello se creó un subconjunto de SGML que es lo que ha dado lugar a la actual especificación XML. Lo más interesante de esta evolución es constatar cómo en un momento determinado se produjo una separación entre presentación y contenido. En estos momentos la estructuración del contenido de la web concentra el interés y los esfuerzos de usuarios y desarrolladores. De ahí el éxito actual del formato XML, ya que es un medio para estructurar el contenido de los documentos digitales. 2.2. Características del lenguaje XML 14
  • 15. Modelado de Documentos y Sistemas de Información con XML Por medio de XML es posible definir los documentos con el grado de exhaustividad que se requiera. Una de las características principales de un documento XML es que permite organizar jerárquicamente todas las unidades informativas de un documento mediante estructuras lógicas. En la terminología de XML, estas unidades se denominan entidades (entities) y no son sino datos (contenidos) dispuestos para ser interpretados por la máquina. XML posee mecanismos que permiten revisar la estructura lógica de los documentos con el propósito de que las máquinas que se interconecten entre sí para operar con estos datos lo puedan hacer de manera fluida. El acceso a los documentos XML se realiza mediante un procesador que revisa la estructura de los documentos e interpreta los contenidos de acuerdo con una gramática. La gramática de los lenguajes XML, es decir, la estructura y elementos permitidos en los documentos XML, se define mediante:  DTD (Document Type Definition): Documento ASCII plano que especifica tanto los elementos que forman un tipo de documento dado, como las relaciones que se dan entre ellos.  XSD (XML Schema Definition): Mejoran los DTD’s porque están escritos en XML y permiten nuevas características: - Definir tipos de datos. - Utilizar espacios de nombre. - Definir intervalos de valores para los atributos y elementos. - Características Orientadas a Objetos. El éxito de XML ha propiciado la demanda de nuevas funcionalidades, que se abordan definiendo extensiones adicionales para:  Estructurar documentos (XML Schema)  Enlaces y direccionamiento (Xpath, Xlink, Xpointer)  Transformación y presentación (XSL, CSS2)  Consultas (Xquery)  Programación (DOM, SAX)  Otros (Namespaces, Xinclude, Xbase...) <?xml version=“1.0”?> <contacts> <contact> <name> <first>John</first> <last>Belcher</last> </name> Figura 2. Código de ejemplo XML. 15
  • 16. Modelado de Documentos y Sistemas de Información con XML 2.3. Algunas especificaciones derivadas de XML: RDF, OWL Y SKOS-CORE Aunque XML es un lenguaje válido para describir con exhaustividad el contenido de un documento, tiene serias limitaciones en contextos donde se precisa que la semántica de los datos con que se trabaja sea explícita. Es decir, cuando “codificamos” un documento en XML, no estamos diciendo nada sobre el significado de esas estructuras que estamos creando. Pese a ser un gran lenguaje para el intercambio de datos en la web y entre aplicaciones, no permite expresar la semántica de esos datos. Del mismo modo, usando XML, las propiedades de esos datos (y de los metadatos) no pueden ser inferidas de ninguna manera. Como solución a esto surgen otros lenguajes que, apoyándose en la sintaxis de XML, sí están dotados de capacidades para definir la semántica y las propiedades de los datos que manejan. 2.3.1. RDF En 1999 se publicó la primera versión de RDF (Resource Description Framework), un lenguaje para la definición de ontologías y metadatos en la web. El objetivo de RDF fue solucionar el acceso y gestión de contenidos en la web mediante un lenguaje de metacontenidos. RDF es hoy el estándar más popular y extendido en la comunidad de la web semántica. Este lenguaje es importante para la descripción de los objetos y los tipos de objetos que se encuentran en la red (a los que se suele llamar “recursos”). RDF se basa en la idea de que podemos identificar los elementos a partir de URIs (Uniform Resource Identification) describiendo los recursos en términos de propiedades simples o pares propiedad-valor. Esto permite representar las declaraciones simples sobre recursos como un grafo de nodos y arcos que representan los recursos, sus propiedades y sus valores. Por tanto, el elemento de construcción básica en RDF es el “triple” o sentencia, que consiste en dos nodos (sujeto y objeto) unidos por un arco (predicado), donde los nodos representan recursos, y los arcos propiedades. Con RDF Schema (RDFS) se pueden definir jerarquías de clases de recursos, especificando las propiedades y relaciones que se admiten entre ellas. En RDF las clases, relaciones, y las propias sentencias son también recursos, y por lo tanto se pueden examinar y recorrer como parte del grafo, o incluso asertar sentencias sobre ellas. Se han definido diferentes formas sintácticas para la formulación escrita de RDF, pero quizás la más extendida es la basada en XML (serialización). Es por ello que RDF se presenta a menudo como una extensión de XML. Pese a la potencia de RDF para describir recursos, hay que tener en cuenta que también tiene algunas debilidades: 16
  • 17. Modelado de Documentos y Sistemas de Información con XML  Dos documentos pueden usar definiciones diferentes del mismo concepto y no se puede decidir que son equivalentes.  Tiene problemas de ambigüedad en la definición de sus elementos.  No se permite el manejo/ definición de restricciones de integridad. <?xml version="1.0"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:contact="http://www.w3.org/2000/10/swap/pim/contact#"> <contact:Person rdf:about="http://www.w3.org/People/EM/contact#em"> <contact:fullName>Eric Miller</contact:fullName> <contact:mailbox rdf:resource="mailto:em@w3.org"/> <contact:personalTitle>Dr.</contact:personalTitle> </contact:Person> </rdf:RDF> Figura 3. Código de ejemplo RDF. 2.3.2. OWL Al lenguaje RDF le siguieron OIL (Ontology Inference Language), desarrollado en Europa, y DAML (DARPA Agent Markup Language), en EE.UU., dos lenguajes muy similares que de hecho se terminaron fundiendo en DAML+OIL. A partir de esta unión se definió el lenguaje OWL (Web Ontology Language), con el propósito de reunir todas las ventajas de DAML+OIL y resolver los problemas de este lenguaje. OWL se puede formular en RDF, por lo que se suele considerar una extensión de éste. OWL incluye toda la capacidad expresiva de RDF(S) y la extiende con la posibilidad de utilizar expresiones lógicas. OWL permite, por ejemplo, definir clases mediante condiciones sobre sus miembros (p.e. la clase de los cuadros creados por pintores españoles), mediante combinación booleana de clases (Tinto and Rioja and not Crianza en una ontología de vinos), o por enumeración de las instancias que pertenecen a la clase (i.e. por extensión). Además OWL permite atribuir ciertas propiedades a las relaciones, como cardinalidad, simetría, transitividad, o relaciones inversas. El lenguaje OWL permite todas las operaciones que son propias de una ontología, como crear descripciones sobre clases de individuos, con restricciones y relaciones con otras descripciones. Se divide en tres sublenguajes: OWL-Lite, OWL-DL y OWL-Full, cada uno de los cuales proporciona un conjunto definido sobre el que trabajar, siendo el más sencillo OWL-Lite y el más completo OWL- Full. Con todo esto y pese a ser válido como lenguaje de elaboración de ontologías, hay que recordar que OWL también tiene algunas desventajas:  Debe existir un número limitado de constructores / axiomas para que el proceso de inferencia sea decidible. 17
  • 18. Modelado de Documentos y Sistemas de Información con XML  No es muy natural.  No permite definir/ chequear restricciones de integridad.  Complejidad. <owl:Class rdf:ID="QualityRating"> <owl:oneOf rdf:parseType="Collection"> <QualityRating rdf:ID="qualityRating_Excellent"/> <QualityRating rdf:ID="qualityRating_Good"/> <QualityRating rdf:ID="qualityRating_Average"/> <QualityRating rdf:ID="qualityRating_Poor"/> </owl:oneOf> </owl:Class> Figura 4. Código de ejemplo OWL. 2.3.3. SKOS-CORE Se trata de la propuesta más concreta que hay hoy en dia para la elaboración de tesauros en el entorno de la web semántica. SKOS-Core es un schema RDF para la representación de tesauros y sistemas similares de organización de conocimiento. Esta aproximación es la propuesta por el W3C. El objetivo fundamental de SKOS-Core es proporcionar un modelo para la migración de sistemas de organización de conocimiento al entorno de la web semántica. Además sirve para construir esquemas de conceptos simples para su utilización en la Web. SKOS-Core está pensado como un complemento a OWL, ya que proporciona un marco básico para la construcción de esquemas de conceptos pero sin la definición semántica tan estricta que exige la utilización de OWL. Se trata en cierta medida una simplificación mayor de la que encontramos ya en OWL-Lite, lo cual permite acceder a un mayor número de personas a este tipo de tecnologías para la representación del conocimiento. La idea base de este schema RDF reside en su capacidad para permitir la definición de conceptos y esquemas de conceptos. Un concepto se define como una unidad de pensamiento que puede ser definida o descrita. A su vez, un esquema de conceptos no es otra cosa que una colección de conceptos. Un concepto puede tener una serie de etiquetas asociadas, donde cada etiqueta es una palabra, frase o símbolo que suele utilizarse para referirse a ese concepto. 18
  • 19. Modelado de Documentos y Sistemas de Información con XML <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:skos="http://www.w3.org/2004/02/skos/core#" xmlns:dc="http://purl.org/dc/elements/1.1/"> <skos:ConceptScheme rdf:about="http:/spines.org/thesaurus"> <dc:title>SPINES</dc:title> <dc:description>Tesauro de política científica</dc:description> <dc:creator>UNESCO</dc:creator> </skos:ConceptScheme> </rdf:RDF> Figura 5. Código de ejemplo SKOS-Core. 3. Aplicación del XML en un Sistema de Información 3.1. Ventajas de la utilización de XML en un Sistema Integral de Gestión de la Información Con lo visto hasta ahora, se ha elaborado un diseño funcional y operativo de un Sistema Integral de Gestión de la Información. Se distinguieron en él todos los subsistemas de los que depende la entrada, el proceso y la salida de información, junto con las relaciones entre los diferentes módulos que lo componen. Como segundo paso, se ha expuesto la tecnología XML y las diferentes especificaciones, que vienen a cubrir diferentes necesidades de descripción de recursos web (RDF), ontologías (OWL) y tesauros (SKOS-Core). A partir de aquí es necesario plantearse la utilidad de implementar estas tecnologías al diseño de los Sistemas de Información, esto es, determinar en qué grado mejorarán la descripción, la gestión y el intercambio de información. La decisión de implementar una tecnología u otra no es una decisión que deba tomarse a la ligera. Ha de seleccionarse un estándar que cubra las necesidades arriba descritas y al mismo tiempo disponga de aceptación general, garantizándose que no quede obsoleto en un breve espacio de tiempo. Como se ha dicho anteriormente, la principal virtud de XML se encuentra en su capacidad para definir el contenido de los documentos de forma jerárquica, estructurando sus unidades informativas de forma lógica. Dicho de otra forma, permite “estructurar” la información contenida en los documentos. Esta cualidad, aplicada a los documentos de nuestro sistema, nos permitirá: 19
  • 20. Modelado de Documentos y Sistemas de Información con XML  Crear una base de datos de componentes de documentos. Ya que XML es una notación que preserva las abstracciones, los datos de los documentos XML pueden tratarse como el resto de datos, esto es, automatizarse, procesarse, reutilizarse, clasificarse y recuperarse.  Salidas múltiples. Los datos en un documento XML se almacenan independientemente del medio utilizado. Esto permite que las organizaciones documentales entreguen su información automáticamente desde un sólo depósito a la Web, por medio de un disco óptico, para su impresión o cualquier otro medio. Por lo tanto, XML facilita el intercambio de información por tratarse de un estándar donde la presentación es independiente de los datos.  Reutilización de la información. En ocasiones las organizaciones vuelven a crear información ya existente en lugar de reutilizarla. Esta gestión ineficaz provoca imprecisiones, versiones erróneas, fallos de entrega y, por supuesto, un aumento en los costes. Estos costes superfluos pueden evitarse construyendo un depósito de documentos estructurado, que permitirá el mayor número posible de reutilizaciones de la información ya existente. Esta base de datos permitirá mantener la integridad de los datos que contiene independientemente del momento, lugar o frecuencia con que se utilicen.  Automatización. Si se representan los documentos en XML y se almacenan en un depósito, se pueden obtener mejoras mediante una automatización intensiva que genera el mismo tipo de ventajas que si se implantaran bases de datos relacionales para reemplazar registros introducidos de forma manual. 3.2. Infraestructura El hardware, junto con el software de base, constituye la infraestructura de trabajo de un sistema integral de gestión de la información. Está integrada tanto por los computadores que utilizan los usuarios (clientes del sistema) como por los que centralizan las bases de datos documentales / relacionales (servidores); además de la red que interconecta todas las máquinas y el sistema operativo sobre el que funciona el software de gestión de la información. 3.3. Los subsistemas de base de datos documental y relacional Una vez enumeradas las ventajas de la aplicación de XML y sus especificaciones a un sistema de información, podemos estudiar su aplicación en la base de datos documental y en la relacional. En este punto será de vital importancia tratar aspectos como:  La caracterización de los documentos en el momento de su entrada (carga) en el sistema, 20
  • 21. Modelado de Documentos y Sistemas de Información con XML teniendo en cuenta el formato en que llegan (si se precisa la conversión a otro) y la correspondiente estructuración de la información contenida en ellos.  El almacenamiento en la base de datos, tanto los clásicos registros de la base de datos relacional como el repositorio de componentes XML que formará nuestra base de datos documental.  La recuperación de información, acercándonos a las diferentes opciones en lo relativo a lenguajes de consulta y la interfaz de usuario  La conectividad entre la base de datos documental y la relacional, que se efectuará también a través de XML y será clave en el momento de la recuperación de información y para el subsistema de publicación de contenidos y DSI. 3.3.1. La entrada o carga de documentos Los documentos llegan al sistema por muchas vías: el clásico OCR integrado en el subsistema de imágenes, documentos electrónicos recibidos desde la web o generados en la misma organización, procedentes de discos ópticos u otros dispositivos de almacenamiento, etc. El problema no se encuentra en las múltiples vías de llegada de documentos, sino en la diversidad de formatos, que obliga a una conversión de éstos al formato propio de carga en el sistema, de manera que puedan aplicarse a los mismos las modificaciones pertinentes. Se dice que, en una base de datos relacional, sólo se encuentran datos abstractos, es decir, información estructurada. Sin embargo, en el archivo informático de un procesador de texto, por ejemplo, se encontrará la información de estilo mezclada con la información real -el contenido de los datos- del documento. Por tanto, se puede decir que los documentos tienen estructura, aunque la forma en que están almacenados “oculta” los datos abstractos que indican el aspecto que deberían tener en su presentación. Dicho de otro modo, las bases de datos relacionales contienen abstracciones y los archivos documentales contienen, generalmente, reproducciones. La idea aquí, por tanto, es almacenar los documentos de manera que su estructura natural y los datos que contienen puedan distinguirse siempre, gestionar los documentos como si se tratara de datos. Evidentemente, el proceso de “etiquetado” XML es una tarea que se debe realizar de forma automática, siendo la aplicación la que reconozca los campos de los documentos que previamente se le han especificado. Está claro que esto supone un problema de formalización de los documentos cargados en el sistema: no todos lo documentos tendrán los mismos campos (capítulo, título, sección, subsección, etc.), por lo que en ocasiones será precisa la intervención manual. De todos modos, hasta en los casos donde sea más difícil la estructuración por XML, siempre se podrán efectuar búsquedas a texto completo. 21
  • 22. Modelado de Documentos y Sistemas de Información con XML 3.3.2. El almacenamiento En el actual panorama de los sistemas de gestión documental, se tiende hacia la orientación a objetos como paradigma de almacenamiento 5, considerando que un documento se compone de objetos de información (fotos, capítulos, secciones, etc.), que además incluye información sobre cómo estos objetos deben ensamblarse. En el momento de la presentación de resultados de una búsqueda, debe poder mostrarse a los usuarios documentos virtuales diferentes, adaptando el ensamblaje de las partes a las características de cada usuario. En definitiva, se trataría de evolucionar desde el clásico almacenamiento estático de los documentos hacia un almacenamiento que permita su composición en el mismo momento en que van a ser utilizados por los usuarios6. Figura 6. Evolución en la estructura de los documentos electrónicos. La propuesta de este trabajo consiste en la construcción de una base de datos de componentes de documentos XML, de manera que cada documento individual contenido en la misma se encuentre estructurado jerárquicamente a partir de los campos predefinidos en él. Un componente, por tanto, es un fragmento de información que puede utilizarse de forma independiente, como un párrafo, un capítulo, un procedimiento con instrucciones, una nota de aviso, un número de parte, una cantidad de un pedido, un gráfico, una historia parcial, secuencias de vídeo y una variedad infinita de tipos de información. Tratados mediante un sistema de gestión de contenidos, estos fragmentos pueden controlarse, revisarse, reutilizarse y agruparse en documentos nuevos. 5 MARTÍNEZ, José Manuel; HILERA, José Ramón; MARTÍNEZ, Javier y GUTIÉRREZ, José A. (1996): "Orientación a Objetos en la Documentación Hipermedia". Actas de las II Jornadas sobre Tecnologías de Objetos. Madrid, Asociación de Técnicos de Informática, SIMO TCI, 1996, 49-54. 6 MARTÍNEZ José Manuel; HILERA José Ramón. Los sistemas de gestión documental en el ámbito del trabajo corporativo. Revista General De Información y Documentación, 1997;7:237-255. 22
  • 23. Modelado de Documentos y Sistemas de Información con XML Por lo tanto, nuestra base de datos documental no contendrá realmente documentos “completos”, sino componentes de los mismos con información acerca de su ensamblaje. Esto permitirá recuperar los documentos enteros, o bien sólo secciones de los mismos que sean de nuestro interés, pudiendo incluso generar documentos nuevos a partir de los fragmentos que seleccionemos. Cuanto más pequeños y específicos sean estos componentes, más manipulables y reutilizables resultarán. Junto con este repositorio de componentes, la base de datos documental también contendrá la “colección” de DTD's de las diferentes tipologías de documentos XML. La base de datos relacional, en nuestro modelo, puede servir tanto para almacenar registros de datos de importancia para la organización, como para localizar los objetos de información situados en la base de datos documental, sobre todo cuando se trate de imágenes, vídeos, gráficos u otros. Así pues, nuestro Sistema Integral de Gestión de la Información almacenará una colección de “objetos” de los tipos descritos arriba. Desde la perspectiva del usuario, debe poder recuperarse de igual manera un vídeo que un documento completo o un registro de la base de datos. Aunque este aspecto se abordará en mayor profundidad en el siguiente punto, lo fundamental en este punto es que se recupere la información sin tener en cuenta en qué forma se encuentre esta. 3.3.3. La recuperación de información Un punto clave en el diseño de una base de datos documental es el relativo al sistema de recuperación de información. Por muy bien que la base de datos almacene sus registros, si estos no pueden ser recuperados de forma eficiente, ésta carecerá de utilidad. En el Sistema Integral de Gestión de Información tenemos tanto bases de datos documentales como de tipo relacional. En este segundo supuesto la recuperación de información (datos más bien en este caso) se efectuará mediante el lenguaje más apropiado, SQL. Este lenguaje es perfecto para realizar búsquedas en una base de datos relacional, al tiempo que permite el almacenamiento de consultas. No es preciso que nos extendamos en detalles acerca de la recuperación de información con SQL, ya que no es el lugar apropiado y la bibliografía es abundante; resulta de mayor interés tratar la recuperación en la base documental y la interfaz de consulta. XQUERY De manera rápida podemos definir XQuery con un símil en el que XQuery es a XML lo mismo que SQL es a las bases de datos relacionales. XQuery es un lenguaje de consulta diseñado para escribir consultas sobre colecciones de datos expresadas en XML. Abarca desde archivos XML hasta bases de datos relacionales con funciones de conversión de registros a XML. Su principal función es extraer información de un conjunto de datos organizados como un árbol n-ário de etiquetas XML. En este sentido XQuery es independiente del origen de los datos. 23
  • 24. Modelado de Documentos y Sistemas de Información con XML XQuery es un lenguaje funcional, lo que significa que, en vez de ejecutar una lista de comandos como un lenguaje procedimental clásico, cada consulta es una expresión que es evaluada y devuelve un resultado, al igual que en SQL. Diversas expresiones pueden combinarse de una manera muy flexible con otras expresiones para crear nuevas expresiones más complejas y de mayor potencia semántica. XQuery está llamado a ser el futuro estándar de consultas sobre documentos XML Actualmente, XQuery es un conjunto de borradores 7 en el que trabaja el grupo W3C. Sin embargo, a pesar de no tener una redacción definitiva ya existen o están en proceso numerosas implementaciones de motores y herramientas que lo soportan. Aunque XQuery y SQL puedan considerarse similares en casi la totalidad de sus aspectos, el modelo de datos sobre el que se sustenta XQuery es muy distinto del modelo de datos relacional sobre el que apoya SQL, ya que XML incluye conceptos como jerarquía y orden de los datos que no están presentes en el modelo relacional. Por ejemplo, a diferencia de SQL, en XQuery el orden es que se encuentren los datos es importante y determinante, ya que no es lo mismo buscar una etiqueta <B> dentro de una etiqueta <A> que todas las etiquetas <B> del documento (que pueden estar anidadas dentro de una etiqueta <A> o fuera). XQuery ha sido construido sobre la base de Xpath 8. Xpath es un lenguaje declarativo para la localización de nodos y fragmentos de información en árboles XML. XQuery se basa en este lenguaje para realizar la selección de información y la iteración a través del conjunto de datos. Una consulta en XQuery es una expresión que lee una secuencia de datos en XML y devuelve como resultado otra secuencia de datos en XML. Un detalle importante es que, a diferencia de lo que sucede en SQL, en XQuery las expresiones y los valores que devuelven son dependientes del contexto. En XQuery, cuando usamos el térmico tupla, nos estamos refiriendo a cada uno de los valores que toma una variable. A continuación se muestra un ejemplo de consulta con XQuery. for $b in doc("libros.xml")//libro let $c := $b//autor where count($c) > 2 order by $b/titulo return $b/ titulo Figura 7. Ejemplo de consulta con XQuery: devuelve los títulos de los libros que tengan más de dos autores, ordenados por su título. <title>Data on the Web</title> Figura 8. Resultado de la consulta anterior. 7 Documento principal del grupo de trabajo Xquery: http://www.w3.org/TR/xmlquery-req 8 Documentación sobre Xpath: http://www.w3.org/TR/xpath20/ 24
  • 25. Modelado de Documentos y Sistemas de Información con XML La propuesta de este trabajo se centra en la posibilidad de un único lenguaje de consulta para ambas bases de datos, esto es, aprovechar la potencia de XQuery para consultar al mismo tiempo y de forma transparente la base documental y la relacional. Como se comentó anteriormente, se busca diseñar un sistema dotado de una integración total de la información contenida en el mismo, donde el usuario realice consultas con independencia del formato de la información buscada. XQuery actuará como lenguaje-interfaz para unificar todas las consultas a las bases de datos del sistema, recuperando de forma transparente al usuario cualquier información en cualquier formato. La interfaz de usuario debe permitir buscar de la forma tradicional, por medio de los clásicos operadores booleanos o por frase exacta, como en cualquier sistema de búsqueda de propósito general. En un sistema como este, sería fundamental implementar una opción de incluir campos por los que recuperar la información. Pero ese sólo sería el primer paso. Tras esta búsqueda inicial, los resultados se mostrarán al usuario por medio de un ranking con enlaces a los documentos. A partir de la selección de un documento resultado comenzará un proceso de browsing, desde los documentos seleccionados hasta otros que tengan semántica similar, es decir, que traten temas similares. Esta navegación por la red semántica se apoya en la existencia de un tesauro subyacente que al mismo tiempo tiene la función más clásica de lenguaje del sistema. 3.3.4. Conectividad entre la base de datos documental y relacional De lo expuesto en el punto anterior, puede desprenderse que para lograr una total eficiencia en la recuperación de información de forma integrada es preciso un alto grado de conectividad entre las dos bases de información del sistema. Debe proporcionarse tanto un lenguaje que sirva de interfaz común a la recuperación de información, como un medio de comunicación de registros entre ambas. Por supuesto, ha de tenerse en cuenta las particularidades de ambas bases de datos, ya que proporcionan diferentes niveles de flexibilidad a la hora de emplear lenguajes de programación sobre ellas. Por un lado, las bases de datos, ya sean comerciales o libres, suelen estar dotadas de conexión a diversos lenguajes de programación y poseen herramientas de desarrollo de aplicaciones compatibles con ellas. Sin embargo, el caso de las bases de datos documentales es diferente: aquí el margen de maniobra es menor, no suele proporcionarse el código de la aplicación y disponen de conexiones muy limitadas con lenguajes de programación. De nuevo, XML es la respuesta a las necesidades de intercambio de información entre aplicaciones. XML funciona perfectamente como interfaz de exportación e intercambio de registros entre las dos bases de datos, si bien normalmente se precisa de algún lenguaje de script que exporte primero esa información a XML. En el caso de la base de datos relacional, PHP o Perl pueden ser una buena solución como lenguaje de exportación a XML; en el caso de la base de datos documental dependerá de la aplicación concreta (por ejemplo, en el caso de Lotus Domino, “Lotus Script”). 25
  • 26. Modelado de Documentos y Sistemas de Información con XML Figura 9. Modelo de conectividad base de datos relacional / documental. 3.4. El subsistema de tesauro La definición más aceptada de tesauro es la de “un lenguaje documental de estructura combinatoria, de carácter especializado, que se basa en expresiones conceptuales llamadas descriptores, provistas de relaciones semánticas de tres tipos: equivalencia, asociación y jerarquía 9”. Los tesauros son realmente instrumentos de control terminológico en entornos de RI y, aunque se pueden encontrar ciertas analogías con otros recursos como las ontologías, la estructura de los tesauros suele ser más mucho más simple y menos definida, además de contar con una menor diferenciación léxico-semántica. El tesauro servirá como base al lenguaje del sistema, siendo de utilidad tanto en el momento de la selección de términos de indización como en el momento de la recuperación de información. Como se comentó anteriormente, la especificación XML elegida para trabajar con el tesauro del sistema es SKOS-Core. Este lenguaje a día de hoy es la propuesta más concreta para la representación de tesauros en el entorno de la web semántica. SKOS-Core permitirá diseñar la estructura del tesauro de forma eficiente y ofrece todas las ventajas en gestión de la información que cualquier especificación XML. Este tesauro será la base de 9 PÉREZ AGÜERA, JOSÉ RAMÓN (2004): “Automatización de tesauros y su utilización en la web semántica”, BiD: textos universitaris de biblioteconomía i documentació, 2004, 13. 26
  • 27. Modelado de Documentos y Sistemas de Información con XML toda las estructura de browsing del sistema de recuperación, guiando al usuario desde los documentos obtenidos en respuesta a una consulta hasta otros semánticamente relacionados. Los documentos, además de estar fragmentados en componentes XML, han de ser indizados de acuerdo a la terminología elegida para este tesauro. Los descriptores definientes de la semántica de los documentos se convierten en nuestro sistema en enlaces a otros nuevos documentos, que quizá no aparecieron en la consulta original, pero que tienen alguno de éstos términos en común. De este modo, el tesauro puede guiar la navegación del usuario, llevándole a encontrar documentos que, o bien no supo encontrar en la formulación de la búsqueda inicial, o bien abren nuevas vías o interrogantes a su investigación. Esta idea nos lleva de nuevo a la propuesta del hipertexto a dos niveles de Pastor y Saorín: la abstracción de la semántica de los documentos en una red conceptual subyacente (en este caso el tesauro), accesible a través de enlaces mediante una interfaz de browsing. Figura 10. Hipertexto a dos niveles: un mismo concepto puede aparecer en varios documentos. 3.5. El subsistema de publicación de contenidos y DSI La sindicación de contenidos se presenta como una forma de aunar lo mejor de las tecnologías push y pull. Se trata de una enorme ganancia que combina la tecnología push (de empujar contenidos a los portales) pero también la pull porque agrega información dispersa y la presenta de modo consolidado en múltiples sitios. Todos estos aspectos tienen que ver con la denominada gestión de contenidos, encargada de capturar información desde diferentes fuentes (en este caso las más 27
  • 28. Modelado de Documentos y Sistemas de Información con XML importantes serán las bases de datos documentales y relacionales del sistema), analizándola, categorizándola y finalmente entregándola a los usuarios de forma personalizada si se requiere así. Efectivamente, el sistema de sindicación de contenidos debe estar dotado de una metodología de personalización de la información que publica, o de canales temáticos que reúnan a determinados grupos de usuarios con intereses comunes. Llegados a este punto, debe destacarse también que, en un sistema de sindicación de contenidos, la presentación de la información se encuentra separada de los datos mismos, para esto se pueden emplear hojas de estilo, como XSL, que definan la forma en que se muestra al usuario. La información publicada en este subsistema puede ser reutilizada posteriormente, lo que añade al mismo un nuevo valor añadido. El lenguaje a emplear para la difusión de la información en este sistema de gestión de contenidos es RDF. Ya que vamos a trabajar con datos heterogéneos procedentes en su mayor parte de las bases de datos relacionales y documentales del sistema, RDF es la solución para describir estos recursos. A partir del repositorio de información que constituyen las dos bases de información del sistema, el Subsistema de Publicación de Contenidos va actualizándose periódicamente. La información es servida en distintos niveles, desde la página principal del portal de la organización con información general hasta el espacio propio de un usuario concreto. Aquí se hace patente el concepto de Difusión Selectiva de la Información (DSI), ya que la sindicación de contenidos se adaptará a las necesidades informativas concretas del usuario. El proceso de sindicación de contenidos tiene lugar tras la entrada y descripción de los documentos nuevos en el sistema. Tras haberlos indizado y convertido a XML, el subsistema de publicación de contenidos actuará como “filtro” a partir del contenido semántico de los mismos (descriptores). La publicación en el portal corporativo se efectuará mediante RDF, pudiendo crear pequeños resúmenes del sitio mediante RSS si es preciso. Aquí es donde entra en juego el método push, ya que la información de interés se “empuja” hacia el espacio del usuario o hacia los canales temáticos. La información servida se ordenará por ranking de importancia para el usuario, dejando en la parte superior los nuevos documentos entrantes que coincidan más con el perfil de interés informativo. El correo electrónico es también interesante para efectuar avisos sobre la entrada de información nueva de interés, implementado un mecanismo de envío automático de mensajes de alerta a los usuarios. 28
  • 29. Modelado de Documentos y Sistemas de Información con XML Figura 11. Proceso de subsistema de publicación de contenidos. V. Conclusiones El presente trabajo ha mostrado que es posible el empleo de XML y lenguajes derivados en el diseño de documentos y sistemas de información, y que esto trae consigo una serie de ventajas. La potencia de este lenguaje para la descripción de los documentos y la facilidad que ofrece para el intercambio de información, lo hace ideal para el diseño de sistemas de información. Se ha demostrado que, desde el momento de la entrada en el sistema, los documentos pueden ser estructurados y gestionados de forma modular según sus partes constituyentes, facilitando de este modo su almacenaje y una recuperación más inteligente. Este último aspecto, el de la recuperación, ha sido cubierto con el empleo del lenguaje de consulta XQuery, aún en fase de desarrollo, aunque su capacidad de consulta en bases de datos relacionales y documentales lo hacen sumamente interesante. De los diversos derivados de XML, se han analizado aquellos que podían ser aplicados al diseño de los subsistemas de nuestro sistema de información. SKOS-Core se presenta como la mejor opción para el diseño del Lenguaje del Sistema, el Tesauro, facilitando en gran medida su modelado y la reutilización de sus contenidos. En referencia al Subsistema de Publicación de Contenidos, se ha presentado RDF como la mejor propuesta para la sindicación de los objetos de información, de acuerdo a los perfiles de interés de los usuarios. Con todo lo visto, cabe destacar que, el empleo de XML en sistemas de información aporta importantes mejoras en el ámbito de la gestión de la información documental, su intercambio y difusión. Sin embargo, las dificultades se centran en la multiplicidad de derivados de XML, las diferentes versiones de los lenguajes (que pueden crear incompatibilidades) y la falta de desarrollo de algunas de las propuestas. A pesar de ello, una vez salvados estos escollos, se facilitará enormemente el diseño de sistemas de información totalmente integrados, donde los documentos, 29
  • 30. Modelado de Documentos y Sistemas de Información con XML independientemente del formato, sean tratados como objetos de información. Estos objetos podrán ser tratados, recuperados y difundidos con independencia de su forma y de manera transparente al usuario. Esta integración entre los diferentes subsistemas también ayudará a eliminar las tareas duplicadas, permitiendo la reutilización de los objetos de información, y mejorará la fluidez en el intercambio de los mismos. VI. Bibliografía ABAITUA, J.; BARRUTIETA, G.; DÍAZ, J.; JACOB, I.; QUINTANA, F., 2003, Contenidos y metacontenidos en la edición digital. Letras de Deusto, núm. 100, vol. 33. Págs11-52. Bilbao. Universidad de Deusto, 2003. ANGOS ULLATE, J.M.; FERNANDEZ RUIZ, M.J.; SALVADOR OLIVÁN, J.A.; VILAS LARRÉ, M. Necesidad de una metodología que optimice la gestión documental: estudio de un caso práctico. Valencia, FESABID, 1998. 13 p. (VI Jornadas Españolas de Documentación). MARTÍN GALÁN, B.; RODRÍGUEZ MATEOS, D. "Estructuración de la información mediante XML: un nuevo reto para la gestión documental". En: Jornadas de Documentación (7ª. Bilbao. 2000). Bilbao: Universidad del País Vasco; FESABID, 2000, pp. 113-123. MÉNDEZ RODRÍGUEZ, E.M. Metadatos y Tesauros: aplicación de XML/RDF a los sistemas de organización del conocimiento en Intranets. En: Jornadas Españolas de Documentación (7. 2000. Bilbao) . La gestión del conocimiento: Retos y soluciones de los profesionales de la información. [Bilbao]: Universidad del País Vasco, 2000, p. 211-219. GOLDFARB, C.F. Manual de XML / Charles F. Goldfarb y Paul Prescod. -- Madrid, [etc.] : Prentice- Hall, 1999. HILERA GONZÁLEZ, J. R; MARTÍNEZ SÁNCHEZ, J. M. El papel de la documentación en la gestión automatizada de flujos de trabajo. Revista General de Información y Documentación, 1998, vol. 8, nº 2, p. 141-147. NOGALES FLORES, J. T.; MARTÍN GALÁN, B.; ARELLANO PARDO, M.C. "Informática, Derecho y Documentación. Experiencias y posibilidades de aplicación de los lenguajes de marcado de texto (SGML, HTML y XML) a los documentos jurídicos". En: Encuentro sobre Informática y Derecho. (16º. Madrid. 2002). Madrid: Instituto de Informática Jurídica, Universidad Pontificia de Comillas, 2003. 30
  • 31. Modelado de Documentos y Sistemas de Información con XML MARTÍNEZ SÁNCHEZ, J. M.; HILERA GONZÁLEZ, J. R. Los sistemas de gestión documental en el ámbito del trabajo corporativo. Revista General De Información y Documentación. 1997;7:237-255. MARTÍNEZ SÁNCHEZ, J. M.; HILERA GONZÁLEZ, J. R.; MARTÍNEZ, J. Y GUTIÉRREZ, J. A. (1996): "Orientación a Objetos en la Documentación Hipermedia". Actas de las II Jornadas sobre Tecnologías de Objetos. Madrid, Asociación de Técnicos de Informática, SIMO TCI, 1996, 49-54. MORRISON, M. XML al descubierto : la solución más completa / Michael Morrison...[et al.]. -- Madrid, [etc.] : Prentice-Hall, 2000. PASTOR SÁNCHEZ, J.A.; SAORÍN PÉREZ, T. “El hipertexto documental como solución a la crisis conceptual del hipertexto: El reto de los documentos cooperativos en redes”. En: Cuadernos de Documentación Multimedia, nº 4, 1995. PASTOR SÁNCHEZ, J. A.; SAORÍN PÉREZ, T. “La escritura hipermedia”. Cuadernos de Documentación Hipermedia , 1997-8, nº 6-7, p. 221-238. PÉREZ AGÜERA, J.R. (2004): “Automatización de tesauros y su utilización en la web semántica”, BiD: textos universitaris de biblioteconomía i documentació, 2004, 13. SENSO, J. A.; ROSA, A. DE LA. Especificaciones XML aplicadas a la documentación. En: FUENTES I PUJOL, María Eulàlia (dir.). Bibliodoc 1999. Anuario de biblioteconomía, documentación e información. Barcelona: Col•legi oficial de bibliotecaris-documentalistes de Catalunya, 1999. SIMINIANI, M. Intranets, empresa y gestión documental : cómo enfocar en la práctica la tecnología desde la necesidad de eficiencia en todo tipo de empresas / Mariano Siminiani. -- Madrid [etc.] : McGraw-Hill, D.L. 1997. 31