Modelado de Documentos y Sistemas de Información con XML

Modelado de Documentos y Sistemas de Información con XML

Modelado de Documentos y
Sistemas de Información con
XML

Proyecto Fin de Carrera de la Licenciatura de Documentación
del alumno:
José Manuel Sánchez Navarro
Dirigido por el profesor:
Juan Antonio Pastor Sánchez

1


Contenido

I. INTRODUCCIÓN………………………………………………………………... 3

II. OBJETIVOS……………………………………………………………………... 4

III. METODOLOGÍA………………………………………………………………. 4

IV. RESULTADOS………………………………………………………………… 5
1. Los Sistemas de Información Documental………………………………. 5
1.1. Los subsistemas de un Sistema Integral de Gestión de la
Información…………………………………………………………. 7
1.1.1. La base de datos documental…………………………. 7
1.1.2. El correo electrónico………………………………….. 9
1.1.3. El subsistema de base de datos relacional……………. 9
1.1.4. El subsistema de thesaurus…………………………… 10
1.1.5. El subsistema de imágenes y OCR…………………… 11
1.1.6. El subsistema de Workflow…………………………... 12
1.1.7. El subsistema de Groupware…………………………. 12
1.1.8. El subsistema de DSI…………………………………. 13
2. El lenguaje XML y sus especificaciones…………………………………. 14
2.1. Orígenes del lenguaje XML……………………………………. 14
2.2. Características del lenguaje XML……………………………… 15
2.3. Algunas especificaciones derivadas de XML: RDF, OWL y SKOS-
CORE………………………………………………………... 16
2.3.1. RDF…………………………………………………… 17
2.3.2. OWL………………………………………………….. 18
2.3.3. SKOS-CORE…………………………………………. 19
3. Aplicación del XML en un Sistema de Información……………………... 20
3.1. Ventajas de la utilización de XML en un Sistema Integral de Gestión
de Información……………………………………………... 20
3.2. Infraestructura…………………………………………………... 21
3.3. Los subsistemas de base de datos documental y relacional……. 21
3.3.1. La entrada o carga de documentos……………………. 22
3.3.2. El almacenamiento……………………………………. 23
3.3.3. La recuperación de información……………………… 24
3.3.4. Conectividad entre la base de datos documental y
relacional…………………………………………………….. 26
3.4. El subsistema de tesauro………………………………………... 27
3.5. El subsistema de publicación de contenidos y DSI…………….. 28

V. CONCLUSIONES………………………………………………………………. 30

VI. BIBLIOGRAFÍA……………………………………………………………….. 31

2


I. INTRODUCCIÓN

El Proyecto fin de Carrera (PFC) es una asignatura obligatoria incluida dentro del plan de
estudios vigente en la titulación “Licenciado en Documentación” de nuestra Universidad. Se entiende
como el resultado final de un proyecto o trabajo personal del alumno, donde manifieste los
conocimientos y aptitudes adquiridos a los largo de la titulación de Licenciado en Documentación.

Para el presente PFC se ha escogido el tema "Modelado de documentos y sistemas de
información con XML". La aplicación de las tecnologías de la información originadas en Internet
está cambiando de forma cualitativa y cuantitativa las dinámicas de gestión de información y
documentación en las organizaciones.

En una primera fase de desarrollo tecnológico han proliferado las actuaciones para la creación
y mantenimiento de sistemas de información mediante Intranets y la elaboración de productos y
servicios de información para Web.

En la actualidad se han identificado una serie de problemáticas en este tipo de desarrollos.
Estas problemáticas tienen su origen en las carencias del uso de la Web para el análisis y gestión del
contenido informativo de los documentos HTML. Hay que recordar que la Web se ideó como un
medio para la comunicación de información y no para su gestión.

Sin embargo, hoy día existen soluciones basadas en XML que permiten aportar un mayor
contenido semántico a la descripción de los documentos electrónicos. Por lo tanto se abren nuevas
posibilidades de gestión y reutilización de los contenidos informativos de los documentos digitales. La
tecnología XML supone un punto de partida para el desarrollo de sistemas de información y el
modelado de documentos que doten de mayor relevancia al contenidos y la estructura de los
documentos y no a su forma y presentación. Esta nueva orientación tiene su origen en la idea de Web
Semántica.

La Web Semántica es una Web extendida, dotada de mayor significado en la que cualquier
usuario en Internet podrá encontrar respuestas a sus preguntas de forma más rápida y sencilla gracias a
una información mejor definida. Al dotar a la Web de más significado y, por lo tanto, de más
semántica, se pueden obtener soluciones a problemas habituales en la búsqueda de información gracias
a la utilización de una infraestructura común, mediante la cual es posible compartir, procesar y
transferir información de forma sencilla.

Esta Web extendida y basada en el significado, se apoya en lenguajes universales que
resuelven los problemas ocasionados por una Web carente de semántica en la que, en ocasiones, el
acceso a la información se convierte en una tarea difícil y frustrante. A partir de XML se han
desarrollado múltiples especificaciones que permiten desarrollar la idea de Web Semántica, tales como
RDF, OWL o SKOS-CORE.

3


II. OBJETIVOS

Los objetivos del presente PFC son los siguientes:

 Estudiar las funcionalidades de un Sistema de Información Documental.

 Identificar los principales subsistemas que componen un Sistema de Información Documental.

 Elaborar una visión integral de un Sistema de Información Documental mediante una
adecuada estructuración de los diferentes subsistemas.

 Identificar las especificaciones XML más adecuadas para su aplicación en los distintos
subsistemas del Sistema de Información Documental atendiendo a las funcionalidades de los
mismos.

 Detallar la forma en la que se pueden aplicar las especificaciones XML identificadas dentro de
un Sistema de Información Documental.

III. METODOLOGÍA

La metodología seguida en este PFC se basa en un análisis de los diferentes subsistemas que
componen un Sistema de Información Documental dentro del ámbito de las Tecnologías de la
Información.

No solamente se han identificado dichos subsistemas, sino que además se han estudiado las
diferentes relaciones que existen entre los mismos.

Posteriormente se ha realizado un estudio de las especificaciones XML que se han
considerado más adecuadas para su aplicación en los diferentes subsistemas. En este estudio las
especificaciones XML seleccionadas han sido: RDF, OWL Y SKOS-CORE. El motivo de escoger
estas especificaciones se debe a que cubren, junto con el uso general de XML para la descripción de
documentos, los principales procesos que realiza un Sistema de Información Documental.

Finalmente se ha procedido a un trabajo de síntesis en donde se ha realizado una propuesta de
aplicación de las especificaciones XML estudiadas en un Sistema de Información Documental.

Se ha tenido en cuenta que dichas especificaciones pueden utilizarse tanto dentro de cada uno
de los subsistema analizados como en las relaciones que pueden establecerse entre los mismos.

4


IV. RESULTADOS

A continuación se detallan los resultados obtenidos tras la aplicación de la metodología
que se ha detallado en el anterior apartado.

1. Los Sistemas de Información Documental

En los últimos años, las organizaciones han venido incorporando las Tecnologías de la
Información y la Comunicación (TIC's) a sus procesos de producción y de gestión, modificándose así
la forma de trabajar dentro de las mismas. La información, tanto interna como externa, se ha
convertido en un elemento de vital importancia para las organizaciones, desde el punto de vista
estratégico y para mejorar su competitividad. Más aún, se ha pasado a un modelo basado en la gestión
adecuada de los llamados “activos intangibles” y el “capital intelectual”, llegando así a lo que se
conoce como “Gestión del Conocimiento” (Knowledge Management). De este modo, además de la
clásica gestión de los documentos en la organización, se ha pasado a la implementación de
herramientas que mejoran la gestión y generación de conocimiento nuevo, como los sistemas de
Workflow o Data Warehouse.

Desde una primera etapa donde se definían simplemente como sistemas de gestión de la
documentación, se ha llegado a una concepción global y corporativa de la gestión de la información.
Estos sistemas deben llegar, como señala M.A. Esteban Navarro a “administrar y controlar de modo
conjunto, mediante el auxilio de la informática, todo tipo de datos, documentos, conocimiento y
habilidades existentes en la organización en la que se aplica 1”.

Los objetivos de estos sistemas deben adecuarse a los de la organización donde se encuentran,
aunque hay una serie de elementos básicos que serían aplicables a todos los entornos. Por lo tanto, lo
que pretende un Sistema Integral de Gestión de la Información es:

 Facilitar a las personas que trabajan en la organización el trabajo con los documentos. Los
documentos deben poder encontrarse rápidamente y sus usuarios deben saber cuáles hay que
guardar, dónde y cómo. Deben poder gestionar los diferentes formatos de documento con los
que la organización trabaje. Tienen que cubrir todo el ciclo vital de los documentos.

 Permitir que la información se comparta y se aproveche como un recurso colectivo.

 Conservar la memoria de la organización más allá de los individuos que trabajan en ella y
poder aprovechar el valor de los contenidos en los que queda plasmada la experiencia, evitando
empezar de cero sobre aspectos en los que ya hay experiencia acumulada.

1
ESTEBAN NAVARRO, Miguel Ángel. La técnica de gestión integral de la información: nuevas tendencias de representación y la
organización del conocimiento en los sistemas de información en las organizaciones. Organización del Conocimiento en Sistemas de
Información y Documentación, v. 2, 1997, pp. 285-209.
5


 Evolucionar al mismo tiempo que la organización, con un carácter abierto y dinámico.

Estos objetivos establecen el marco de los distintos subsistemas que deberán integrarse. Cada
herramienta responderá a una necesidad en la gestión de la información, aunque el Sistema Integral de
Gestión de la Información se verá determinado por el funcionamiento de todas en su conjunto.

Veamos los diferentes subsistemas que puede implementar un Sistema Integral de Gestión de
la Información:

 Todos los procesos relacionados con la elaboración, archivo, importación, recuperación,
agrupación, lectura y referenciación de documentos de texto se llevarán a cabo mediante la
incorporación de un subsistema de Base de datos documental, que integre un sistema de
gestión del Correo Electrónico y otras herramientas de Ofimática e Internet.

 La recuperación de documentos puede hacer necesaria la implementación de un
subsistema de Thesaurus. Según el caso, este subsistema puede indexar y referenciar
documentos externos (CD-ROM, Internet, etc.)

 Para la gestión de documentos en formato de imagen (escaneados) será necesario un
subsistema de Imágenes, enlazado normalmente con un subsistema de Base de datos
Relacional, aunque estas imágenes también se podrán enlazar con el subsistema de Base de
Datos Documental. (Sin embargo, es importante destacar aquí que, en la actualidad, el
origen de los documentos manejados por las organizaciones es, en gran medida, digital.)

 El paso de imágenes de texto a documentos textuales, mediante el escáner para obtener
datos de imágenes, se realizará mediante un subsistema de Reconocimiento Óptico de
Caracteres (OCR).

 También es posible que sea preciso enviar periódicamente a determinados usuarios una
serie de documentos que se correspondan con su perfil de interés, a medida que éstos vayan
llegando al sistema, para ello podría implementarse un subsistema de Difusión Selectiva
de la Información (DSI).

 Los flujos de información (documentos) y los procesos en el seno de la organización deben
ser racionales, estar coordinados y deben poder monitorizarse. Para lograr este objetivo se
puede implantar una solución de Workflow en la organización.

 El trabajo colaborativo entre las personas que trabajan en la organización se puede
gestionar mediante herramientas de tipo Groupware, como pueden ser los Entornos
colaborativos.

6


1.1. Los subsistemas de un Sistema Integral de Gestión de la Información

1.1.1. La base de datos documental

Cuando se trata de un sistema que gestiona grandes cantidades de documentos en formato
texto, hipertexto o hipermedia, es preciso integrar un Sistema de Gestión Documental. Estos sistemas
deben soportar la importación, archivo, control de versiones, replicación, clasificación, indexación,
búsqueda, visualización, edición, distribución y administración de los documentos.

A) La importación de los documentos

La base de datos documental debe permitir tanto importaciones masivas de documentos (carga
inicial, migración desde otro sistema, etc.) como las propias de las gestiones diarias del sistema. Las
fuentes desde las que se cargarán estos documentos pueden ser muy variadas: entradas de fax, correo
electrónico, correspondencia ordinaria, documentos internos, publicaciones interesantes para la
organización, discos ópticos, Internet... Los documentos que llegan al sistema en formato papel serán
escaneados para de este modo obtener su imagen, que podrá ser enlazada a un documento “principal”
de texto o bien pasada por un OCR para cargar la información obtenida como un documento de texto.

B) La creación de documentos

El subsistema de base de datos documental debe proveer herramientas que ayuden a la
creación de documentos, ya sea creándolos desde cero mediante la integración con herramientas
ofimáticas para tal fin, editando los ya existentes o enlazando otros objetos a los mismos, entre otras
posibilidades.

C) La búsqueda de documentos en la base de datos

El subsistema debe permitir buscar por varios procedimientos:

1. Por texto completo (full text): combinaciones de palabras expresadas mediante operadores
booleanos, búsquedas por proximidad, frase completa, etc.
2. Por hiperenlaces: se refiere a poder saltar de un documento a otro de la base de datos por
medio de enlaces predefinidos e indicados en los mismos. Se trataría de una búsqueda
“manual”, ya que es el propio usuario quien “navega” (browsing) por el contenido de los
documentos y a través de las conexiones semánticas que ofrecen los enlaces. Estos
hiperenlaces los podrá definir el usuario explícitamente en el momento de la referenciación o
el propio sistema implícitamente. Para esto último el sistema deberá aplicar un criterio
homogéneo para la asignación de conceptos a los diferentes documentos.
3. Por descriptores de documentos: son palabras o grupos de palabras que representan el
contenido de un documento. Estos términos se extraen de lenguajes documentales, tales

7


como listas de autoridades, encabezamientos de materias, o tesauros, permitiendo la
recuperación de documentos a partir de palabras que no están presentes en el documento
original. Se pueden combinar mediante operadores booleanos.
4. Por categorías: los documentos se clasifican por los campos que contienen, y en función de
éstos se ordenan de forma jerárquica (arborescente).
5. Debería ser posible buscar también por medio del Thesaurus del sistema, ya sea mediante los
términos elegidos o mediante sinónimos u otros relacionados en la estructura del mismo.

D) La “referenciación” de documentos

Un aspecto importante es el de la definición de los campos de los documentos que van a ser
referenciados y de las diferentes agrupaciones de documentos que se van a constituir. Esta actividad
debe facilitar posteriormente las búsquedas que se realicen en la base de datos. De este modo, el
subsistema debe permitir definir campos dentro de los documentos, listas de descriptores o bien
enlaces a otros documentos, referenciándolos siempre con un criterio común y evitando la repetición
de esfuerzos.

Aquí es importante destacar el concepto de hipertexto, fundamental en los sistemas de
información modernos, o de hipermedia, en el caso de que los documentos contengan imágenes,
vídeo, sonido u otros objetos diferentes del texto. El sistema de gestión integral de la información debe
permitir “navegar” por los documentos que contiene (browsing).

Los conceptos contenidos en el documento se constituyen en enlaces a los que el usuario
puede acceder en sus búsquedas y que le llevarán a otros documentos relacionados a nivel de
contenido. Esto nos acerca también a la idea de hipertexto a dos niveles2: los documentos se
representan desde el punto de vista de su contenido y al mismo tiempo éste se abstrae en una red
conceptual. De ahí los dos niveles, por un lado la red semántica estructurada en descriptores que
definen el contenido de los documentos y, por otro, los subconjuntos de éstos últimos que tienen en
común esos descriptores. Así, el usuario puede realizar browsing en un documento cualquiera de la
base de datos documental haciendo clic en los enlaces definidos en el mismo y que son representativos
del contenido del mismo. Esto le llevará a otros documentos que también contienen ese descriptor, por
lo que están semánticamente relacionados.

1.1.2. El correo electrónico

El subsistema de correo electrónico es un vehículo de comunicación de decisiones de trabajo,
negociaciones con clientes o encargos de trabajo, cuya implantación ha tenido un éxito sin precedentes
en el seno de las organizaciones. El subsistema debe permitir que la información intercambiada
mediante correo electrónico o mensajería interna no se pierda y sea accesible para el conjunto de la
organización.

2
PASTOR, J. A. y SAORÍN, T., “La escritura hipermedia” [en línea]. En: Cuadernos de Documentación Multimedia, números 6-7, 1997-
98, pp. 221-238. Puede consultarse en red en: <http://www.ucm.es/info/multidoc/multidoc/revista/cuad6-7/saorin.htm> [Consulta: 24
mayo 2005]
8


Entendiendo la globalidad y el carácter corporativo de los Sistemas Integrales de Gestión de la
Información, es preciso que el subsistema de correo electrónico esté integrado con el de gestión
documental. Debería permitir añadir a los mensajes información obtenida del sistema de gestión
documental o consultar el mismo sin necesidad de abandonar el correo.

Es más, el subsistema de gestión documental debería ser capaz de comunicarse con los
usuarios del sistema por medio del correo electrónico, difundiendo la información del mismo a
aquellos que puedan necesitarla o bien enviando alertas para informar de la presencia de un
documento nuevo de interés.

1.1.3. El subsistema de base de datos relacional

Hemos de tener en cuenta que una base de datos relacional es un subsistema de propósito
general, y que proporciona soporte a otros subsistemas para el manejo de datos, aportando las
funcionalidades necesarias para manejarlos, preservarlos y recuperarlos. Éste subsistema funciona
como un servidor, proporcionando los datos a los usuarios que se conectan a él. Existen numerosas
soluciones de base de datos, tanto libres (MySql, PostgreSQL, etc.) como comerciales (Oracle, SQL
Server, etc.).

El subsistema de base de datos relacional sirve de soporte a la referenciación que antes se
mencionaba, concretamente en el caso del subsistema de imágenes y en el caso de trabajar con
documentos en formato de audio o vídeo. La base de datos contendrá el código que haga referencia a
la imagen en cuestión y el resto de datos que sirvan para referenciarla unívocamente y poder así
localizarla cuando sea preciso.

Es preciso apuntar aquí que la base de datos relacional no funciona de forma “aislada” a la
base documental, sino que puede contener registros haciendo referencia a determinados documentos,
ya sean texto plano, hipertexto o hipermedia.

Junto a esta funcionalidad, la base de datos relacional podrá contener datos vitales para el
sistema: inventarios, usuarios y roles, control de accesos, información de configuración, etc. Estos
datos se distribuirían entre diversos servidores.

Cabe destacar aquí un tipo especial de base de datos orientada a la toma de decisiones en la
organización. Se trata de los Data Warehouse. Si bien tienen similitudes con las relacionales, éstas se
pueden considerar más bien bases de datos multidimensionales, ya que su estructura depende de una
serie de dimensiones predefinidas en la BD (geografía, tiempo, productos, etc.).

Se nutre de los datos extraídos y filtrados de otros subsistemas, transformándolos,
integrándolos, sumariándolos y almacenándolos en un repositorio, de manera que se pueda acceder a
ellos cuando sea preciso. La información de interés se distribuye por medio de diversas herramientas
de consulta y de creación de informes, orientadas a la toma de decisiones. Permite también el empleo
9


de técnicas avanzadas de extracción de información como el Data Mining.3

1.1.4. El subsistema de thesaurus

Este subsistema puede encontrarse integrado en la base de datos documental o bien funcionar
como una aplicación aparte. El thesaurus dota al sistema de funciones que mejoran sustancialmente las
búsquedas. En la actualidad destacan por sus potencialidades hipertextuales: las relaciones entre
términos se representan con enlaces. El tesauro sirve como base a la navegación hipertextual de la
base documental, ya que especifica las relaciones entre los términos representativos del contenido de
los documentos.

El hipertexto a dos niveles, del que se hablaba anteriormente, depende de la existencia de una
red conceptual subyacente, en este caso el tesauro cumple esa función. Esto finalmente conseguirá que
el lenguaje del sistema (thesaurus) haga de “guía” del usuario en las búsquedas por navegación en los
documentos (browsing), ofreciéndole documentos relacionados con la materia que buscaba, pero que
en un principio no se hallaban en su formulación de búsqueda. Además de buscar por palabras
concretas contenidas en los textos mediante los clásicos operadores booleanos, el subsistema de
thesaurus encuentra sinónimos o términos relacionados, aumentando así en gran medida el número de
documentos encontrados.

La combinación de estas funcionalidades puede servir para elaborar perfiles de búsqueda,
bastante más avanzados que las búsquedas normales, y que pueden ser almacenados y llamados en
cualquier momento. A la hora de determinar qué descriptores van a caracterizar un determinado
documento, el thesaurus también representa una ventaja, ya que puede sustituir a la determinación de
descriptores clásica. El thesaurus debería integrarse en el sistema de forma transparente al usuario,
teniendo acceso a los documentos de la base de datos documental, relacional y el correo electrónico.

1.1.5. El subsistema de imágenes y el OCR

Responde a la necesidad de tratar los documentos que no están sobre soporte de fichero
informático de texto, ni de audio o vídeo, esto es, documentos en formato papel, transparencias,
fotografías, diapositivas, planos, faxes, imágenes de objetos tridimensionales, etc. El objetivo de este
subsistema es capturar, editar, visualizar e imprimir estas imágenes y permitir que puedan ser
almacenadas y gestionadas en red. Como es obvio, se encontrará integrado con un subsistema de base
de datos documental o relacional.

La incorporación de imágenes al sistema puede realizarse a través de una carga masiva inicial,
una migración desde otro sistema o bien con las entradas de documentos diarias. A partir de los
documentos físicos en diversos soportes, se crean unos ficheros de imágenes. Para ello se emplea
generalmente el escáner, que dispone de una aplicación informática ligada, a su vez subordinada a la
aplicación principal de imágenes del sistema. Estas imágenes posteriormente deben poder ser
buscadas, visualizadas en pantalla o bien imprimidas. Se suele distinguir entre “digitalización gráfica”
3
J.M. Franco, EDS-Institut Prometheus, "El Data Warehouse. El Data Mining", Ediciones Gestión 2000, 1997.
10


y “digitalización del texto”, según sea el propósito final de dicha digitalización del documento.

El sistema de Reconocimiento Óptico de Caracteres (OCR) permite reconocer texto y datos
que se encuentran en los ficheros informáticos de imágenes. Pueden leer tanto el texto completo
contenido en un fichero de imagen como determinadas zonas del mismo. La primera funcionalidad
tiene por objetivo el volcado del texto en documentos que pasarán a formar parte de la base de datos
documental. La segunda, enviar los datos extraídos a la base de datos relacional, siendo lo más común
en el caso de digitalizar lotes de formularios o documentos con un formato fijo. Este subsistema
acostumbra a integrarse con el de gestión documental.

Sin embargo, volvemos a reiterar aquí que el uso de herramientas ofimáticas está desplazando
a la tradicional gestión de documentos en papel. Los documentos se generan en formato digital y el
sistema de gestión integral de la información trabaja con ellos directamente. Aspectos como la
compatibilidad y el uso de estándares son importantes aquí, ya que el intercambio de documentos con
las aplicaciones que los generan debe poder hacerse sin conversiones previas.

1.1.6. El subsistema de Workflow

En estrecha relación con las aplicaciones de trabajo en grupo (groupware), propone el
establecimiento de una serie de reglas y pautas en las que se especifican las tareas y pasos que se han
de seguir para la consecución de un proceso de negocio. En estos procesos se suele generar
información abundante, ahí es donde entra en juego el sistema de gestión integral de la información,
para capturar ese conocimiento, almacenarlo y procesarlo para generar conocimiento nuevo.

Decimos que pertenece a la aplicaciones de groupware, porque va destinado a facilitar el
trabajo en grupo, dándole una estructura racional. El workflow, al mismo tiempo, permite coordinar y
automatizar los procesos de negocio, balanceando cargas de trabajo, gestionando los plazos de entrega
o bien pasando tareas de un empleado a otro según sea conveniente. No sólo eso, el workflow también
está dotado de un sistema de monitorización de las tareas realizadas y del estado de los procesos, lo
que permitirá futuras modificaciones e incluso el completo rediseño del proceso de negocio para
adaptarlo a las necesidades del mercado.

1.1.7. El subsistema de Groupware

Básicamente se puede definir al groupware como el software que permite trabajar de forma
cooperativa a un equipo u organización a través del correo electrónico, bases de datos compartidas,
gestión de flujos de trabajo, etc. Por lo tanto, se define como «herramientas con las que las personas
puedan trabajar juntas en un marco colectivo de comunicación, colaboración y coordinación»4. Si la
comunicación entre los miembros del equipo es en tiempo real, pueden emplearse medios que faciliten
la votación o la generación de nuevas ideas, siempre y cuando puedan reunirse en el mismo lugar; de
no ser así, se puede recurrir al teléfono, la videoconferencia o la mensajería instantánea. De tratarse de
4
SAGREDO, ÁNGEL (1996): «El trabajo en grupo en la Internet», Actas del I Congreso Nacional de Usuarios de Internet. Madrid,
Asociación de Usuarios de Internet, 1996, 213-239.
11


una comunicación asíncrona, entrará en juego el correo electrónico, fax, buzón de voz, los grupos de
discusión o los entornos colaborativos. La variedad de aplicaciones de tipo groupware es enorme, sin
embargo puede establecerse una taxonomía de las mismas:

 Herramientas de comunicaciones: incluyen la mensajería, el correo electrónico, el fax, la
telefonía, los foros de discusión, etc.

 Herramientas de coordinación: facilita que los componentes de un grupo de trabajo se pongan
de acuerdo y trabajen en una misma dirección. Pueden incluirse aquí las Agendas de grupo o
las de Seguimiento de una actividad. Si el tiempo es vital para la tarea, aquí entran en juego
los Organizadores personales, las Agendas de red o incluso los Sistemas de gestión de
proyectos.

 Herramientas de workflow: ya mencionadas anteriormente, tratan de conseguir la
coordinación de usuarios, tareas e información para el logro de la meta de la organización.
Entre otros ejemplos aquí cabe citar: Automatización y control de procesos, Rutas dinámicas
de documentos, firmas digitales, etc.

 Repositorios de información: permiten la distribución de información de y para los usuarios.
Los usuarios pueden publicarla o recibirla, esto siempre mediante la acción directa del mismo.
Ejemplos: bases de datos de documentos, control de versiones, servidores web en Internet, etc.

 Entornos colaborativos: permiten que personas que se encuentran ubicadas en diferentes
localizaciones puedan trabajar juntas en tiempo real. Estos entornos permite trabajar a un
grupo de personas sobre los mismos documentos al mismo tiempo, y pueden integrar
herramientas como el control de versiones, agendas de red, videoconferencia, pizarras
colaborativas, compartición de pantalla, etc.

1.1.8. El subsistema de DSI

La Difusión Selectiva de la Información consiste en un tratamiento y explotación periódica de
las informaciones documentales más recientes, memorizadas y difundidas periódicamente en respuesta
a los perfiles documentales definidos por los usuarios. Estos perfiles se construyen en base a los
términos o palabras clave que constituyen la “necesidad documental” del usuario. Una vez definido el
perfil, el usuario recibe periódicamente la información ajustada a su demanda.

Los sistemas actuales, disponen de dos opciones relativas a los sistemas DSI:

 El cliente consulta directamente información de algún tema concreto en base a un listado. Es
el método tipo “PULL”, ya que es el usuario el que decide acceder a los contenidos cuando él
lo desea.

 El cliente se suscribe a los perfiles de información que le interesan y recibe periódicamente en
12


su correo electrónico boletines con las novedades de la base de datos documental. Es el
método tipo “PUSH”, ya que el usuario recibe periódicamente la información de forma
continuada.

En todo caso, el sistema debe permitir que el usuario sugiera nuevos perfiles de DSI en
función de sus intereses cambiantes.

Figura 1. Esquema funcional del sistema integral de gestión de la información.

2. El lenguaje XML y sus especificaciones

2.1. Orígenes del lenguaje XML

Como se verá posteriormente, XML trata el contenido de un documento digital como una
estructura arbórea de elementos. Este enfoque tiene su origen en las técnicas empleadas por los
primeros procesadores de texto.

En los años 60 se escribía en primer lugar el texto digital y luego se aplicaba el formato
deseado. Por lo general este texto terminaba siendo impreso y se asociaba la descripción referente a la
presentación del documento. Algunas de esas “anotaciones” siguen vigentes hoy en día, como en el
caso del formato RTF (Rich Text Format). Poco después aparecería el marcado de formato, que
consistía en marcar directamente el texto mediante una serie de etiquetas.

13


La aparición de los sistemas WYSIWYG (what you see is what you get) trajo consigo el
desarrollo de lenguajes de etiquetas más complejos. Mientras tanto, los procesadores de texto
evolucionaron cualitativamente hasta llegar a los actuales: Pagemaker, MsWord, WordPerfect,
StarOffice, ect.

Esto llevó a una proliferación de formatos y, con ellos, diferentes formas de representar la
información. Así, a finales de los 60, IBM creó el GML (General Markup Language), que
posteriormente se convertiría en SGML (Standard Generalized Markup Language), que adquirió el
estatus de norma ISO en 1986 (ISO 8879).

SGML permite especificar la estructura de un documento mediante una definición formal
llamada DTD (Document Type Definition). La DTD especifica qué elementos constituyen un
documento, como por ejemplo secciones, subsecciones, párrafos, títulos, etc.

El precedente de Internet, ARPANET, apareció a principios de los 70. Uno de los principios
en que se basaba era el hipertexto, esto es, la organización no secuencial de los documentos, lo que
supone criterios de asociación de conceptos como principio organizador. Los dos elementos clave en
este sistema son el enlace y el nodo. Un nodo en Internet es un documento digital relacionado con
otros por medio de enlaces. La mayor parte de los nodos o documentos digitales que se encuentran en
Internet están codificados en HTML, que no es ni más ni menos que una DTD de SGML que
especifica qué “elementos” componen un documento digital publicado en la web.

El World Wide Web Consortium (W3C) ha centralizado desde 1996 el desarrollo de HTML.
Esta misma entidad ha sido la que ha propuesto y desarrollado el formato XML, fundamentalmente
por tres motivos:

 Se buscaba una norma para intercambiar información estructurada entre dos puntos de la red,
con independencia de la plataforma o la aplicación. Pese a que SGML era el candidato ideal,
su tamaño y complejidad hicieron necesaria la creación de otro estándar.
 Se quería publicar documentos digitales en la WWW a gran escala.
 HTML sólo sirve para describir el formato de los documentos y no su contenido.

Para ello se creó un subconjunto de SGML que es lo que ha dado lugar a la actual
especificación XML.

Lo más interesante de esta evolución es constatar cómo en un momento determinado se
produjo una separación entre presentación y contenido. En estos momentos la estructuración del
contenido de la web concentra el interés y los esfuerzos de usuarios y desarrolladores. De ahí el éxito
actual del formato XML, ya que es un medio para estructurar el contenido de los documentos digitales.

2.2. Características del lenguaje XML

14


Por medio de XML es posible definir los documentos con el grado de exhaustividad que se
requiera. Una de las características principales de un documento XML es que permite organizar
jerárquicamente todas las unidades informativas de un documento mediante estructuras lógicas. En la
terminología de XML, estas unidades se denominan entidades (entities) y no son sino datos
(contenidos) dispuestos para ser interpretados por la máquina. XML posee mecanismos que permiten
revisar la estructura lógica de los documentos con el propósito de que las máquinas que se
interconecten entre sí para operar con estos datos lo puedan hacer de manera fluida. El acceso a los
documentos XML se realiza mediante un procesador que revisa la estructura de los documentos e
interpreta los contenidos de acuerdo con una gramática.

La gramática de los lenguajes XML, es decir, la estructura y elementos permitidos en los
documentos XML, se define mediante:

 DTD (Document Type Definition): Documento ASCII plano que especifica tanto los
elementos que forman un tipo de documento dado, como las relaciones que se dan entre ellos.

 XSD (XML Schema Definition): Mejoran los DTD’s porque están escritos en XML y
permiten nuevas características:

- Definir tipos de datos.
- Utilizar espacios de nombre.
- Definir intervalos de valores para los atributos y elementos.
- Características Orientadas a Objetos.

El éxito de XML ha propiciado la demanda de nuevas funcionalidades, que se abordan
definiendo extensiones adicionales para:

 Estructurar documentos (XML Schema)
 Enlaces y direccionamiento (Xpath, Xlink, Xpointer)
 Transformación y presentación (XSL, CSS2)
 Consultas (Xquery)
 Programación (DOM, SAX)
 Otros (Namespaces, Xinclude, Xbase...)

<?xml version=“1.0”?>
<contacts>
<contact>
<name>
<first>John</first>
<last>Belcher</last>
</name>

Figura 2. Código de ejemplo XML.

15


2.3. Algunas especificaciones derivadas de XML: RDF, OWL Y
SKOS-CORE

Aunque XML es un lenguaje válido para describir con exhaustividad el contenido de un
documento, tiene serias limitaciones en contextos donde se precisa que la semántica de los datos con
que se trabaja sea explícita. Es decir, cuando “codificamos” un documento en XML, no estamos
diciendo nada sobre el significado de esas estructuras que estamos creando. Pese a ser un gran
lenguaje para el intercambio de datos en la web y entre aplicaciones, no permite expresar la semántica
de esos datos. Del mismo modo, usando XML, las propiedades de esos datos (y de los metadatos) no
pueden ser inferidas de ninguna manera.

Como solución a esto surgen otros lenguajes que, apoyándose en la sintaxis de XML, sí están
dotados de capacidades para definir la semántica y las propiedades de los datos que manejan.

2.3.1. RDF

En 1999 se publicó la primera versión de RDF (Resource Description Framework), un
lenguaje para la definición de ontologías y metadatos en la web. El objetivo de RDF fue solucionar el
acceso y gestión de contenidos en la web mediante un lenguaje de metacontenidos. RDF es hoy el
estándar más popular y extendido en la comunidad de la web semántica.

Este lenguaje es importante para la descripción de los objetos y los tipos de objetos que se
encuentran en la red (a los que se suele llamar “recursos”). RDF se basa en la idea de que podemos
identificar los elementos a partir de URIs (Uniform Resource Identification) describiendo los recursos
en términos de propiedades simples o pares propiedad-valor. Esto permite representar las
declaraciones simples sobre recursos como un grafo de nodos y arcos que representan los recursos, sus
propiedades y sus valores. Por tanto, el elemento de construcción básica en RDF es el “triple” o
sentencia, que consiste en dos nodos (sujeto y objeto) unidos por un arco (predicado), donde los nodos
representan recursos, y los arcos propiedades.

Con RDF Schema (RDFS) se pueden definir jerarquías de clases de recursos, especificando las
propiedades y relaciones que se admiten entre ellas. En RDF las clases, relaciones, y las propias
sentencias son también recursos, y por lo tanto se pueden examinar y recorrer como parte del grafo, o
incluso asertar sentencias sobre ellas. Se han definido diferentes formas sintácticas para la formulación
escrita de RDF, pero quizás la más extendida es la basada en XML (serialización). Es por ello que
RDF se presenta a menudo como una extensión de XML.

Pese a la potencia de RDF para describir recursos, hay que tener en cuenta que también tiene
algunas debilidades:

16


 Dos documentos pueden usar definiciones diferentes del mismo concepto y no se puede
decidir que son equivalentes.
 Tiene problemas de ambigüedad en la definición de sus elementos.
 No se permite el manejo/ definición de restricciones de integridad.

<?xml version="1.0"?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:contact="http://www.w3.org/2000/10/swap/pim/contact#">
<contact:Person rdf:about="http://www.w3.org/People/EM/contact#em">
<contact:fullName>Eric Miller</contact:fullName>
<contact:mailbox rdf:resource="mailto:em@w3.org"/>
<contact:personalTitle>Dr.</contact:personalTitle>
</contact:Person>
</rdf:RDF>

Figura 3. Código de ejemplo RDF.

2.3.2. OWL

Al lenguaje RDF le siguieron OIL (Ontology Inference Language), desarrollado en Europa, y
DAML (DARPA Agent Markup Language), en EE.UU., dos lenguajes muy similares que de hecho se
terminaron fundiendo en DAML+OIL. A partir de esta unión se definió el lenguaje OWL (Web
Ontology Language), con el propósito de reunir todas las ventajas de DAML+OIL y resolver los
problemas de este lenguaje.

OWL se puede formular en RDF, por lo que se suele considerar una extensión de éste. OWL
incluye toda la capacidad expresiva de RDF(S) y la extiende con la posibilidad de utilizar expresiones
lógicas. OWL permite, por ejemplo, definir clases mediante condiciones sobre sus miembros (p.e. la
clase de los cuadros creados por pintores españoles), mediante combinación booleana de clases (Tinto
and Rioja and not Crianza en una ontología de vinos), o por enumeración de las instancias que
pertenecen a la clase (i.e. por extensión). Además OWL permite atribuir ciertas propiedades a las
relaciones, como cardinalidad, simetría, transitividad, o relaciones inversas.

El lenguaje OWL permite todas las operaciones que son propias de una ontología, como crear
descripciones sobre clases de individuos, con restricciones y relaciones con otras descripciones. Se
divide en tres sublenguajes: OWL-Lite, OWL-DL y OWL-Full, cada uno de los cuales proporciona un
conjunto definido sobre el que trabajar, siendo el más sencillo OWL-Lite y el más completo OWL-
Full.

Con todo esto y pese a ser válido como lenguaje de elaboración de ontologías, hay que
recordar que OWL también tiene algunas desventajas:

 Debe existir un número limitado de constructores / axiomas para que el proceso de inferencia
sea decidible.

17


 No es muy natural.
 No permite definir/ chequear restricciones de integridad.
 Complejidad.

<owl:Class rdf:ID="QualityRating">
<owl:oneOf rdf:parseType="Collection">
<QualityRating rdf:ID="qualityRating_Excellent"/>
<QualityRating rdf:ID="qualityRating_Good"/>
<QualityRating rdf:ID="qualityRating_Average"/>
<QualityRating rdf:ID="qualityRating_Poor"/>
</owl:oneOf>
</owl:Class>

Figura 4. Código de ejemplo OWL.

2.3.3. SKOS-CORE

Se trata de la propuesta más concreta que hay hoy en dia para la elaboración de tesauros en el
entorno de la web semántica. SKOS-Core es un schema RDF para la representación de tesauros y
sistemas similares de organización de conocimiento. Esta aproximación es la propuesta por el W3C.
El objetivo fundamental de SKOS-Core es proporcionar un modelo para la migración de sistemas de
organización de conocimiento al entorno de la web semántica. Además sirve para construir esquemas
de conceptos simples para su utilización en la Web.

SKOS-Core está pensado como un complemento a OWL, ya que proporciona un marco básico
para la construcción de esquemas de conceptos pero sin la definición semántica tan estricta que exige
la utilización de OWL. Se trata en cierta medida una simplificación mayor de la que encontramos ya
en OWL-Lite, lo cual permite acceder a un mayor número de personas a este tipo de tecnologías para
la representación del conocimiento.

La idea base de este schema RDF reside en su capacidad para permitir la definición de
conceptos y esquemas de conceptos. Un concepto se define como una unidad de pensamiento que
puede ser definida o descrita. A su vez, un esquema de conceptos no es otra cosa que una colección de
conceptos. Un concepto puede tener una serie de etiquetas asociadas, donde cada etiqueta es una
palabra, frase o símbolo que suele utilizarse para referirse a ese concepto.

18


<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:skos="http://www.w3.org/2004/02/skos/core#"
xmlns:dc="http://purl.org/dc/elements/1.1/">
<skos:ConceptScheme rdf:about="http:/spines.org/thesaurus">
<dc:title>SPINES</dc:title>
<dc:description>Tesauro de política científica</dc:description>
<dc:creator>UNESCO</dc:creator>
</skos:ConceptScheme>
</rdf:RDF>

Figura 5. Código de ejemplo SKOS-Core.

3. Aplicación del XML en un Sistema de Información

3.1. Ventajas de la utilización de XML en un Sistema Integral de
Gestión de la Información

Con lo visto hasta ahora, se ha elaborado un diseño funcional y operativo de un Sistema
Integral de Gestión de la Información. Se distinguieron en él todos los subsistemas de los que depende
la entrada, el proceso y la salida de información, junto con las relaciones entre los diferentes módulos
que lo componen. Como segundo paso, se ha expuesto la tecnología XML y las diferentes
especificaciones, que vienen a cubrir diferentes necesidades de descripción de recursos web (RDF),
ontologías (OWL) y tesauros (SKOS-Core).

A partir de aquí es necesario plantearse la utilidad de implementar estas tecnologías al diseño
de los Sistemas de Información, esto es, determinar en qué grado mejorarán la descripción, la gestión
y el intercambio de información. La decisión de implementar una tecnología u otra no es una decisión
que deba tomarse a la ligera. Ha de seleccionarse un estándar que cubra las necesidades arriba
descritas y al mismo tiempo disponga de aceptación general, garantizándose que no quede obsoleto en
un breve espacio de tiempo.

Como se ha dicho anteriormente, la principal virtud de XML se encuentra en su capacidad para
definir el contenido de los documentos de forma jerárquica, estructurando sus unidades informativas
de forma lógica. Dicho de otra forma, permite “estructurar” la información contenida en los
documentos. Esta cualidad, aplicada a los documentos de nuestro sistema, nos permitirá:

19


 Crear una base de datos de componentes de documentos. Ya que XML es una notación que
preserva las abstracciones, los datos de los documentos XML pueden tratarse como el resto
de datos, esto es, automatizarse, procesarse, reutilizarse, clasificarse y recuperarse.

 Salidas múltiples. Los datos en un documento XML se almacenan independientemente del
medio utilizado. Esto permite que las organizaciones documentales entreguen su
información automáticamente desde un sólo depósito a la Web, por medio de un disco
óptico, para su impresión o cualquier otro medio. Por lo tanto, XML facilita el intercambio
de información por tratarse de un estándar donde la presentación es independiente de los
datos.

 Reutilización de la información. En ocasiones las organizaciones vuelven a crear
información ya existente en lugar de reutilizarla. Esta gestión ineficaz provoca
imprecisiones, versiones erróneas, fallos de entrega y, por supuesto, un aumento en los
costes. Estos costes superfluos pueden evitarse construyendo un depósito de documentos
estructurado, que permitirá el mayor número posible de reutilizaciones de la información ya
existente. Esta base de datos permitirá mantener la integridad de los datos que contiene
independientemente del momento, lugar o frecuencia con que se utilicen.

 Automatización. Si se representan los documentos en XML y se almacenan en un depósito,
se pueden obtener mejoras mediante una automatización intensiva que genera el mismo tipo
de ventajas que si se implantaran bases de datos relacionales para reemplazar registros
introducidos de forma manual.

3.2. Infraestructura

El hardware, junto con el software de base, constituye la infraestructura de trabajo de un
sistema integral de gestión de la información. Está integrada tanto por los computadores que utilizan
los usuarios (clientes del sistema) como por los que centralizan las bases de datos documentales /
relacionales (servidores); además de la red que interconecta todas las máquinas y el sistema operativo
sobre el que funciona el software de gestión de la información.

3.3. Los subsistemas de base de datos documental y relacional

Una vez enumeradas las ventajas de la aplicación de XML y sus especificaciones a un sistema de
información, podemos estudiar su aplicación en la base de datos documental y en la relacional. En este
punto será de vital importancia tratar aspectos como:

 La caracterización de los documentos en el momento de su entrada (carga) en el sistema,
20


teniendo en cuenta el formato en que llegan (si se precisa la conversión a otro) y la
correspondiente estructuración de la información contenida en ellos.
 El almacenamiento en la base de datos, tanto los clásicos registros de la base de datos
relacional como el repositorio de componentes XML que formará nuestra base de datos
documental.
 La recuperación de información, acercándonos a las diferentes opciones en lo relativo a
lenguajes de consulta y la interfaz de usuario
 La conectividad entre la base de datos documental y la relacional, que se efectuará también a
través de XML y será clave en el momento de la recuperación de información y para el
subsistema de publicación de contenidos y DSI.

3.3.1. La entrada o carga de documentos

Los documentos llegan al sistema por muchas vías: el clásico OCR integrado en el subsistema
de imágenes, documentos electrónicos recibidos desde la web o generados en la misma organización,
procedentes de discos ópticos u otros dispositivos de almacenamiento, etc. El problema no se
encuentra en las múltiples vías de llegada de documentos, sino en la diversidad de formatos, que
obliga a una conversión de éstos al formato propio de carga en el sistema, de manera que puedan
aplicarse a los mismos las modificaciones pertinentes.

Se dice que, en una base de datos relacional, sólo se encuentran datos abstractos, es decir,
información estructurada. Sin embargo, en el archivo informático de un procesador de texto, por
ejemplo, se encontrará la información de estilo mezclada con la información real -el contenido de los
datos- del documento.

Por tanto, se puede decir que los documentos tienen estructura, aunque la forma en que están
almacenados “oculta” los datos abstractos que indican el aspecto que deberían tener en su
presentación.

Dicho de otro modo, las bases de datos relacionales contienen abstracciones y los archivos
documentales contienen, generalmente, reproducciones. La idea aquí, por tanto, es almacenar los
documentos de manera que su estructura natural y los datos que contienen puedan distinguirse
siempre, gestionar los documentos como si se tratara de datos.

Evidentemente, el proceso de “etiquetado” XML es una tarea que se debe realizar de forma
automática, siendo la aplicación la que reconozca los campos de los documentos que previamente se
le han especificado.

Está claro que esto supone un problema de formalización de los documentos cargados en el
sistema: no todos lo documentos tendrán los mismos campos (capítulo, título, sección, subsección,
etc.), por lo que en ocasiones será precisa la intervención manual. De todos modos, hasta en los casos
donde sea más difícil la estructuración por XML, siempre se podrán efectuar búsquedas a texto
completo.
21


3.3.2. El almacenamiento

En el actual panorama de los sistemas de gestión documental, se tiende hacia la orientación a
objetos como paradigma de almacenamiento 5, considerando que un documento se compone de objetos
de información (fotos, capítulos, secciones, etc.), que además incluye información sobre cómo estos
objetos deben ensamblarse.

En el momento de la presentación de resultados de una búsqueda, debe poder mostrarse a los
usuarios documentos virtuales diferentes, adaptando el ensamblaje de las partes a las características de
cada usuario.

En definitiva, se trataría de evolucionar desde el clásico almacenamiento estático de los
documentos hacia un almacenamiento que permita su composición en el mismo momento en que van
a ser utilizados por los usuarios6.

Figura 6. Evolución en la estructura de los documentos electrónicos.

La propuesta de este trabajo consiste en la construcción de una base de datos de componentes
de documentos XML, de manera que cada documento individual contenido en la misma se encuentre
estructurado jerárquicamente a partir de los campos predefinidos en él. Un componente, por tanto, es
un fragmento de información que puede utilizarse de forma independiente, como un párrafo, un
capítulo, un procedimiento con instrucciones, una nota de aviso, un número de parte, una cantidad de
un pedido, un gráfico, una historia parcial, secuencias de vídeo y una variedad infinita de tipos de
información. Tratados mediante un sistema de gestión de contenidos, estos fragmentos pueden
controlarse, revisarse, reutilizarse y agruparse en documentos nuevos.
5
MARTÍNEZ, José Manuel; HILERA, José Ramón; MARTÍNEZ, Javier y GUTIÉRREZ, José A. (1996): "Orientación a Objetos en la
Documentación Hipermedia". Actas de las II Jornadas sobre Tecnologías de Objetos. Madrid, Asociación de Técnicos de Informática,
SIMO TCI, 1996, 49-54.
6
MARTÍNEZ José Manuel; HILERA José Ramón. Los sistemas de gestión documental en el ámbito del trabajo corporativo. Revista
General De Información y Documentación, 1997;7:237-255.
22


Por lo tanto, nuestra base de datos documental no contendrá realmente documentos
“completos”, sino componentes de los mismos con información acerca de su ensamblaje. Esto
permitirá recuperar los documentos enteros, o bien sólo secciones de los mismos que sean de nuestro
interés, pudiendo incluso generar documentos nuevos a partir de los fragmentos que seleccionemos.
Cuanto más pequeños y específicos sean estos componentes, más manipulables y reutilizables
resultarán. Junto con este repositorio de componentes, la base de datos documental también contendrá
la “colección” de DTD's de las diferentes tipologías de documentos XML.

La base de datos relacional, en nuestro modelo, puede servir tanto para almacenar registros de
datos de importancia para la organización, como para localizar los objetos de información situados en
la base de datos documental, sobre todo cuando se trate de imágenes, vídeos, gráficos u otros. Así
pues, nuestro Sistema Integral de Gestión de la Información almacenará una colección de “objetos” de
los tipos descritos arriba. Desde la perspectiva del usuario, debe poder recuperarse de igual manera un
vídeo que un documento completo o un registro de la base de datos. Aunque este aspecto se abordará
en mayor profundidad en el siguiente punto, lo fundamental en este punto es que se recupere la
información sin tener en cuenta en qué forma se encuentre esta.

3.3.3. La recuperación de información

Un punto clave en el diseño de una base de datos documental es el relativo al sistema de
recuperación de información. Por muy bien que la base de datos almacene sus registros, si estos no
pueden ser recuperados de forma eficiente, ésta carecerá de utilidad. En el Sistema Integral de Gestión
de Información tenemos tanto bases de datos documentales como de tipo relacional. En este segundo
supuesto la recuperación de información (datos más bien en este caso) se efectuará mediante el
lenguaje más apropiado, SQL. Este lenguaje es perfecto para realizar búsquedas en una base de datos
relacional, al tiempo que permite el almacenamiento de consultas. No es preciso que nos extendamos
en detalles acerca de la recuperación de información con SQL, ya que no es el lugar apropiado y la
bibliografía es abundante; resulta de mayor interés tratar la recuperación en la base documental y la
interfaz de consulta.

XQUERY

De manera rápida podemos definir XQuery con un símil en el que XQuery es a XML lo
mismo que SQL es a las bases de datos relacionales.

XQuery es un lenguaje de consulta diseñado para escribir consultas sobre colecciones de datos
expresadas en XML. Abarca desde archivos XML hasta bases de datos relacionales con funciones de
conversión de registros a XML. Su principal función es extraer información de un conjunto de datos
organizados como un árbol n-ário de etiquetas XML. En este sentido XQuery es independiente del
origen de los datos.

23


XQuery es un lenguaje funcional, lo que significa que, en vez de ejecutar una lista de
comandos como un lenguaje procedimental clásico, cada consulta es una expresión que es evaluada y
devuelve un resultado, al igual que en SQL. Diversas expresiones pueden combinarse de una manera
muy flexible con otras expresiones para crear nuevas expresiones más complejas y de mayor potencia
semántica. XQuery está llamado a ser el futuro estándar de consultas sobre documentos XML
Actualmente, XQuery es un conjunto de borradores 7 en el que trabaja el grupo W3C. Sin embargo, a
pesar de no tener una redacción definitiva ya existen o están en proceso numerosas implementaciones
de motores y herramientas que lo soportan.

Aunque XQuery y SQL puedan considerarse similares en casi la totalidad de sus aspectos, el
modelo de datos sobre el que se sustenta XQuery es muy distinto del modelo de datos relacional sobre
el que apoya SQL, ya que XML incluye conceptos como jerarquía y orden de los datos que no están
presentes en el modelo relacional. Por ejemplo, a diferencia de SQL, en XQuery el orden es que se
encuentren los datos es importante y determinante, ya que no es lo mismo buscar una etiqueta <B>
dentro de una etiqueta <A> que todas las etiquetas <B> del documento (que pueden estar anidadas
dentro de una etiqueta <A> o fuera).

XQuery ha sido construido sobre la base de Xpath 8. Xpath es un lenguaje declarativo para la
localización de nodos y fragmentos de información en árboles XML. XQuery se basa en este lenguaje
para realizar la selección de información y la iteración a través del conjunto de datos.

Una consulta en XQuery es una expresión que lee una secuencia de datos en XML y devuelve
como resultado otra secuencia de datos en XML. Un detalle importante es que, a diferencia de lo que
sucede en SQL, en XQuery las expresiones y los valores que devuelven son dependientes del contexto.
En XQuery, cuando usamos el térmico tupla, nos estamos refiriendo a cada uno de los valores que
toma una variable. A continuación se muestra un ejemplo de consulta con XQuery.

for $b in doc("libros.xml")//libro
let $c := $b//autor
where count($c) > 2
order by $b/titulo
return $b/ titulo

Figura 7. Ejemplo de consulta con XQuery: devuelve los títulos de los libros que tengan más de dos autores,
ordenados por su título.

<title>Data on the Web</title>

Figura 8. Resultado de la consulta anterior.

7
Documento principal del grupo de trabajo Xquery: http://www.w3.org/TR/xmlquery-req
8
Documentación sobre Xpath: http://www.w3.org/TR/xpath20/
24


La propuesta de este trabajo se centra en la posibilidad de un único lenguaje de consulta para
ambas bases de datos, esto es, aprovechar la potencia de XQuery para consultar al mismo tiempo y de
forma transparente la base documental y la relacional. Como se comentó anteriormente, se busca
diseñar un sistema dotado de una integración total de la información contenida en el mismo, donde el
usuario realice consultas con independencia del formato de la información buscada. XQuery actuará
como lenguaje-interfaz para unificar todas las consultas a las bases de datos del sistema, recuperando
de forma transparente al usuario cualquier información en cualquier formato.

La interfaz de usuario debe permitir buscar de la forma tradicional, por medio de los clásicos
operadores booleanos o por frase exacta, como en cualquier sistema de búsqueda de propósito general.
En un sistema como este, sería fundamental implementar una opción de incluir campos por los que
recuperar la información. Pero ese sólo sería el primer paso. Tras esta búsqueda inicial, los resultados
se mostrarán al usuario por medio de un ranking con enlaces a los documentos. A partir de la selección
de un documento resultado comenzará un proceso de browsing, desde los documentos seleccionados
hasta otros que tengan semántica similar, es decir, que traten temas similares. Esta navegación por la
red semántica se apoya en la existencia de un tesauro subyacente que al mismo tiempo tiene la función
más clásica de lenguaje del sistema.

3.3.4. Conectividad entre la base de datos documental y relacional

De lo expuesto en el punto anterior, puede desprenderse que para lograr una total eficiencia en
la recuperación de información de forma integrada es preciso un alto grado de conectividad entre las
dos bases de información del sistema.

Debe proporcionarse tanto un lenguaje que sirva de interfaz común a la recuperación de
información, como un medio de comunicación de registros entre ambas. Por supuesto, ha de tenerse en
cuenta las particularidades de ambas bases de datos, ya que proporcionan diferentes niveles de
flexibilidad a la hora de emplear lenguajes de programación sobre ellas.

Por un lado, las bases de datos, ya sean comerciales o libres, suelen estar dotadas de conexión
a diversos lenguajes de programación y poseen herramientas de desarrollo de aplicaciones compatibles
con ellas. Sin embargo, el caso de las bases de datos documentales es diferente: aquí el margen de
maniobra es menor, no suele proporcionarse el código de la aplicación y disponen de conexiones muy
limitadas con lenguajes de programación.

De nuevo, XML es la respuesta a las necesidades de intercambio de información entre
aplicaciones. XML funciona perfectamente como interfaz de exportación e intercambio de registros
entre las dos bases de datos, si bien normalmente se precisa de algún lenguaje de script que exporte
primero esa información a XML. En el caso de la base de datos relacional, PHP o Perl pueden ser una
buena solución como lenguaje de exportación a XML; en el caso de la base de datos documental
dependerá de la aplicación concreta (por ejemplo, en el caso de Lotus Domino, “Lotus Script”).

25


Figura 9. Modelo de conectividad base de datos relacional / documental.

3.4. El subsistema de tesauro

La definición más aceptada de tesauro es la de “un lenguaje documental de estructura
combinatoria, de carácter especializado, que se basa en expresiones conceptuales llamadas
descriptores, provistas de relaciones semánticas de tres tipos: equivalencia, asociación y jerarquía 9”.

Los tesauros son realmente instrumentos de control terminológico en entornos de RI y, aunque
se pueden encontrar ciertas analogías con otros recursos como las ontologías, la estructura de los
tesauros suele ser más mucho más simple y menos definida, además de contar con una menor
diferenciación léxico-semántica.

El tesauro servirá como base al lenguaje del sistema, siendo de utilidad tanto en el momento
de la selección de términos de indización como en el momento de la recuperación de información.

Como se comentó anteriormente, la especificación XML elegida para trabajar con el tesauro
del sistema es SKOS-Core. Este lenguaje a día de hoy es la propuesta más concreta para la
representación de tesauros en el entorno de la web semántica.

SKOS-Core permitirá diseñar la estructura del tesauro de forma eficiente y ofrece todas las
ventajas en gestión de la información que cualquier especificación XML. Este tesauro será la base de
9
PÉREZ AGÜERA, JOSÉ RAMÓN (2004): “Automatización de tesauros y su utilización en la web semántica”, BiD: textos universitaris
de biblioteconomía i documentació, 2004, 13.
26


toda las estructura de browsing del sistema de recuperación, guiando al usuario desde los documentos
obtenidos en respuesta a una consulta hasta otros semánticamente relacionados.

Los documentos, además de estar fragmentados en componentes XML, han de ser indizados
de acuerdo a la terminología elegida para este tesauro. Los descriptores definientes de la semántica de
los documentos se convierten en nuestro sistema en enlaces a otros nuevos documentos, que quizá no
aparecieron en la consulta original, pero que tienen alguno de éstos términos en común.

De este modo, el tesauro puede guiar la navegación del usuario, llevándole a encontrar
documentos que, o bien no supo encontrar en la formulación de la búsqueda inicial, o bien abren
nuevas vías o interrogantes a su investigación.

Esta idea nos lleva de nuevo a la propuesta del hipertexto a dos niveles de Pastor y Saorín: la
abstracción de la semántica de los documentos en una red conceptual subyacente (en este caso el
tesauro), accesible a través de enlaces mediante una interfaz de browsing.

Figura 10. Hipertexto a dos niveles: un mismo concepto puede aparecer en varios documentos.

3.5. El subsistema de publicación de contenidos y DSI

La sindicación de contenidos se presenta como una forma de aunar lo mejor de las tecnologías
push y pull. Se trata de una enorme ganancia que combina la tecnología push (de empujar contenidos a
los portales) pero también la pull porque agrega información dispersa y la presenta de modo
consolidado en múltiples sitios. Todos estos aspectos tienen que ver con la denominada gestión de
contenidos, encargada de capturar información desde diferentes fuentes (en este caso las más

27


importantes serán las bases de datos documentales y relacionales del sistema), analizándola,
categorizándola y finalmente entregándola a los usuarios de forma personalizada si se requiere así.

Efectivamente, el sistema de sindicación de contenidos debe estar dotado de una metodología
de personalización de la información que publica, o de canales temáticos que reúnan a determinados
grupos de usuarios con intereses comunes. Llegados a este punto, debe destacarse también que, en un
sistema de sindicación de contenidos, la presentación de la información se encuentra separada de los
datos mismos, para esto se pueden emplear hojas de estilo, como XSL, que definan la forma en que se
muestra al usuario. La información publicada en este subsistema puede ser reutilizada posteriormente,
lo que añade al mismo un nuevo valor añadido.

El lenguaje a emplear para la difusión de la información en este sistema de gestión de
contenidos es RDF. Ya que vamos a trabajar con datos heterogéneos procedentes en su mayor parte de
las bases de datos relacionales y documentales del sistema, RDF es la solución para describir estos
recursos.

A partir del repositorio de información que constituyen las dos bases de información del
sistema, el Subsistema de Publicación de Contenidos va actualizándose periódicamente. La
información es servida en distintos niveles, desde la página principal del portal de la organización con
información general hasta el espacio propio de un usuario concreto. Aquí se hace patente el concepto
de Difusión Selectiva de la Información (DSI), ya que la sindicación de contenidos se adaptará a las
necesidades informativas concretas del usuario.

El proceso de sindicación de contenidos tiene lugar tras la entrada y descripción de los
documentos nuevos en el sistema. Tras haberlos indizado y convertido a XML, el subsistema de
publicación de contenidos actuará como “filtro” a partir del contenido semántico de los mismos
(descriptores).

La publicación en el portal corporativo se efectuará mediante RDF, pudiendo crear pequeños
resúmenes del sitio mediante RSS si es preciso. Aquí es donde entra en juego el método push, ya que
la información de interés se “empuja” hacia el espacio del usuario o hacia los canales temáticos. La
información servida se ordenará por ranking de importancia para el usuario, dejando en la parte
superior los nuevos documentos entrantes que coincidan más con el perfil de interés informativo.

El correo electrónico es también interesante para efectuar avisos sobre la entrada de
información nueva de interés, implementado un mecanismo de envío automático de mensajes de alerta
a los usuarios.

28


Figura 11. Proceso de subsistema de publicación de contenidos.

V. Conclusiones
El presente trabajo ha mostrado que es posible el empleo de XML y lenguajes derivados en el
diseño de documentos y sistemas de información, y que esto trae consigo una serie de ventajas. La
potencia de este lenguaje para la descripción de los documentos y la facilidad que ofrece para el
intercambio de información, lo hace ideal para el diseño de sistemas de información.

Se ha demostrado que, desde el momento de la entrada en el sistema, los documentos pueden
ser estructurados y gestionados de forma modular según sus partes constituyentes, facilitando de este
modo su almacenaje y una recuperación más inteligente. Este último aspecto, el de la recuperación, ha
sido cubierto con el empleo del lenguaje de consulta XQuery, aún en fase de desarrollo, aunque su
capacidad de consulta en bases de datos relacionales y documentales lo hacen sumamente interesante.

De los diversos derivados de XML, se han analizado aquellos que podían ser aplicados al
diseño de los subsistemas de nuestro sistema de información. SKOS-Core se presenta como la mejor
opción para el diseño del Lenguaje del Sistema, el Tesauro, facilitando en gran medida su modelado y
la reutilización de sus contenidos. En referencia al Subsistema de Publicación de Contenidos, se ha
presentado RDF como la mejor propuesta para la sindicación de los objetos de información, de
acuerdo a los perfiles de interés de los usuarios.

Con todo lo visto, cabe destacar que, el empleo de XML en sistemas de información aporta
importantes mejoras en el ámbito de la gestión de la información documental, su intercambio y
difusión.

Sin embargo, las dificultades se centran en la multiplicidad de derivados de XML, las
diferentes versiones de los lenguajes (que pueden crear incompatibilidades) y la falta de desarrollo de
algunas de las propuestas. A pesar de ello, una vez salvados estos escollos, se facilitará enormemente
el diseño de sistemas de información totalmente integrados, donde los documentos,

29


independientemente del formato, sean tratados como objetos de información.

Estos objetos podrán ser tratados, recuperados y difundidos con independencia de su forma y
de manera transparente al usuario. Esta integración entre los diferentes subsistemas también ayudará a
eliminar las tareas duplicadas, permitiendo la reutilización de los objetos de información, y mejorará la
fluidez en el intercambio de los mismos.

VI. Bibliografía
ABAITUA, J.; BARRUTIETA, G.; DÍAZ, J.; JACOB, I.; QUINTANA, F., 2003, Contenidos y
metacontenidos en la edición digital. Letras de Deusto, núm. 100, vol. 33. Págs11-52. Bilbao.
Universidad de Deusto, 2003.

ANGOS ULLATE, J.M.; FERNANDEZ RUIZ, M.J.; SALVADOR OLIVÁN, J.A.; VILAS LARRÉ,
M. Necesidad de una metodología que optimice la gestión documental: estudio de un caso práctico.
Valencia, FESABID, 1998. 13 p. (VI Jornadas Españolas de Documentación).

MARTÍN GALÁN, B.; RODRÍGUEZ MATEOS, D. "Estructuración de la información mediante
XML: un nuevo reto para la gestión documental". En: Jornadas de Documentación (7ª. Bilbao. 2000).
Bilbao: Universidad del País Vasco; FESABID, 2000, pp. 113-123.

MÉNDEZ RODRÍGUEZ, E.M. Metadatos y Tesauros: aplicación de XML/RDF a los sistemas de
organización del conocimiento en Intranets. En: Jornadas Españolas de Documentación (7. 2000.
Bilbao) . La gestión del conocimiento: Retos y soluciones de los profesionales de la información.
[Bilbao]: Universidad del País Vasco, 2000, p. 211-219.

GOLDFARB, C.F. Manual de XML / Charles F. Goldfarb y Paul Prescod. -- Madrid, [etc.] : Prentice-
Hall, 1999.

HILERA GONZÁLEZ, J. R; MARTÍNEZ SÁNCHEZ, J. M. El papel de la documentación en la
gestión automatizada de flujos de trabajo. Revista General de Información y Documentación, 1998,
vol. 8, nº 2, p. 141-147.

NOGALES FLORES, J. T.; MARTÍN GALÁN, B.; ARELLANO PARDO, M.C. "Informática,
Derecho y Documentación. Experiencias y posibilidades de aplicación de los lenguajes de marcado de
texto (SGML, HTML y XML) a los documentos jurídicos". En: Encuentro sobre Informática y
Derecho. (16º. Madrid. 2002). Madrid: Instituto de Informática Jurídica, Universidad Pontificia de
Comillas, 2003.

30


MARTÍNEZ SÁNCHEZ, J. M.; HILERA GONZÁLEZ, J. R. Los sistemas de gestión documental en
el ámbito del trabajo corporativo. Revista General De Información y Documentación. 1997;7:237-255.

MARTÍNEZ SÁNCHEZ, J. M.; HILERA GONZÁLEZ, J. R.; MARTÍNEZ, J. Y GUTIÉRREZ, J. A.
(1996): "Orientación a Objetos en la Documentación Hipermedia". Actas de las II Jornadas sobre
Tecnologías de Objetos. Madrid, Asociación de Técnicos de Informática, SIMO TCI, 1996, 49-54.

MORRISON, M. XML al descubierto : la solución más completa / Michael Morrison...[et al.]. --
Madrid, [etc.] : Prentice-Hall, 2000.

PASTOR SÁNCHEZ, J.A.; SAORÍN PÉREZ, T. “El hipertexto documental como solución a la crisis
conceptual del hipertexto: El reto de los documentos cooperativos en redes”. En: Cuadernos de
Documentación Multimedia, nº 4, 1995.

PASTOR SÁNCHEZ, J. A.; SAORÍN PÉREZ, T. “La escritura hipermedia”. Cuadernos de
Documentación Hipermedia , 1997-8, nº 6-7, p. 221-238.

PÉREZ AGÜERA, J.R. (2004): “Automatización de tesauros y su utilización en la web semántica”,
BiD: textos universitaris de biblioteconomía i documentació, 2004, 13.

SENSO, J. A.; ROSA, A. DE LA. Especificaciones XML aplicadas a la documentación. En:
FUENTES I PUJOL, María Eulàlia (dir.). Bibliodoc 1999. Anuario de biblioteconomía,
documentación e información. Barcelona: Col•legi oficial de bibliotecaris-documentalistes de
Catalunya, 1999.

SIMINIANI, M. Intranets, empresa y gestión documental : cómo enfocar en la práctica la tecnología
desde la necesidad de eficiencia en todo tipo de empresas / Mariano Siminiani. -- Madrid [etc.] :
McGraw-Hill, D.L. 1997.

31

Modelado de Documentos y Sistemas de Información con XML

Recommandé

Recommandé

Contenu connexe

Similaire à Modelado de Documentos y Sistemas de Información con XML

Similaire à Modelado de Documentos y Sistemas de Información con XML (20)

Dernier

Dernier (13)

Modelado de Documentos y Sistemas de Información con XML