La búsqueda en base de datos jurídicas técnicas y consejos.
1. Noticias Jurídicas
Artículos Doctrinales: Generalidades
La búsqueda en base de datos jurídicas: técnicas y consejos.
De: Carlos Fernández Hernández y Pierre Boulat. Departamento de I+D de
Wolters Kluwer
Fecha: Enero 2014
Origen: Noticias Jurídicas
ÍNDICE:
1. Algunos conceptos básicos sobre la búsqueda legal
2. La consulta como clave de la búsqueda
3. Búsqueda a texto libre.
3.1 Selección de los términos de búsqueda
3.2 Introducción de los términos a buscar
4. Los asistentes o formularios de búsqueda
5. La búsqueda asistida o avanzada
6. La búsqueda experta
7. Presentación de los resultados
7.1. La ordenación por relevancia
7.2. Filtro de resultados y reformulación de la consulta
7.3. Los mejores resultados
A Ángel Sancho Ferrer, naturalmente.
A la hora de buscar información jurídica en internet disponemos de tres opciones:
utilizar buscadores como Google para localizar documentación que se encuentra
libremente en la red; buscar en páginas de libre acceso o gratuitas, como Noticias
Jurídicas o Derecho.com y, finalmente, acudir a bases de datos comerciales de pago (La
ley Digital, Westlaw, El Derecho, Tirant).
2. Estas tres alternativas se diferencias principalmente por la calidad de los contenidos que
se pueden obtener y por la tecnología ofrecida para localizarlos.
Cada uno de esos tres tipos de fuentes ofrece sus propias características, pero todas
comparten un elemento común: buscar de forma precisa información legal no es una
tarea sencilla.
En general, para la búsqueda libre en Internet, Google ha establecido un paradigma de
simplicidad y eficacia, basado en unos algoritmos de cálculo altamente sofisticados. Por
eso la búsqueda a través de Google parece la más fácil y potente para muchos usuarios,
pese a que también requiere conocer algunos trucos, de los que hablaremos en otro
momento.
Algunas páginas comerciales basadas en la publicidad, como Noticias Jurídicas, han
incorporado también el buscador de Google como soporte de búsqueda de sus
contenidos, con buenos resultados. Otras páginas sobreviven con sistemas generalmente
antiguos y no muy eficientes.
En cuanto a los buscadores de las bases de datos jurídicas, incluyen las herramientas
más potentes para obtener información. Sin embargo, pese a que las editoriales que las
publican se esfuerzan por combinar facilidad de uso con potencia de búsqueda, el
problema básico sigue siendo el mismo: para la mayoría de abogados, juristas,
documentalistas y estudiantes, encontrar una información que se necesita resulta algo
parecido a un juego de adivinanzas en el que el usuario debe formular las adecuadas
palabras mágicas, algo que puede llegar a convertir la búsqueda en un auténtico
rompecabezas.
Por ello el objetivo de este artículo es facilitar al usuario algunas pistas para ese juego,
explicando las técnicas y trucos que nuestra experiencia ha demostrado como más
eficaces para jugar una partida en la que el premio, en ocasiones, puede ser el éxito en
un caso, una oposición o un examen.
Para ello primero daremos unas breves nociones básicas sobre el funcionamiento de los
buscadores; a continuación explicaremos las principales técnicas de búsqueda y
concluiremos con los criterios aplicados para la presentación, ordenación y filtro y de
los resultados
1. Algunos conceptos básicos sobre la búsqueda legal
1. Hoy por hoy, la búsqueda de información jurídica solo permite encontrar
documentos. En concreto, documentos que contengan las palabras buscadas o que estén
clasificados conforme se ha descrito por el usuario en su consulta.
Por eso, una de las fuentes de frustración de los usuarios suele ser que no se encuentra
una respuesta que responda con precisión a un problema, cuando esa respuesta no es un
dato o un documento concreto.
Y es que la actividad jurídica consiste generalmente en la construcción de un
argumento: la aplicación o modo de aplicación o no aplicación de una norma a un
3. supuesto de hecho. Lo cual se realiza a través de un razonamiento y eso es algo que, hoy
por hoy, las bases de datos no suministran. Solo facilitan datos para elaborarlo.
2. Lo que hace todo buscador es establecer una relación entre los términos empleados en
una consulta y los documentos incluidos en una base de datos. Por eso, cuanto mayor
sea la coincidencia entre las palabras utilizadas y el título o el contenido de un
documento, mayores serán las probabilidades de encontrar la información que
necesitamos.
Naturalmente, la mayoría de los buscadores no saben gran cosa ni de semántica (es
decir, del significado de las palabras), ni de gramática (la forma en que las palabras se
combinan entre sí). Conviene en este caso explicar cómo los buscadores tratan de una
forma general las palabras y conceptos que introducimos en la caja de búsqueda.
a) Palabras y conceptos
Pocos buscadores actuales reconocen conceptos o conjuntos de palabras con un sentido
propio único (como por ejemplo "Contrato de trabajo" o "Impuesto sobre el valor
añadido"), solo reconocen palabras sueltas que enlazan con el operador Y (AND en
inglés).
La consecuencia de esto es que normalmente buscan cada palabra por separado (por
ejemplo se buscará "Contrato" y "Trabajo" de manera separada), ofreciendo resultados
poco útiles para su búsqueda.
Una primera forma de evitar este problema es utilizar la búsqueda literal, usando las
comillas (" ") para indicarle al buscador que debe buscar la expresión entrecomillada tal
como ha sido escrita. De esta forma el buscador solo mostrará documentos que
contengan exactamente la expresión que está entre las comillas
Existen algunos buscadores, como La ley Digital y, en menor medida, el de El Derecho,
que identifican los conceptos sin necesidad de que el usuario utilice las comillas. Pero,
además, lo que resulta todavía más interesante, también añaden a la búsqueda
expresiones sinónimas de las utilizadas, cuando existen y han sido identificadas.
4. Ello tiene dos efectos muy útiles: por un lado, mostrar documentos que no contengan la
expresión escrita, pero sí otra sinónima (en su versión más simple, por ejemplo 'IRPF' e
'Impuesto sobre la renta de las personas físicas', en su versión más avanzada 'Ley de
huelga' y 'Real Decreto-ley 17/1977'); por otro, mostrar muchos más documentos que si
solo se hubiese buscado una de las expresiones, excluyendo sus sinónimos.
La explicación de esta funcionalidad (conocida como "Expansión semántica") es
teóricamente sencilla: primero se identifican las expresiones compuestas que puedan
haberse incluido en una consulta, para que el buscador las trate como un concepto, y a
continuación se añaden a la búsqueda de ese concepto otros que son sinónimos, para
que el buscador muestre todos los documentos que incluyan una U otra expresión.
Como en el siguiente ejemplo, en el que "Contrato laboral" y "Contrato de trabajo" son
claramente expresiones sinónimas.
b) Masculinos y femeninos, singulares y plurales, palabras vacías
Hay dos cosas que la mayoría de buscadores sí saben hacer sin que el usuario tenga que
indicárselo expresamente: buscar indistintamente singulares y plurales o masculinos o
femeninos de una palabra.
Nos explicamos: la mayoría de buscadores "saben", porque así han sido programados,
que en la gran mayoría de casos es indiferente buscar información que afecte a un
"trabajador" o a varios "trabajadores", al igual que suele ser indiferente que busquemos
información sobre UN "trabajador" o VARIOS "trabajadores". Para el buscador, todos
ellos son simplemente "trabajad" y así los buscarán, cubriendo toda la posible
casuística.
Naturalmente, si en algún caso concreto no interesa diferenciar "trabajador" de
"trabajadora", deberemos acudir a la búsqueda literal, utilizando las comillas.
Del mismo modo, la mayoría de buscadores "saben", porque también han sido
programados para ello, que hay palabras escritas en la consulta que pueden excluirse de
la búsqueda, pues no tienen ninguna relevancia para la búsqueda, consumen recursos de
cálculo y, sobre todo, pueden falsear la relevancia asignada a los documentos que las
5. contienen si se tuviesen en cuenta. Son las que se conocen como "palabras vacías"
("stop words" en inglés).
Es el caso de los artículos, pronombres y la mayoría de las preposiciones. Estas
"palabras vacías" no serán incluidas en la búsqueda y, por tanto, generalmente no hace
falta escribirla.
Ejemplo: en la búsqueda 'El contrato de trabajo de un trabajador no comunitario'
El artículo determinado "el", el segundo "de" o el artículo indeterminado "un" no
aportan nada a esta búsqueda y serán, en general, excluidos. Por el contrario, el primer
"de" sí forma parte del concepto jurídico "contrato de trabajo" y se debe guardar como
tal, al igual que, por supuesto, el "no" de "no comunitario", clave para esta búsqueda.
Una vez localizados los documentos que coinciden con los términos usados en la
búsqueda, el siguiente problema es presentarlos al usuario por orden de importancia y, a
ser posible, de acuerdo con una lógica jurídica.
3. A la hora de presentar la lista de resultados, la mayoría de buscadores aplica un
algoritmo estándar conocido como TF * IDF del que, sin entrar en mayores detalles,
diremos simplemente que ordena los documentos según la frecuencia con la que
contienen las diferentes palabras buscadas, comparándolos con el contenido total del
índice. Y, algunas veces, además, destacando documentos previamente identificados
como importantes.
Pero la mayoría de buscadores no saben nada de Derecho y, por ello, en principio no
pueden distinguir si una Ley Orgánica es más relevante que una Orden ministerial o si
una sentencia del Tribunal Supremo es más importante, en la mayoría de casos, que una
sentencia de un Juzgado.
Eso hay que "explicárselo" codificando el conocimiento legal por medio de algoritmos
muy avanzados, algo solo al alcance de alguna editorial, como veremos más adelante.
2. La consulta como clave de la búsqueda
Esto significa que la consulta a una base de datos es el comienzo de un proceso de
notable complejidad tecnológica que va a depender exclusivamente, de lo que el usuario
escriba como texto de su consulta.
La inmensa mayoría de las veces los usuarios utilizan el método de la búsqueda libre:
escriben unas palabras que consideran que pueden identificar un documento o los
términos esenciales sobre los que les interesa que se trate en un documento (las palabras
mágicas de que hemos hablado antes), y se lanza la búsqueda, confiando en que se obre
la magia y el sistema nos presente el documento que nos interesa.
Sin embargo existen diferentes posibilidades a la hora de elegir el modo de búsqueda.
Básicamente existen cuatros modos: la búsqueda libre, la búsqueda por formulario, la
búsqueda avanzada y la búsqueda experta, que vamos a presentarles. Cada uno tiene su
por y su contra.
6. 3. Búsqueda a texto libre.
Este modo de búsqueda consiste en introducir palabras y/o conceptos en una caja de
búsqueda sencilla y hacer clic en el botón buscar, de la misma manera que se haría en
una búsqueda en Google.
Este tipo de búsqueda es la que los usuarios suelen utilizar por
defecto (aproximadamente el 90% de las búsquedas se hacen por el tipo básico). Sin
embargo, pese su aparente sencillez, conviene tener en cuenta lo que hemos indicado
anteriormente sobre cómo "piensa" un buscador, dado por ejemplo que en ocasiones los
buscadores no identifican los conceptos y que la gran mayoría de ellos no reconocen los
formatos numéricos que se introducen a texto libre.
3.1. Selección de los términos de búsqueda
De manera general es aconsejable pensar en las palabras y expresiones clave que tienen
más probabilidad de estar presentes en los documentos que está buscando,
especialmente en el título.
Para ello, muchas bases de datos ofrecen al usuario sugerencias de consultas, en función
de los términos que se van tecleando (Westlaw Insignis, El Derecho, La Ley Digital,
CISS Laboral).
En caso de querer investigar o profundizar sobre un tema específico o bien acceder a un
documento concreto se puede añadir, entre otros:
· Términos jurídicos oficiales, es decir, los que se utilizan en los códigos, leyes y
decisiones...
7. · El rango de las normas (RDL, Ley) o el tipo documental (Formulario, Código).
· El nombre del tribunal o de la jurisdicción.
· La fecha.
· Un número de sentencia, de recurso o de disposición.
· El nombre de una revista u obra.
· Nombres y apellidos de los autores.
Es importante proporcionar al buscador suficiente información para que pueda localizar
los documentos de nuestro interés, pero hay que tener especial atención en no introducir
demasiados datos, dado que en ese caso, se podrá perder información interesante. Se
considera que las consultas ideales cuentan con una media de 3 o 4 conceptos.
Recordemos que entendemos por conceptos aquellas expresiones que contienen
diferentes palabras con un sentido único (por ejemplo: "contrato de trabajo" o "impuesto
sobre el valor añadido").
3.2 Introducción de los términos a buscar
La última etapa del proceso de búsqueda consiste en escribir los elementos
seleccionados en la caja de búsqueda que ha elegido. Es muy importante completar este
paso con cuidado y atención para no incurrir en errores tipográficos.
Se ha podido identificar que cerca del 10% de las consultas formuladas en una base de
datos jurídica contiene algún tipo de errata que, en muchas ocasiones, corrompe la
búsqueda y los resultados obtenidos.
Sin embargo, numerosas erratas pueden ser corregidas actualmente gracias a las
sugerencias de consultas o a funcionalidades "Quiso usted decir?" de La Ley Digital,
que solo se muestra cuando el motor de búsqueda no ha podido localizar en los
documentos buscados ninguna expresión como la buscada, pero sí otra muy similar.
.
4. Los asistentes o formularios de búsqueda
8. Los formularios de búsqueda se suelen utilizar cuando se busca específicamente un tipo
documental concreto (legislación o jurisprudencia, por ejemplo) y permiten añadir
filtros específicos para ese tipo de documentos que nos interesa.
Por ejemplo buscar jurisprudencia solo de 2004, una norma con rango de Real Decreto
o una revista en la materia fiscal.
Cada categoría de documento (legislación, jurisprudencia, obras, códigos) tiene sus
propios filtros. Así para legislación podemos encontrar los filtros relativos al rango, a la
localidad o a la vigencia. Para jurisprudencia suelen estar los filtros correspondientes al
tribunal, la fecha o el número de recurso o de sentencia.
Es muy aconsejable recurrir a los formularios cuando se quiere buscar un formato
numérico, ya sea número de artículo, de fecha o de recurso, dado que son muy pocos,
por no decir ninguno, los buscadores capaces de reconocerlos en la búsqueda básica.
5. La búsqueda asistida o avanzada
Esta modalidad de búsqueda, presente también en Google, es muy poco utilizada en la
práctica, sin embargo conserva su utilidad cuando nos interesa introducir en nuestra
búsqueda condiciones como una búsqueda exacta o literal de determinados términos
que, a la vez, excluya documentos que contengan otras determinadas expresiones. Por
eso explicamos brevemente a continuación sus características.
9. Básicamente, estas cajas sirven para introducir en la búsqueda determinados operadores
que condicionan el sentido de las palabras empleadas.
· "Con todas las palabras" permite encontrar todos los documentos que
contengan todos los términos que haya incluido en ese campo.
Para ello, se incluye por defecto el operador "Y" entre todas las palabras
insertadas, al igual que ocurre en la búsqueda libre normal. En esta
modalidad se excluye el reconocimiento automático de conceptos y la
inclusión de sinónimos.
· "Con la frase exacta" podrá localizar los documentos que contengan las
palabras exactas, tal y como se hayan escrito.
El motor de búsqueda insertará automáticamente unas comillas al principio y
al final de la expresión insertada. Las comillas permiten formular una
búsqueda llamada literal. El motor de búsqueda mostrará documentos que
contengan las palabras escritas en el mismo orden en que han sido escritas,
de forma estricta.
· "Con alguna de las palabras", equivale a incluir el operador O entre las
palabras escritas. De esta forma, el buscador mostrará documentos que
contengan, al menos, una de las palabras especificadas.
10. · "Sin las palabras", consiste en introducir el operador NO antes y entre las
palabras escritas, de forma que el buscador solo mostrará documentos en los
que no aparezca el término o términos indicados.
6. La búsqueda experta
A diferencia de la búsqueda avanzada, que ayuda al usuario a utilizar determinados
operadores, la búsqueda experta deja enteramente en manos del usuario la selección y
disposición de los operadores que desea utilizar.
Este tipo de búsqueda tiende a desaparecer y, de hecho, muchas de las nuevas bases de
datos han prescindido de ella. Sin embargo, se trata de una herramienta de búsqueda
bastante potente para quienes saben manejarla.
Sin entrar en los detalles de los numerosos operadores booleanos que se pueden utilizar
según las bases de datos, y que en parte hemos presentado en el apartado relativo a la
búsqueda avanzada, queremos reseñar tres nuevos (los operadores de proximidad, el
truncamiento y los paréntesis) y sobre todo explicarle la construcción general de este
tipo de consulta.
·
Operadores
de
proximidad:
CERCA
DE
y
ANTES
DE
Las palabras (o conceptos) situados antes y después del operador CERCA
DE y ANTES DE (es importante anotar que la simbología que se usa para
usar estos operadores es variable según el buscador) deben estar incluidos en
los documentos buscados. Debemos determinar el número de palabras entre
los dos términos (o conceptos) añadiendo un número al final de este
operador. El orden en que aparecerán los términos no tiene importancia
cuando utilizamos CERCA DE, pero sí cuando usamos ANTES DE dado
que el orden será respetado.
Por ejemplo, si se busca [contrato CERCA DE/3 determinada] se podrán
encontrar documentos que contienen expresiones como "contrato de
duración determinada" o "contrato de trabajo de duración determinada" o
"determinadas extinciones de contratos". Pero si se busca [contrato ANTES
DE/3 determinada] se encontrará únicamente "determinadas extinciones de
contratos".
·
El
truncamiento
*
11. El truncamiento le permite buscar las distintas variantes de una palabra. Para
ejecutar una búsqueda de este tipo, teclee las primeras letras de la palabra
clave, seguida de un asterisco (*).
Por ejemplo, al escribir 'trab*' se buscarán palabras como "trabajador",
"trabajadora", "trabajadores", "trabajo"
·
Combinación
de
operadores
y
uso
de
paréntesis
Para hacer que una búsqueda experta resulte precisa es posible (y en
ocasiones es necesario) combinar los diferentes operadores expuestos. Esta
combinación implica el uso de paréntesis que permiten organizar la
búsqueda.
De la misma manera que en una formulación matemática, el uso de los
paréntesis permite crear precedencias en el tratamiento de las condiciones de
búsqueda.
Por ejemplo, si se considera la búsqueda siguiente:
En primer lugar el buscador seleccionará los documentos que contienen, al
menos, las expresiones "vale de comida" y/o "ticket restaurant".
A continuación, de los documentos localizados se seleccionarán únicamente
aquellos que contienen también la palabra "exoneración" y/o "descargo".
En el conjunto final de documentos mostrados, el buscador incluirá
únicamente aquellos documentos en los que las dos primeras condiciones
aparezcan separadas por un máximo de 5 palabras
7. Presentación de los resultados
Una vez realizado el planteamiento previo, seleccionados y escritos los elementos de la
consulta, y que ha lanzado su búsqueda, se puede analizar la lista de resultados. En la
búsqueda universal estándar los resultados suelen presentarse agrupados según su tipo
(Legislación, Jurisprudencia, Forumularios) y ordenados por su relevancia y
opcionalmente por su fecha (descendente o ascendente).
7.1. La ordenación por relevancia
La relevancia es un concepto clave en las grandes bases de datos documentales, pues su
finalidad es colocar al principio de la lista de resultados los documentos más relevantes
para la consulta realizada, entiendo por relevancia la mayor coherencia semántica y
jurídica con los términos buscados.
12. En efecto, es fácil que cualquier consulta a una base de datos devuelva un elevado
número de resultados. Sin embargo, los estudios realizados sobre los hábitos de trabajo
de los usuarios evidencian que éstos solo consultan los primeros documentos
presentados, obviando el resto. Ello demuestra que la calidad de un motor de búsqueda
se mide por la calidad de los primeros resultados presentados y por ello las editoriales se
afanan en encontrar la fórmula para obtener la mejor relevancia.
Ahora bien, existen básicamente dos filosofías en las bases de datos en cuanto a la
definición de la relevancia.
a. En la mayoría de bases de datos (Westlaw, El Tirant, El Derecho) será
generalmente más relevante un documento que en su conjunto, contenga más
ocurrencias de las palabras buscadas que el resto. Pueden utilizarse criterios
adicionales de relevancia para normas o sentencias individualmente
identificadas como más importantes.
b. En otras (como La Ley Digital, CissOnline o El Consultor Jurídicos) se
aplican más criterios para identificar la relevancia de un documento. Por una
parte se tiene en cuenta, naturalmente, la presencia de las palabras buscadas,
pero también su orden y proximidad entre sí, así como la zona del
documento en que se encuentran.
De esta manera, si se busca 'Código Civil' y se encuentra un documento que
lleva esas palabras en su título, se le asignará más relevancia que a otros
documentos que lo citen muchas veces en su contenido.
Pero además se consideran otros criterios para identificar como la autoridad
de un documento, como su ámbito y su rango en legislación; el tribunal en la
jurisprudencia; en todos los casos, la fecha más reciente, etc. Con ello, y la
combinación con la expansión semántica, la precisión o pertinencia de los
resultados obtenidos en estos productos es muy elevada.
7.2. Filtro de resultados y reformulación de la consulta
En el caso de no encontrar el documento de su interés en las primeras posiciones de la
primera página de resultados, las bases de datos suelen ofrecer dos opciones: reformular
su búsqueda o bien aprovechar las herramientas para afinar y filtrar las consultas que
nos ofrecen los buscadores y que detallaremos a continuación.
Filtrar es una funcionalidad muy común que permite elegir una serie de criterios
prestablecidos para cada documento (metadatos), con el fin de filtrar y guardar
únicamente los documentos que contienen los criterios que se han seleccionado. Así, en
las pestañas de Jurisprudencia se suele poder filtrar los resultados por Año, Organismo
y/o Materia. En las pestañas como Legislación es más frecuente encontrar filtros
relativos al Ámbito, el Rango o las Materias.
13. Afinar consiste en añadir unos conceptos a su búsqueda, ya sea de manera manual
(podrá encontrar esa posibilidad en La Ley Digital), o bien seleccionando expresiones
en una lista prefabricada por la propia base de datos.
14. 7.3. Los mejores resultados
Los "Mejores resultados" o "Visión Global", según las denominaciones respectivas de la
Ley Digital y Westlaw Insignis, es una nueva funcionalidad que permite la presentación
de listas de resultados limitadas a aquellos documentos verdaderamente relevantes para
la búsqueda efectuada, con exclusión de todos aquellos no suficientemente
significativos.
Con ella se ahorra tiempo a los usuarios, evitándoles recorrer largas listas de resultados
para encontrar los documentos de su interés.
La diferencia principal entre ambos modelos radica en que el de Westlaw muestra
siempre los dos primeros documentos de cada tipo, conservando el orden de
presentación, mientras que el de La Ley altera ese orden, cuando es necesario, para
situar en la primera posición aquellos documentos más relevantes para la búsqueda
realizada a la vez que puede llegar a presentar ningún documento, cuando identifica que
no hay ningún documento realmente relevante para la consulta efectuada.