SlideShare une entreprise Scribd logo
1  sur  28
RECUPERACIÓN DE
INFORMACIÓN
Jhonathan Henao Barbosa
Andrés Mariño Ramírez
Bases de Datos II - 2014
Recuperación de información
 Se refiere a la consulta de los datos de texto no estructurados.
 A diferencia de los sistemas de BD se centra en la consulta de palabras claves, la
relevancia de los documentos a consultar, la clasificación y la indexación de los
documentos.
 El proceso de recuperación de la información consiste en localizar documentos
pertinentes, sobre la base de la entrada del usuario, tales como palabras clave o
documentos de ejemplo.
Algunas diferencias entre los Sistemas de Bases de
Datos y los Sistemas de Recuperación
 Los sistemas de bases de datos se ocupan de actualizaciones y con los requisitos
transaccionales asociados de control de concurrencia y durabilidad. Para los
sistemas de recuperación esto no es tan importante.
 los sistemas de base de datos se ocupan de información estructurada organizada
con modelos de datos relativamente complejos (por ejemplo el modelo relacional),
los sistemas de recuperación de información tradicionalmente han utilizado un
modelo mucho más simple, en donde la información en la base de datos está
organizado simplemente como una colección de documentos no estructurados
 Los sistemas de recuperación se han centrado en temas como consulta de palabras
clave y de clasificación de los documentos en el grado estimado de relevancia de
los documentos a la consulta.
Los sistemas de recuperación más sofisticados estiman relevancia de los
documentos a una consulta para que los documentos pueden mostrarse en
orden de relevancia estimada. Existen diferentes métodos para asignar la
relevancia de un documento, a continuación veremos algunos de ellos:
 Clasificación de Relevancia usando Términos
 Clasificación usando TF-IDF
 Recuperación Basado en Similitud
 Relevancia utilizando hipervínculos
 Ranking de popularidad
 PageRank
 Otras mediciones de popularidad
 Spam de motores de búsqueda
 La combinación TF- IDF y Medidas Popularidad Clasificación
Clasificación usando TF-IDF
Clasificación de Relevancia usando Términos
Clasificación de Relevancia usando Términos
Recuperación Basado en Similitud
 Ciertos sistemas de información de recuperación permite la recuperación
basada en la similitud. Aquí, el usuario puede dar el documento del
sistema A, y pedir al sistema para recuperar documentos que son
"similares" a A. La similitud de un documento a otro se puede definir, por
ejemplo, sobre la base de términos comunes. Un enfoque consiste en
encontrar los términos de k en A con más altos valores de TF (A, t) * IDF (t), y
utilizar estos términos k como una consulta para encontrar relevancia de
otros documentos. Los términos de la consulta se ponderan por sí mismos TF
(A, t) * IDF (t).
 Más en general, la similitud de los documentos se define por la métrica de
similitud del coseno. Deje que los términos que aparecen en cualquiera de
los dos documentos sean t1, t2,. . ., Tn. Sea r (D, T) = TF (D, T) * FDI (t). A
continuación, la similitud entre documentos coseno métrica d y e se define
como:
Clasificación de Relevancia usando Términos
Clasificación de Relevancia usando Términos
Clasificación de Relevancia usando Términos
Clasificación de Relevancia usando Términos
Ranking de popularidad
 La idea básica del ranking de popularidad (también llamado el ranking de prestigio) es
encontrar páginas que son populares, y para clasificarlos superior a otras páginas que
contengan las palabras clave especificadas.
 Las medidas tradicionales de relevancia de una página como la TF- IDF se pueden
combinar con la popularidad de la página para obtener una medida global de la
relevancia de la página para la consulta.
 Una primera solución para estimar la popularidad de una página es utilizar el número de
páginas que enlazan con la página como una medida de su popularidad. El
inconveniente es que una pagina puede tener diferentes hipervínculos apuntando a
diferentes partes de la misma.
 Una alternativa es la de asociar de popularidad con los sitios , en vez de con las páginas .
Todas las páginas de un sitio a continuación, pueden obtener la popularidad del sitio, y
otras páginas distintas de la página raíz de un sitio popular también se beneficiarían de la
popularidad del sitio.(no se puede utilizar para paginas como yahoo.groups.com o
groups.google.com)
 Una alternativa más sencilla es permitir la transferencia de prestigio de las páginas más
populares para las páginas a las que enlaza . Bajo este esquema, un enlace de una
página popular de X a una página es tratada como una concesión más prestigio a la
página y que un enlace de una página Z.
Relevancia utilizando hipervínculos
PageRank
 El motor de búsqueda de Internet Google presentó PageRank, que es una medida de la popularidad de
una página basada en la popularidad de las páginas que enlazan a la página. Utilizando la medida de
popularidad PageRank para clasificar las respuestas a una consulta dio resultados mucho mejores que las
técnicas de clasificación utilizadas anteriormente que Google se convirtió en el motor de búsqueda más
utilizado, en un período relativamente corto de tiempo.
 . La matriz de probabilidades de salto T se define con T [i, j ] ajustado a la probabilidad de que un
caminante al azar que está siguiendo un enlace desde la página i sigue el enlace a la página j .
Suponiendo que cada eslabón de i tiene la misma probabilidad de ser seguido T [ i , j] = 1/Ni , donde Ni es
el número de enlaces de la página i . La mayoría de las entradas de T son 0 y está mejor representado
como una lista de adyacencia. Entonces el PageRank P [ j ] para cada página j se puede definir como:
dónde δ es una constante entre 0 y 1, y N el número de páginas, δ representa la probabilidad de un
paso en el camino aleatorio ser un salto. El conjunto de ecuaciones generadas como arriba se suelen
resolverse por un una técnica iterativa, empezando por cada P [i] Se establece en 1 / N. Cada paso de la
iteración calcula nuevos valores para cada P [i] utilizando los valores de P a partir de la iteración anterior. La
iteración se detiene cuando el cambio máximo en cualquier valor de p [i] en una iteración pasa por debajo
de un valor de corte.
Relevancia utilizando hipervínculos
Relevancia utilizando hipervínculos
Otras Mediciones de Popularidad
 Un enfoque alternativo para tomar palabras clave en cuenta la hora de definir de popularidad
es calcular una medida de la popularidad utilizando sólo las páginas que contienen las
palabras clave de consulta , en lugar de calcular el uso de todas las páginas de popularidad
disponibles en la Web. Este enfoque es más caro , ya que el cálculo de la clasificación de
popularidad tiene que ser hecho de forma dinámica cuando se recibe una consulta , mientras
que PageRank se calcula de forma estática una vez y se vuelve a utilizar para todas las
consultas . Los motores de búsqueda Web manejo de millones de consultas por día no pueden
darse el lujo de gastar tanto tiempo contestando una consulta. Como resultado , aunque este
enfoque puede dar mejores respuestas, no se utiliza muy ampliamente .
 El algoritmo HITS se basó en la idea anterior de encontrar primero las páginas que contienen las
palabras clave de consulta , y luego calcular una medida de popularidad utilizando sólo este
conjunto de páginas relacionadas. Además se introduce una noción de centros y autoridades.
Un centro es una página que almacena enlaces a muchas páginas relacionadas , ya que
puede en sí mismo no contener información real sobre un tema , sino que apunta a las páginas
que contienen información real. Por el contrario , una autoridad es una página que contiene
información actual sobre un tema , a pesar de que puede no guardar enlaces a muchas
páginas relacionadas. Cada página, entonces consigue un valor de prestigio como centro
(hub-prestige), y otro valor de prestigio como autoridad (authority-prestige). Las definiciones de
prestigio como antes , son cíclicos y están definidos por un conjunto de ecuaciones lineales
simultáneas . Una página se hace mayor hub-prestige si apunta a muchas páginas con una
gran authority-prestige, mientras que una página se hace mayor authority-prestige si es
apuntado por muchas páginas con un alto hub-prestige.
Relevancia utilizando hipervínculos
Spam de motores de Búsqueda
 Spam de motores de búsqueda se refiere a la práctica de la creación de
páginas Web, o conjuntos de páginas Web , diseñado para conseguir un
alto rango de importancia en algunas consultas , a pesar de que los sitios
no son en realidad sitios populares.
 Como ejemplos encontramos las paginas que repiten muchas veces un
termino o palabra clave y con eso conseguir una alta puntuación en TF-
IDF .
 El enfoque del algoritmo HITS, los centros y las autoridades son más
susceptibles a spamming. Un spammer puede crear una pagina Web que
contiene enlaces a buenas autoridades en un tema, y obtiene una
puntuación alta hub como resultado.
Relevancia utilizando hipervínculos
Los sinónimos, homónimos y ontologías
 Considere el problema de la localización de los documentos sobre el mantenimiento de
la motocicleta, con la consulta "mantenimiento de la motocicleta". Supongamos que las
palabras clave de cada documento son las palabras en el título y los nombres de los
autores. El documento titulado Reparación de motos no se puede recuperar, ya que la
palabra "mantenimiento" no aparece en el título. Podemos resolver este problema
mediante el uso de sinónimos. Cada palabra puede tener un conjunto de sinónimos
definidos, y la ocurrencia de una palabra puede ser reemplazado por el o de todos sus
sinónimos (incluyendo la propia palabra).
 Consultas basadas en palabras clave también sufren del problema de homónimos, es
decir una sola palabra con múltiples significados.
Para solucionar esto tiene que analizar cada documento para eliminar la ambigüedad
de cada palabra en el documento, y sustituirlo por el concepto que represente, la
desambiguación se hace generalmente mirando otras palabras que la acompañan en el
documento. Y comparándolas con las demás palabras claves.
 Las ontologías son estructuras jerárquicas que reflejan las relaciones entre los conceptos.
las ontologías se han creado para estandarizar los términos utilizados en las empresas , lo
que es un paso importante en la construcción de una infraestructura estándar para el
procesamiento de pedidos manipulación y otro flujo de transacciones entre los datos.
Indexación de documentos
 Una estructura efectiva de índices es importante para el procesamiento eficiente de las
consultas en los sistemas de recuperación de la información. Los documentos que
contengan las palabras clave especificadas pueden localizarse de manera efectiva
utilizando un índice invertido, que relaciona cada palabra clave Ki con el conjunto Si de (los
identificadores de) los documentos que contienen Ki. Esta formado por dos elementos: el
vocabulario (conjunto de términos distintos del texto) y las listas de ocurrencias (para cada
termino, la lista de documentos donde este aparece). La Figura muestra un ejemplo:
Medida de la Eficacia de la
Recuperación
 Para ahorrar espacio de almacenamiento a veces se almacena el índice
de modo que la recuperación es aproximada; puede que no se
recuperen unos pocos documentos de importancia (lo que se denomina
un rechazo falso o un falso negativo), o puede que se recuperen unos
pocos documentos sin importancia (lo que se denomina un falso positivo).
 Se utilizan dos métricas para medir la calidad con que los sistemas de
recuperación de la información pueden contestar las consultas. La
primera, la precisión, mide el porcentaje de los documentos recuperados
que son verdaderamente importantes para la consulta. La segunda, la
recuperación, mide el porcentaje de los documentos importantes para la
consulta que se han recuperado.
Rastreo e Indexación de la WEB
 Lo rastreadores Web (web crawlers) son programas que localizan y reúnen información de la Web.
Siguen de manera recursiva los hipervínculos presentes en los documentos conocidos para hallar
otros documentos. Los rastreadores recuperan los documentos y añaden la información hallada
en ellos a índices combinados; generalmente, los documentos no se almacenan, aunque algunos
motores de búsqueda guardan en la caché una copia del documento para dar a los clientes un
acceso más rápido a los documentos.
 Dado que el número de documentos de la Web es muy grande, no es posible recorrer toda la
Web en un periodo corto de tiempo; y, de hecho, todos los motores de búsqueda cubren
únicamente algunas partes de la Web, no toda ella, y sus rastreadores pueden tardar semanas o
meses en realizar un solo rastreo de todas las páginas que abarcan.
Recuperación de Información : Más
allá de clasificación de páginas
 Los sistemas de recuperación de información fueron diseñados originalmente para
encontrar documentos textuales relacionados con una consulta, y posteriormente
extenderse a la búsqueda de páginas de la Web que están relacionados con una
consulta. La gente utiliza los buscadores para muchas tareas diferentes, desde tareas
simples, tales como la localización de un sitio Web que quieren usar, a un objetivo más
amplio de búsqueda de información sobre un tema de interés.
 También hay una creciente necesidad de sistemas que tratan de entender los
documentos (hasta cierto límite), y responder a preguntas basadas en el (limitado)
conocimiento. Un enfoque consiste en crear información estructurada de documentos
no estructurados y para responder a preguntas basadas en la información
estructurada. Otro enfoque aplica técnicas de lenguaje natural para encontrar
documentos relacionados con una pregunta (expresado en lenguaje natural) y
devolver los segmentos pertinentes de los mismos como una respuesta a la pregunta.
La diversidad de resultados de la consulta
 Hoy en día, los motores de búsqueda no sólo devuelven una lista
clasificada de las páginas Web relevantes para una consulta. También
regresan imagen y video resultados relevantes a una consulta. Además,
hay una variedad de sitios que proporcionan el cambio de contenido de
forma dinámica , como resultados deportivos, o teletipos de la bolsa .
 Los términos de búsqueda son a menudo ambiguas . Por lo tanto, los
motores de búsqueda tratan de proporcionar un conjunto de resultados
que son diversos en cuanto a sus temas , para minimizar la posibilidad de
que un usuario podría estar insatisfecho .
 Los resultados obtenidos a partir de una pagina Web necesitan ser
resumido como un fragmento en un resultado de consulta.
Tradicionalmente, los motores de búsqueda proporcionan unas palabras
que rodean a las palabras clave de la consulta como un fragmento que
ayuda a indicar lo que la página contiene . Sin embargo , hay muchos
ámbitos en los que el fragmento se puede generar de una manera mucho
más significativa . Tales fragmentos especializados se generan a menudo
para los resultados recuperados de una base de datos , por ejemplo , una
base de datos de restaurantes .
Más allá de clasificación de páginas
Extracción de Información
 Sistemas de información de extracción se encargan de convertir la
información de forma textual a una forma más estructurada.
 Como ejemplo, los motores de búsqueda diseñado para encontrar artículos de
investigación académica , como Citeseer and Google Scholar, la Web de
rastreo para recuperar documentos que pueden ser artículos de investigación.
Ellos examinan algunas de las características de cada documento recuperado
, tales como la presencia de palabras tales como " bibliografía " , "referencias" y
"abstracto", para juzgar si un documento es en realidad un artículo de
investigación académica. A continuación, extraer el título , lista de autores , y
las citaciones en el final del artículo , mediante el uso de técnicas de
extracción de información .
Más allá de clasificación de páginas
Búsqueda de Respuestas
 Los sistemas de recuperación de información se centran en la búsqueda de
documentos relevantes para una consulta determinada . Sin embargo , la
respuesta a una pregunta puede estar sólo en una parte de un documento, o
en pequeñas partes de varios documentos. Respuesta automática a preguntas
intentan dar respuestas directas a las preguntas formuladas por los usuarios.
 Sistemas de búsqueda de respuestas dirigidas a la información en la Web
suelen generar una o más consultas de palabras clave de una cuestión
prejudicial , se ejecutan las consultas de palabras clave en contra de los
motores de búsqueda Web, además de analizar los documentos devueltos
para encontrar los segmentos de los documentos que responden a la pregunta
. Un número de técnicas lingüísticas y heurística se utiliza para generar
consultas de palabras clave , y para encontrar los segmentos relevantes del
documento.
 Un problema en responder a las preguntas es que los diferentes documentos
pueden indicar diferentes respuestas a una pregunta.
 Sistemas de pregunta de respuesta actual generación están limitados en
potencia, ya que realmente no entienden bien la pregunta o los documentos
utilizados para responder a la pregunta. Sin embargo, son útiles para un
número de tareas pregunta de respuesta simples.
Más allá de clasificación de páginas
Consultar Datos Estructurados
 Los datos estructurados están representados principalmente ya sea en
forma relacional o XML . Varios sistemas se han construido para soportar
consultas de palabras clave en los datos relacionales y XML. Un tema
común entre estos sistemas radica en la búsqueda de nodos ( tuplas o
elementos XML) que contienen las palabras clave especificadas , y la
búsqueda de caminos que conectan (o ancestros comunes, en el caso de
datos XML) entre ellos.
Más allá de clasificación de páginas
Directorios y Categorías
 En un sistema de recuperación de información, no hay necesidad de almacenar los
documentos relacionados juntos. Sin embargo, tales sistemas deben organizar los
documentos lógicamente a fin de permitir la navegación. Por lo tanto, un sistema de
este tipo podría utilizar una jerarquía de clasificación similar al de una biblioteca
como lo vemos en la imagen, a uno que las bibliotecas utilizan y cuando se muestra
un documento en particular , también puede mostrar una breve descripción de los
documentos que se encuentran cerca de la jerarquía.
 En un sistema de recuperación de información , no hay necesidad de mantener un
documento en un solo punto en la jerarquía . Un documento que habla de las matemáticas
para los informáticos pudiera clasificarse en las matemáticas , así como en virtud de la
informática. Todo lo que se almacena en cada punto es un identificador del documento ( es
decir, un puntero al documento ) , y es fácil para ir a buscar el contenido del documento
mediante el identificador. Como resultado de esta flexibilidad , no sólo un documento puede
ser clasificada en dos lugares , sino también una subárea en la jerarquía de clasificación
puede ocurrir en sí en virtud de dos zonas . La clase de documentos " algoritmo gráfico "
puede aparecer tanto en las matemáticas y en ciencias de la computación . Por lo tanto , la
jerarquía de clasificación es ahora un gráfico a cíclico dirigido ( DAG ) , como se muestra en
la figura
Resumen
 Los sistemas de recuperación de información se utilizan para almacenar datos de texto y
de consulta, tales como documentos. Ellos usan un modelo de datos simple que hacen los
sistemas de bases de datos, pero proporcionan capacidades de consulta más poderosos
dentro del modelo restringido.
 Las consultas intentan localizar los documentos que son de interés, indicando, por ejemplo,
los conjuntos de palabras clave. La consulta que el usuario tiene en mente por lo general
no se puede afirmar con precisión, por lo tanto lo sistemas de recuperación de información
piden respuestas sobre la base del potencial relevancia.
 Clasificación Relevancia hace uso de varios tipos de información, tales como:
 Frecuencia de un término a la importancia de cada término es a cada documento
 Frecuencia inversa de documento.
 Clasificación de popularidad.
 Similitud de documentos se utiliza para recuperar documentos similares a un documento de
ejemplo . La métrica de coseno se utiliza para definir similitud , y se basa en el modelo de
espacio vectorial
 PageRank y Ranking hub / autoridad son dos maneras de asignar prestigio a las páginas de
la base de enlaces a la página. La medida PageRank se puede entender de forma intuitiva
mediante un modelo de paseo aleatorio . Información de texto de anclaje también se
utiliza para calcular una noción por palabra clave de la popularidad. Sistemas de
recuperación de información necesitan combinar las puntuaciones de múltiples factores
tales como la TF -IDF y PageRank , para obtener un puntaje total de una página..
 Spam de motores de búsqueda intenta obtener ( una inmerecida ) de alto
rango para una página.
 Sinónimos y homónimos complican la tarea de recuperación de información.
Consulta basada en el concepto apunta a encontrar documentos que
contengan conceptos especificados , independientemente de las palabras
exactas ( o lenguaje ) en la que se especifica el concepto . Las ontologías se
utilizan para relacionar conceptos usando relaciones como es-un - o parte de .
 Los índices invertidos se utilizan para responder a las consultas de palabras
clave.
 Precisión y el recuperación son dos medidas de la efectividad de un sistema de
recuperación de información.
 Los motores de búsqueda Web rastrean la Web para encontrar las páginas ,
analizarlos para calcular medidas de prestigio , y los índices.
 Se han desarrollado técnicas para extraer información estructurada de datos
de texto , para realizar consultas de palabras clave en los datos estructurados ,
y para dar respuestas directas a preguntas sencillas planteadas en lenguaje
natural.
 Estructura de los directorios y las categorías se utilizan para clasificar
documentos con otros documentos similares.

Contenu connexe

Tendances

Lenguajes Documentales
Lenguajes DocumentalesLenguajes Documentales
Lenguajes Documentalesmrsnorris
 
Archivo secuencial indexado
Archivo secuencial indexadoArchivo secuencial indexado
Archivo secuencial indexadoTortuly
 
Encabezamientos de Materias
Encabezamientos de MateriasEncabezamientos de Materias
Encabezamientos de MateriasGladys López
 
El tesauro: elementos, estructura y modo de uso
El tesauro: elementos, estructura y modo de usoEl tesauro: elementos, estructura y modo de uso
El tesauro: elementos, estructura y modo de usoAlberto Galán
 
Transformar modelo entidad relacion a modelo logico
Transformar modelo entidad relacion a modelo logicoTransformar modelo entidad relacion a modelo logico
Transformar modelo entidad relacion a modelo logicojosecuartas
 
Diagrama de Flujo: Proceso para solicitar un libro en La Biblioteca del Insti...
Diagrama de Flujo: Proceso para solicitar un libro en La Biblioteca del Insti...Diagrama de Flujo: Proceso para solicitar un libro en La Biblioteca del Insti...
Diagrama de Flujo: Proceso para solicitar un libro en La Biblioteca del Insti...yulexiandreina
 
Sistema De Gestión De Base De Datos
Sistema De Gestión De Base De DatosSistema De Gestión De Base De Datos
Sistema De Gestión De Base De DatosGuillermo Chirinos
 
Una base de datos relacional
Una base de datos relacionalUna base de datos relacional
Una base de datos relacionalAlex Javier
 
Introduccion bases de datos
Introduccion bases de datosIntroduccion bases de datos
Introduccion bases de datosUTN
 
Ejercicios de archivos y explorador
Ejercicios de archivos y exploradorEjercicios de archivos y explorador
Ejercicios de archivos y exploradorneritarrillo
 
Motores de busqueda.pptx
Motores de busqueda.pptxMotores de busqueda.pptx
Motores de busqueda.pptxjorge cruz
 
El modelo-frbr-de-la-ifla.-una-nueva-perspectiva-del-registro-bibliográfico
El modelo-frbr-de-la-ifla.-una-nueva-perspectiva-del-registro-bibliográficoEl modelo-frbr-de-la-ifla.-una-nueva-perspectiva-del-registro-bibliográfico
El modelo-frbr-de-la-ifla.-una-nueva-perspectiva-del-registro-bibliográficoEl Cueshar
 
Diapositivas sobre BD (Base de Datos)
Diapositivas sobre BD (Base de Datos)Diapositivas sobre BD (Base de Datos)
Diapositivas sobre BD (Base de Datos)angeljlp08
 

Tendances (20)

Base de Datos Multimedia
Base de Datos MultimediaBase de Datos Multimedia
Base de Datos Multimedia
 
Lenguajes Documentales
Lenguajes DocumentalesLenguajes Documentales
Lenguajes Documentales
 
Archivo secuencial indexado
Archivo secuencial indexadoArchivo secuencial indexado
Archivo secuencial indexado
 
Páginas web
Páginas web Páginas web
Páginas web
 
Encabezamientos de Materias
Encabezamientos de MateriasEncabezamientos de Materias
Encabezamientos de Materias
 
El tesauro: elementos, estructura y modo de uso
El tesauro: elementos, estructura y modo de usoEl tesauro: elementos, estructura y modo de uso
El tesauro: elementos, estructura y modo de uso
 
Transformar modelo entidad relacion a modelo logico
Transformar modelo entidad relacion a modelo logicoTransformar modelo entidad relacion a modelo logico
Transformar modelo entidad relacion a modelo logico
 
Diagrama de Flujo: Proceso para solicitar un libro en La Biblioteca del Insti...
Diagrama de Flujo: Proceso para solicitar un libro en La Biblioteca del Insti...Diagrama de Flujo: Proceso para solicitar un libro en La Biblioteca del Insti...
Diagrama de Flujo: Proceso para solicitar un libro en La Biblioteca del Insti...
 
Sistema De Gestión De Base De Datos
Sistema De Gestión De Base De DatosSistema De Gestión De Base De Datos
Sistema De Gestión De Base De Datos
 
Herramientas de busqueda
Herramientas de busquedaHerramientas de busqueda
Herramientas de busqueda
 
Una base de datos relacional
Una base de datos relacionalUna base de datos relacional
Una base de datos relacional
 
El DBA y sus funciones
El DBA y sus funcionesEl DBA y sus funciones
El DBA y sus funciones
 
Introduccion bases de datos
Introduccion bases de datosIntroduccion bases de datos
Introduccion bases de datos
 
Inpulsos estrategicos
Inpulsos estrategicosInpulsos estrategicos
Inpulsos estrategicos
 
Ejercicios de archivos y explorador
Ejercicios de archivos y exploradorEjercicios de archivos y explorador
Ejercicios de archivos y explorador
 
Motores de busqueda.pptx
Motores de busqueda.pptxMotores de busqueda.pptx
Motores de busqueda.pptx
 
El modelo-frbr-de-la-ifla.-una-nueva-perspectiva-del-registro-bibliográfico
El modelo-frbr-de-la-ifla.-una-nueva-perspectiva-del-registro-bibliográficoEl modelo-frbr-de-la-ifla.-una-nueva-perspectiva-del-registro-bibliográfico
El modelo-frbr-de-la-ifla.-una-nueva-perspectiva-del-registro-bibliográfico
 
Unidad 1. Sistema Manejador de Bases de Datos
Unidad 1. Sistema Manejador de Bases de DatosUnidad 1. Sistema Manejador de Bases de Datos
Unidad 1. Sistema Manejador de Bases de Datos
 
BASES DE DATOS
BASES DE DATOSBASES DE DATOS
BASES DE DATOS
 
Diapositivas sobre BD (Base de Datos)
Diapositivas sobre BD (Base de Datos)Diapositivas sobre BD (Base de Datos)
Diapositivas sobre BD (Base de Datos)
 

En vedette

Analisis de sentimiento
Analisis de sentimientoAnalisis de sentimiento
Analisis de sentimientoJose Giraldez
 
Aplicaciones de text mining para gestión de información.
Aplicaciones de text mining para gestión de información.Aplicaciones de text mining para gestión de información.
Aplicaciones de text mining para gestión de información.Sebastián Alvarado Vergara
 
Quimica unidad 2 elementos quimicos y su clasificación
Quimica unidad 2 elementos quimicos y su clasificaciónQuimica unidad 2 elementos quimicos y su clasificación
Quimica unidad 2 elementos quimicos y su clasificaciónJairo626
 
Recuperación de Información y el modelo de Espacio Vectorial
Recuperación de Información y el modelo de Espacio VectorialRecuperación de Información y el modelo de Espacio Vectorial
Recuperación de Información y el modelo de Espacio VectorialAlfonso E. Romero
 
Recursos lingüísticos, análisis de sentimiento y APIs
Recursos lingüísticos, análisis de sentimiento y APIsRecursos lingüísticos, análisis de sentimiento y APIs
Recursos lingüísticos, análisis de sentimiento y APIsRaúl Larios
 
Análisis de Sentimientos en un Corpus de Redes Sociales
Análisis de Sentimientos en un Corpus de Redes SocialesAnálisis de Sentimientos en un Corpus de Redes Sociales
Análisis de Sentimientos en un Corpus de Redes SocialesÓscar Muñoz García
 

En vedette (8)

Analisis de sentimiento
Analisis de sentimientoAnalisis de sentimiento
Analisis de sentimiento
 
Aplicaciones de text mining para gestión de información.
Aplicaciones de text mining para gestión de información.Aplicaciones de text mining para gestión de información.
Aplicaciones de text mining para gestión de información.
 
Data Science
Data ScienceData Science
Data Science
 
Quimica unidad 2 elementos quimicos y su clasificación
Quimica unidad 2 elementos quimicos y su clasificaciónQuimica unidad 2 elementos quimicos y su clasificación
Quimica unidad 2 elementos quimicos y su clasificación
 
Recuperación de Información y el modelo de Espacio Vectorial
Recuperación de Información y el modelo de Espacio VectorialRecuperación de Información y el modelo de Espacio Vectorial
Recuperación de Información y el modelo de Espacio Vectorial
 
IR
IRIR
IR
 
Recursos lingüísticos, análisis de sentimiento y APIs
Recursos lingüísticos, análisis de sentimiento y APIsRecursos lingüísticos, análisis de sentimiento y APIs
Recursos lingüísticos, análisis de sentimiento y APIs
 
Análisis de Sentimientos en un Corpus de Redes Sociales
Análisis de Sentimientos en un Corpus de Redes SocialesAnálisis de Sentimientos en un Corpus de Redes Sociales
Análisis de Sentimientos en un Corpus de Redes Sociales
 

Similaire à Sistemas de recuperación de informacion.cap 21

Posicionamiento En Buscadores
Posicionamiento En BuscadoresPosicionamiento En Buscadores
Posicionamiento En Buscadoresaltanet
 
Buscadores, SEM SEO: el desafío de ser visto en la web
Buscadores, SEM SEO: el desafío de ser visto en la webBuscadores, SEM SEO: el desafío de ser visto en la web
Buscadores, SEM SEO: el desafío de ser visto en la webDecaunlz
 
Qué es el posicionamiento orgánico (SEO) y cómo funciona
Qué es el posicionamiento orgánico (SEO) y cómo funciona Qué es el posicionamiento orgánico (SEO) y cómo funciona
Qué es el posicionamiento orgánico (SEO) y cómo funciona Carmen Gerea
 
Acceso Internet.pptx
Acceso Internet.pptxAcceso Internet.pptx
Acceso Internet.pptxRicMar9
 
Cómo obtener las palabras clave de un dominio
Cómo obtener las palabras clave de un dominioCómo obtener las palabras clave de un dominio
Cómo obtener las palabras clave de un dominioAuxi Gifmania
 
Herramientas de ranking web
Herramientas de ranking webHerramientas de ranking web
Herramientas de ranking webbloxxx
 
Posicionamiento Web: Conociendo Su Funcionamiento Interno
Posicionamiento Web: Conociendo Su Funcionamiento InternoPosicionamiento Web: Conociendo Su Funcionamiento Interno
Posicionamiento Web: Conociendo Su Funcionamiento InternoFernando Amaro
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internetshirley0222
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internetshirley0222
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internetshirley0222
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internetshirley0222
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internetshirley0222
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internetshirley0222
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internetshirley0222
 
Trabajo practico de informatica - Luciana G.
Trabajo practico de informatica - Luciana G.Trabajo practico de informatica - Luciana G.
Trabajo practico de informatica - Luciana G.computacion1
 
Mètodos de bùsquedad
Mètodos de bùsquedadMètodos de bùsquedad
Mètodos de bùsquedadjb8911
 

Similaire à Sistemas de recuperación de informacion.cap 21 (20)

Web Link Analysis
Web Link AnalysisWeb Link Analysis
Web Link Analysis
 
Posicionamiento En Buscadores
Posicionamiento En BuscadoresPosicionamiento En Buscadores
Posicionamiento En Buscadores
 
Buscadores, SEM SEO: el desafío de ser visto en la web
Buscadores, SEM SEO: el desafío de ser visto en la webBuscadores, SEM SEO: el desafío de ser visto en la web
Buscadores, SEM SEO: el desafío de ser visto en la web
 
Informatica
InformaticaInformatica
Informatica
 
Qué es el posicionamiento orgánico (SEO) y cómo funciona
Qué es el posicionamiento orgánico (SEO) y cómo funciona Qué es el posicionamiento orgánico (SEO) y cómo funciona
Qué es el posicionamiento orgánico (SEO) y cómo funciona
 
Acceso Internet.pptx
Acceso Internet.pptxAcceso Internet.pptx
Acceso Internet.pptx
 
Cómo obtener las palabras clave de un dominio
Cómo obtener las palabras clave de un dominioCómo obtener las palabras clave de un dominio
Cómo obtener las palabras clave de un dominio
 
Reporte
ReporteReporte
Reporte
 
Herramientas de ranking web
Herramientas de ranking webHerramientas de ranking web
Herramientas de ranking web
 
Motores de busqueda y paginas web yakambú
Motores de busqueda y paginas web yakambúMotores de busqueda y paginas web yakambú
Motores de busqueda y paginas web yakambú
 
Posicionamiento Web: Conociendo Su Funcionamiento Interno
Posicionamiento Web: Conociendo Su Funcionamiento InternoPosicionamiento Web: Conociendo Su Funcionamiento Interno
Posicionamiento Web: Conociendo Su Funcionamiento Interno
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
 
Trabajo practico de informatica - Luciana G.
Trabajo practico de informatica - Luciana G.Trabajo practico de informatica - Luciana G.
Trabajo practico de informatica - Luciana G.
 
Mètodos de bùsquedad
Mètodos de bùsquedadMètodos de bùsquedad
Mètodos de bùsquedad
 

Dernier

PLAN LECTOR 2024 integrado nivel inicial-miercoles 10.pptx
PLAN LECTOR 2024  integrado nivel inicial-miercoles 10.pptxPLAN LECTOR 2024  integrado nivel inicial-miercoles 10.pptx
PLAN LECTOR 2024 integrado nivel inicial-miercoles 10.pptxCamuchaCrdovaAlonso
 
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...JoseMartinMalpartida1
 
Revista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfRevista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfapunteshistoriamarmo
 
Biografía de Charles Coulomb física .pdf
Biografía de Charles Coulomb física .pdfBiografía de Charles Coulomb física .pdf
Biografía de Charles Coulomb física .pdfGruberACaraballo
 
Factores que intervienen en la Administración por Valores.pdf
Factores que intervienen en la Administración por Valores.pdfFactores que intervienen en la Administración por Valores.pdf
Factores que intervienen en la Administración por Valores.pdfJonathanCovena1
 
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxLA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxlclcarmen
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primariaWilian24
 
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACIONRESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACIONamelia poma
 
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxPLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxiemerc2024
 
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...Ars Erótica
 
Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024IES Vicent Andres Estelles
 
Código Civil de la República Bolivariana de Venezuela
Código Civil de la República Bolivariana de VenezuelaCódigo Civil de la República Bolivariana de Venezuela
Código Civil de la República Bolivariana de Venezuelabeltranponce75
 
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPCTRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPCCarlosEduardoSosa2
 
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfFICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfRaulGomez822561
 
activ4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdfactiv4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdfRosabel UA
 

Dernier (20)

PLAN LECTOR 2024 integrado nivel inicial-miercoles 10.pptx
PLAN LECTOR 2024  integrado nivel inicial-miercoles 10.pptxPLAN LECTOR 2024  integrado nivel inicial-miercoles 10.pptx
PLAN LECTOR 2024 integrado nivel inicial-miercoles 10.pptx
 
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
 
PP_Comunicacion en Salud: Objetivación de signos y síntomas
PP_Comunicacion en Salud: Objetivación de signos y síntomasPP_Comunicacion en Salud: Objetivación de signos y síntomas
PP_Comunicacion en Salud: Objetivación de signos y síntomas
 
Revista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfRevista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdf
 
Biografía de Charles Coulomb física .pdf
Biografía de Charles Coulomb física .pdfBiografía de Charles Coulomb física .pdf
Biografía de Charles Coulomb física .pdf
 
Factores que intervienen en la Administración por Valores.pdf
Factores que intervienen en la Administración por Valores.pdfFactores que intervienen en la Administración por Valores.pdf
Factores que intervienen en la Administración por Valores.pdf
 
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxLA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
 
Lecciones 06 Esc. Sabática. Los dos testigos
Lecciones 06 Esc. Sabática. Los dos testigosLecciones 06 Esc. Sabática. Los dos testigos
Lecciones 06 Esc. Sabática. Los dos testigos
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria
 
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACIONRESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
 
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxPLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
 
Tema 11. Dinámica de la hidrosfera 2024
Tema 11.  Dinámica de la hidrosfera 2024Tema 11.  Dinámica de la hidrosfera 2024
Tema 11. Dinámica de la hidrosfera 2024
 
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...
 
Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024
 
Power Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptxPower Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptx
 
Interpretación de cortes geológicos 2024
Interpretación de cortes geológicos 2024Interpretación de cortes geológicos 2024
Interpretación de cortes geológicos 2024
 
Código Civil de la República Bolivariana de Venezuela
Código Civil de la República Bolivariana de VenezuelaCódigo Civil de la República Bolivariana de Venezuela
Código Civil de la República Bolivariana de Venezuela
 
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPCTRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
 
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfFICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
 
activ4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdfactiv4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdf
 

Sistemas de recuperación de informacion.cap 21

  • 1. RECUPERACIÓN DE INFORMACIÓN Jhonathan Henao Barbosa Andrés Mariño Ramírez Bases de Datos II - 2014
  • 2. Recuperación de información  Se refiere a la consulta de los datos de texto no estructurados.  A diferencia de los sistemas de BD se centra en la consulta de palabras claves, la relevancia de los documentos a consultar, la clasificación y la indexación de los documentos.  El proceso de recuperación de la información consiste en localizar documentos pertinentes, sobre la base de la entrada del usuario, tales como palabras clave o documentos de ejemplo.
  • 3. Algunas diferencias entre los Sistemas de Bases de Datos y los Sistemas de Recuperación  Los sistemas de bases de datos se ocupan de actualizaciones y con los requisitos transaccionales asociados de control de concurrencia y durabilidad. Para los sistemas de recuperación esto no es tan importante.  los sistemas de base de datos se ocupan de información estructurada organizada con modelos de datos relativamente complejos (por ejemplo el modelo relacional), los sistemas de recuperación de información tradicionalmente han utilizado un modelo mucho más simple, en donde la información en la base de datos está organizado simplemente como una colección de documentos no estructurados  Los sistemas de recuperación se han centrado en temas como consulta de palabras clave y de clasificación de los documentos en el grado estimado de relevancia de los documentos a la consulta.
  • 4. Los sistemas de recuperación más sofisticados estiman relevancia de los documentos a una consulta para que los documentos pueden mostrarse en orden de relevancia estimada. Existen diferentes métodos para asignar la relevancia de un documento, a continuación veremos algunos de ellos:  Clasificación de Relevancia usando Términos  Clasificación usando TF-IDF  Recuperación Basado en Similitud  Relevancia utilizando hipervínculos  Ranking de popularidad  PageRank  Otras mediciones de popularidad  Spam de motores de búsqueda  La combinación TF- IDF y Medidas Popularidad Clasificación
  • 5. Clasificación usando TF-IDF Clasificación de Relevancia usando Términos
  • 6. Clasificación de Relevancia usando Términos
  • 7. Recuperación Basado en Similitud  Ciertos sistemas de información de recuperación permite la recuperación basada en la similitud. Aquí, el usuario puede dar el documento del sistema A, y pedir al sistema para recuperar documentos que son "similares" a A. La similitud de un documento a otro se puede definir, por ejemplo, sobre la base de términos comunes. Un enfoque consiste en encontrar los términos de k en A con más altos valores de TF (A, t) * IDF (t), y utilizar estos términos k como una consulta para encontrar relevancia de otros documentos. Los términos de la consulta se ponderan por sí mismos TF (A, t) * IDF (t).  Más en general, la similitud de los documentos se define por la métrica de similitud del coseno. Deje que los términos que aparecen en cualquiera de los dos documentos sean t1, t2,. . ., Tn. Sea r (D, T) = TF (D, T) * FDI (t). A continuación, la similitud entre documentos coseno métrica d y e se define como: Clasificación de Relevancia usando Términos
  • 8. Clasificación de Relevancia usando Términos
  • 9. Clasificación de Relevancia usando Términos
  • 10. Clasificación de Relevancia usando Términos
  • 11. Ranking de popularidad  La idea básica del ranking de popularidad (también llamado el ranking de prestigio) es encontrar páginas que son populares, y para clasificarlos superior a otras páginas que contengan las palabras clave especificadas.  Las medidas tradicionales de relevancia de una página como la TF- IDF se pueden combinar con la popularidad de la página para obtener una medida global de la relevancia de la página para la consulta.  Una primera solución para estimar la popularidad de una página es utilizar el número de páginas que enlazan con la página como una medida de su popularidad. El inconveniente es que una pagina puede tener diferentes hipervínculos apuntando a diferentes partes de la misma.  Una alternativa es la de asociar de popularidad con los sitios , en vez de con las páginas . Todas las páginas de un sitio a continuación, pueden obtener la popularidad del sitio, y otras páginas distintas de la página raíz de un sitio popular también se beneficiarían de la popularidad del sitio.(no se puede utilizar para paginas como yahoo.groups.com o groups.google.com)  Una alternativa más sencilla es permitir la transferencia de prestigio de las páginas más populares para las páginas a las que enlaza . Bajo este esquema, un enlace de una página popular de X a una página es tratada como una concesión más prestigio a la página y que un enlace de una página Z. Relevancia utilizando hipervínculos
  • 12. PageRank  El motor de búsqueda de Internet Google presentó PageRank, que es una medida de la popularidad de una página basada en la popularidad de las páginas que enlazan a la página. Utilizando la medida de popularidad PageRank para clasificar las respuestas a una consulta dio resultados mucho mejores que las técnicas de clasificación utilizadas anteriormente que Google se convirtió en el motor de búsqueda más utilizado, en un período relativamente corto de tiempo.  . La matriz de probabilidades de salto T se define con T [i, j ] ajustado a la probabilidad de que un caminante al azar que está siguiendo un enlace desde la página i sigue el enlace a la página j . Suponiendo que cada eslabón de i tiene la misma probabilidad de ser seguido T [ i , j] = 1/Ni , donde Ni es el número de enlaces de la página i . La mayoría de las entradas de T son 0 y está mejor representado como una lista de adyacencia. Entonces el PageRank P [ j ] para cada página j se puede definir como: dónde δ es una constante entre 0 y 1, y N el número de páginas, δ representa la probabilidad de un paso en el camino aleatorio ser un salto. El conjunto de ecuaciones generadas como arriba se suelen resolverse por un una técnica iterativa, empezando por cada P [i] Se establece en 1 / N. Cada paso de la iteración calcula nuevos valores para cada P [i] utilizando los valores de P a partir de la iteración anterior. La iteración se detiene cuando el cambio máximo en cualquier valor de p [i] en una iteración pasa por debajo de un valor de corte. Relevancia utilizando hipervínculos
  • 14. Otras Mediciones de Popularidad  Un enfoque alternativo para tomar palabras clave en cuenta la hora de definir de popularidad es calcular una medida de la popularidad utilizando sólo las páginas que contienen las palabras clave de consulta , en lugar de calcular el uso de todas las páginas de popularidad disponibles en la Web. Este enfoque es más caro , ya que el cálculo de la clasificación de popularidad tiene que ser hecho de forma dinámica cuando se recibe una consulta , mientras que PageRank se calcula de forma estática una vez y se vuelve a utilizar para todas las consultas . Los motores de búsqueda Web manejo de millones de consultas por día no pueden darse el lujo de gastar tanto tiempo contestando una consulta. Como resultado , aunque este enfoque puede dar mejores respuestas, no se utiliza muy ampliamente .  El algoritmo HITS se basó en la idea anterior de encontrar primero las páginas que contienen las palabras clave de consulta , y luego calcular una medida de popularidad utilizando sólo este conjunto de páginas relacionadas. Además se introduce una noción de centros y autoridades. Un centro es una página que almacena enlaces a muchas páginas relacionadas , ya que puede en sí mismo no contener información real sobre un tema , sino que apunta a las páginas que contienen información real. Por el contrario , una autoridad es una página que contiene información actual sobre un tema , a pesar de que puede no guardar enlaces a muchas páginas relacionadas. Cada página, entonces consigue un valor de prestigio como centro (hub-prestige), y otro valor de prestigio como autoridad (authority-prestige). Las definiciones de prestigio como antes , son cíclicos y están definidos por un conjunto de ecuaciones lineales simultáneas . Una página se hace mayor hub-prestige si apunta a muchas páginas con una gran authority-prestige, mientras que una página se hace mayor authority-prestige si es apuntado por muchas páginas con un alto hub-prestige. Relevancia utilizando hipervínculos
  • 15. Spam de motores de Búsqueda  Spam de motores de búsqueda se refiere a la práctica de la creación de páginas Web, o conjuntos de páginas Web , diseñado para conseguir un alto rango de importancia en algunas consultas , a pesar de que los sitios no son en realidad sitios populares.  Como ejemplos encontramos las paginas que repiten muchas veces un termino o palabra clave y con eso conseguir una alta puntuación en TF- IDF .  El enfoque del algoritmo HITS, los centros y las autoridades son más susceptibles a spamming. Un spammer puede crear una pagina Web que contiene enlaces a buenas autoridades en un tema, y obtiene una puntuación alta hub como resultado. Relevancia utilizando hipervínculos
  • 16. Los sinónimos, homónimos y ontologías  Considere el problema de la localización de los documentos sobre el mantenimiento de la motocicleta, con la consulta "mantenimiento de la motocicleta". Supongamos que las palabras clave de cada documento son las palabras en el título y los nombres de los autores. El documento titulado Reparación de motos no se puede recuperar, ya que la palabra "mantenimiento" no aparece en el título. Podemos resolver este problema mediante el uso de sinónimos. Cada palabra puede tener un conjunto de sinónimos definidos, y la ocurrencia de una palabra puede ser reemplazado por el o de todos sus sinónimos (incluyendo la propia palabra).  Consultas basadas en palabras clave también sufren del problema de homónimos, es decir una sola palabra con múltiples significados. Para solucionar esto tiene que analizar cada documento para eliminar la ambigüedad de cada palabra en el documento, y sustituirlo por el concepto que represente, la desambiguación se hace generalmente mirando otras palabras que la acompañan en el documento. Y comparándolas con las demás palabras claves.  Las ontologías son estructuras jerárquicas que reflejan las relaciones entre los conceptos. las ontologías se han creado para estandarizar los términos utilizados en las empresas , lo que es un paso importante en la construcción de una infraestructura estándar para el procesamiento de pedidos manipulación y otro flujo de transacciones entre los datos.
  • 17. Indexación de documentos  Una estructura efectiva de índices es importante para el procesamiento eficiente de las consultas en los sistemas de recuperación de la información. Los documentos que contengan las palabras clave especificadas pueden localizarse de manera efectiva utilizando un índice invertido, que relaciona cada palabra clave Ki con el conjunto Si de (los identificadores de) los documentos que contienen Ki. Esta formado por dos elementos: el vocabulario (conjunto de términos distintos del texto) y las listas de ocurrencias (para cada termino, la lista de documentos donde este aparece). La Figura muestra un ejemplo:
  • 18. Medida de la Eficacia de la Recuperación  Para ahorrar espacio de almacenamiento a veces se almacena el índice de modo que la recuperación es aproximada; puede que no se recuperen unos pocos documentos de importancia (lo que se denomina un rechazo falso o un falso negativo), o puede que se recuperen unos pocos documentos sin importancia (lo que se denomina un falso positivo).  Se utilizan dos métricas para medir la calidad con que los sistemas de recuperación de la información pueden contestar las consultas. La primera, la precisión, mide el porcentaje de los documentos recuperados que son verdaderamente importantes para la consulta. La segunda, la recuperación, mide el porcentaje de los documentos importantes para la consulta que se han recuperado.
  • 19. Rastreo e Indexación de la WEB  Lo rastreadores Web (web crawlers) son programas que localizan y reúnen información de la Web. Siguen de manera recursiva los hipervínculos presentes en los documentos conocidos para hallar otros documentos. Los rastreadores recuperan los documentos y añaden la información hallada en ellos a índices combinados; generalmente, los documentos no se almacenan, aunque algunos motores de búsqueda guardan en la caché una copia del documento para dar a los clientes un acceso más rápido a los documentos.  Dado que el número de documentos de la Web es muy grande, no es posible recorrer toda la Web en un periodo corto de tiempo; y, de hecho, todos los motores de búsqueda cubren únicamente algunas partes de la Web, no toda ella, y sus rastreadores pueden tardar semanas o meses en realizar un solo rastreo de todas las páginas que abarcan.
  • 20. Recuperación de Información : Más allá de clasificación de páginas  Los sistemas de recuperación de información fueron diseñados originalmente para encontrar documentos textuales relacionados con una consulta, y posteriormente extenderse a la búsqueda de páginas de la Web que están relacionados con una consulta. La gente utiliza los buscadores para muchas tareas diferentes, desde tareas simples, tales como la localización de un sitio Web que quieren usar, a un objetivo más amplio de búsqueda de información sobre un tema de interés.  También hay una creciente necesidad de sistemas que tratan de entender los documentos (hasta cierto límite), y responder a preguntas basadas en el (limitado) conocimiento. Un enfoque consiste en crear información estructurada de documentos no estructurados y para responder a preguntas basadas en la información estructurada. Otro enfoque aplica técnicas de lenguaje natural para encontrar documentos relacionados con una pregunta (expresado en lenguaje natural) y devolver los segmentos pertinentes de los mismos como una respuesta a la pregunta.
  • 21. La diversidad de resultados de la consulta  Hoy en día, los motores de búsqueda no sólo devuelven una lista clasificada de las páginas Web relevantes para una consulta. También regresan imagen y video resultados relevantes a una consulta. Además, hay una variedad de sitios que proporcionan el cambio de contenido de forma dinámica , como resultados deportivos, o teletipos de la bolsa .  Los términos de búsqueda son a menudo ambiguas . Por lo tanto, los motores de búsqueda tratan de proporcionar un conjunto de resultados que son diversos en cuanto a sus temas , para minimizar la posibilidad de que un usuario podría estar insatisfecho .  Los resultados obtenidos a partir de una pagina Web necesitan ser resumido como un fragmento en un resultado de consulta. Tradicionalmente, los motores de búsqueda proporcionan unas palabras que rodean a las palabras clave de la consulta como un fragmento que ayuda a indicar lo que la página contiene . Sin embargo , hay muchos ámbitos en los que el fragmento se puede generar de una manera mucho más significativa . Tales fragmentos especializados se generan a menudo para los resultados recuperados de una base de datos , por ejemplo , una base de datos de restaurantes . Más allá de clasificación de páginas
  • 22. Extracción de Información  Sistemas de información de extracción se encargan de convertir la información de forma textual a una forma más estructurada.  Como ejemplo, los motores de búsqueda diseñado para encontrar artículos de investigación académica , como Citeseer and Google Scholar, la Web de rastreo para recuperar documentos que pueden ser artículos de investigación. Ellos examinan algunas de las características de cada documento recuperado , tales como la presencia de palabras tales como " bibliografía " , "referencias" y "abstracto", para juzgar si un documento es en realidad un artículo de investigación académica. A continuación, extraer el título , lista de autores , y las citaciones en el final del artículo , mediante el uso de técnicas de extracción de información . Más allá de clasificación de páginas
  • 23. Búsqueda de Respuestas  Los sistemas de recuperación de información se centran en la búsqueda de documentos relevantes para una consulta determinada . Sin embargo , la respuesta a una pregunta puede estar sólo en una parte de un documento, o en pequeñas partes de varios documentos. Respuesta automática a preguntas intentan dar respuestas directas a las preguntas formuladas por los usuarios.  Sistemas de búsqueda de respuestas dirigidas a la información en la Web suelen generar una o más consultas de palabras clave de una cuestión prejudicial , se ejecutan las consultas de palabras clave en contra de los motores de búsqueda Web, además de analizar los documentos devueltos para encontrar los segmentos de los documentos que responden a la pregunta . Un número de técnicas lingüísticas y heurística se utiliza para generar consultas de palabras clave , y para encontrar los segmentos relevantes del documento.  Un problema en responder a las preguntas es que los diferentes documentos pueden indicar diferentes respuestas a una pregunta.  Sistemas de pregunta de respuesta actual generación están limitados en potencia, ya que realmente no entienden bien la pregunta o los documentos utilizados para responder a la pregunta. Sin embargo, son útiles para un número de tareas pregunta de respuesta simples. Más allá de clasificación de páginas
  • 24. Consultar Datos Estructurados  Los datos estructurados están representados principalmente ya sea en forma relacional o XML . Varios sistemas se han construido para soportar consultas de palabras clave en los datos relacionales y XML. Un tema común entre estos sistemas radica en la búsqueda de nodos ( tuplas o elementos XML) que contienen las palabras clave especificadas , y la búsqueda de caminos que conectan (o ancestros comunes, en el caso de datos XML) entre ellos. Más allá de clasificación de páginas
  • 25. Directorios y Categorías  En un sistema de recuperación de información, no hay necesidad de almacenar los documentos relacionados juntos. Sin embargo, tales sistemas deben organizar los documentos lógicamente a fin de permitir la navegación. Por lo tanto, un sistema de este tipo podría utilizar una jerarquía de clasificación similar al de una biblioteca como lo vemos en la imagen, a uno que las bibliotecas utilizan y cuando se muestra un documento en particular , también puede mostrar una breve descripción de los documentos que se encuentran cerca de la jerarquía.
  • 26.  En un sistema de recuperación de información , no hay necesidad de mantener un documento en un solo punto en la jerarquía . Un documento que habla de las matemáticas para los informáticos pudiera clasificarse en las matemáticas , así como en virtud de la informática. Todo lo que se almacena en cada punto es un identificador del documento ( es decir, un puntero al documento ) , y es fácil para ir a buscar el contenido del documento mediante el identificador. Como resultado de esta flexibilidad , no sólo un documento puede ser clasificada en dos lugares , sino también una subárea en la jerarquía de clasificación puede ocurrir en sí en virtud de dos zonas . La clase de documentos " algoritmo gráfico " puede aparecer tanto en las matemáticas y en ciencias de la computación . Por lo tanto , la jerarquía de clasificación es ahora un gráfico a cíclico dirigido ( DAG ) , como se muestra en la figura
  • 27. Resumen  Los sistemas de recuperación de información se utilizan para almacenar datos de texto y de consulta, tales como documentos. Ellos usan un modelo de datos simple que hacen los sistemas de bases de datos, pero proporcionan capacidades de consulta más poderosos dentro del modelo restringido.  Las consultas intentan localizar los documentos que son de interés, indicando, por ejemplo, los conjuntos de palabras clave. La consulta que el usuario tiene en mente por lo general no se puede afirmar con precisión, por lo tanto lo sistemas de recuperación de información piden respuestas sobre la base del potencial relevancia.  Clasificación Relevancia hace uso de varios tipos de información, tales como:  Frecuencia de un término a la importancia de cada término es a cada documento  Frecuencia inversa de documento.  Clasificación de popularidad.  Similitud de documentos se utiliza para recuperar documentos similares a un documento de ejemplo . La métrica de coseno se utiliza para definir similitud , y se basa en el modelo de espacio vectorial  PageRank y Ranking hub / autoridad son dos maneras de asignar prestigio a las páginas de la base de enlaces a la página. La medida PageRank se puede entender de forma intuitiva mediante un modelo de paseo aleatorio . Información de texto de anclaje también se utiliza para calcular una noción por palabra clave de la popularidad. Sistemas de recuperación de información necesitan combinar las puntuaciones de múltiples factores tales como la TF -IDF y PageRank , para obtener un puntaje total de una página..
  • 28.  Spam de motores de búsqueda intenta obtener ( una inmerecida ) de alto rango para una página.  Sinónimos y homónimos complican la tarea de recuperación de información. Consulta basada en el concepto apunta a encontrar documentos que contengan conceptos especificados , independientemente de las palabras exactas ( o lenguaje ) en la que se especifica el concepto . Las ontologías se utilizan para relacionar conceptos usando relaciones como es-un - o parte de .  Los índices invertidos se utilizan para responder a las consultas de palabras clave.  Precisión y el recuperación son dos medidas de la efectividad de un sistema de recuperación de información.  Los motores de búsqueda Web rastrean la Web para encontrar las páginas , analizarlos para calcular medidas de prestigio , y los índices.  Se han desarrollado técnicas para extraer información estructurada de datos de texto , para realizar consultas de palabras clave en los datos estructurados , y para dar respuestas directas a preguntas sencillas planteadas en lenguaje natural.  Estructura de los directorios y las categorías se utilizan para clasificar documentos con otros documentos similares.