SlideShare une entreprise Scribd logo
1  sur  35
Télécharger pour lire hors ligne
Técnicas Básicas (resumen)

José Carlos Cortizo Pérez
  http://www.esp.uem.es/jccortizo
  josecarlos.cortizo@uem.es


 Departamento de Sistemas Informáticos
  Escuela Superior Politécnica
  Universidad Europea de Madrid
Índice


   Esquema de funcionamiento
   Normalización y Tokenización
   Indexación
   Modelo del Espacio Vectorial


                                  José Carlos Cortizo Pérez
Sistemas Inteligentes de Acceso a
la Información

Esquema de Funcionamiento
Esquema de Funcionamiento

 Doc
   Doc
           Normalización
                           Indexación
     Doc    Tokenización




                                        MEV                 Res.
           Normalización
   Q        Tokenización




                                              José Carlos Cortizo Pérez
Ejemplo

  Documento 1:
        Pepe coge su coche por las mañanas

  Documento 2:
        Mañana veré a Pepe

  Documento 3:
        Me traen el coche mañana


  Consulta:
        Coche

                                             José Carlos Cortizo Pérez
Ejemplo
Normalizamos y Tokenizamos los Documentos

    Documento 1:
          Pepe; coger; coche; mañana

    Documento 2:
          Mañana; ver; Pepe

    Documento 3:
          Traen; coche; mañana


    Consulta:
          Coche

                                            José Carlos Cortizo Pérez
Ejemplo
Indizamos los Documentos

                    Documento 1   Documento 2   Documento 3
         Pepe              1          1
         Coger             1
         Coche             1                        1
        Mañana             1          1             1
          Ver                         1
         Traer                                      1


    Consulta:
           Coche

                                                    José Carlos Cortizo Pérez
Ejemplo
Tokenizamos y Normalizamos la consulta

                    Documento 1   Documento 2   Documento 3
         Pepe           1                1
         Coger          1
         Coche          1                           1
        Mañana          1                1          1
          Ver                            1
         Traer                                      1


    Consulta:
           Coche

                                                    José Carlos Cortizo Pérez
Ejemplo
Seleccionamos candidatos

                     Documento 1   Documento 2   Documento 3
         Pepe              1           1
         Coger             1
         Coche             1                         1
        Mañana             1           1             1
          Ver                          1
         Traer                                       1


    Consulta:
           Coche

                                                     José Carlos Cortizo Pérez
Ejemplo
Representamos en forma de Vectores


    Representación:
           (Pepe, coger, coche, mañana, traer)
    Documento 1:
           (1, 1, 1, 1, 0)
    Documento 2:
           (0, 0, 1, 1, 1)
    Consulta:
           (0, 0, 1, 0, 0)



                                                 José Carlos Cortizo Pérez
Ejemplo
Aplicamos MEV


    Representación:
          (Pepe, coger, coche, mañana, traer)
    Documento 1:
                                               1·0 + 1·0 + 1·1 + 1·0 + 0·0
          (1, 1, 1, 1, 0)         cos(D1, C) =                             = 0.5
                                                      RC(4) · RC(1)
    Documento 2:                               0·0 + 0·0 + 1·1 + 0·0 + 0·0
          (0, 0, 1, 1, 1)         cos(D1, C) =                             = 0.57
                                                      RC(3) · RC(1)
    Consulta:
          (0, 0, 1, 0, 0)



                                                                     José Carlos Cortizo Pérez
Ejemplo
Y obtenemos un ranking de resultados


    Resultados ordenados:
           Documento 2
           Documento 1




                                       José Carlos Cortizo Pérez
¿Alguna pregunta?




                    José Carlos Cortizo Pérez
Sistemas Inteligentes de Acceso a
la Información

Normalización y Tokenización
Normalización y Tokenización
¿Qué?




        Tokenizar: Separar las palabras o elementos a indizar


        Normalizar: Estandarizar la forma de escribir algunas cosas. P.e.
        eliminar las tildes, cambiar de mayúsculas a minúsculas, etc.


                                                          José Carlos Cortizo Pérez
Normalización y Tokenización
¿Por qué?


     Tokenizar: Necesitamos tener unidades indizables para
     utilizarlas como base de nuestra representación. Pueden ser
     palabras, frases, n-gramas, etc.


     Normalizar: El lenguaje es muy flexible, y además es muy
     corriente cometer errores de algún tipo. La normalización nos
     provee una forma de “eliminar” estos problemas.

                                                      José Carlos Cortizo Pérez
Normalización y Tokenización
¿Cómo tokenizar?


     Forma simple: utilizar un Tokenizador que separe por caracteres
     clave (p.e. espacios, signos de puntuación, etc.)
         En java se haría con un String Tokenizer
     Si en lugar de palabras, queremos separar frases, la cosa es
     algo más compleja (dependiendo del tipo de frase)
         Análisis del lenguaje

                                                       José Carlos Cortizo Pérez
Normalización y Tokenización
¿Cómo normalizar?



     Por lo general aplicando reglas heurísticas
         P.e. Cambiar todas las vocales acentuadas por vocales sin
         acentuar
         Pasar las mayúsculas a minúsculas
         Eliminar “palabras vacías”

                                                       José Carlos Cortizo Pérez
Normalización y Tokenización
Palabras vacías

      Las palabras muy frecuentes no aportan semántica
          Artículos, pronombres, conjunciones, etc.
          Las apariciones de las 10 palabras más frecuentes del inglés
          constituyen un 20/30% de un documento
      Se suelen incluir en una lista de parada
      Estas listas se obtienen a partir de un córpora representativo del
      idioma
                                                         José Carlos Cortizo Pérez
Normalización y Tokenización
Normalización morfológica


      Múltiples palabras son variaciones morfológicas, con idéntico
      significado
      Los stemmers (extractores de raíces), normalizan a una forma
      canónica, p.e.
         analizar, análisis, analizador... => ‘anali’
      Algoritmo de Porter, SnowBall

                                                        José Carlos Cortizo Pérez
Normalización y Tokenización
Normalización “avanzada”

     En función del idioma, podemos aplicar reglas de normalización
     que permitan una mejor recuperación (p.e. tolerante a errores)
         P.e., para el Castellano
             Eliminar las ‘h’
             Cambiar ‘v’ por ‘b’
             Cambiar ‘ll’ por ‘y’
         Esto aumenta el recall pero puede bajar la precisión
                                                       José Carlos Cortizo Pérez
¿Alguna pregunta?




                    José Carlos Cortizo Pérez
Sistemas Inteligentes de Acceso a
la Información

Indexación
Indexación
Indexación


      Los índices son necesarios para poder realizar las consultas en
      tiempos aceptables
      Generan un “overhead” en cuánto a almacenamiento
      2 tipos de índices importantes
         Directos
         Inversos

                                                         José Carlos Cortizo Pérez
Indexación
Indice directo

                 Pal1   Pal2   Pal3        Pal4

     Doc1         1      1      0             0

     Doc2         0      1      0             0

     Doc3         1      0      1             0

     Doc4         0      0      0             1
                                      José Carlos Cortizo Pérez
Indexación
Indice inverso

                 Doc1   Doc2   Doc3        Doc4

     Pal1         1      1      0             0

     Pal2         0      1      0             0

     Pal3         1      0      1             0

     Pal4         0      0      0             1
                                      José Carlos Cortizo Pérez
Indexación
¿Cuál es mejor?



      Cada uno tiene sus pros y sus contras
      Sin embargo, el inverso es muy eficiente en consulta (nos
      interesa más)
      El inverso es el que se suele implementar en la práctica (p.e.
      Google)


                                                         José Carlos Cortizo Pérez
¿Alguna pregunta?




                    José Carlos Cortizo Pérez
Sistemas Inteligentes de Acceso a
la Información

Modelo del Espacio Vectorial
Modelo del Espacio Vectorial
Introducción




      Es un modelo más sofisticado que el Booleano
      Se basa en el álgebra vectorial
      La representación se realiza en base a vectores de pesos de
      términos


                                                        José Carlos Cortizo Pérez
Modelo del Espacio Vectorial
Introducción




      Cálculo de similitud: el coseno de los vectores que forman el
      documento y la consulta




                                                         José Carlos Cortizo Pérez
Modelo del Espacio Vectorial
Introducción




                               José Carlos Cortizo Pérez
¿Alguna pregunta?




                    José Carlos Cortizo Pérez
Bibliografía
Adicional


      Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier. Modern information
      retrieval. Addison-Wesley, 1999 (Z699.35 .I53 B34 Biblioteca
      UEM, edificio C).
      Raymond Mooney. Basic Tokenizing, Indexing and
      Implementation of Vector-Space Retrieval. Tema 3 de su curso en
      IR.
            http://www.cs.utexas.edu/~mooney/ir-course/slides/Evaluation.ppt


                                                                       José Carlos Cortizo Pérez
¿Alguna pregunta?




                    José Carlos Cortizo Pérez

Contenu connexe

En vedette

Taller para aprender a aprender. Técnicas de estudio
Taller para aprender a aprender. Técnicas de estudioTaller para aprender a aprender. Técnicas de estudio
Taller para aprender a aprender. Técnicas de estudioAna María Mata Ortega
 
Reglas esenciales en un informe
Reglas esenciales en un informeReglas esenciales en un informe
Reglas esenciales en un informeesantosf
 
Excelvbaplication 2010 (2)
Excelvbaplication 2010 (2)Excelvbaplication 2010 (2)
Excelvbaplication 2010 (2)hectortorrezdoc
 
Normas icontec para trabajos escritos[1]
Normas icontec para trabajos escritos[1]Normas icontec para trabajos escritos[1]
Normas icontec para trabajos escritos[1]Erika Galvis
 
Normas icontec presentación trabajos escritos
Normas icontec presentación trabajos escritosNormas icontec presentación trabajos escritos
Normas icontec presentación trabajos escritosJEAC45
 
Resumen PMBoK 5ta edición
Resumen PMBoK 5ta edición Resumen PMBoK 5ta edición
Resumen PMBoK 5ta edición Cristina Neyra
 
Normas para la Presentacion de Informes
Normas para la Presentacion de InformesNormas para la Presentacion de Informes
Normas para la Presentacion de InformesCarlos Silva
 
Presentacion de las normas A.P.A.
Presentacion de las normas A.P.A.Presentacion de las normas A.P.A.
Presentacion de las normas A.P.A.midalu2304
 
EXPLICACION NORMAS APA PARA TRABAJOS ESCRITOS
EXPLICACION NORMAS APA PARA TRABAJOS ESCRITOSEXPLICACION NORMAS APA PARA TRABAJOS ESCRITOS
EXPLICACION NORMAS APA PARA TRABAJOS ESCRITOSSENA
 

En vedette (12)

Taller para aprender a aprender. Técnicas de estudio
Taller para aprender a aprender. Técnicas de estudioTaller para aprender a aprender. Técnicas de estudio
Taller para aprender a aprender. Técnicas de estudio
 
Reglas esenciales en un informe
Reglas esenciales en un informeReglas esenciales en un informe
Reglas esenciales en un informe
 
Excelvbaplication 2010 (2)
Excelvbaplication 2010 (2)Excelvbaplication 2010 (2)
Excelvbaplication 2010 (2)
 
Normas icontec para trabajos escritos[1]
Normas icontec para trabajos escritos[1]Normas icontec para trabajos escritos[1]
Normas icontec para trabajos escritos[1]
 
Normas icontec presentación trabajos escritos
Normas icontec presentación trabajos escritosNormas icontec presentación trabajos escritos
Normas icontec presentación trabajos escritos
 
Resumen PMBoK 5ta edición
Resumen PMBoK 5ta edición Resumen PMBoK 5ta edición
Resumen PMBoK 5ta edición
 
Normas para la Presentacion de Informes
Normas para la Presentacion de InformesNormas para la Presentacion de Informes
Normas para la Presentacion de Informes
 
Normas APA
Normas APANormas APA
Normas APA
 
Presentacion de las normas A.P.A.
Presentacion de las normas A.P.A.Presentacion de las normas A.P.A.
Presentacion de las normas A.P.A.
 
EXPLICACION NORMAS APA PARA TRABAJOS ESCRITOS
EXPLICACION NORMAS APA PARA TRABAJOS ESCRITOSEXPLICACION NORMAS APA PARA TRABAJOS ESCRITOS
EXPLICACION NORMAS APA PARA TRABAJOS ESCRITOS
 
Normas APA - Trabajos Escritos
Normas APA - Trabajos EscritosNormas APA - Trabajos Escritos
Normas APA - Trabajos Escritos
 
Resumen Y Síntesis
Resumen Y SíntesisResumen Y Síntesis
Resumen Y Síntesis
 

Plus de Jose Carlos Cortizo Perez

13+2 Herramientas eCommerce españolas para Vender Más
13+2 Herramientas eCommerce españolas para Vender Más13+2 Herramientas eCommerce españolas para Vender Más
13+2 Herramientas eCommerce españolas para Vender MásJose Carlos Cortizo Perez
 
Ecommerce B2B - Una Nueva Esperanza #B2BSalesCongress
Ecommerce B2B - Una Nueva Esperanza #B2BSalesCongressEcommerce B2B - Una Nueva Esperanza #B2BSalesCongress
Ecommerce B2B - Una Nueva Esperanza #B2BSalesCongressJose Carlos Cortizo Perez
 
Adobe compra Magento: El sentimiento de la Comunidad Magento y eCommerce
Adobe compra Magento: El sentimiento de la Comunidad Magento y eCommerceAdobe compra Magento: El sentimiento de la Comunidad Magento y eCommerce
Adobe compra Magento: El sentimiento de la Comunidad Magento y eCommerceJose Carlos Cortizo Perez
 
Introducción del Visual Commerce Day #VCD18
Introducción del Visual Commerce Day #VCD18Introducción del Visual Commerce Day #VCD18
Introducción del Visual Commerce Day #VCD18Jose Carlos Cortizo Perez
 
La psicología de la Compra - Sobre Neandertales perdidos en Internet
La psicología de la Compra - Sobre Neandertales perdidos en InternetLa psicología de la Compra - Sobre Neandertales perdidos en Internet
La psicología de la Compra - Sobre Neandertales perdidos en InternetJose Carlos Cortizo Perez
 
Bye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplify
Bye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplifyBye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplify
Bye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplifyJose Carlos Cortizo Perez
 
Los retos a nivel de negocio del eCommerce B2B
Los retos a nivel de negocio del eCommerce B2BLos retos a nivel de negocio del eCommerce B2B
Los retos a nivel de negocio del eCommerce B2BJose Carlos Cortizo Perez
 
The Reality of Gamified Loyalty in eCommerce - GWC2014
The Reality of Gamified Loyalty in eCommerce - GWC2014The Reality of Gamified Loyalty in eCommerce - GWC2014
The Reality of Gamified Loyalty in eCommerce - GWC2014Jose Carlos Cortizo Perez
 
Hablando de Gamificación en Botanic Fridays
Hablando de Gamificación en Botanic FridaysHablando de Gamificación en Botanic Fridays
Hablando de Gamificación en Botanic FridaysJose Carlos Cortizo Perez
 
Cómo la Gamificación ayuda al Funnel de Venta en #eCommerce
Cómo la Gamificación ayuda al Funnel de Venta en #eCommerceCómo la Gamificación ayuda al Funnel de Venta en #eCommerce
Cómo la Gamificación ayuda al Funnel de Venta en #eCommerceJose Carlos Cortizo Perez
 
Convierte a tus usuarios en clientes - MesComercio 2012
Convierte a tus usuarios en clientes - MesComercio 2012Convierte a tus usuarios en clientes - MesComercio 2012
Convierte a tus usuarios en clientes - MesComercio 2012Jose Carlos Cortizo Perez
 
Redes Sociales y Videojuegos: una unión perfecta
Redes Sociales y Videojuegos: una unión perfectaRedes Sociales y Videojuegos: una unión perfecta
Redes Sociales y Videojuegos: una unión perfectaJose Carlos Cortizo Perez
 
Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...
Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...
Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...Jose Carlos Cortizo Perez
 

Plus de Jose Carlos Cortizo Perez (20)

13+2 Herramientas eCommerce españolas para Vender Más
13+2 Herramientas eCommerce españolas para Vender Más13+2 Herramientas eCommerce españolas para Vender Más
13+2 Herramientas eCommerce españolas para Vender Más
 
Ecommerce B2B - Una Nueva Esperanza #B2BSalesCongress
Ecommerce B2B - Una Nueva Esperanza #B2BSalesCongressEcommerce B2B - Una Nueva Esperanza #B2BSalesCongress
Ecommerce B2B - Una Nueva Esperanza #B2BSalesCongress
 
Adobe compra Magento: El sentimiento de la Comunidad Magento y eCommerce
Adobe compra Magento: El sentimiento de la Comunidad Magento y eCommerceAdobe compra Magento: El sentimiento de la Comunidad Magento y eCommerce
Adobe compra Magento: El sentimiento de la Comunidad Magento y eCommerce
 
Introducción del Visual Commerce Day #VCD18
Introducción del Visual Commerce Day #VCD18Introducción del Visual Commerce Day #VCD18
Introducción del Visual Commerce Day #VCD18
 
La psicología de la Compra - Sobre Neandertales perdidos en Internet
La psicología de la Compra - Sobre Neandertales perdidos en InternetLa psicología de la Compra - Sobre Neandertales perdidos en Internet
La psicología de la Compra - Sobre Neandertales perdidos en Internet
 
Fidelizacion Ecommerce: La Última Frontera
Fidelizacion Ecommerce: La Última FronteraFidelizacion Ecommerce: La Última Frontera
Fidelizacion Ecommerce: La Última Frontera
 
Bye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplify
Bye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplifyBye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplify
Bye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplify
 
Black Friday 2016: ¿Qué podemos esperar?
Black Friday 2016: ¿Qué podemos esperar?Black Friday 2016: ¿Qué podemos esperar?
Black Friday 2016: ¿Qué podemos esperar?
 
Los retos a nivel de negocio del eCommerce B2B
Los retos a nivel de negocio del eCommerce B2BLos retos a nivel de negocio del eCommerce B2B
Los retos a nivel de negocio del eCommerce B2B
 
Growth Hackeando tu eCommerce
Growth Hackeando tu eCommerceGrowth Hackeando tu eCommerce
Growth Hackeando tu eCommerce
 
Gamification workshop at the QSP Summit
Gamification workshop at the QSP SummitGamification workshop at the QSP Summit
Gamification workshop at the QSP Summit
 
The Reality of Gamified Loyalty in eCommerce - GWC2014
The Reality of Gamified Loyalty in eCommerce - GWC2014The Reality of Gamified Loyalty in eCommerce - GWC2014
The Reality of Gamified Loyalty in eCommerce - GWC2014
 
Hablando de Gamificación en Botanic Fridays
Hablando de Gamificación en Botanic FridaysHablando de Gamificación en Botanic Fridays
Hablando de Gamificación en Botanic Fridays
 
Cómo la Gamificación ayuda al Funnel de Venta en #eCommerce
Cómo la Gamificación ayuda al Funnel de Venta en #eCommerceCómo la Gamificación ayuda al Funnel de Venta en #eCommerce
Cómo la Gamificación ayuda al Funnel de Venta en #eCommerce
 
Introducción a la Gamificación
Introducción a la GamificaciónIntroducción a la Gamificación
Introducción a la Gamificación
 
Convierte a tus usuarios en clientes - MesComercio 2012
Convierte a tus usuarios en clientes - MesComercio 2012Convierte a tus usuarios en clientes - MesComercio 2012
Convierte a tus usuarios en clientes - MesComercio 2012
 
Open Source en Educación
Open Source en EducaciónOpen Source en Educación
Open Source en Educación
 
Redes Sociales y Videojuegos: una unión perfecta
Redes Sociales y Videojuegos: una unión perfectaRedes Sociales y Videojuegos: una unión perfecta
Redes Sociales y Videojuegos: una unión perfecta
 
Emprendiendo desde la Universidad
Emprendiendo desde la UniversidadEmprendiendo desde la Universidad
Emprendiendo desde la Universidad
 
Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...
Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...
Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...
 

Dernier

ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAJAVIER SOLIS NOYOLA
 
Los avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtualesLos avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtualesMarisolMartinez707897
 
Proyecto de aprendizaje dia de la madre MINT.pdf
Proyecto de aprendizaje dia de la madre MINT.pdfProyecto de aprendizaje dia de la madre MINT.pdf
Proyecto de aprendizaje dia de la madre MINT.pdfpatriciaines1993
 
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptPINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptAlberto Rubio
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docxEliaHernndez7
 
INSTRUCCION PREPARATORIA DE TIRO .pptx
INSTRUCCION PREPARATORIA DE TIRO   .pptxINSTRUCCION PREPARATORIA DE TIRO   .pptx
INSTRUCCION PREPARATORIA DE TIRO .pptxdeimerhdz21
 
FUERZA Y MOVIMIENTO ciencias cuarto basico.ppt
FUERZA Y MOVIMIENTO ciencias cuarto basico.pptFUERZA Y MOVIMIENTO ciencias cuarto basico.ppt
FUERZA Y MOVIMIENTO ciencias cuarto basico.pptNancyMoreiraMora1
 
Abril 2024 - Maestra Jardinera Ediba.pdf
Abril 2024 -  Maestra Jardinera Ediba.pdfAbril 2024 -  Maestra Jardinera Ediba.pdf
Abril 2024 - Maestra Jardinera Ediba.pdfValeriaCorrea29
 
semana 4 9NO Estudios sociales.pptxnnnn
semana 4  9NO Estudios sociales.pptxnnnnsemana 4  9NO Estudios sociales.pptxnnnn
semana 4 9NO Estudios sociales.pptxnnnnlitzyleovaldivieso
 
Concepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxConcepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxFernando Solis
 
SEPTIMO SEGUNDO PERIODO EMPRENDIMIENTO VS
SEPTIMO SEGUNDO PERIODO EMPRENDIMIENTO VSSEPTIMO SEGUNDO PERIODO EMPRENDIMIENTO VS
SEPTIMO SEGUNDO PERIODO EMPRENDIMIENTO VSYadi Campos
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAEl Fortí
 
Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024IES Vicent Andres Estelles
 
Revista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfRevista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfapunteshistoriamarmo
 
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxLA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxlclcarmen
 
Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024IES Vicent Andres Estelles
 
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
SESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.docSESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.doc
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.docRodneyFrankCUADROSMI
 
TIENDAS MASS MINIMARKET ESTUDIO DE MERCADO
TIENDAS MASS MINIMARKET ESTUDIO DE MERCADOTIENDAS MASS MINIMARKET ESTUDIO DE MERCADO
TIENDAS MASS MINIMARKET ESTUDIO DE MERCADOPsicoterapia Holística
 

Dernier (20)

ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
 
Interpretación de cortes geológicos 2024
Interpretación de cortes geológicos 2024Interpretación de cortes geológicos 2024
Interpretación de cortes geológicos 2024
 
Los avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtualesLos avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtuales
 
Proyecto de aprendizaje dia de la madre MINT.pdf
Proyecto de aprendizaje dia de la madre MINT.pdfProyecto de aprendizaje dia de la madre MINT.pdf
Proyecto de aprendizaje dia de la madre MINT.pdf
 
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptPINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
 
INSTRUCCION PREPARATORIA DE TIRO .pptx
INSTRUCCION PREPARATORIA DE TIRO   .pptxINSTRUCCION PREPARATORIA DE TIRO   .pptx
INSTRUCCION PREPARATORIA DE TIRO .pptx
 
FUERZA Y MOVIMIENTO ciencias cuarto basico.ppt
FUERZA Y MOVIMIENTO ciencias cuarto basico.pptFUERZA Y MOVIMIENTO ciencias cuarto basico.ppt
FUERZA Y MOVIMIENTO ciencias cuarto basico.ppt
 
Abril 2024 - Maestra Jardinera Ediba.pdf
Abril 2024 -  Maestra Jardinera Ediba.pdfAbril 2024 -  Maestra Jardinera Ediba.pdf
Abril 2024 - Maestra Jardinera Ediba.pdf
 
semana 4 9NO Estudios sociales.pptxnnnn
semana 4  9NO Estudios sociales.pptxnnnnsemana 4  9NO Estudios sociales.pptxnnnn
semana 4 9NO Estudios sociales.pptxnnnn
 
Concepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxConcepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptx
 
SEPTIMO SEGUNDO PERIODO EMPRENDIMIENTO VS
SEPTIMO SEGUNDO PERIODO EMPRENDIMIENTO VSSEPTIMO SEGUNDO PERIODO EMPRENDIMIENTO VS
SEPTIMO SEGUNDO PERIODO EMPRENDIMIENTO VS
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
 
Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024
 
Sesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronósticoSesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronóstico
 
Revista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfRevista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdf
 
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxLA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
 
Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024
 
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
SESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.docSESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.doc
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
 
TIENDAS MASS MINIMARKET ESTUDIO DE MERCADO
TIENDAS MASS MINIMARKET ESTUDIO DE MERCADOTIENDAS MASS MINIMARKET ESTUDIO DE MERCADO
TIENDAS MASS MINIMARKET ESTUDIO DE MERCADO
 

Resumen de Técnicas Básicas de Recuperación de Buscador

  • 1. Técnicas Básicas (resumen) José Carlos Cortizo Pérez http://www.esp.uem.es/jccortizo josecarlos.cortizo@uem.es Departamento de Sistemas Informáticos Escuela Superior Politécnica Universidad Europea de Madrid
  • 2. Índice Esquema de funcionamiento Normalización y Tokenización Indexación Modelo del Espacio Vectorial José Carlos Cortizo Pérez
  • 3. Sistemas Inteligentes de Acceso a la Información Esquema de Funcionamiento
  • 4. Esquema de Funcionamiento Doc Doc Normalización Indexación Doc Tokenización MEV Res. Normalización Q Tokenización José Carlos Cortizo Pérez
  • 5. Ejemplo Documento 1: Pepe coge su coche por las mañanas Documento 2: Mañana veré a Pepe Documento 3: Me traen el coche mañana Consulta: Coche José Carlos Cortizo Pérez
  • 6. Ejemplo Normalizamos y Tokenizamos los Documentos Documento 1: Pepe; coger; coche; mañana Documento 2: Mañana; ver; Pepe Documento 3: Traen; coche; mañana Consulta: Coche José Carlos Cortizo Pérez
  • 7. Ejemplo Indizamos los Documentos Documento 1 Documento 2 Documento 3 Pepe 1 1 Coger 1 Coche 1 1 Mañana 1 1 1 Ver 1 Traer 1 Consulta: Coche José Carlos Cortizo Pérez
  • 8. Ejemplo Tokenizamos y Normalizamos la consulta Documento 1 Documento 2 Documento 3 Pepe 1 1 Coger 1 Coche 1 1 Mañana 1 1 1 Ver 1 Traer 1 Consulta: Coche José Carlos Cortizo Pérez
  • 9. Ejemplo Seleccionamos candidatos Documento 1 Documento 2 Documento 3 Pepe 1 1 Coger 1 Coche 1 1 Mañana 1 1 1 Ver 1 Traer 1 Consulta: Coche José Carlos Cortizo Pérez
  • 10. Ejemplo Representamos en forma de Vectores Representación: (Pepe, coger, coche, mañana, traer) Documento 1: (1, 1, 1, 1, 0) Documento 2: (0, 0, 1, 1, 1) Consulta: (0, 0, 1, 0, 0) José Carlos Cortizo Pérez
  • 11. Ejemplo Aplicamos MEV Representación: (Pepe, coger, coche, mañana, traer) Documento 1: 1·0 + 1·0 + 1·1 + 1·0 + 0·0 (1, 1, 1, 1, 0) cos(D1, C) = = 0.5 RC(4) · RC(1) Documento 2: 0·0 + 0·0 + 1·1 + 0·0 + 0·0 (0, 0, 1, 1, 1) cos(D1, C) = = 0.57 RC(3) · RC(1) Consulta: (0, 0, 1, 0, 0) José Carlos Cortizo Pérez
  • 12. Ejemplo Y obtenemos un ranking de resultados Resultados ordenados: Documento 2 Documento 1 José Carlos Cortizo Pérez
  • 13. ¿Alguna pregunta? José Carlos Cortizo Pérez
  • 14. Sistemas Inteligentes de Acceso a la Información Normalización y Tokenización
  • 15. Normalización y Tokenización ¿Qué? Tokenizar: Separar las palabras o elementos a indizar Normalizar: Estandarizar la forma de escribir algunas cosas. P.e. eliminar las tildes, cambiar de mayúsculas a minúsculas, etc. José Carlos Cortizo Pérez
  • 16. Normalización y Tokenización ¿Por qué? Tokenizar: Necesitamos tener unidades indizables para utilizarlas como base de nuestra representación. Pueden ser palabras, frases, n-gramas, etc. Normalizar: El lenguaje es muy flexible, y además es muy corriente cometer errores de algún tipo. La normalización nos provee una forma de “eliminar” estos problemas. José Carlos Cortizo Pérez
  • 17. Normalización y Tokenización ¿Cómo tokenizar? Forma simple: utilizar un Tokenizador que separe por caracteres clave (p.e. espacios, signos de puntuación, etc.) En java se haría con un String Tokenizer Si en lugar de palabras, queremos separar frases, la cosa es algo más compleja (dependiendo del tipo de frase) Análisis del lenguaje José Carlos Cortizo Pérez
  • 18. Normalización y Tokenización ¿Cómo normalizar? Por lo general aplicando reglas heurísticas P.e. Cambiar todas las vocales acentuadas por vocales sin acentuar Pasar las mayúsculas a minúsculas Eliminar “palabras vacías” José Carlos Cortizo Pérez
  • 19. Normalización y Tokenización Palabras vacías Las palabras muy frecuentes no aportan semántica Artículos, pronombres, conjunciones, etc. Las apariciones de las 10 palabras más frecuentes del inglés constituyen un 20/30% de un documento Se suelen incluir en una lista de parada Estas listas se obtienen a partir de un córpora representativo del idioma José Carlos Cortizo Pérez
  • 20. Normalización y Tokenización Normalización morfológica Múltiples palabras son variaciones morfológicas, con idéntico significado Los stemmers (extractores de raíces), normalizan a una forma canónica, p.e. analizar, análisis, analizador... => ‘anali’ Algoritmo de Porter, SnowBall José Carlos Cortizo Pérez
  • 21. Normalización y Tokenización Normalización “avanzada” En función del idioma, podemos aplicar reglas de normalización que permitan una mejor recuperación (p.e. tolerante a errores) P.e., para el Castellano Eliminar las ‘h’ Cambiar ‘v’ por ‘b’ Cambiar ‘ll’ por ‘y’ Esto aumenta el recall pero puede bajar la precisión José Carlos Cortizo Pérez
  • 22. ¿Alguna pregunta? José Carlos Cortizo Pérez
  • 23. Sistemas Inteligentes de Acceso a la Información Indexación
  • 24. Indexación Indexación Los índices son necesarios para poder realizar las consultas en tiempos aceptables Generan un “overhead” en cuánto a almacenamiento 2 tipos de índices importantes Directos Inversos José Carlos Cortizo Pérez
  • 25. Indexación Indice directo Pal1 Pal2 Pal3 Pal4 Doc1 1 1 0 0 Doc2 0 1 0 0 Doc3 1 0 1 0 Doc4 0 0 0 1 José Carlos Cortizo Pérez
  • 26. Indexación Indice inverso Doc1 Doc2 Doc3 Doc4 Pal1 1 1 0 0 Pal2 0 1 0 0 Pal3 1 0 1 0 Pal4 0 0 0 1 José Carlos Cortizo Pérez
  • 27. Indexación ¿Cuál es mejor? Cada uno tiene sus pros y sus contras Sin embargo, el inverso es muy eficiente en consulta (nos interesa más) El inverso es el que se suele implementar en la práctica (p.e. Google) José Carlos Cortizo Pérez
  • 28. ¿Alguna pregunta? José Carlos Cortizo Pérez
  • 29. Sistemas Inteligentes de Acceso a la Información Modelo del Espacio Vectorial
  • 30. Modelo del Espacio Vectorial Introducción Es un modelo más sofisticado que el Booleano Se basa en el álgebra vectorial La representación se realiza en base a vectores de pesos de términos José Carlos Cortizo Pérez
  • 31. Modelo del Espacio Vectorial Introducción Cálculo de similitud: el coseno de los vectores que forman el documento y la consulta José Carlos Cortizo Pérez
  • 32. Modelo del Espacio Vectorial Introducción José Carlos Cortizo Pérez
  • 33. ¿Alguna pregunta? José Carlos Cortizo Pérez
  • 34. Bibliografía Adicional Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier. Modern information retrieval. Addison-Wesley, 1999 (Z699.35 .I53 B34 Biblioteca UEM, edificio C). Raymond Mooney. Basic Tokenizing, Indexing and Implementation of Vector-Space Retrieval. Tema 3 de su curso en IR. http://www.cs.utexas.edu/~mooney/ir-course/slides/Evaluation.ppt José Carlos Cortizo Pérez
  • 35. ¿Alguna pregunta? José Carlos Cortizo Pérez