Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Buscadores Web

2 233 vues

Publié le

Buscadores Web. Tecnología y funcionamiento. Spam. Modelos de negocio. Retos y futuro.

Publié dans : Technologie
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Buscadores Web

  1. 1. Buscadores Web Por J. Miguel Lucas Rodríguez Miguellucas.com 10 Julio 2006 Curso de Tecnologías Lingüísticas Fundación Duques de Soria
  2. 2. Índice (I) <ul><li>Qué es un Buscador Web. </li></ul><ul><li>Cómo funciona. </li></ul><ul><li>Parámetros de calidad. </li></ul><ul><li>Spam en buscadores. </li></ul><ul><li>Lingüística y buscadores. </li></ul><ul><li>Retos y futuro. </li></ul><ul><li>Números de un buscador web. </li></ul><ul><li>Modelos de negocio. </li></ul>
  3. 3. Índice (yII) <ul><li>SEO y buscadores web. </li></ul><ul><li>La web y los buscadores. </li></ul><ul><li>Buscadores y el español. </li></ul><ul><li>Para el debate... </li></ul>
  4. 4. Qué es un Buscador Web <ul><li>Es un sistema informático concebido para la localización inmediata de información en la web. </li></ul>
  5. 5. Cómo funciona un Buscador Web <ul><li>Todo gira alrededor del índice: una estructura de datos que almacena referencias sobre la presencia de la información en la web. </li></ul><ul><li>Los principales procesos que lleva a cabo un buscador web son: </li></ul><ul><ul><li>Rastreo. </li></ul></ul><ul><ul><li>Indexación. </li></ul></ul><ul><ul><li>Búsqueda. </li></ul></ul><ul><li>Los rastreos e indexaciones actualizan el índice y las búsquedas lo consultan para responder a los usuarios. </li></ul>
  6. 6. Calidad en Buscadores web <ul><li>Como sistema de recuperación de información la calidad en los resultados de puede medir en términos de precisión y cobertura. </li></ul><ul><li>Limitaciones: </li></ul><ul><ul><li>La relevancia es personal. </li></ul></ul><ul><ul><li>La web no se ha medido. </li></ul></ul><ul><li>Aparte de la recuperación, la calidad también depende del índice: </li></ul><ul><ul><li>Volumen, frescura y relevancia. </li></ul></ul><ul><li>Prácticas no éticas: Spam. </li></ul>
  7. 7. Spam en Buscadores Web <ul><li>Por el volumen de tráfico que manejan, existe un claro interés por ocupar las primeras posiciones en las páginas de resultados en los buscadores. </li></ul><ul><li>Para que un algoritmo de cálculo de relevancia sea aplicable, debe ser no spammeable. </li></ul><ul><li>El spam se traduce en un encarecimiento del coste unitario de la búsqueda. </li></ul><ul><li>Tipos de spam : </li></ul><ul><ul><li>De contenido </li></ul></ul><ul><ul><li>Link spam </li></ul></ul>
  8. 8. Lingüística y Buscadores (I) <ul><li>Una de las principales limitaciones de la tecnología de búsqueda actual es que es literal. Las ambigüedades lingüísticas no se resuelven. </li></ul><ul><li>Del matching literal al matching semántico : </li></ul><ul><ul><li>Conocimiento superior. </li></ul></ul><ul><ul><li>Reduce el gap en la interfaz hombre-máquina. </li></ul></ul><ul><ul><li>Enriquecimiento de la presentación. </li></ul></ul><ul><ul><li>De ayuda al spam. </li></ul></ul><ul><li>¿Por qué no se usan? </li></ul>
  9. 9. Lingüística y Buscadores (yII) <ul><li>Problemas para su aplicación: </li></ul><ul><ul><li>Volumen de información. </li></ul></ul><ul><ul><li>Heterogeneidad de la información. </li></ul></ul><ul><ul><li>Proyección sobre la interfaz. </li></ul></ul><ul><ul><li>El coste computacional de las técnicas. </li></ul></ul><ul><li>Infocious es una implementación. </li></ul>
  10. 10. Futuro de los Buscadores Web <ul><li>Se trata de una tecnología con poco más de 10 años. Gran futuro por delante. </li></ul><ul><li>Futuro: </li></ul><ul><ul><li>Personalización. </li></ul></ul><ul><ul><li>Búsqueda semántica. </li></ul></ul><ul><ul><li>Web 2.0 y redes sociales. </li></ul></ul><ul><ul><li>Integración con el escritorio. </li></ul></ul><ul><ul><li>Multimedia. </li></ul></ul>
  11. 11. Números de un Buscador Web (I) <ul><li>25.000 millones de páginas estáticas en la web. </li></ul><ul><li>10KB/pag (comprimido) [cache + índice]. </li></ul><ul><li>250 máquinas rastreadoras, a 100 páginas por segundo... 1.000.000 seg (11,6 días). </li></ul>Nº Págs 25.000 mill Volumen 500TB Rastreo 25.000 pág/s Búsquedas 3.000 bús/s
  12. 12. Números de un Buscador Web (yII) <ul><li>Cluster de pequeñas computadoras sin redundancia. </li></ul><ul><li>Sistema operativo basado en Linux . </li></ul><ul><li>Módulos de balanceo y tolerancia a fallos. </li></ul><ul><li>Impresionante potencia computacional de bajo coste. </li></ul><ul><li>500€/PC, 300W/PC, Coste hw a 3 años </li></ul><ul><li>Coste eléc. a 3 años y 0,1€ KWh </li></ul>Cluster 100.000 PC’s Coste hw. 50M€ Coste eléc. 80M€ Coste Adm. - Coste sw. -
  13. 13. Modelo de Negocio (I) <ul><li>Un buscador web hace frente a importantes costes. Sin embargo ofrecen el servicio de modo gratuito. </li></ul><ul><li>Pago por posicionamiento: </li></ul><ul><ul><li>Las primeras posiciones en las SERP’s obtienen mucho más tráfico (62% hace clic en la primera posición). </li></ul></ul><ul><ul><li>El pago no necesariamente se corresponde con una alta relevancia. </li></ul></ul><ul><ul><li>Fue el primer modelo, creado por GoTo.com (Overture). </li></ul></ul>
  14. 14. Modelo de Negocio (yII) <ul><li>Publicidad contextual: </li></ul><ul><ul><li>Las SERP’s son un escaparate muy concurrido. </li></ul></ul><ul><ul><li>La publicidad depende de la búsqueda: es relevante y útil al usuario. </li></ul></ul><ul><ul><li>La publicidad está diferenciada de los resultados: no compromete la relevancia. </li></ul></ul><ul><li>Problema: click fraud </li></ul><ul><ul><li>Troyanos de generación automática de clics. </li></ul></ul><ul><ul><li>Empresas en países de mano de obra barata. </li></ul></ul>
  15. 15. SEO y Buscadores Web <ul><li>Los sites en la web viven de su tráfico. Y éste llega a ellos fundamentalmente desde los buscadores. </li></ul><ul><li>A menudo los sites están construidos con barreras que dificultan e imposibilitan el trabajo de los buscadores. </li></ul><ul><li>Search Engine Optimization (SEO). </li></ul><ul><li>Crear servicios y contenidos para humanos teniendo en cuenta a los buscadores. </li></ul><ul><li>Search Engine Friendly . </li></ul>
  16. 16. La Web y los Buscadores (I) <ul><li>Internet es el segundo medio por tiempo de consumo en los países desarrollados (por detrás de la TV). </li></ul><ul><li>Refleja lo que sucede en la sociedad. </li></ul>
  17. 17. La Web y los Buscadores (II) <ul><li>Los buscadores son los puntos de partida en la web [Informacional (40%), Navigacional (25%), Transaccional (35%)]. </li></ul><ul><li>Los buscadores son los responsables de poner en contacto contenidos y servicios con su audiencia. </li></ul><ul><li>De la efectividad de tal proceso depende el desarrollo mismo de la web. El desarrollo y crecimiento de la web ha ido de la mano del desarrollo de los buscadores. </li></ul>
  18. 18. La Web y los Buscadores (yIII) <ul><li>Los buscadores son una sonda de extraordinario valor para saber: </li></ul><ul><ul><li>Qué demanda el internauta. </li></ul></ul><ul><ul><li>Cómo lo demanda. </li></ul></ul><ul><ul><li>Cuándo lo demanda. </li></ul></ul><ul><ul><li>Desde dónde. </li></ul></ul><ul><li>Los buscadores... </li></ul><ul><ul><li>Canalizan el tráfico de la web. </li></ul></ul><ul><ul><li>Conocen las necesidades de dicho tráfico. </li></ul></ul>
  19. 19. Buscadores Web y el español (I) <ul><li>La web, como medio de masas refleja lo que sucede en la sociedad. </li></ul>
  20. 20. Buscadores web y el español (II) <ul><li>¿Cuál es la presencia de contenidos en español en los buscadores? </li></ul><ul><li>Experimentos. Inglés vs Español en Google: </li></ul><ul><ul><li>La palabra más frecuente. </li></ul></ul><ul><ul><li>La palabra a . </li></ul></ul><ul><ul><li>Las 5 más frecuentes. </li></ul></ul><ul><ul><li>La búsqueda * * . </li></ul></ul><ul><ul><li>La búsqueda –afalsdejenfinu . </li></ul></ul>
  21. 21. Buscadores web y el español (yIII) <ul><li>Validez orientativa: órdenes de magnitud. </li></ul><ul><li>Basado en las estimaciones de números de resultados. </li></ul><ul><li>Los datos se refieren únicamente al índice de Google. </li></ul>
  22. 22. Para el debate... (I) <ul><li>¿Por qué hay tal diferencia en la densidad de resultados español / inglés ? </li></ul><ul><ul><li>¿Web en inglés más desarrollada y antigua? </li></ul></ul><ul><ul><li>¿Mayor madurez tecnológica? </li></ul></ul><ul><ul><li>¿Inglés idioma universal? </li></ul></ul><ul><ul><li>¿Tratamiento diferenciado por idiomas por diferente mercado publicitario? </li></ul></ul><ul><li>Si la web ha crecido de la mano de los buscadores ¿habría que crear buscadores para desarrollar la web en español? </li></ul>
  23. 23. Para el debate... (yII) <ul><li>¿Qué efectos tiene la concentración de las búsquedas web en 3 o 4 proveedores tan sólo? </li></ul><ul><li>Con los intereses económicos patentes, ¿hasta qué punto se puede creer en la objetividad de la información proporcionada por los buscadores web? </li></ul><ul><li>¿Cuál es el poder real que tienen los buscadores web y cuáles son las “manos” que los gobiernan? </li></ul><ul><li>¿Deberían existir iniciativas estatales de desarrollo de buscadores web como parte de los planes de desarrollo de la sociedad de la información? </li></ul>
  24. 24. ¡Muchas Gracias! J. Miguel Lucas Rodríguez http://miguellucas.com [email_address]

×