1. No es una suposición prevaleciente acerca de Google, la creencia de que tiene acceso a todo el contenido en
la web. Pero esta idea no es correcta.
Para muchos usuarios finales, Google es la web. Sin embargo, poderoso como es, Google sólo puede devolver
los resultados de una fracción de la web que ha conseguido explorar.
El rastreador, araña o bot son términos intercambiables que los motores de búsqueda utilizan para encontrar,
descargar e indexar páginas web. Eso es lo que fue inventado para descargar páginas HTML.
Hay una obstante, los rastreadores son casi ciegos a los contenidos que no son texto. Y la gran cantidad de
contenido generado por el usuario, tales como vídeo, imágenes, audio y otros tipos de archivos, no son tan
fáciles de manejar o indexados. Sin embargo, seguimos utilizando todo tipo de aplicaciones ajenas al idioma del
navegador (Flash, por ejemplo), tratando de convertir a los navegadores en algo que no está programado para
analizar. Como resultado, hemos hecho más difícil para los rastreadores de motores de búsqueda para
encontrar, clasificar e indizar nuestras páginas.
El rastreador es el motor de búsqueda mas común, pero se enfrenta a muchas limitaciones. Hay fuertes
requisitos actualizados y escalas de tiempo múltiples. Tratando de descubrir la relevancia de las páginas
existentes en el índice, mientras que se ocupan de la tasa de llegada rápida de los contenidos la nueva web no
será una tarea fácil tampoco.
El promedio del número de alcances necesarios para descubrir una nueva página debe mantenerse al mínimo.
El ancho de banda es también un problema: no sería práctico tratar de descargar toda la web todos los días (y
probablemente ni siquiera es posible). Algunos sitios son tan grandes que simplemente no pueden ser rastreados
de principio a fin, incluso en el lapso de una semana.
De hecho, ningún rastreador será nunca capaz de rastrear la web completa. Un número casi infinito de
direcciones URL, además de las trampas de araña, spam y todo tipo de otras cuestiones que impiden su trabajo.
Además, siempre habrá una lucha constante entre volver a rastrear las páginas existentes y el rastreo de nuevas
páginas. Después de todo, en un mundo interconectado donde las noticias de última hora son de interés mundial,
los motores de búsqueda deben ser capaces de proporcionar esa información en tiempo casi real para evitar la
disonancia del usuario final.
Los sitios web con un gran número de enlaces continuamente atraen más enlaces que los que tienen sólo unos
pocos. Como resultado, más de su contenido que está indexado vinculado les da una ventaja cuando se trata de
la clasificación.
También está el caso de los motores de búsqueda que conocen determinadas páginas web, pero aún no han
sido rastreadas. Después de todo, miles de millones de enlaces se extraen de miles de millones de páginas de
Google, es decir, debe haber un poco de orden y prioridad a la que llego primero. Recientemente, Google
anunció que sus sistemas de procesamiento de enlace habían dado en el blanco billones de URL (pero sabiendo
cuantas URL existen no necesariamente significa que conseguirá rastrearlas). Además, Google estima que el
número de enlaces es cada vez mayor por varios miles de millones cada día.
El futuro de la búsqueda en Internet.
Octubre 2010
www.addreales.com Digital es nuestro nombre
2. Entonces, ¿qué uso real tendrá el rastreador en el futuro? Tal vez va a ser un relleno de otros métodos de
recuperación de información en Internet?
La introducción de Universal Search de Google apoya esta hipótesis y demuestra que se requieren métodos
más allá del rastreo para recuperar información relevante de la estructura emergente de la web.
Pero, ¿Puede este método de captura de datos que tiene sus raíces basadas en una tecnología que se remonta
a 1945 tan eficaz como lo fue en los primeros días de la web?
El contenido generado por el usuario de análisis, contenidos cruzados, análisis comunitarios y análisis total,
deben tenerse en cuenta para obtener los resultados más relevantes y la mejor experiencia del usuario final.
La red creció demasiado para el de índice Yahoo! original. En respuesta, se adoptó el algoritmo de rastreo /
ranking visto en la mayoría de los motores de búsqueda actuales. En ese momento, parecía el camino obvio a
seguir. Pero hoy, como el contenido generado por el usuario - que van desde la creación de redes sociales a los
blogs, compartir fotos a los sitios de vídeo - crece de manera exponencial, el rastreador será la base, sin
embargo no suficiente y poco a poco será derrotado.
¿Es hora de explorar nuevas formas para los motores de búsqueda para reunir la información del mundo? Por
supuesto. ¿Qué hay de los nuevos protocolos para diferentes tipos de motores de búsqueda? Y ¿qué pasa con
el desarrollo de relaciones especiales con los editores de contenido generados por el usuario?
El cambio está a la vuelta de la esquina.
Los enlaces y los clics.
En 1997, cuando AltaVista fue el motor de búsqueda dominante, Kleinberg hizo un análisis de "motor de
búsqueda." Estaba totalmente sorprendido al enterarse de que "Alta Vista" mismo no aparecía en sus propios
resultados. Luego realizó una consulta de información de "fabricante de automóviles japonés." Estaba aún más
sorprendido al observar que los fabricantes como Nissan, Toyota y Honda no aparecen en la parte superior de los
resultados. Kleinberg luego volvió a la página principal de AltaVista y se dio cuenta de las palabras "motor de
búsqueda" no aparecen en ningún lugar de la página. Del mismo modo, en la navegación a las paginas páginas
Nissan, Toyota y Honda no se presentó ningún signo de la expresión "fabricante japonés de automóviles." La
investigación de Kleinberg y su trabajo se discuten a fondo en el fascinante libro Six Degrees: La ciencia de la
era conectada, escrito por el renombrado físico Duncan Watts. Watts y Kleinberg han colaborado en la
determinación de la nueva ciencia de una era conectada, llevando eventualmente a Kleinberg al desarrollo del
algoritmo conocido como HITS, que se basa en la conectividad de datos y documentos de filas en lo que se
conoce como los resultados del cubo y autoridad (esto ocurrió casi al mismo tiempo que Larry Page y Sergey
Brin, estaban desarrollando el algoritmo de Google PageRank).
En pocas palabras, Kleinberg ayudó a mejorar la calidad de búsqueda en la Web mediante la aplicación de
análisis de redes sociales con el mecanismo de clasificación. En lugar de juzgar la calidad de la página por su
texto, el enfoque se desplaza a la calidad general de las páginas que se enlazan con ella.
El futuro de la búsqueda en Internet.
Octubre 2010
www.addreales.com Digital es nuestro nombre
3. Esto se debe a que ha habido tanto énfasis en la construcción de vínculos en la comunidad digital. Pero
considere esto: Si un enlace es una especie de voto de un autor de la página web a otra (como Google se refiere
a él), ¿cómo las personas sin páginas web votan? (es decir, los que tienen vs. a los que no tienen)?
Después de todo, no es realmente democrático alienar al instante unos pocos cientos de millones de usuarios
de Internet (en ese entonces) sólo porque no tienen vínculos de voto.
En algún momento se habló de que Yahoo nunca podría ampliar su índice de tracción humana para que
coincida con el crecimiento exponencial de la web y se mencionó que tenía que haber un valor añadido respecto
a que un editor había revisado en realidad sus páginas web y las había indexado. Él respondió que los centros
de Kleinberg y el algoritmo de las autoridades así se hacian, con sitios que funcionan como centro de editores,
seleccionando sitios de autoridad y, esencialmente, mejorar el índice de manera que se refuercen mutuamente.
De manera similar, la sabiduría de las multitudes y la voz del usuario final están enviando señales grandes a
los motores de búsqueda. Como marcadores en línea, el etiquetado, la popularidad del aumento en clasificación
de modo que se influencie en los resultados del motor de búsqueda de páginas.
Las señales más fuertes provenientes ahora de la barra de herramientas de búsqueda. Extrayendo los
senderos de búsqueda de multitudes y mirando a los datos de actividad del usuario final nos proporciona
perspectivas únicas de los motores que ayudan a identificar cuales los sitios web más relevantes y porque.
De hecho, mientras que la búsqueda se ha basado tradicionalmente en torno a las señales de los creadores de
contenido (texto, enlaces, etc), ahora es mucho más en torno a modelar el comportamiento del usuario. Los
usuarios envían consultas, las reformulan en cadenas de consulta, hacen clic en los resultados y navegan lejos
del motor de búsqueda.
El resultado de búsqueda en la que hicieron clic, no siempre es la página de destino. Los usuarios en general
navegan lejos de los resultados de búsqueda (hasta cinco clics) y visitan una serie de dominios durante su
búsqueda de información.
Los motores de búsqueda siempre han tenido acceso a la consulta y clics automáticos a través de los registros
de retroalimentación implícita según la retroalimentación del usuario final para la clasificación de de nuevos
documentos. Pero es el comportamiento de la post-búsqueda la que proporciona valiosa información sobre los
destinos que son realmente relevantes para los objetivos de información del usuario.
Los usuarios finales proporcionan grandes cantidades de información acerca de los resultados que prefieren
para una búsqueda determinada haciendo clic en uno de los resultados y eligen no hacer clic a los demás. Los
motores de búsqueda pueden utilizar redes neuronales artificiales para cambiar el orden de los resultados de
búsqueda para reflejar lo mejor del trabajo que los usuarios han hecho haciendo clics en el pasado.
¿Por qué construir una red neuronal en lugar de sólo recordar una consulta y luego contar cuántas veces se
hace clic en un resultado? La belleza de una red neuronal es que se puede hacer conjeturas razonables sobre
El futuro de la búsqueda en Internet.
Octubre 2010
www.addreales.com Digital es nuestro nombre
4. los resultados de las consultas que nunca se han visto antes (en función de su similitud con otras consultas).
Esto es significativo ya que hasta el 25% de todas las consultas a los motores de búsqueda cada día nunca han
sido antes vistas.
La inteligencia colectiva, que ya ha sido aplicada a los datos de vinculación para los documentos de
clasificación también se pueden aplicar a los clics y los senderos de búsqueda, alejándose de la limitación de los
sistemas que se centran exclusivamente en las consultas y documentos, es sin duda un gran cambio en línea
para la recuperación de información. Las relaciones entre las consultas, los documentos y las relaciones entre
los documentos han sido fáciles para la captura de información en los motores de búsqueda. Pero los datos de la
barra de herramientas permiten a los motores de búsqueda capturar las relaciones entre las consultas,
documentos y el contexto de un usuario de la búsqueda verdadera. Por supuesto, los motores de búsqueda han
sido siempre capaces de determinar la calidad de una página por el comportamiento de los usuarios finales antes
de que llegara la idea de barra de herramientas del explorador. La detección de miles de clics en el botón de
retroceso del navegador, envía una señal suficientemente clara que la página es de baja calidad. De tal manera,
los motores de búsqueda ahora tienen una combinación muy potente de dichas señales, basándose en los
aprendizajes de los otros listados orgánicos, eso es exactamente lo que el programa publicitario AdWords de
Google se centra: La retroalimentación implícita por parte del usuario final.
Espera la segunda parte de nuestro análisis el cual será liberado en nuestro newsletter de Noviembre.
AddReal
Digital Strategies.
www.addreales.com
El futuro de la búsqueda en Internet.
Octubre 2010
www.addreales.com Digital es nuestro nombre