Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
WEB y TEXT MINING
Link AnalysisJuan Azcurra
Introducción
 Al comienzo los motores de búsquedas comparaban
la similaridad de contenido una consulta y las páginas
inde...
Introducción
 A comienzo de 1996 los investigadores
comenzaron a trabajar e el problema, recurriendo
a hyperlinks.
 En 1...
Introducción
 Durante 1997-1998 aparecieron dos de los más
influyentes algoritmos de búsqueda basados en
hyperlinks: Page...
Introducción
 Además del ranking de búsquedas, los hyperlinks
son útiles encontrando comunidades Web.
 Una comunidad Web...
Análisis de redes sociales
 Redes sociales es el estudio de entidades sociales
(personas en una organización, llamados ac...
Redes sociales y la Web
 Análisis de redes sociales es muy útil para la Web
porque la Web es esencialmente una sociedad
v...
Centralidad
 Actores importantes o prominentes son
aquellos que están involucrados con otros
actores ampliamente.
 Una p...
Grado de centralidad
9
Prestigio
 El prestigio es una medida más precisa de un
actor que la centralidad.
 Distinguir: lazo enviado (link salien...
Grado de prestigio
11
PageRank
 El año 1998 fue un año agitado para el
modelo de análisis de enlaces Web. Los
algoritmos PageRank y HITS fueron...
PageRank: definición general
 PageRank confia en la naturaleza democrática de
la web usando su basta estructura de links
...
PageRank: más
especificamente
 Un hyperlink de una página a otra es un medio
implícito de autoridad a la página de destin...
PageRank: Algoritmo
 De acuerdo al ranking de prestigio, la
importante de una página i (valor PageRank
de i) es la suma d...
PageRank: Ejemplo
 Asumiendo 4 páginas (A, B, C, D) con un
PageRank inicial de 0.25
 Si B, C y D apuntan a A, entonces e...
PageRank: Ejemplo
Matematicamente PageRanks para
una red simple, expresado como
porcentajes (Google usa una escala
logarit...
PageRank: Ventajas
 Lucha contra el spam. Una página es importante
si las páginas que apuntan a ella también lo son.
 Da...
HITS
 HITS proviene de Hypertext Induced Topic
Search.
 A diferencia de PageRank que es un algoritmo
de ranking estático...
Autoridad y Hubs
Autoridad: a grandes rasgos, la autoridad es
una página con muchos links entrantes.
 La idea es que la p...
Ejemplos
21
Ideas claves de HITS
22
 Un hub bueno apunta a muchas
autoridades buenas, y
 Una autoridad buena es apuntada por
muchos ...
HITS: Algoritmo
23
 Dado una consulta de búsqueda q, HITS
recolecta un conjunto de páginas con los
siguientes pasos:
 En...
Grafo G
24
 HITS trabaja en las páginas en S y asigna
a cada página S un score de autoridad y
un score de hub.
 Sea n el...
HITS: Algoritmo
25
 Sea a(i) el score de autoridad de una página i,
y h(i) el score de hub de la página i.
 La relación ...
Ventajas y desventas de HITS
26
 Ventajas: su habilidad de rankear páginas de
acuerdo al tema de la consulta, puede ser c...
Prochain SlideShare
Chargement dans…5
×

Web Link Analysis

292 vues

Publié le

Presentación en el curso Web y Text Mining en la Universidad de Palermo.

Publié dans : Technologie
  • Identifiez-vous pour voir les commentaires

  • Soyez le premier à aimer ceci

Web Link Analysis

  1. 1. WEB y TEXT MINING Link AnalysisJuan Azcurra
  2. 2. Introducción  Al comienzo los motores de búsquedas comparaban la similaridad de contenido una consulta y las páginas indexadas.  Utilizando métodos de information retrieval coseno, TF-IDF, ...  A partir de 1996, se hizo evidente que la similaridad de contenido no era suficiente.  El número de páginas creció rapidamente a mediados de los 90.  Intentaron “técnicas de clasificación”, Google estimó 10 millones de páginas relevantes.  Cómo seleccionar solo 30-40 páginas y clasificarlas adecuadamente para presentarlas a los usuarios?  Similaridad de contenido es fácil de spam  El dueño de una página se puede repetir unas palabras y agregar muchas palabras relacionadas para impulsar el ranking de sus páginas y/o para hacer las páginas relevantes para un gran número de consultas. 2
  3. 3. Introducción  A comienzo de 1996 los investigadores comenzaron a trabajar e el problema, recurriendo a hyperlinks.  En 1997 Robin Li registró una patente de búsqueda basada en hyperlinks. El método usa las palabras en el texto del hyperlink.  Las páginas web son conectadas a través de hyperlinks, que contienen información importante:  Algunos hyperlinks: organizan información al mismo sitio.  Otros hyperlinks: apuntan a páginas de otros Web sites. Estos hyperlinks salientes a menudo indican una transmisión implicita de autoridad a las páginas que apuntan.  Aquellas páginas que son apuntadas por muchas otras páginas pueden contener información fidedigna (autoridad). 3
  4. 4. Introducción  Durante 1997-1998 aparecieron dos de los más influyentes algoritmos de búsqueda basados en hyperlinks: PageRank y HITS.  Ambos algoritmos se relacionan con redes sociales, explotan los hipervínculos de la Web para clasificar las páginas en función de sus niveles de prestigio o autoridad.  HITS: Jon Kleinberg (Cornel University), en el Simposio sobre algoritmos discretos, enero de 1998.  PageRank: Sergey Brin y Larry Page, (Stanford University), (WWW7), abril de 1998. PageRank potencia el motor de búsqueda de Google. 4
  5. 5. Introducción  Además del ranking de búsquedas, los hyperlinks son útiles encontrando comunidades Web.  Una comunidad Web es un conjunto de páginas densamente unidas representando un grupo de personas con un interés en común.  Más allá de hyperlinks explícitos en la Web, links en otros contextos son útiles también.  para descubrir comunidades de entidades (personas u organizaciones) en textos libres de documentos, etc.  para analizar fenómenos sociales en mais. 5
  6. 6. Análisis de redes sociales  Redes sociales es el estudio de entidades sociales (personas en una organización, llamados actores) y sus interacciones y relaciones.  Las interacciones y relaciones pueden ser representadas con una red o grafo,  cada vértice (o nodo) representa un actor  cada link representa una relación.  Desde la red, podemos estudiar las propiedades de su estructura, y el rol, posición y prestigio de cada actor social.  Podemos también encontrar varios tipos de sub- grafos, comunidades formadas por grupos de actores. 6
  7. 7. Redes sociales y la Web  Análisis de redes sociales es muy útil para la Web porque la Web es esencialmente una sociedad virtual,  cada página: un actor social,  cada hyperlink: una relación.  Muchos resultados de redes sociales pueden ser adaptados y extendidos para usar en el contexto de la Web.  Estudiaremos 2 tipos de análisis de redes sociales, centralidad y prestigio, que están relacionadas a análisis de hyperlink y búsqueda en la Web. 7
  8. 8. Centralidad  Actores importantes o prominentes son aquellos que están involucrados con otros actores ampliamente.  Una persona con amplios contactos (links) o comunicaciones con muchas otras personas en la organización es considerado más importante que una persona con menos contactos.  Los links también pueden ser llamados lazos. Un actor central es uno que participa en muchos lazos. 8
  9. 9. Grado de centralidad 9
  10. 10. Prestigio  El prestigio es una medida más precisa de un actor que la centralidad.  Distinguir: lazo enviado (link saliente) y lazo recibido (link entrante)  Un actor de prestigio es aquel con altos vinculos entrantes.  Para calcular el prestigio: solamente utilizamos links entrantes.  Diferencia entre centralidad y prestigio:  Centralidad se basa en los links salientes.  Prestigio se basa en los links entrantes.  Medidas de prestigio. Rank prestige constituye la base de la mayoría de los algoritmos de Web page link analysis, incluyendo PageRank y HITS. 10
  11. 11. Grado de prestigio 11
  12. 12. PageRank  El año 1998 fue un año agitado para el modelo de análisis de enlaces Web. Los algoritmos PageRank y HITS fueron publicados en ese año.  Las conexiones entre PageRank y HITS son bastantes sorprendentes.  Desde ese momento, PageRank se ha convertido en el modelo de análisis de link domintante:  debido a la independencia de las consultas,  su habilidad para combatir el spamming,  gran suceso del negocio de Google. 12
  13. 13. PageRank: definición general  PageRank confia en la naturaleza democrática de la web usando su basta estructura de links como un indicador de valor de calidad de cada página individual.  PageRank interpreta un hyperlink de una página x a una página y como un voto, de la página x para la página y.  Sin embargo, PageRank mira más que el número total de votos, también analiza la página que emite el voto.  Votos emitidos por páginas “importantes” pesan más y ayudan a hacer “más importantes” otras páginas.  Esto es exactamente la idea de ranking de prestigio en una red social. 13
  14. 14. PageRank: más especificamente  Un hyperlink de una página a otra es un medio implícito de autoridad a la página de destino.  Cuánto más links-entrantes una página i recibe, más prestigio la página i tiene.  Las páginas que apuntan a la página i también tienen su nivel de prestigio.  Una página de alto prestigio apuntando a i es más importante que una página de menor prestigio apuntando a i.  En otras palabras, una página es más importante si es apuntanda por otras páginas importantes. 14
  15. 15. PageRank: Algoritmo  De acuerdo al ranking de prestigio, la importante de una página i (valor PageRank de i) es la suma de valores de PageRank de todas las páginas que apuntan a i.  Desde que una página puede apuntar a muchas otras, su valor de prestigio debe ser compartido.  La Web como un grafo dirigido G = (V, E). Donde el número de páginas es n. El valor de PageRank de una página i (denotada P(i)) es definida como:, )( )( ),(   Eij jO jP iP Oj is the number of out-link of j 15
  16. 16. PageRank: Ejemplo  Asumiendo 4 páginas (A, B, C, D) con un PageRank inicial de 0.25  Si B, C y D apuntan a A, entonces el PR de A será de 0.75  Suponiendo que B tiene links a C y A y D tiene links a las 3, entonces en la siguiente iteración B le transferirá la mitad de su valor a A y D a las 3, mientras que C no tiene links salientes.  En otras palabras, el PR conferido por un link saliente es igual al score de PR divido la cantidad de links salientes.  Obteniendo la formula general: 16
  17. 17. PageRank: Ejemplo Matematicamente PageRanks para una red simple, expresado como porcentajes (Google usa una escala logaritmica). C tiene el más alto PageRank más que E, a pesar que hay menos enlances a C, el link a C viene de una página de mayor importancia y por lo tanto es de gran valor. Si los navegantes comenzaran por una página al azar tendría 85% de probabilidad de elegir un link al azar a partir de la página que están visitando y un 15% de probabilidad de saltar a una página elegida al azar de la web, ellos llegarían a la página E el 8,1% de las veces (el 15% de probabilidad de saltar a una página arbitraria corresponde al factor de damping de 85%). 17
  18. 18. PageRank: Ventajas  Lucha contra el spam. Una página es importante si las páginas que apuntan a ella también lo son.  Dado que no es fácil para el dueño de una página Web agregar enlaces en página desde otras páginas importantes, no es por lo tanto fácil de influenciar PageRank.  PageRank es una medida global independiente de las consultas.  Los valores de PageRank para todas las páginas son calculadas y guardas en forma off-line más que en tiempo de la consulta. 18
  19. 19. HITS  HITS proviene de Hypertext Induced Topic Search.  A diferencia de PageRank que es un algoritmo de ranking estático, HITS es dependiente a la consulta de búsqueda.  Cuando un usuario envia una consulta de búsqueda,  HITS primero expande la lista de páginas relevantes devueltas por el motor de búsqueda, y  produce 2 rankings del conjunto de páginas expandidas, ranking de autoridad y ranking 19
  20. 20. Autoridad y Hubs Autoridad: a grandes rasgos, la autoridad es una página con muchos links entrantes.  La idea es que la página tenga un buen contenido o autoridad sobre un tema,  así que mucha gente confía en ella y enlazar con ella. Hub: Un hub es una página con muchos links salientes.  La página sirve como un organizador de la información de un tema en particular y  apunta a muchas páginas de autoridad sobre el 20
  21. 21. Ejemplos 21
  22. 22. Ideas claves de HITS 22  Un hub bueno apunta a muchas autoridades buenas, y  Una autoridad buena es apuntada por muchos hubs buenos.  Autoridades y hubs tienen una relación de refuerzo mutuo
  23. 23. HITS: Algoritmo 23  Dado una consulta de búsqueda q, HITS recolecta un conjunto de páginas con los siguientes pasos:  Envia la consulta q al motor de búsqueda.  Se recoge entonces t (t = 200 es usando en el paper de HITS) el valor más alto de páginas rankeadas. Esto es llamada el conjunto raiz W.  Crece W incluyendo cualquier página que apunte a una en W y cualquiera apuntada por W. Esto da lugar al conjunto S, conjunto base.
  24. 24. Grafo G 24  HITS trabaja en las páginas en S y asigna a cada página S un score de autoridad y un score de hub.  Sea n el número de páginas en S.  Nuevamente se usa G = (V, E) para denotar el grafo de hyperlinks de S  Usamos L para denotar la matriz de adyacencia del grafo.      otherwise Ejiif Lij 0 ),(1
  25. 25. HITS: Algoritmo 25  Sea a(i) el score de autoridad de una página i, y h(i) el score de hub de la página i.  La relación de refuerzo mutual de los dos scores están representado por:   Eij jhia ),( )()(   Eji jaih ),( )()(
  26. 26. Ventajas y desventas de HITS 26  Ventajas: su habilidad de rankear páginas de acuerdo al tema de la consulta, puede ser capaz de proveer autoridades y hubs más relevantes.  Desventajas:  Spam. De hecho es facil de influenciar HITS desde afuera añadiendo enlaces de la propia página.  Derivación de temas. Muchas páginas en el conjunto expandido no pueden ser del mismo tema.  Tiempo de respuesta ineficiente. El tiempo de evaluación de la consulta es bajo. Recolectar el conjunto raiz, expandirlo y calcular el autovector de todas las operaciones es expansiva.

×