4. Internet se representa como un grafo de
nodos y aristas:
Donde:
• Nodos = URLs
• Aristas = hiperenlaces
NODOS: PUNTOS DONDE SE ENCUENTRA LA INFORMACIÓN
ARISTAS: “CAMINOS” QUE PERMITEN LLEGAR A LA INFORMACIÓN
5. ¡Vamos a darle alegría!
Preguntas:
- ¿Se puede…?
- ¿Son los enlaces un factor
de posicionamiento…?
6. PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
Siendo:
• PR (A): PageRank de la página A
• d: Dumping factor (0,85)
• T1: sitios que apuntan a A (citaciones)
• PR(T1): Pagerank de la página que cita a A
• C(T1): Número de enlaces salientes
http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf
7. Distribución de probabilidad: de una variable aleatoria es una
función que asigna a cada suceso definido sobre la variable
aleatoria la probabilidad de que dicho suceso ocurra.
La suma de todos los Pageranks, por tanto, es uno:
• Tanto si es de todo internet
• Como si es de un conjunto de nodos; un sitio web
13. PageRank
• El PageRank de un nodo/URL depende
exclusivamente de los PageRanks de los
nodos/URLs que le enlacen. Tanto nodos/URLs
internos como externos.
• El Pagerank se calcula de todos los
nodos/URLs (visibles) de internet.
14. Por tanto…
URLs inútiles, duplicadas o con thin content
lastran el posicionamiento de otras URLs y el
general del sitio
15.
16. Aproximación al Pagerank con Cadenas
de Markov
• Es un proceso estocástico (variables aleatorias de
evolucionan en función de otra variable) discreto
(divisibles un número finito de veces) en el que la
probabilidad de un evento depende del evento
inmediatamente anterior.
• La cadenas de Markov sirven para calcular la
probabilidad de situarnos en un nodo/URL al azar si
tener en cuenta sucesos pasados.
• En función de los enlaces y la relevancia de enlaces que
recibe un sitio, este tiene mas probabilidades de ser
visitado por un usuario al azar.
17. Aproximación al Pagerank con Cadenas
de Markov
Probabilidad de que un
usuario llegue a una
página al azar
Mayor probabilidad = mayor PR
20. Aproximación al Pagerank con Cadenas
de Markov
• Columnas igual a 1
• Entradas mayores o iguales a 0
• Existe un eigenvalue igual a 1 y un eigenvector
con eigenvalue 1
http://blog.kleinproject.org/?p=280
27. URL de Schrödinger – Dumping factor
• El gato de Schrödinger y el dumping factor:
una web tiene y no tiene pagerank 0,15 lo
tiene porque la fórmula del PR se lo otorga
pero no lo tiene porque no se sabe si ésa
página existe o no, porque no se conoce.
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))