7. Tf-idf
• Detectar co-ocurrencia de palabras clave: para
comprender mejor el documento.
• Para determinar la relevancia de una keyword
en un dominio o en una URL del dominio.
8. Tf-idf
• Valores altos (desviación de la normal) indican
que el término es muy relevante a nivel página
(es decir, un determinado término es muy
relevante en una URL, no en otras).
• Valores próximos a cero indican que el uso del
término es muy frecuente en el dominio.
21. Atendiendo a cómo google genera su propio
corpus de metadatos en función de las
páginas que indexa, nos damos cuenta de
que la normalidad de un término se basa en
las frecuencias “observadas” del conjunto del
corpus que incluye tales términos
desambiguados.
Corpus of one trillion words from public Web:
pageshttps://research.googleblog.com/2006/08/all-our-n-gram-are-belong-to-you.html
22. • Una página puede posicionar un término aun sin tener
ese término excepto en el title.
• Si en el title no encontramos una palabra clave
relevante o tiene un Tf - idf muy bajo, quizá estamos
replicando titles a lo largo del todo el sitio, lo que
provocará canibalización de URLs por uso del mismo
title o muy similar. El motivo es simple:
23.
24. Matriz de transición de markov
• Columnas igual a 1
• Entradas mayores o iguales a 0
• Existe un eigenvalue igual a 1 y un eigenvector
con eigenvalue 1
34. Hay un trozo de sonrisa tuya en cada
cosa que miro, un pedazo de suspiro mío
cuando lo toco. Ése margen es lo que
creo que se llama anhelo.
¿Pero cómo se puede
anhelar a alguien que no
se conoce?