Conf 2 VWD - S PEYRONNET - Pagerank thématique

588 vues

Publié le

UTILISER LE PAGERANK THÉMATIQUE POUR FAIRE UN
RÉSEAU DE SITES PERFORMANT

Publié dans : Internet
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
588
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
12
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Conf 2 VWD - S PEYRONNET - Pagerank thématique

  1. 1. UTILISER LE PAGERANK THÉMATIQUE POUR FAIRE UN RÉSEAU DE SITES PERFORMANT ! SYLVAIN PEYRONNET @SPEYRONNET
  2. 2. QUI SUIS-JE ? Sylvain Peyronnet Chief @ ix-labs Chief @ La Machine Chief scientist @ Qwant Prof @ Université de Caen (on leave) #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet Ghost writer des slides : Guillaume Peyronnet https://freres.peyronnet.eu/
  3. 3. QU’EST-CE QU’UN MOTEUR DE RECHERCHE ? algo de classement web classement index analyse de la pertinence analyse de l’importance classement classement contenu des pages liens entre les pages spider #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet
  4. 4. QU’EST-CE QU’UN MOTEUR DE RECHERCHE ? algo de classement web classement index analyse de la pertinence analyse de l’importance requête de l’utilisateur classement classement contenu des pages liens entre les pages spider expansion de requête #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet
  5. 5. CONSTRUIRE LE CLASSEMENT Pertinence pour R Classement global On construit le classement en choisissant les pages les plus importantes parmi celles qui sont pertinentes +- #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet
  6. 6. algo de classement web classement index analyse de la pertinence analyse de l’importance requête de l’utilisateur classement classement contenu des pages liens entre les pages spider expansion de requête QU’EST-CE QU’UN MOTEUR DE RECHERCHE ? #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet La force des réseaux de sites basés sur le pagerank thématique vient de là
  7. 7. LE MOTEUR ANALYSE LE CONTENU DES PAGES12" SMX$Paris$8$et$9$JUIN$2015$ Cherchons$le$bon$vocabulaire$ petit! être! perdre! forêt! Le! petit! était! perdu! dans! la! forêt! Un texte est un vecteur ?! ?! ?! ?! ?! ?! ?! petit! perdre! être! forêt! Un texte est un vecteur #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet
  8. 8. LE MOTEUR ANALYSE LE CONTENU DES PAGES $JUIN$2015$ Cherchons$le$bon$vocabulaire$ ?! ?! ?! ?! ?! ?! ?! petit! perdre! être! forêt! Poids d’un terme :TF-IDF 14" SMX$Paris$8$et$9$JUIN$2015$ Cherchons$le$bon$vocabulaire$ d1 d2 θ d1 d2 La similarité est définie p cosinus de l’angle proximité sémantique : cosinus de l’angle Clustering pour être rapide #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet
  9. 9. LE MOTEUR DETERMINE LA POPULARITÉ Initialisation : ! ! Calcul itératif : ! ! ! Le PageRank #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet
  10. 10. LE MOTEUR DETERMINE LA POPULARITÉ Considérons le comportement suivant d’un internaute : • Tirer une page web au hasard • Tirer un nombre p entre 0 et 1 • Si p > c, alors choisir une page au hasard • Si p < c choisir au hasard un lien de la page web et aller à la page liée par ce lien (si pas de lien, GOTO 1) La probabilité que cet internaute se trouve en une page donnée à un moment donné est égale au PR de cette page. En conséquence, fort PR = forte probabilité d’être visité #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet
  11. 11. LE PAGERANK THÉMATIQUE FONCTIONNEMENT DE LA MÉTHODE ODP 16 thématiques PR thématique = vecteur de dimension 16 Calcul du PR composante par composante (sujet par sujet) T1 T2 ... T15 T16 HORS LIGNE #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet Taher Haveliwala - 2003
  12. 12. LE PAGERANK THÉMATIQUE FONCTIONNEMENT DE LA MÉTHODE requête q On cherche les sujets pour q EN LIGNE théma x théma y théma z Combinaison des PR pour x, y, z Classement SERPs On combine les thématiques pour q pour construire un q-PR Comme le PR usuel #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet
  13. 13. POPULARITÉ : À RETENIR #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet Un lien à une valeur proportionnelle à la popularité de la source ET à la proximité thématique entre les pages La popularité dépend des structures de liens : il faut faire « cycler » le surfeur aléatoire Il faut rester « naturel », en optimisant on dévie du comportement statistique et on peut être pénalisé
  14. 14. LES RÉSEAUX, LA RÉPONSE À TOUT ? #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet casino poker argent hôtel voiture de luxe voyage transport las vegas Un réseau c’est plus que la simple continuité thématique !
  15. 15. LE BON RÉSEAU ET LE MAUVAIS RÉSEAU #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet Quand on monte un réseau de sites, on essaie d'être naturel ! • C'est toujours dommage de subir une pénalité sur un réseau complet… surtout quand les sites sont propres
 • On essaie d'optimiser le PageRank du réseau, tout en restant raisonnable : Google devrait le comprendre (et passer à côté)
 • On pense à la continuité thématique
  16. 16. LE BON RÉSEAU #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet Quelle structure de liens adopter pour éviter d’être détecté ? ! Etre furtif, c’est possible si on est prêt à gagner moins de PR : ! •Graphe aléatoire de Barabási - Albert • Graphe Small World (Beta model ou kleinberg) Avant de penser aux optimisations, on pense à la robustesse vis à vis de Google !
  17. 17. IDÉE : GRAPHE ALÉATOIRE NATUREL #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet Un graphe naturel pour représenter le web est ! 1. Orienté : chaque lien a un sens u→v ≠ v→u
 2. Petit monde :
 •Petit diamètre : Il y a un chemin court entre presque toutes les paires de pages
 •Routage glouton efficace : On peut trouver un chemin court avec une connaissance locale du graphe
  18. 18. IDÉE : GRAPHE ALÉATOIRE NATUREL #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet Un graphe naturel pour représenter le web est ! 1. Orienté : chaque lien a un sens u→v ≠ v→u
 ! 2. Petit monde :
 ! •Clusterisé: 
 ! Si et alors la proba que est grande u→v ou v→u v→w ou w→u( ( u→w ou w→u( ( ( (
  19. 19. GRAPHE DE BARABASI - ALBERT #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet • Les noeuds sont ajoutés 1 par 1
 • La probabilité Pi qu’un nouveau noeud soit relié à i est : « Plus j’ai de liens, plus j’attire de liens ! » degré de i somme des degrés de tous les noeuds
  20. 20. IL EXISTE DES OUTILS POUR GÉNÉRER LES GRAPHES #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet
  21. 21. IL EXISTE DES OUTILS POUR GÉNÉRER LES GRAPHES #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet
  22. 22. IL SUFFIT ENSUITE DE CONSTRUIRE LE RÉSEAU #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet Les thématiques doivent être proche Votre plus gros site est celui a plus fort PR du réseau Tous les sites ne sont pas à vous !
  23. 23. #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet IL SUFFIT ENSUITE DE CONSTRUIRE LE RÉSEAU Les thématiques doivent être proche Utiliser Salton +TF.IDF Utiliser lesTF thématiques de Majestic Utiliser un mind mapping (type cocooning^^) + aide à la rédaction Faire à la main la proximité thématique
  24. 24. IL SUFFIT ENSUITE DE CONSTRUIRE LE RÉSEAU #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet Votre plus gros site est celui a plus fort PR du réseau Car c’est celui qui sera le plus facile à positionner Tous les sites ne sont pas à vous ! Trop de travail ! Plus de risques de se faire détecter par Google Un réseau = un mix de sites perso et extérieurs, bien linkés
  25. 25. ACCROCHE DU RÉSEAU À L’EXTÉRIEUR #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet Il faut obtenir des liens depuis le web vers votre réseau ! 1. Thématiser au maximum ! 2. Privilégier peu de liens d’accroche, mais avec fort Trust ! 3. Plus un site du réseau à un fort PR interne au réseau plus il doit y avoir de liens vers lui

  26. 26. BONUS DU « PENSER RÉSEAU » #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet Avec le réseau vous maitrisez tout ! ! Les problèmes de conversion disparaissent en partie car vous pouvez avoir une stratégie de conversion sur le réseau, et donc spécialiser les sites tout en gardant un entonnoir de conversion efficace. ! Un site d’info sur un produit, un site sur la réglementation, un site sur les utilisateurs, etc. Puis un site de vente au centre du réseau !

  27. 27. CONCLUSION #VWD                                Sylvain  Peyronnet  -­‐  @speyronnet A vous de jouer !

×