COMMENT PENSER SON
CONTENU E-TOURISME POUR
LES MOTEURS DE RECHERCHE ?
Sylvain Peyronnet
SYLVAIN
PEYRONNET
Fondateur et responsable des ix-labs	

Professeur des Universités (on leave)	

@speyronnet
http://www.pe...
algo de
classement
web
QU’EST-CE QU’UN MOTEUR
DE RECHERCHE ?
classement
index
analyse de la
pertinence
analyse de
l’import...
algo de
classement
web
QU’EST-CE QU’UN MOTEUR
DE RECHERCHE ?
classement
index
requête
de l’utilisateur
classement
classeme...
LA NOTION DE PERTINENCE
Un document est pertinent pour une requête s’il répond
au besoin informationnel sous-jacent
besoin...
LA NOTION DE PERTINENCE
On veut écrire des textes que le moteur va considérer
comme pertinents
Il faut donc savoir ce que ...
LA NOTION DE PERTINENCE
• On va préférer utiliser un modèle de classement de la
pertinence, appelé pertinence partielle.	
...
UN TEXTE EST UNVECTEUR
Le petit était perdu dans la forêt
Le loup était aussi dans la forêt
? ? ? ? ? ? ? ? ?
LE MODÈLEVECTORIEL
(SALTON 1962)
• On construit l’espace des termes : c’est un espace de
dimension n, où n est le nombre t...
LA LEMMATISATION
POUR QUE CE SOIT PLUS SIMPLE POUR LE MOTEUR
Le petit était perdu dans la forêt
Le loup était aussi dans l...
CALCUL DES POIDS
petit
perdre
forêt
loup
forêt
petit loup perdre forêt
1 1 1 2
petit loup perdre forêt
1 1 1 1
(1,1,1,2)
(...
FABRIQUER LEVECTEUR
La similarité est donnée par le cosinus de l’angle entre les
vecteurs des documents (cosinus de Salton...
LE MODELEVECTORIEL
QUELLE FONCTION DE POIDS CHOISIR ?
tf.idf (term frequency - inverse document frequency)	

!
!
!
!
!
!
L...
TF . IDF
!
•Term frequency (TF)	

!
Un terme qui apparaît souvent dans un document a
plus de poids qu’un terme qui apparaî...
QUE FAIRE ?
ALIGNEMENT SÉMANTIQUE
!
• Pour être pertinent sur un ensemble de mots-clés,
un texte doit être en alignement s...
QUE FAIRE ?
TF*IDF
!
Pour augmenter sa pertinence pour une thématique
particulière :
!
• Faire apparaître des termes fréqu...
QUE FAIRE ?
TF*IDF
!
Pour augmenter sa pertinence pour une thématique
particulière :
!
• Faire apparaître des termes fréqu...
QUE FAIRE ?
CONSTRUIRE UN CORPUS
!
Un bon corpus est :

• Représentatif de sa thématique	

• Volumineux	

• Toujours impar...
QUE FAIRE ?
CONSTRUIRE UN CORPUS
!
Pour constituer un corpus, on va :

• sélectionner des sites web 	

• scrapper les page...
QUE FAIRE ?
CONSTRUIRE UN CORPUS
!
Prendre les sites de référence



musée
rouen
rouen-
musees.fr/
www.rouentouris
me.com
...
QUE FAIRE ?
CONSTRUIRE UN CORPUS
!
Scrapper des pages de ces sites

Exemple

• on peut utiliser scrapy, un logiciel open s...
QUE FAIRE ?
CONSTRUIRE UN CORPUS
!
Extraire les mots des pages, les compter les
stocker

Utiliser Scrapy : après le crawl
...
QUE FAIRE ?
CONSTRUIRE UN CORPUS
!
Stockage en base de données :

! id mot quantite entite
1 moyen age 11 0
2 musée 7619 0...
On ajoute dans les textes des termes qui sont fréquemment
associés aux mots qu’on va viser.	

QUE FAIRE ?
COOCCURRENCE
!
v...
QUE FAIRE ?
CO-OCCURRENCE
!
Mesurer la "compatibilité" de 2 termes
DICE
MUTUAL INFORMATION (MIM)
EXPECTED MIM (EMIM)
CHI 2
trmm	

itto	

ortuno	

almagreb	

yuca	

…
forest	

tree	

rain	

fish	

water

…
itto	

biofunction	

almagreb	

jack frui...
EN PRATIQUE
!
balade vtt
saint raphael
EN PRATIQUE
!
Choisir les sites
référents pour une
requête
balade vtt
saint raphael
!
http://www.esterel-cotedazur.com/loi...
EN PRATIQUE
!
Faire un scrap des
sites 1-grams	

2-grams
!
http://www.esterel-cotedazur.com/loisirs/circuits-velo-de-route...
EN PRATIQUE
!
Faire un scrap des
sites
1-grams	

2-grams
Calculer les IDF
Calculer les co-
occurrences
EN PRATIQUE
!
Résumer
l’information
EN PRATIQUE
!
Résumer
l’information
EN PRATIQUE
!
Et finalement :
Rédiger !
!
Disclaimer : je ne suis pas
rédacteur, et pas de la
région ;)
EN PRATIQUE
!
Et finalement :
Rédiger !
Si vous voulez faire du vélo
dans le Var cet été, prenez
votreVTT pour parcourir le...
EN PRATIQUE
!
Et finalement :
Rédiger !
Si vous voulez faire du vélo
dans le Var cet été, prenez
votreVTT pour parcourir le...
EN PRATIQUE
!
Et finalement :
Rédiger !
Si vous voulez faire du vélo
dans le Var cet été, prenez
votreVTT pour parcourir le...
EN PRATIQUE
!
Et finalement :
Rédiger !
Si vous voulez faire du vélo
dans le Var cet été, prenez
votreVTT pour parcourir le...
ET MAINTENANT ?
!
Pertinence, corpus,
co-occurences,
rédaction…
A vous de jouer !
ET
MAINTENANT ?
!
Prochain SlideShare
Chargement dans…5
×

Comment penser son contenu e-tourisme pour les moteurs de recherche ? [Frères Peyronnet]

3 569 vues

Publié le

Les moteurs de recherche utilisent des algorithmes pour qualifier la pertinence des contenus d'une page web.

Pour écrire des contenus - pour l'e-tourisme ici - on peut s'aider d'une analyse algorithmique pour déterminer quels sont les termes importants de la thématique étudiée, et ainsi concevoir des textes qui ont toutes les raisons d'être considérés comme pertinents par un moteur de recherche.

Publié dans : Sciences
0 commentaire
6 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
3 569
Sur SlideShare
0
Issues des intégrations
0
Intégrations
457
Actions
Partages
0
Téléchargements
58
Commentaires
0
J’aime
6
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Comment penser son contenu e-tourisme pour les moteurs de recherche ? [Frères Peyronnet]

  1. 1. COMMENT PENSER SON CONTENU E-TOURISME POUR LES MOTEURS DE RECHERCHE ? Sylvain Peyronnet
  2. 2. SYLVAIN PEYRONNET Fondateur et responsable des ix-labs Professeur des Universités (on leave) @speyronnet http://www.peyronnet.eu http://live.ix-labs.org
  3. 3. algo de classement web QU’EST-CE QU’UN MOTEUR DE RECHERCHE ? classement index analyse de la pertinence analyse de l’importance requête de l’utilisateur classement classement contenu des pages liens entre les pages spider
  4. 4. algo de classement web QU’EST-CE QU’UN MOTEUR DE RECHERCHE ? classement index requête de l’utilisateur classement classement contenu des pages spider Aujourd’hui, on parle de ça ! analyse de la pertinence
  5. 5. LA NOTION DE PERTINENCE Un document est pertinent pour une requête s’il répond au besoin informationnel sous-jacent besoin informationnel « île paradisiaque » requête Résultats pertinent pertinent non pertinent non pertinent
  6. 6. LA NOTION DE PERTINENCE On veut écrire des textes que le moteur va considérer comme pertinents Il faut donc savoir ce que le moteur appelle un texte pertinent Voyons donc le principe (simplifié) de ce qu’est la pertinence d’un point de vue ALGORITHMIQUE
  7. 7. LA NOTION DE PERTINENCE • On va préférer utiliser un modèle de classement de la pertinence, appelé pertinence partielle. ! • Le modèle vectoriel implémente cette notion de pertinence partielle. ! • La pertinence est une notion sémantique, difficile à définir. ! On va faire un abus et considérer que la similarité syntaxique entre documents est une bonne mesure de la pertinence
  8. 8. UN TEXTE EST UNVECTEUR Le petit était perdu dans la forêt Le loup était aussi dans la forêt ? ? ? ? ? ? ? ? ?
  9. 9. LE MODÈLEVECTORIEL (SALTON 1962) • On construit l’espace des termes : c’est un espace de dimension n, où n est le nombre total de termes différents existants dans les documents ! • Chaque document est représenté par un vecteur avec n composants, chaque composant correspond à un terme possible ! • Chaque case contient le poids du terme correspond à la case ! • Il existe plusieurs types de poids
  10. 10. LA LEMMATISATION POUR QUE CE SOIT PLUS SIMPLE POUR LE MOTEUR Le petit était perdu dans la forêt Le loup était aussi dans la forêt petit forêt loup perdre
  11. 11. CALCUL DES POIDS petit perdre forêt loup forêt petit loup perdre forêt 1 1 1 2 petit loup perdre forêt 1 1 1 1 (1,1,1,2) (1,1,1,1) petit loup perdre forêt 1/5 1/5 1/5 2/5 (1/5,1/5,1/5,2/5)
  12. 12. FABRIQUER LEVECTEUR La similarité est donnée par le cosinus de l’angle entre les vecteurs des documents (cosinus de Salton) d1 d2θ On parle d’alignement sémantique
  13. 13. LE MODELEVECTORIEL QUELLE FONCTION DE POIDS CHOISIR ? tf.idf (term frequency - inverse document frequency) ! ! ! ! ! ! La tf.idf favorise les termes qui apparaissent peu souvent pour opérer une classification efficace On n’utilise pas les poids simples !
  14. 14. TF . IDF ! •Term frequency (TF) ! Un terme qui apparaît souvent dans un document a plus de poids qu’un terme qui apparaît peu ! • Inverse Document Frequency (IDF) ! Un terme qui apparaît dans peu de documents est plus discriminant qu’un terme qui apparaît dans beaucoup de documents
  15. 15. QUE FAIRE ? ALIGNEMENT SÉMANTIQUE ! • Pour être pertinent sur un ensemble de mots-clés, un texte doit être en alignement sémantique sur ces mots-clés ! • Impact fort sur la rédaction et l’organisation des contenus ! • Faire une page spécialisée par groupe de requêtes proches !
  16. 16. QUE FAIRE ? TF*IDF ! Pour augmenter sa pertinence pour une thématique particulière : ! • Faire apparaître des termes fréquents de la thématique :
 pour pousser le facteur tf ! •Ajouter quelques termes rares de la thématique :
 Pour pousser le facteur idf ! La rédaction doit être de très bon niveau pour avoir les mots avec le plus d’impacts sur la tf*idf
  17. 17. QUE FAIRE ? TF*IDF ! Pour augmenter sa pertinence pour une thématique particulière : ! • Faire apparaître des termes fréquents de la thématique :
 • Il faut bien connaître sa thématique, évaluer statistiquement son corpus • On veut faire comprendre sans ambiguïté la thématique de la page ! •Ajouter quelques termes rares de la thématique :
 • Faire appel à des experts, des sites de référence, et aux statistiques du corpus pour trouver ces mots. • Attention à la rédaction par des personnes non- averties, de profils différents de la cible
  18. 18. QUE FAIRE ? CONSTRUIRE UN CORPUS ! Un bon corpus est :
 • Représentatif de sa thématique • Volumineux • Toujours imparfait (on ne connait pas ceux utilisés par les moteurs de recherche)
  19. 19. QUE FAIRE ? CONSTRUIRE UN CORPUS ! Pour constituer un corpus, on va :
 • sélectionner des sites web • scrapper les pages de ces sites • extraire les mots des pages en les comptant • calculer les co-occurences • stocker les mots en base de données pour permettre une réutilisation sans douleur
  20. 20. QUE FAIRE ? CONSTRUIRE UN CORPUS ! Prendre les sites de référence
 
 musée rouen rouen- musees.fr/ www.rouentouris me.com www.amis- musees-rouen.fr/ www.museedes antiquites.fr/
  21. 21. QUE FAIRE ? CONSTRUIRE UN CORPUS ! Scrapper des pages de ces sites
 Exemple
 • on peut utiliser scrapy, un logiciel open source
 • http://scrapy.org/
 • Code en python, donc compatible Windows, Linux, Mac OS X
  22. 22. QUE FAIRE ? CONSTRUIRE UN CORPUS ! Extraire les mots des pages, les compter les stocker
 Utiliser Scrapy : après le crawl ! • Il faut extraire les entrées du fichier de résultats • Il faut nettoyer les entrées (accents, balises, sauts de lignes, etc.) • il faut compter • il faut stocker le corpus dans une base de données
  23. 23. QUE FAIRE ? CONSTRUIRE UN CORPUS ! Stockage en base de données :
 ! id mot quantite entite 1 moyen age 11 0 2 musée 7619 0 3 egypte 10 0 4 oeuvre 92 0 5 visite 2183 0 6 rouen 166 1 7 lillebonne 148 1 8 ivoire 505 1 9 rouen 1645 1 10 attendu 146 0
  24. 24. On ajoute dans les textes des termes qui sont fréquemment associés aux mots qu’on va viser. QUE FAIRE ? COOCCURRENCE ! vélo balade saint-raphael vélo balade saint-raphael VTT esterel verdon +
  25. 25. QUE FAIRE ? CO-OCCURRENCE ! Mesurer la "compatibilité" de 2 termes DICE MUTUAL INFORMATION (MIM) EXPECTED MIM (EMIM) CHI 2
  26. 26. trmm itto ortuno almagreb yuca … forest tree rain fish water
 … itto biofunction almagreb jack fruit adeo … forest rain exotic banana jungle … QUE FAIRE ? CO-OCCURRENCE : EXEMPLE ! TROPICAL DICE CHI 2MIM EMIM dataset :TREC News Stories ≅ ≅
  27. 27. EN PRATIQUE ! balade vtt saint raphael
  28. 28. EN PRATIQUE ! Choisir les sites référents pour une requête balade vtt saint raphael ! http://www.esterel-cotedazur.com/loisirs/circuits-velo-de-route/ http://www.visorando.com/randonnee-saint-raphael-var.html http://www.utagawavtt.com/circuits-vtt-proches?topo=1582&dist=20 http://balado.planet.fr/idee-balade/provence-alpes-cote-d-azur/var/esterel-vtt/idb/2434 http://www.cyclisme-mag.com/Lifestyle/Voyages/Articles/Parcourir-L-Esterel-a-VTT-8901/ http://www.visitvar.fr/provence-cote-azur/le-var-cote-velo/parcours-cyclable-du-littoral http://www.visitvar.fr/provence-cote-azur/le-var-cote-velo http://var.decouverte.pagesperso-orange.fr/nature/indexvtt.htm http://www.velo101.com/forum/voirsujet/entrainement-sur-agay-83--18927 http://www.voiesvertes.com/htm/departement83.htm http://www.provenceweb.fr/var/cyclo/randonnees/b21.htm http://www.var.fr/deplacements/circuit-de-randonnee/pcl http://www.gralon.net/tourisme/sports-et-loisirs/info-natura-bike-balade-en-velo-saint-raphael-19030.htm http://www.theoule-sur-mer.org/modules/news/article.php?storyid=243 http://www.ot-lalondelesmaures.fr/la-londe-cote-terre/loisirs-et-activites/balades-et-randonnees.htm http://www.af3v.org/-Fiche-VVV-.html?voie=35 http://www.lelavandou.eu/var/cyclo-rando.htm http://jeanmimivelo.free.fr/baladavelo.htm
  29. 29. EN PRATIQUE ! Faire un scrap des sites 1-grams 2-grams ! http://www.esterel-cotedazur.com/loisirs/circuits-velo-de-route/ http://www.visorando.com/randonnee-saint-raphael-var.html http://www.utagawavtt.com/circuits-vtt-proches?topo=1582&dist=20 http://balado.planet.fr/idee-balade/provence-alpes-cote-d-azur/var/esterel-vtt/idb/2434 http://www.cyclisme-mag.com/Lifestyle/Voyages/Articles/Parcourir-L-Esterel-a-VTT-8901/ http://www.visitvar.fr/provence-cote-azur/le-var-cote-velo/parcours-cyclable-du-littoral http://www.visitvar.fr/provence-cote-azur/le-var-cote-velo http://var.decouverte.pagesperso-orange.fr/nature/indexvtt.htm http://www.velo101.com/forum/voirsujet/entrainement-sur-agay-83--18927 http://www.voiesvertes.com/htm/departement83.htm http://www.provenceweb.fr/var/cyclo/randonnees/b21.htm http://www.var.fr/deplacements/circuit-de-randonnee/pcl http://www.gralon.net/tourisme/sports-et-loisirs/info-natura-bike-balade-en-velo-saint-raphael-19030.htm http://www.theoule-sur-mer.org/modules/news/article.php?storyid=243 http://www.ot-lalondelesmaures.fr/la-londe-cote-terre/loisirs-et-activites/balades-et-randonnees.htm http://www.af3v.org/-Fiche-VVV-.html?voie=35 http://www.lelavandou.eu/var/cyclo-rando.htm http://jeanmimivelo.free.fr/baladavelo.htm
  30. 30. EN PRATIQUE ! Faire un scrap des sites 1-grams 2-grams Calculer les IDF Calculer les co- occurrences
  31. 31. EN PRATIQUE ! Résumer l’information
  32. 32. EN PRATIQUE ! Résumer l’information
  33. 33. EN PRATIQUE ! Et finalement : Rédiger ! ! Disclaimer : je ne suis pas rédacteur, et pas de la région ;)
  34. 34. EN PRATIQUE ! Et finalement : Rédiger ! Si vous voulez faire du vélo dans le Var cet été, prenez votreVTT pour parcourir les alentours de Saint-Raphael. ! Vous pouvez prendre le départ près du littoral, pour un parcours qui vous mènera au pied de l’Esterel.
  35. 35. EN PRATIQUE ! Et finalement : Rédiger ! Si vous voulez faire du vélo dans le Var cet été, prenez votreVTT pour parcourir les alentours de Saint-Raphael. ! Vous pouvez prendre le départ près du littoral, pour un parcours qui vous mènera au pied de l’Esterel.
  36. 36. EN PRATIQUE ! Et finalement : Rédiger ! Si vous voulez faire du vélo dans le Var cet été, prenez votreVTT pour parcourir les alentours de Saint-Raphael. ! Vous pouvez prendre le départ près du littoral, pour un parcours qui vous mènera au pied de l’Esterel.
  37. 37. EN PRATIQUE ! Et finalement : Rédiger ! Si vous voulez faire du vélo dans le Var cet été, prenez votreVTT pour parcourir les alentours de Saint-Raphael. ! Vous pouvez prendre le départ près du littoral, pour un parcours qui vous mènera au pied de l’Esterel.
  38. 38. ET MAINTENANT ? !
  39. 39. Pertinence, corpus, co-occurences, rédaction… A vous de jouer ! ET MAINTENANT ? !

×