SlideShare une entreprise Scribd logo
1  sur  39
Télécharger pour lire hors ligne
COMMENT PENSER SON
CONTENU E-TOURISME POUR
LES MOTEURS DE RECHERCHE ?
Sylvain Peyronnet
SYLVAIN
PEYRONNET
Fondateur et responsable des ix-labs	

Professeur des Universités (on leave)	

@speyronnet
http://www.peyronnet.eu
http://live.ix-labs.org
algo de
classement
web
QU’EST-CE QU’UN MOTEUR
DE RECHERCHE ?
classement
index
analyse de la
pertinence
analyse de
l’importance
requête
de l’utilisateur
classement
classement
contenu des
pages
liens entre
les pages
spider
algo de
classement
web
QU’EST-CE QU’UN MOTEUR
DE RECHERCHE ?
classement
index
requête
de l’utilisateur
classement
classement
contenu des
pages
spider
Aujourd’hui,
on parle de
ça !
analyse de la
pertinence
LA NOTION DE PERTINENCE
Un document est pertinent pour une requête s’il répond
au besoin informationnel sous-jacent
besoin
informationnel
« île paradisiaque »
requête Résultats
pertinent
pertinent
non pertinent
non pertinent
LA NOTION DE PERTINENCE
On veut écrire des textes que le moteur va considérer
comme pertinents
Il faut donc savoir ce que le moteur appelle un texte
pertinent
Voyons donc le principe (simplifié) de ce qu’est la pertinence
d’un point de vue ALGORITHMIQUE
LA NOTION DE PERTINENCE
• On va préférer utiliser un modèle de classement de la
pertinence, appelé pertinence partielle.	

!
• Le modèle vectoriel implémente cette notion de
pertinence partielle.	

!
• La pertinence est une notion sémantique, difficile à
définir.	

!
On va faire un abus et considérer que la similarité
syntaxique entre documents est une bonne mesure de
la pertinence
UN TEXTE EST UNVECTEUR
Le petit était perdu dans la forêt
Le loup était aussi dans la forêt
? ? ? ? ? ? ? ? ?
LE MODÈLEVECTORIEL
(SALTON 1962)
• On construit l’espace des termes : c’est un espace de
dimension n, où n est le nombre total de termes différents
existants dans les documents	

!
• Chaque document est représenté par un vecteur avec n
composants, chaque composant correspond à un terme
possible	

!
• Chaque case contient le poids du terme correspond à la
case	

!
• Il existe plusieurs types de poids
LA LEMMATISATION
POUR QUE CE SOIT PLUS SIMPLE POUR LE MOTEUR
Le petit était perdu dans la forêt
Le loup était aussi dans la forêt
petit
forêt
loup
perdre
CALCUL DES POIDS
petit
perdre
forêt
loup
forêt
petit loup perdre forêt
1 1 1 2
petit loup perdre forêt
1 1 1 1
(1,1,1,2)
(1,1,1,1)
petit loup perdre forêt
1/5 1/5 1/5 2/5 (1/5,1/5,1/5,2/5)
FABRIQUER LEVECTEUR
La similarité est donnée par le cosinus de l’angle entre les
vecteurs des documents (cosinus de Salton)
d1
d2θ
On parle
d’alignement
sémantique
LE MODELEVECTORIEL
QUELLE FONCTION DE POIDS CHOISIR ?
tf.idf (term frequency - inverse document frequency)	

!
!
!
!
!
!
La tf.idf favorise les termes qui apparaissent peu souvent
pour opérer une classification efficace
On n’utilise pas les poids simples !
TF . IDF
!
•Term frequency (TF)	

!
Un terme qui apparaît souvent dans un document a
plus de poids qu’un terme qui apparaît peu	

!
• Inverse Document Frequency (IDF)	

!
Un terme qui apparaît dans peu de documents est plus
discriminant qu’un terme qui apparaît dans beaucoup
de documents
QUE FAIRE ?
ALIGNEMENT SÉMANTIQUE
!
• Pour être pertinent sur un ensemble de mots-clés,
un texte doit être en alignement sémantique sur ces
mots-clés 	

!
• Impact fort sur la rédaction et l’organisation des
contenus	

!
• Faire une page spécialisée par groupe de requêtes
proches	

!
QUE FAIRE ?
TF*IDF
!
Pour augmenter sa pertinence pour une thématique
particulière :
!
• Faire apparaître des termes fréquents de la thématique :

pour pousser le facteur tf	

!
•Ajouter quelques termes rares de la thématique :

Pour pousser le facteur idf	

!
La rédaction doit être de très bon niveau pour avoir les
mots avec le plus d’impacts sur la tf*idf
QUE FAIRE ?
TF*IDF
!
Pour augmenter sa pertinence pour une thématique
particulière :
!
• Faire apparaître des termes fréquents de la thématique :

• Il faut bien connaître sa thématique, évaluer
statistiquement son corpus	

• On veut faire comprendre sans ambiguïté la
thématique de la page	

!
•Ajouter quelques termes rares de la thématique :

• Faire appel à des experts, des sites de référence, et
aux statistiques du corpus pour trouver ces mots.	

• Attention à la rédaction par des personnes non-
averties, de profils différents de la cible
QUE FAIRE ?
CONSTRUIRE UN CORPUS
!
Un bon corpus est :

• Représentatif de sa thématique	

• Volumineux	

• Toujours imparfait (on ne connait pas ceux utilisés par
les moteurs de recherche)
QUE FAIRE ?
CONSTRUIRE UN CORPUS
!
Pour constituer un corpus, on va :

• sélectionner des sites web 	

• scrapper les pages de ces sites	

• extraire les mots des pages en les comptant	

• calculer les co-occurences	

• stocker les mots en base de données pour permettre
une réutilisation sans douleur
QUE FAIRE ?
CONSTRUIRE UN CORPUS
!
Prendre les sites de référence



musée
rouen
rouen-
musees.fr/
www.rouentouris
me.com
www.amis-
musees-rouen.fr/
www.museedes
antiquites.fr/
QUE FAIRE ?
CONSTRUIRE UN CORPUS
!
Scrapper des pages de ces sites

Exemple

• on peut utiliser scrapy, un logiciel open source

• http://scrapy.org/

• Code en python, donc compatible Windows, Linux,
Mac OS X
QUE FAIRE ?
CONSTRUIRE UN CORPUS
!
Extraire les mots des pages, les compter les
stocker

Utiliser Scrapy : après le crawl
!
• Il faut extraire les entrées du fichier de résultats	

• Il faut nettoyer les entrées (accents, balises, sauts de lignes, etc.)	

• il faut compter	

• il faut stocker le corpus dans une base de données
QUE FAIRE ?
CONSTRUIRE UN CORPUS
!
Stockage en base de données :

! id mot quantite entite
1 moyen age 11 0
2 musée 7619 0
3 egypte 10 0
4 oeuvre 92 0
5 visite 2183 0
6 rouen 166 1
7 lillebonne 148 1
8 ivoire 505 1
9 rouen 1645 1
10 attendu 146 0
On ajoute dans les textes des termes qui sont fréquemment
associés aux mots qu’on va viser.	

QUE FAIRE ?
COOCCURRENCE
!
vélo balade
saint-raphael
vélo balade
saint-raphael
VTT 	

esterel	

verdon
+
QUE FAIRE ?
CO-OCCURRENCE
!
Mesurer la "compatibilité" de 2 termes
DICE
MUTUAL INFORMATION (MIM)
EXPECTED MIM (EMIM)
CHI 2
trmm	

itto	

ortuno	

almagreb	

yuca	

…
forest	

tree	

rain	

fish	

water

…
itto	

biofunction	

almagreb	

jack fruit	

adeo	

…
forest	

rain	

exotic	

banana	

jungle	

…
QUE FAIRE ?
CO-OCCURRENCE : EXEMPLE
!
TROPICAL
DICE
CHI 2MIM
EMIM
dataset :TREC News Stories
≅
≅
EN PRATIQUE
!
balade vtt
saint raphael
EN PRATIQUE
!
Choisir les sites
référents pour une
requête
balade vtt
saint raphael
!
http://www.esterel-cotedazur.com/loisirs/circuits-velo-de-route/	

http://www.visorando.com/randonnee-saint-raphael-var.html	

http://www.utagawavtt.com/circuits-vtt-proches?topo=1582&dist=20	

http://balado.planet.fr/idee-balade/provence-alpes-cote-d-azur/var/esterel-vtt/idb/2434	

http://www.cyclisme-mag.com/Lifestyle/Voyages/Articles/Parcourir-L-Esterel-a-VTT-8901/	

http://www.visitvar.fr/provence-cote-azur/le-var-cote-velo/parcours-cyclable-du-littoral	

http://www.visitvar.fr/provence-cote-azur/le-var-cote-velo	

http://var.decouverte.pagesperso-orange.fr/nature/indexvtt.htm	

http://www.velo101.com/forum/voirsujet/entrainement-sur-agay-83--18927	

http://www.voiesvertes.com/htm/departement83.htm	

http://www.provenceweb.fr/var/cyclo/randonnees/b21.htm	

http://www.var.fr/deplacements/circuit-de-randonnee/pcl	

http://www.gralon.net/tourisme/sports-et-loisirs/info-natura-bike-balade-en-velo-saint-raphael-19030.htm	

http://www.theoule-sur-mer.org/modules/news/article.php?storyid=243	

http://www.ot-lalondelesmaures.fr/la-londe-cote-terre/loisirs-et-activites/balades-et-randonnees.htm	

http://www.af3v.org/-Fiche-VVV-.html?voie=35	

http://www.lelavandou.eu/var/cyclo-rando.htm	

http://jeanmimivelo.free.fr/baladavelo.htm
EN PRATIQUE
!
Faire un scrap des
sites 1-grams	

2-grams
!
http://www.esterel-cotedazur.com/loisirs/circuits-velo-de-route/	

http://www.visorando.com/randonnee-saint-raphael-var.html	

http://www.utagawavtt.com/circuits-vtt-proches?topo=1582&dist=20	

http://balado.planet.fr/idee-balade/provence-alpes-cote-d-azur/var/esterel-vtt/idb/2434	

http://www.cyclisme-mag.com/Lifestyle/Voyages/Articles/Parcourir-L-Esterel-a-VTT-8901/	

http://www.visitvar.fr/provence-cote-azur/le-var-cote-velo/parcours-cyclable-du-littoral	

http://www.visitvar.fr/provence-cote-azur/le-var-cote-velo	

http://var.decouverte.pagesperso-orange.fr/nature/indexvtt.htm	

http://www.velo101.com/forum/voirsujet/entrainement-sur-agay-83--18927	

http://www.voiesvertes.com/htm/departement83.htm	

http://www.provenceweb.fr/var/cyclo/randonnees/b21.htm	

http://www.var.fr/deplacements/circuit-de-randonnee/pcl	

http://www.gralon.net/tourisme/sports-et-loisirs/info-natura-bike-balade-en-velo-saint-raphael-19030.htm	

http://www.theoule-sur-mer.org/modules/news/article.php?storyid=243	

http://www.ot-lalondelesmaures.fr/la-londe-cote-terre/loisirs-et-activites/balades-et-randonnees.htm	

http://www.af3v.org/-Fiche-VVV-.html?voie=35	

http://www.lelavandou.eu/var/cyclo-rando.htm	

http://jeanmimivelo.free.fr/baladavelo.htm
EN PRATIQUE
!
Faire un scrap des
sites
1-grams	

2-grams
Calculer les IDF
Calculer les co-
occurrences
EN PRATIQUE
!
Résumer
l’information
EN PRATIQUE
!
Résumer
l’information
EN PRATIQUE
!
Et finalement :
Rédiger !
!
Disclaimer : je ne suis pas
rédacteur, et pas de la
région ;)
EN PRATIQUE
!
Et finalement :
Rédiger !
Si vous voulez faire du vélo
dans le Var cet été, prenez
votreVTT pour parcourir les
alentours de Saint-Raphael.	

!
Vous pouvez prendre le
départ près du littoral, pour
un parcours qui vous
mènera au pied de l’Esterel.
EN PRATIQUE
!
Et finalement :
Rédiger !
Si vous voulez faire du vélo
dans le Var cet été, prenez
votreVTT pour parcourir les
alentours de Saint-Raphael.	

!
Vous pouvez prendre le
départ près du littoral, pour
un parcours qui vous
mènera au pied de l’Esterel.
EN PRATIQUE
!
Et finalement :
Rédiger !
Si vous voulez faire du vélo
dans le Var cet été, prenez
votreVTT pour parcourir les
alentours de Saint-Raphael.	

!
Vous pouvez prendre le
départ près du littoral, pour
un parcours qui vous
mènera au pied de l’Esterel.
EN PRATIQUE
!
Et finalement :
Rédiger !
Si vous voulez faire du vélo
dans le Var cet été, prenez
votreVTT pour parcourir les
alentours de Saint-Raphael.	

!
Vous pouvez prendre le
départ près du littoral, pour
un parcours qui vous
mènera au pied de l’Esterel.
ET MAINTENANT ?
!
Pertinence, corpus,
co-occurences,
rédaction…
A vous de jouer !
ET
MAINTENANT ?
!

Contenu connexe

Tendances

SEO: Faut il migrer vos sites en https ?
SEO: Faut il migrer vos sites en https ?SEO: Faut il migrer vos sites en https ?
SEO: Faut il migrer vos sites en https ?
Camille Thomas
 
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Search Foresight
 

Tendances (19)

Synodiance > Google recherche universelle
Synodiance > Google recherche universelleSynodiance > Google recherche universelle
Synodiance > Google recherche universelle
 
1&1, e-Monsite, Jimdo, Wix, … Les platesformes clés-en-main permettent-elles ...
1&1, e-Monsite, Jimdo, Wix, … Les platesformes clés-en-main permettent-elles ...1&1, e-Monsite, Jimdo, Wix, … Les platesformes clés-en-main permettent-elles ...
1&1, e-Monsite, Jimdo, Wix, … Les platesformes clés-en-main permettent-elles ...
 
Utiliser un crawler pour le seo
Utiliser un crawler pour le seoUtiliser un crawler pour le seo
Utiliser un crawler pour le seo
 
Position 0 seocampus 2017 (Featured Snippets)
Position 0 seocampus 2017 (Featured Snippets)Position 0 seocampus 2017 (Featured Snippets)
Position 0 seocampus 2017 (Featured Snippets)
 
Google Humming et Knoweldge Vault : la recherche sémantique de Google expliquée
Google Humming et Knoweldge Vault : la recherche sémantique de Google expliquéeGoogle Humming et Knoweldge Vault : la recherche sémantique de Google expliquée
Google Humming et Knoweldge Vault : la recherche sémantique de Google expliquée
 
Comment intégrer les "core Updates" de Google dans sa stratégie SEO ?
Comment intégrer les "core Updates" de Google dans sa stratégie SEO ?Comment intégrer les "core Updates" de Google dans sa stratégie SEO ?
Comment intégrer les "core Updates" de Google dans sa stratégie SEO ?
 
Comprendre le Référencement Naturel et améliorer sa visibilité - La Team Web
Comprendre le Référencement Naturel et améliorer sa visibilité - La Team WebComprendre le Référencement Naturel et améliorer sa visibilité - La Team Web
Comprendre le Référencement Naturel et améliorer sa visibilité - La Team Web
 
Techniques de recherches sur google par Abdoul Wahab Diaby
Techniques de recherches sur google par Abdoul Wahab DiabyTechniques de recherches sur google par Abdoul Wahab Diaby
Techniques de recherches sur google par Abdoul Wahab Diaby
 
Plus de contenu pour plus de trafic - SMX Paris
Plus de contenu pour plus de trafic - SMX ParisPlus de contenu pour plus de trafic - SMX Paris
Plus de contenu pour plus de trafic - SMX Paris
 
Introduction au referencement naturel
Introduction au referencement naturelIntroduction au referencement naturel
Introduction au referencement naturel
 
Synodiance > SEO et Contenu - 5 points clés qui changent - Ecommerce-Live - 2...
Synodiance > SEO et Contenu - 5 points clés qui changent - Ecommerce-Live - 2...Synodiance > SEO et Contenu - 5 points clés qui changent - Ecommerce-Live - 2...
Synodiance > SEO et Contenu - 5 points clés qui changent - Ecommerce-Live - 2...
 
Référencement naturel, social et stratégie de contenu
Référencement naturel, social et stratégie de contenuRéférencement naturel, social et stratégie de contenu
Référencement naturel, social et stratégie de contenu
 
Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013
 
Ecrire pour le web : référencement et efficacité marketing
Ecrire pour le web : référencement et efficacité marketingEcrire pour le web : référencement et efficacité marketing
Ecrire pour le web : référencement et efficacité marketing
 
Synodiance > SEO Post-Panda - SMX Paris 2012 - 06/06/2012
Synodiance > SEO Post-Panda - SMX Paris 2012 - 06/06/2012Synodiance > SEO Post-Panda - SMX Paris 2012 - 06/06/2012
Synodiance > SEO Post-Panda - SMX Paris 2012 - 06/06/2012
 
SEO: Faut il migrer vos sites en https ?
SEO: Faut il migrer vos sites en https ?SEO: Faut il migrer vos sites en https ?
SEO: Faut il migrer vos sites en https ?
 
Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015
 
Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016
Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016
Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016
 
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
 

En vedette

En vedette (6)

Recettes SEO pour startups gourmandes
Recettes SEO pour startups gourmandesRecettes SEO pour startups gourmandes
Recettes SEO pour startups gourmandes
 
Digimood x seocamp - VEM6 Saint-raphael 2015
Digimood x seocamp - VEM6 Saint-raphael 2015Digimood x seocamp - VEM6 Saint-raphael 2015
Digimood x seocamp - VEM6 Saint-raphael 2015
 
Social Média dans le E-tourisme - Digimood x SEOCAMP VEM6 - Saint-Raphaël 2015
Social Média dans le E-tourisme - Digimood x SEOCAMP VEM6 - Saint-Raphaël 2015Social Média dans le E-tourisme - Digimood x SEOCAMP VEM6 - Saint-Raphaël 2015
Social Média dans le E-tourisme - Digimood x SEOCAMP VEM6 - Saint-Raphaël 2015
 
Du linkbuilding au Content Marketing
Du linkbuilding au Content MarketingDu linkbuilding au Content Marketing
Du linkbuilding au Content Marketing
 
Etourisme et référencement : Le Mille-feuille à la française, un atout ?
Etourisme et référencement : Le Mille-feuille à la française, un atout ?Etourisme et référencement : Le Mille-feuille à la française, un atout ?
Etourisme et référencement : Le Mille-feuille à la française, un atout ?
 
Netlinking - Quelles stratégies gagnantes ont utilisées ces SEO ?
Netlinking - Quelles stratégies gagnantes ont utilisées ces SEO ?Netlinking - Quelles stratégies gagnantes ont utilisées ces SEO ?
Netlinking - Quelles stratégies gagnantes ont utilisées ces SEO ?
 

Similaire à Comment penser son contenu e-tourisme pour les moteurs de recherche ? [Frères Peyronnet]

Expospierre 1229514527066080-2
Expospierre 1229514527066080-2Expospierre 1229514527066080-2
Expospierre 1229514527066080-2
tomasone
 

Similaire à Comment penser son contenu e-tourisme pour les moteurs de recherche ? [Frères Peyronnet] (20)

Petit déjeuner Search Foresight
Petit déjeuner Search ForesightPetit déjeuner Search Foresight
Petit déjeuner Search Foresight
 
Les pièges à éviter lors de l'analyse sémantique (SEO)
Les pièges à éviter lors de l'analyse sémantique (SEO)Les pièges à éviter lors de l'analyse sémantique (SEO)
Les pièges à éviter lors de l'analyse sémantique (SEO)
 
Présentation d'outils de veille Internet - Les Mardi E-business de la CCI de ...
Présentation d'outils de veille Internet - Les Mardi E-business de la CCI de ...Présentation d'outils de veille Internet - Les Mardi E-business de la CCI de ...
Présentation d'outils de veille Internet - Les Mardi E-business de la CCI de ...
 
Redaction web - M2MV 2015
Redaction web - M2MV 2015Redaction web - M2MV 2015
Redaction web - M2MV 2015
 
Expospierre 1229514527066080-2
Expospierre 1229514527066080-2Expospierre 1229514527066080-2
Expospierre 1229514527066080-2
 
le web sémantique : un web de métadonnées
le web sémantique : un web de métadonnéesle web sémantique : un web de métadonnées
le web sémantique : un web de métadonnées
 
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"
 
Conf 2 VWD - S PEYRONNET - Pagerank thématique
Conf 2 VWD - S PEYRONNET -  Pagerank thématiqueConf 2 VWD - S PEYRONNET -  Pagerank thématique
Conf 2 VWD - S PEYRONNET - Pagerank thématique
 
Esidoc troisièmes
Esidoc troisièmes Esidoc troisièmes
Esidoc troisièmes
 
Initiation à la fouille de texte - formation AJPro
Initiation à la fouille de texte - formation AJProInitiation à la fouille de texte - formation AJPro
Initiation à la fouille de texte - formation AJPro
 
R versur Python
R versur PythonR versur Python
R versur Python
 
Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"
Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"
Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"
 
Synodiance > SEO - Le Search de demain - Table Ronde EBG - 19/06/2014
Synodiance > SEO - Le Search de demain - Table Ronde EBG - 19/06/2014Synodiance > SEO - Le Search de demain - Table Ronde EBG - 19/06/2014
Synodiance > SEO - Le Search de demain - Table Ronde EBG - 19/06/2014
 
Ideliance mental reseau semantique
Ideliance mental reseau semantiqueIdeliance mental reseau semantique
Ideliance mental reseau semantique
 
Synodiance > SEO, vocal et sémantique - Performance Digitale Expo - 06/11/2014
Synodiance > SEO, vocal et sémantique - Performance Digitale Expo - 06/11/2014Synodiance > SEO, vocal et sémantique - Performance Digitale Expo - 06/11/2014
Synodiance > SEO, vocal et sémantique - Performance Digitale Expo - 06/11/2014
 
GetText / Rails - FR
GetText / Rails - FRGetText / Rails - FR
GetText / Rails - FR
 
GetText / Rails
GetText / RailsGetText / Rails
GetText / Rails
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des données
 
Naviguer sur internet
Naviguer sur internetNaviguer sur internet
Naviguer sur internet
 
Naviguer sur internet
Naviguer sur internetNaviguer sur internet
Naviguer sur internet
 

Comment penser son contenu e-tourisme pour les moteurs de recherche ? [Frères Peyronnet]

  • 1. COMMENT PENSER SON CONTENU E-TOURISME POUR LES MOTEURS DE RECHERCHE ? Sylvain Peyronnet
  • 2. SYLVAIN PEYRONNET Fondateur et responsable des ix-labs Professeur des Universités (on leave) @speyronnet http://www.peyronnet.eu http://live.ix-labs.org
  • 3. algo de classement web QU’EST-CE QU’UN MOTEUR DE RECHERCHE ? classement index analyse de la pertinence analyse de l’importance requête de l’utilisateur classement classement contenu des pages liens entre les pages spider
  • 4. algo de classement web QU’EST-CE QU’UN MOTEUR DE RECHERCHE ? classement index requête de l’utilisateur classement classement contenu des pages spider Aujourd’hui, on parle de ça ! analyse de la pertinence
  • 5. LA NOTION DE PERTINENCE Un document est pertinent pour une requête s’il répond au besoin informationnel sous-jacent besoin informationnel « île paradisiaque » requête Résultats pertinent pertinent non pertinent non pertinent
  • 6. LA NOTION DE PERTINENCE On veut écrire des textes que le moteur va considérer comme pertinents Il faut donc savoir ce que le moteur appelle un texte pertinent Voyons donc le principe (simplifié) de ce qu’est la pertinence d’un point de vue ALGORITHMIQUE
  • 7. LA NOTION DE PERTINENCE • On va préférer utiliser un modèle de classement de la pertinence, appelé pertinence partielle. ! • Le modèle vectoriel implémente cette notion de pertinence partielle. ! • La pertinence est une notion sémantique, difficile à définir. ! On va faire un abus et considérer que la similarité syntaxique entre documents est une bonne mesure de la pertinence
  • 8. UN TEXTE EST UNVECTEUR Le petit était perdu dans la forêt Le loup était aussi dans la forêt ? ? ? ? ? ? ? ? ?
  • 9. LE MODÈLEVECTORIEL (SALTON 1962) • On construit l’espace des termes : c’est un espace de dimension n, où n est le nombre total de termes différents existants dans les documents ! • Chaque document est représenté par un vecteur avec n composants, chaque composant correspond à un terme possible ! • Chaque case contient le poids du terme correspond à la case ! • Il existe plusieurs types de poids
  • 10. LA LEMMATISATION POUR QUE CE SOIT PLUS SIMPLE POUR LE MOTEUR Le petit était perdu dans la forêt Le loup était aussi dans la forêt petit forêt loup perdre
  • 11. CALCUL DES POIDS petit perdre forêt loup forêt petit loup perdre forêt 1 1 1 2 petit loup perdre forêt 1 1 1 1 (1,1,1,2) (1,1,1,1) petit loup perdre forêt 1/5 1/5 1/5 2/5 (1/5,1/5,1/5,2/5)
  • 12. FABRIQUER LEVECTEUR La similarité est donnée par le cosinus de l’angle entre les vecteurs des documents (cosinus de Salton) d1 d2θ On parle d’alignement sémantique
  • 13. LE MODELEVECTORIEL QUELLE FONCTION DE POIDS CHOISIR ? tf.idf (term frequency - inverse document frequency) ! ! ! ! ! ! La tf.idf favorise les termes qui apparaissent peu souvent pour opérer une classification efficace On n’utilise pas les poids simples !
  • 14. TF . IDF ! •Term frequency (TF) ! Un terme qui apparaît souvent dans un document a plus de poids qu’un terme qui apparaît peu ! • Inverse Document Frequency (IDF) ! Un terme qui apparaît dans peu de documents est plus discriminant qu’un terme qui apparaît dans beaucoup de documents
  • 15. QUE FAIRE ? ALIGNEMENT SÉMANTIQUE ! • Pour être pertinent sur un ensemble de mots-clés, un texte doit être en alignement sémantique sur ces mots-clés ! • Impact fort sur la rédaction et l’organisation des contenus ! • Faire une page spécialisée par groupe de requêtes proches !
  • 16. QUE FAIRE ? TF*IDF ! Pour augmenter sa pertinence pour une thématique particulière : ! • Faire apparaître des termes fréquents de la thématique :
 pour pousser le facteur tf ! •Ajouter quelques termes rares de la thématique :
 Pour pousser le facteur idf ! La rédaction doit être de très bon niveau pour avoir les mots avec le plus d’impacts sur la tf*idf
  • 17. QUE FAIRE ? TF*IDF ! Pour augmenter sa pertinence pour une thématique particulière : ! • Faire apparaître des termes fréquents de la thématique :
 • Il faut bien connaître sa thématique, évaluer statistiquement son corpus • On veut faire comprendre sans ambiguïté la thématique de la page ! •Ajouter quelques termes rares de la thématique :
 • Faire appel à des experts, des sites de référence, et aux statistiques du corpus pour trouver ces mots. • Attention à la rédaction par des personnes non- averties, de profils différents de la cible
  • 18. QUE FAIRE ? CONSTRUIRE UN CORPUS ! Un bon corpus est :
 • Représentatif de sa thématique • Volumineux • Toujours imparfait (on ne connait pas ceux utilisés par les moteurs de recherche)
  • 19. QUE FAIRE ? CONSTRUIRE UN CORPUS ! Pour constituer un corpus, on va :
 • sélectionner des sites web • scrapper les pages de ces sites • extraire les mots des pages en les comptant • calculer les co-occurences • stocker les mots en base de données pour permettre une réutilisation sans douleur
  • 20. QUE FAIRE ? CONSTRUIRE UN CORPUS ! Prendre les sites de référence
 
 musée rouen rouen- musees.fr/ www.rouentouris me.com www.amis- musees-rouen.fr/ www.museedes antiquites.fr/
  • 21. QUE FAIRE ? CONSTRUIRE UN CORPUS ! Scrapper des pages de ces sites
 Exemple
 • on peut utiliser scrapy, un logiciel open source
 • http://scrapy.org/
 • Code en python, donc compatible Windows, Linux, Mac OS X
  • 22. QUE FAIRE ? CONSTRUIRE UN CORPUS ! Extraire les mots des pages, les compter les stocker
 Utiliser Scrapy : après le crawl ! • Il faut extraire les entrées du fichier de résultats • Il faut nettoyer les entrées (accents, balises, sauts de lignes, etc.) • il faut compter • il faut stocker le corpus dans une base de données
  • 23. QUE FAIRE ? CONSTRUIRE UN CORPUS ! Stockage en base de données :
 ! id mot quantite entite 1 moyen age 11 0 2 musée 7619 0 3 egypte 10 0 4 oeuvre 92 0 5 visite 2183 0 6 rouen 166 1 7 lillebonne 148 1 8 ivoire 505 1 9 rouen 1645 1 10 attendu 146 0
  • 24. On ajoute dans les textes des termes qui sont fréquemment associés aux mots qu’on va viser. QUE FAIRE ? COOCCURRENCE ! vélo balade saint-raphael vélo balade saint-raphael VTT esterel verdon +
  • 25. QUE FAIRE ? CO-OCCURRENCE ! Mesurer la "compatibilité" de 2 termes DICE MUTUAL INFORMATION (MIM) EXPECTED MIM (EMIM) CHI 2
  • 28. EN PRATIQUE ! Choisir les sites référents pour une requête balade vtt saint raphael ! http://www.esterel-cotedazur.com/loisirs/circuits-velo-de-route/ http://www.visorando.com/randonnee-saint-raphael-var.html http://www.utagawavtt.com/circuits-vtt-proches?topo=1582&dist=20 http://balado.planet.fr/idee-balade/provence-alpes-cote-d-azur/var/esterel-vtt/idb/2434 http://www.cyclisme-mag.com/Lifestyle/Voyages/Articles/Parcourir-L-Esterel-a-VTT-8901/ http://www.visitvar.fr/provence-cote-azur/le-var-cote-velo/parcours-cyclable-du-littoral http://www.visitvar.fr/provence-cote-azur/le-var-cote-velo http://var.decouverte.pagesperso-orange.fr/nature/indexvtt.htm http://www.velo101.com/forum/voirsujet/entrainement-sur-agay-83--18927 http://www.voiesvertes.com/htm/departement83.htm http://www.provenceweb.fr/var/cyclo/randonnees/b21.htm http://www.var.fr/deplacements/circuit-de-randonnee/pcl http://www.gralon.net/tourisme/sports-et-loisirs/info-natura-bike-balade-en-velo-saint-raphael-19030.htm http://www.theoule-sur-mer.org/modules/news/article.php?storyid=243 http://www.ot-lalondelesmaures.fr/la-londe-cote-terre/loisirs-et-activites/balades-et-randonnees.htm http://www.af3v.org/-Fiche-VVV-.html?voie=35 http://www.lelavandou.eu/var/cyclo-rando.htm http://jeanmimivelo.free.fr/baladavelo.htm
  • 29. EN PRATIQUE ! Faire un scrap des sites 1-grams 2-grams ! http://www.esterel-cotedazur.com/loisirs/circuits-velo-de-route/ http://www.visorando.com/randonnee-saint-raphael-var.html http://www.utagawavtt.com/circuits-vtt-proches?topo=1582&dist=20 http://balado.planet.fr/idee-balade/provence-alpes-cote-d-azur/var/esterel-vtt/idb/2434 http://www.cyclisme-mag.com/Lifestyle/Voyages/Articles/Parcourir-L-Esterel-a-VTT-8901/ http://www.visitvar.fr/provence-cote-azur/le-var-cote-velo/parcours-cyclable-du-littoral http://www.visitvar.fr/provence-cote-azur/le-var-cote-velo http://var.decouverte.pagesperso-orange.fr/nature/indexvtt.htm http://www.velo101.com/forum/voirsujet/entrainement-sur-agay-83--18927 http://www.voiesvertes.com/htm/departement83.htm http://www.provenceweb.fr/var/cyclo/randonnees/b21.htm http://www.var.fr/deplacements/circuit-de-randonnee/pcl http://www.gralon.net/tourisme/sports-et-loisirs/info-natura-bike-balade-en-velo-saint-raphael-19030.htm http://www.theoule-sur-mer.org/modules/news/article.php?storyid=243 http://www.ot-lalondelesmaures.fr/la-londe-cote-terre/loisirs-et-activites/balades-et-randonnees.htm http://www.af3v.org/-Fiche-VVV-.html?voie=35 http://www.lelavandou.eu/var/cyclo-rando.htm http://jeanmimivelo.free.fr/baladavelo.htm
  • 30. EN PRATIQUE ! Faire un scrap des sites 1-grams 2-grams Calculer les IDF Calculer les co- occurrences
  • 33. EN PRATIQUE ! Et finalement : Rédiger ! ! Disclaimer : je ne suis pas rédacteur, et pas de la région ;)
  • 34. EN PRATIQUE ! Et finalement : Rédiger ! Si vous voulez faire du vélo dans le Var cet été, prenez votreVTT pour parcourir les alentours de Saint-Raphael. ! Vous pouvez prendre le départ près du littoral, pour un parcours qui vous mènera au pied de l’Esterel.
  • 35. EN PRATIQUE ! Et finalement : Rédiger ! Si vous voulez faire du vélo dans le Var cet été, prenez votreVTT pour parcourir les alentours de Saint-Raphael. ! Vous pouvez prendre le départ près du littoral, pour un parcours qui vous mènera au pied de l’Esterel.
  • 36. EN PRATIQUE ! Et finalement : Rédiger ! Si vous voulez faire du vélo dans le Var cet été, prenez votreVTT pour parcourir les alentours de Saint-Raphael. ! Vous pouvez prendre le départ près du littoral, pour un parcours qui vous mènera au pied de l’Esterel.
  • 37. EN PRATIQUE ! Et finalement : Rédiger ! Si vous voulez faire du vélo dans le Var cet été, prenez votreVTT pour parcourir les alentours de Saint-Raphael. ! Vous pouvez prendre le départ près du littoral, pour un parcours qui vous mènera au pied de l’Esterel.