3. Antoine Brisset
SEO depuis 2010
D’abord en agence puis indépendant depuis 2014
Twitter : @abrisset
Blog : www.antoine-brisset.com/blog/
4. Antoine Brisset - contact@antoine-brisset.com
Analyse sémantique :
pour quoi faire ?
5. Pour quoi faire ?
• Calcul de densité
• Calcul de n-grammes
• Calcul de tf*idf
• Etc.
6. Pour quoi faire ?
Toutes les analyses de texte ne sont pas « sémantiques »
• Analyse morpho-lexicale : identifier les mots et leurs caractéristiques
dans un document
• Analyse syntaxique : déterminer les relations grammaticales entre les
groupes de mots
• Analyse sémantique : identifier le sens des mots
• Analyse pragmatique : replacer chaque mot / phrase dans un contexte
7. Pour quoi faire ?
Toutes les analyses de texte ne sont pas « sémantiques »
• Analyse morpho-lexicale : identifier les mots et leurs caractéristiques
dans un document
• Analyse syntaxique : déterminer les relations grammaticales entre les
groupes de mots
• Analyse sémantique : identifier le sens des mots
• Analyse pragmatique : replacer chaque mot / phrase dans un contexte
8. Pour quoi faire ?
• Analyse morpho-lexicale : identifier les mots et leurs caractéristiques
dans un document
• Analyse syntaxique : déterminer les relations grammaticales entre les
groupes de mots
+
Méthodes Statistiques
9. Antoine Brisset - contact@antoine-brisset.com
1ère étape :
html -> text()
18. La tokenisation
Une journée de
conférences dédiées au
SEO aura lieu le 4 mars
à Lille, à l'espace
« Inkermann ».
Une
journée
de
conférences
dédiées
…
4
mars
à
Lille,
à
l'espace
« Inkermann ».
20. La tokenisation
Une journée de
conférences dédiées au
SEO aura lieu le 4 mars
à Lille, à l'espace
« Inkermann ».
Une
journée
de
conférences
dédiées
…
4
mars
à
Lille
à
l
espace
Inkermann
22. La tokenisation
Le président de la
France, François
Hollande, visite le salon
de l’agriculture.
Le président
président de
de la
la France
France François
François Hollande
Hollande visite
visite le
le salon
salon de
de l
l agriculture
23. La tokenisation
Solution : on « split » sur les
signes de ponctuation mais pas
sur les espaces pour créer des
sous-chaînes :
/[nr,.;?!(:'"‘’)-«»]+/
Dans chaque sous-chaîne, on
récupère les n-grams.
24. La tokenisation
Le président de la
France, François
Hollande, visite le salon
de l’agriculture.
Le président
président de
de la
la France
François Hollande
visite le
le salon
salon de
de l
l agriculture
25. La tokenisation
Problème n°2 : il existe des
exceptions (assez) nombreuses :
acronymes (exemple « V.T.T »),
mots avec apostrophe (exemple
« aujourd’hui », « prud’hommes »).
26. Antoine Brisset - contact@antoine-brisset.com
3ème étape :
l’étiquetage
morpho-syntaxique
28. Comment faire ?
On utilise un « corpus arboré » sur lequel on entraîne un
modèle de langue.
French Tree Bank (870 000 mots) : http://www.llf.cnrs.fr/
fr/Gens/Abeille/French-Treebank-fr.php
L’étiquetage morpho-syntaxique
29. L’étiquetage morpho-syntaxique
Le président de la
France, François
Hollande, visite le salon
de l’agriculture.
Le => determiner
président => noun
de => preposition
la => determiner
France => noun
François => noun
Hollande => noun
visite => noun
le => determiner
salon => noun
de => preposition
l => pronoun
agriculture => noun
30. Ce n’est pas fiable à 100% !
L’étiquetage morpho-syntaxique
31. L’étiquetage morpho-syntaxique
Le président de la
France, François
Hollande, visite le salon
de l’agriculture.
Le => determiner
président => noun
de => preposition
la => determiner
France => noun
François => noun
Hollande => noun
visite => noun
le => determiner
salon => noun
de => preposition
l => pronoun
agriculture => noun
33. La casse
Objectif : convertir toutes les
chaînes de caractères en
majuscule en minuscule.
34. La casse
Pourquoi ?
Pour éviter qu’un même mot avec ou sans majuscule soit
comptabilisé comme deux mots distincts.
Exemple : « MONSIEUR » et « monsieur »
35. Antoine Brisset - contact@antoine-brisset.com
5ème étape :
la lemmatisation
38. Comment faire ?
S’appuyer sur un dictionnaire fléchi du français : le parser
correctement et le stocker en base de données.
La lemmatisation
39. S’il n’y a pas de « match » ?
Alors on conserve la forme non lemmatisée du mot.
La lemmatisation
40. Les
présidents
du monde
entier, dont
le président
français,
sont réunis
dans la
capitale.
les => determiner
présidents => noun
du => preposition
monde => noun
entier => adjective
dont => unknown
le => determiner
président => noun
français => adjective
sont => verb
réunis => verb
dans => preposition
la => determiner
capitale => noun
les
président
du
monde
entier
dont
le
président
français
être
réunir
dans
la
capitale
La lemmatisation
41. Quelle est l’utilité de l’étiquetage ?
L’étiquetage va permettre d’éliminer les sources d’erreur lors
de la lemmatisation.
Exemple : « mentions » dans « mentions légales » a pour
lemme « mentir » ou « mention » ?
La lemmatisation
42. Antoine Brisset - contact@antoine-brisset.com
6ème étape :
les stop words
44. Les présidents du
monde entier, dont le
président français, sont
réunis dans la capitale.
les
président
du
monde
entier
dont
le
président
français
être
réunir
dans
la
capitale
Les stop words
45. Les présidents du
monde entier, dont le
président français, sont
réunis dans la capitale.
les
président
du
monde
entier
dont
le
président
français
être
réunir
dans
la
capitale
Les stop words
46. Les présidents du
monde entier, dont le
président français, sont
réunis dans la capitale.
président
monde
entier
président
français
réunir
capitale
Les stop words
47. Les stop words
On en profite pour supprimer les chaînes de 1 caractère et les caractères
numériques :
/^[[:alpha:]]+$/
48. Antoine Brisset - contact@antoine-brisset.com
7ème étape :
les accents
49. Les accents
Objectif : harmoniser les
différentes orthographes d’un
même mot (avec ou sans accent).
50. Le travail de
référencement consiste
à améliorer le
positionnement et la
visibilité de sites dans
des pages de résultats
de moteurs de
recherche. Il existe le
reférencement naturel
et le référencement
payant
…
« référencement », 1
« reférencement », 1
…
Les accents
51. Le travail de
référencement consiste
à améliorer le
positionnement et la
visibilité de sites dans
des pages de résultats
de moteurs de
recherche. Il existe le
reférencement naturel
et le référencement
payant
…
« referencement », 2
…
Les accents
53. Une analyse sémantique n’est jamais
parfaite !
Des frameworks existent pour nous
faciliter la tâche (Treat, NLTK).
Des pré-traitements en amont dépend
la fiabilité des résultats en aval.
A retenir