SlideShare une entreprise Scribd logo
1  sur  54
Télécharger pour lire hors ligne
Les Pièges À Éviter Lors d’Une Analyse Sémantique
Antoine Brisset - contact@antoine-brisset.com
Qui suis-je ?
Antoine Brisset





SEO depuis 2010

D’abord en agence puis indépendant depuis 2014





Twitter : @abrisset
Blog : www.antoine-brisset.com/blog/
Antoine Brisset - contact@antoine-brisset.com
Analyse sémantique : 

pour quoi faire ?
Pour quoi faire ?
• Calcul de densité

• Calcul de n-grammes

• Calcul de tf*idf

• Etc.
Pour quoi faire ?
Toutes les analyses de texte ne sont pas « sémantiques »
• Analyse morpho-lexicale : identifier les mots et leurs caractéristiques
dans un document

• Analyse syntaxique : déterminer les relations grammaticales entre les
groupes de mots

• Analyse sémantique : identifier le sens des mots

• Analyse pragmatique : replacer chaque mot / phrase dans un contexte
Pour quoi faire ?
Toutes les analyses de texte ne sont pas « sémantiques »
• Analyse morpho-lexicale : identifier les mots et leurs caractéristiques
dans un document

• Analyse syntaxique : déterminer les relations grammaticales entre les
groupes de mots

• Analyse sémantique : identifier le sens des mots

• Analyse pragmatique : replacer chaque mot / phrase dans un contexte
Pour quoi faire ?
• Analyse morpho-lexicale : identifier les mots et leurs caractéristiques
dans un document

• Analyse syntaxique : déterminer les relations grammaticales entre les
groupes de mots

+
Méthodes Statistiques
Antoine Brisset - contact@antoine-brisset.com
1ère étape : 

html -> text()
html -> text()
Objectif : supprimer le balisage
HTML et en extraire le contenu
texte.
html -> text()
• Conserver uniquement les « noeuds » texte



text()



• Attention, ces balises doivent être supprimées



<script>

<noscript>

<style>

<!-- -->
html -> text()
Python : BeautifulSoup
Ruby : Nokogiri
html -> text()
Erreurs fréquentes : redirections
serveur (à autoriser), chaînes de
caractères invalides (à remplacer),
entités HTML (à décoder).
Antoine Brisset - contact@antoine-brisset.com
2ème étape : 

la tokenisation
La tokenisation
Objectif : convertir chaque
document en une liste
d’occurrences ou de tokens.



*token = unité lexicale
La tokenisation
Quel(s) séparateur(s) utiliser pour segmenter les chaînes ?
La tokenisation
L’espace ?
La tokenisation
Une journée de
conférences dédiées au
SEO aura lieu le 4 mars
à Lille, à l'espace
« Inkermann ».
Une

journée

de
conférences

dédiées

…

4

mars

à

Lille, 

à 

l'espace

« Inkermann ».
La tokenisation
Expression régulière « passe-partout » :



/[nr,.; ?!(:'"‘’)-«»]+/
La tokenisation
Une journée de
conférences dédiées au
SEO aura lieu le 4 mars
à Lille, à l'espace
« Inkermann ».
Une

journée

de
conférences

dédiées

…

4

mars

à

Lille 

à 

l

espace

Inkermann
La tokenisation
Problème n°1 : ça fonctionne
pour les unigrammes… mais pas
pour les bigrammes, trigrammes,
etc.
La tokenisation
Le président de la
France, François
Hollande, visite le salon
de l’agriculture.
Le président
président de
de la
la France

France François
François Hollande
Hollande visite
visite le
le salon
salon de
de l
l agriculture
La tokenisation
Solution : on « split » sur les
signes de ponctuation mais pas
sur les espaces pour créer des
sous-chaînes :



/[nr,.;?!(:'"‘’)-«»]+/



Dans chaque sous-chaîne, on
récupère les n-grams.
La tokenisation
Le président de la
France, François
Hollande, visite le salon
de l’agriculture.
Le président
président de
de la
la France

François Hollande


visite le
le salon
salon de
de l
l agriculture
La tokenisation
Problème n°2 : il existe des
exceptions (assez) nombreuses :
acronymes (exemple « V.T.T »),
mots avec apostrophe (exemple
« aujourd’hui », « prud’hommes »).
Antoine Brisset - contact@antoine-brisset.com
3ème étape : 

l’étiquetage 

morpho-syntaxique
L’étiquetage morpho-syntaxique
Objectif : associer chaque mot (ou
token) à une catégorie morpho-
syntaxique : verbe, nom,
proposition, etc.
Comment faire ?



On utilise un « corpus arboré » sur lequel on entraîne un
modèle de langue.



French Tree Bank (870 000 mots) : http://www.llf.cnrs.fr/
fr/Gens/Abeille/French-Treebank-fr.php
L’étiquetage morpho-syntaxique
L’étiquetage morpho-syntaxique
Le président de la
France, François
Hollande, visite le salon
de l’agriculture.
Le => determiner
président => noun
de => preposition
la => determiner
France => noun
François => noun
Hollande => noun
visite => noun
le => determiner
salon => noun
de => preposition
l => pronoun
agriculture => noun
Ce n’est pas fiable à 100% !
L’étiquetage morpho-syntaxique
L’étiquetage morpho-syntaxique
Le président de la
France, François
Hollande, visite le salon
de l’agriculture.
Le => determiner
président => noun
de => preposition
la => determiner
France => noun
François => noun
Hollande => noun
visite => noun
le => determiner
salon => noun
de => preposition
l => pronoun
agriculture => noun
Antoine Brisset - contact@antoine-brisset.com
4ème étape : 

la casse
La casse
Objectif : convertir toutes les
chaînes de caractères en
majuscule en minuscule.
La casse
Pourquoi ?



Pour éviter qu’un même mot avec ou sans majuscule soit
comptabilisé comme deux mots distincts.



Exemple : « MONSIEUR » et « monsieur »
Antoine Brisset - contact@antoine-brisset.com
5ème étape : 

la lemmatisation
La lemmatisation
Objectif : obtenir l’entrée du
dictionnaire associée à un mot.
La lemmatisation
Pourquoi ?



Pour rassembler les formes fléchies d’un même mot.



Exemple : « journée » et « journées »
Comment faire ?



S’appuyer sur un dictionnaire fléchi du français : le parser
correctement et le stocker en base de données.
La lemmatisation
S’il n’y a pas de « match » ?



Alors on conserve la forme non lemmatisée du mot.
La lemmatisation
Les
présidents
du monde
entier, dont
le président
français,
sont réunis
dans la
capitale.
les => determiner
présidents => noun
du => preposition
monde => noun
entier => adjective
dont => unknown
le => determiner
président => noun
français => adjective
sont => verb
réunis => verb
dans => preposition
la => determiner
capitale => noun
les

président

du
monde

entier
dont

le

président

français

être
réunir
dans
la

capitale
La lemmatisation
Quelle est l’utilité de l’étiquetage ?



L’étiquetage va permettre d’éliminer les sources d’erreur lors
de la lemmatisation.



Exemple : « mentions » dans « mentions légales » a pour
lemme « mentir » ou « mention » ?
La lemmatisation
Antoine Brisset - contact@antoine-brisset.com
6ème étape : 

les stop words
Les stop words
Objectif : supprimer les mots-
vides.
Les présidents du
monde entier, dont le
président français, sont
réunis dans la capitale.
les

président
du
monde

entier
dont

le 

président

français

être
réunir
dans
la
capitale
Les stop words
Les présidents du
monde entier, dont le
président français, sont
réunis dans la capitale.
les

président
du
monde

entier
dont

le 

président

français
être
réunir
dans
la
capitale
Les stop words
Les présidents du
monde entier, dont le
président français, sont
réunis dans la capitale.
président
monde

entier

président

français
réunir
capitale
Les stop words
Les stop words
On en profite pour supprimer les chaînes de 1 caractère et les caractères
numériques :



/^[[:alpha:]]+$/
Antoine Brisset - contact@antoine-brisset.com
7ème étape : 

les accents
Les accents
Objectif : harmoniser les
différentes orthographes d’un
même mot (avec ou sans accent).
Le travail de
référencement consiste
à améliorer le
positionnement et la
visibilité de sites dans
des pages de résultats
de moteurs de
recherche. Il existe le
reférencement naturel
et le référencement
payant
…
« référencement », 1
« reférencement », 1

…
Les accents
Le travail de
référencement consiste
à améliorer le
positionnement et la
visibilité de sites dans
des pages de résultats
de moteurs de
recherche. Il existe le
reférencement naturel
et le référencement
payant
…
« referencement », 2

…
Les accents
Antoine Brisset - contact@antoine-brisset.com
A retenir
Une analyse sémantique n’est jamais
parfaite !


Des frameworks existent pour nous
faciliter la tâche (Treat, NLTK).



Des pré-traitements en amont dépend
la fiabilité des résultats en aval.
A retenir
Antoine Brisset - contact@antoine-brisset.com
Merci !

Contenu connexe

Similaire à Les pièges à éviter lors de l'analyse sémantique (SEO)

Les filtres RSS dans Inoreader : détail de la syntaxe à utiliser (MAJ : mai 2...
Les filtres RSS dans Inoreader : détail de la syntaxe à utiliser (MAJ : mai 2...Les filtres RSS dans Inoreader : détail de la syntaxe à utiliser (MAJ : mai 2...
Les filtres RSS dans Inoreader : détail de la syntaxe à utiliser (MAJ : mai 2...Serge Courrier
 
Conférence CV et Lettres de motivation : tendances 2016 et modèles commentés
Conférence CV et Lettres de motivation : tendances 2016 et modèles commentésConférence CV et Lettres de motivation : tendances 2016 et modèles commentés
Conférence CV et Lettres de motivation : tendances 2016 et modèles commentésTransmission RH
 
Growth Hacking B2B - Humind - Oct2018
Growth Hacking B2B - Humind - Oct2018Growth Hacking B2B - Humind - Oct2018
Growth Hacking B2B - Humind - Oct2018François Fillette
 
Comment les plateformes de Data Science métamorphosent le SEO ?
Comment les plateformes de Data Science métamorphosent le SEO ?Comment les plateformes de Data Science métamorphosent le SEO ?
Comment les plateformes de Data Science métamorphosent le SEO ?Vincent Terrasi
 
Altaide comment booster sa recherche d'emploi (CV, lettre de motivation, rése...
Altaide comment booster sa recherche d'emploi (CV, lettre de motivation, rése...Altaide comment booster sa recherche d'emploi (CV, lettre de motivation, rése...
Altaide comment booster sa recherche d'emploi (CV, lettre de motivation, rése...ALTAIDE
 
Expospierre 1229514527066080-2
Expospierre 1229514527066080-2Expospierre 1229514527066080-2
Expospierre 1229514527066080-2tomasone
 
Décryptage des LLMs au-delà de la hype - Lyon Data science
Décryptage des LLMs au-delà de la hype - Lyon Data scienceDécryptage des LLMs au-delà de la hype - Lyon Data science
Décryptage des LLMs au-delà de la hype - Lyon Data scienceMarie-Alice Blete
 
Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?
Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?
Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?Olivier Andrieu
 
SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...
SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...
SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...SEARCH Y - Philippe Yonnet Evénements
 
La création d'une image de marque
La création d'une image de marque La création d'une image de marque
La création d'une image de marque Chalifour
 
Formation AJPro fact-checking 2 octobre 2019 1/2
Formation AJPro fact-checking 2 octobre 2019 1/2Formation AJPro fact-checking 2 octobre 2019 1/2
Formation AJPro fact-checking 2 octobre 2019 1/2Ettore Rizza
 
Lingway salon Documation 2011
Lingway  salon Documation 2011Lingway  salon Documation 2011
Lingway salon Documation 2011Lingway
 
Utiliser les réseaux sociaux pour développer son Business!
Utiliser les réseaux sociaux pour développer son Business!Utiliser les réseaux sociaux pour développer son Business!
Utiliser les réseaux sociaux pour développer son Business!Patrick Barrabé® 😊
 
Webinar Stratégie SEO 2023 avec Paul Grillet et Sukru Tasci
Webinar Stratégie SEO 2023 avec Paul Grillet et Sukru TasciWebinar Stratégie SEO 2023 avec Paul Grillet et Sukru Tasci
Webinar Stratégie SEO 2023 avec Paul Grillet et Sukru TasciJulien Dereumaux
 
Qualité éditoriale : la grande oubliée - Joël Ronez - Paris Web 2008
Qualité éditoriale : la grande oubliée - Joël Ronez - Paris Web 2008Qualité éditoriale : la grande oubliée - Joël Ronez - Paris Web 2008
Qualité éditoriale : la grande oubliée - Joël Ronez - Paris Web 2008Association Paris-Web
 
Usea - Présentation du monde professionnel
Usea - Présentation du monde professionnelUsea - Présentation du monde professionnel
Usea - Présentation du monde professionnelLeParisienEtudiant
 
Synodiance > SEO, vocal et sémantique - Performance Digitale Expo - 06/11/2014
Synodiance > SEO, vocal et sémantique - Performance Digitale Expo - 06/11/2014Synodiance > SEO, vocal et sémantique - Performance Digitale Expo - 06/11/2014
Synodiance > SEO, vocal et sémantique - Performance Digitale Expo - 06/11/2014Search Foresight
 
Twittos en Banque Finance Assurance – Portrait #45 - @anthonycros1 (Anthony C...
Twittos en Banque Finance Assurance – Portrait #45 - @anthonycros1 (Anthony C...Twittos en Banque Finance Assurance – Portrait #45 - @anthonycros1 (Anthony C...
Twittos en Banque Finance Assurance – Portrait #45 - @anthonycros1 (Anthony C...Alban Jarry
 
Philippe Guilbert @GuilbertPhil - -Twittos en banque finance assurance - Por...
Philippe Guilbert @GuilbertPhil -  -Twittos en banque finance assurance - Por...Philippe Guilbert @GuilbertPhil -  -Twittos en banque finance assurance - Por...
Philippe Guilbert @GuilbertPhil - -Twittos en banque finance assurance - Por...Alban Jarry
 

Similaire à Les pièges à éviter lors de l'analyse sémantique (SEO) (20)

Les filtres RSS dans Inoreader : détail de la syntaxe à utiliser (MAJ : mai 2...
Les filtres RSS dans Inoreader : détail de la syntaxe à utiliser (MAJ : mai 2...Les filtres RSS dans Inoreader : détail de la syntaxe à utiliser (MAJ : mai 2...
Les filtres RSS dans Inoreader : détail de la syntaxe à utiliser (MAJ : mai 2...
 
Conférence CV et Lettres de motivation : tendances 2016 et modèles commentés
Conférence CV et Lettres de motivation : tendances 2016 et modèles commentésConférence CV et Lettres de motivation : tendances 2016 et modèles commentés
Conférence CV et Lettres de motivation : tendances 2016 et modèles commentés
 
Growth Hacking B2B - Humind - Oct2018
Growth Hacking B2B - Humind - Oct2018Growth Hacking B2B - Humind - Oct2018
Growth Hacking B2B - Humind - Oct2018
 
Comment les plateformes de Data Science métamorphosent le SEO ?
Comment les plateformes de Data Science métamorphosent le SEO ?Comment les plateformes de Data Science métamorphosent le SEO ?
Comment les plateformes de Data Science métamorphosent le SEO ?
 
Altaide comment booster sa recherche d'emploi (CV, lettre de motivation, rése...
Altaide comment booster sa recherche d'emploi (CV, lettre de motivation, rése...Altaide comment booster sa recherche d'emploi (CV, lettre de motivation, rése...
Altaide comment booster sa recherche d'emploi (CV, lettre de motivation, rése...
 
Expospierre 1229514527066080-2
Expospierre 1229514527066080-2Expospierre 1229514527066080-2
Expospierre 1229514527066080-2
 
Décryptage des LLMs au-delà de la hype - Lyon Data science
Décryptage des LLMs au-delà de la hype - Lyon Data scienceDécryptage des LLMs au-delà de la hype - Lyon Data science
Décryptage des LLMs au-delà de la hype - Lyon Data science
 
Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?
Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?
Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?
 
SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...
SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...
SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...
 
La création d'une image de marque
La création d'une image de marque La création d'une image de marque
La création d'une image de marque
 
Formation AJPro fact-checking 2 octobre 2019 1/2
Formation AJPro fact-checking 2 octobre 2019 1/2Formation AJPro fact-checking 2 octobre 2019 1/2
Formation AJPro fact-checking 2 octobre 2019 1/2
 
Lingway salon Documation 2011
Lingway  salon Documation 2011Lingway  salon Documation 2011
Lingway salon Documation 2011
 
Utiliser les réseaux sociaux pour développer son Business!
Utiliser les réseaux sociaux pour développer son Business!Utiliser les réseaux sociaux pour développer son Business!
Utiliser les réseaux sociaux pour développer son Business!
 
Webinar Stratégie SEO 2023 avec Paul Grillet et Sukru Tasci
Webinar Stratégie SEO 2023 avec Paul Grillet et Sukru TasciWebinar Stratégie SEO 2023 avec Paul Grillet et Sukru Tasci
Webinar Stratégie SEO 2023 avec Paul Grillet et Sukru Tasci
 
Qualité éditoriale : la grande oubliée - Joël Ronez - Paris Web 2008
Qualité éditoriale : la grande oubliée - Joël Ronez - Paris Web 2008Qualité éditoriale : la grande oubliée - Joël Ronez - Paris Web 2008
Qualité éditoriale : la grande oubliée - Joël Ronez - Paris Web 2008
 
LINGWAY - Opinion mining: exemples d'applications
LINGWAY -  Opinion mining: exemples d'applicationsLINGWAY -  Opinion mining: exemples d'applications
LINGWAY - Opinion mining: exemples d'applications
 
Usea - Présentation du monde professionnel
Usea - Présentation du monde professionnelUsea - Présentation du monde professionnel
Usea - Présentation du monde professionnel
 
Synodiance > SEO, vocal et sémantique - Performance Digitale Expo - 06/11/2014
Synodiance > SEO, vocal et sémantique - Performance Digitale Expo - 06/11/2014Synodiance > SEO, vocal et sémantique - Performance Digitale Expo - 06/11/2014
Synodiance > SEO, vocal et sémantique - Performance Digitale Expo - 06/11/2014
 
Twittos en Banque Finance Assurance – Portrait #45 - @anthonycros1 (Anthony C...
Twittos en Banque Finance Assurance – Portrait #45 - @anthonycros1 (Anthony C...Twittos en Banque Finance Assurance – Portrait #45 - @anthonycros1 (Anthony C...
Twittos en Banque Finance Assurance – Portrait #45 - @anthonycros1 (Anthony C...
 
Philippe Guilbert @GuilbertPhil - -Twittos en banque finance assurance - Por...
Philippe Guilbert @GuilbertPhil -  -Twittos en banque finance assurance - Por...Philippe Guilbert @GuilbertPhil -  -Twittos en banque finance assurance - Por...
Philippe Guilbert @GuilbertPhil - -Twittos en banque finance assurance - Por...
 

Les pièges à éviter lors de l'analyse sémantique (SEO)

  • 1. Les Pièges À Éviter Lors d’Une Analyse Sémantique
  • 2. Antoine Brisset - contact@antoine-brisset.com Qui suis-je ?
  • 3. Antoine Brisset
 
 
 SEO depuis 2010
 D’abord en agence puis indépendant depuis 2014
 
 
 Twitter : @abrisset Blog : www.antoine-brisset.com/blog/
  • 4. Antoine Brisset - contact@antoine-brisset.com Analyse sémantique : 
 pour quoi faire ?
  • 5. Pour quoi faire ? • Calcul de densité
 • Calcul de n-grammes
 • Calcul de tf*idf
 • Etc.
  • 6. Pour quoi faire ? Toutes les analyses de texte ne sont pas « sémantiques » • Analyse morpho-lexicale : identifier les mots et leurs caractéristiques dans un document
 • Analyse syntaxique : déterminer les relations grammaticales entre les groupes de mots
 • Analyse sémantique : identifier le sens des mots
 • Analyse pragmatique : replacer chaque mot / phrase dans un contexte
  • 7. Pour quoi faire ? Toutes les analyses de texte ne sont pas « sémantiques » • Analyse morpho-lexicale : identifier les mots et leurs caractéristiques dans un document
 • Analyse syntaxique : déterminer les relations grammaticales entre les groupes de mots
 • Analyse sémantique : identifier le sens des mots
 • Analyse pragmatique : replacer chaque mot / phrase dans un contexte
  • 8. Pour quoi faire ? • Analyse morpho-lexicale : identifier les mots et leurs caractéristiques dans un document
 • Analyse syntaxique : déterminer les relations grammaticales entre les groupes de mots
 + Méthodes Statistiques
  • 9. Antoine Brisset - contact@antoine-brisset.com 1ère étape : 
 html -> text()
  • 10. html -> text() Objectif : supprimer le balisage HTML et en extraire le contenu texte.
  • 11. html -> text() • Conserver uniquement les « noeuds » texte
 
 text()
 
 • Attention, ces balises doivent être supprimées
 
 <script>
 <noscript>
 <style>
 <!-- -->
  • 12. html -> text() Python : BeautifulSoup Ruby : Nokogiri
  • 13. html -> text() Erreurs fréquentes : redirections serveur (à autoriser), chaînes de caractères invalides (à remplacer), entités HTML (à décoder).
  • 14. Antoine Brisset - contact@antoine-brisset.com 2ème étape : 
 la tokenisation
  • 15. La tokenisation Objectif : convertir chaque document en une liste d’occurrences ou de tokens.
 
 *token = unité lexicale
  • 16. La tokenisation Quel(s) séparateur(s) utiliser pour segmenter les chaînes ?
  • 18. La tokenisation Une journée de conférences dédiées au SEO aura lieu le 4 mars à Lille, à l'espace « Inkermann ». Une
 journée
 de conférences
 dédiées
 …
 4
 mars
 à
 Lille, 
 à 
 l'espace
 « Inkermann ».
  • 19. La tokenisation Expression régulière « passe-partout » :
 
 /[nr,.; ?!(:'"‘’)-«»]+/
  • 20. La tokenisation Une journée de conférences dédiées au SEO aura lieu le 4 mars à Lille, à l'espace « Inkermann ». Une
 journée
 de conférences
 dédiées
 …
 4
 mars
 à
 Lille 
 à 
 l
 espace
 Inkermann
  • 21. La tokenisation Problème n°1 : ça fonctionne pour les unigrammes… mais pas pour les bigrammes, trigrammes, etc.
  • 22. La tokenisation Le président de la France, François Hollande, visite le salon de l’agriculture. Le président président de de la la France
 France François François Hollande Hollande visite visite le le salon salon de de l l agriculture
  • 23. La tokenisation Solution : on « split » sur les signes de ponctuation mais pas sur les espaces pour créer des sous-chaînes :
 
 /[nr,.;?!(:'"‘’)-«»]+/
 
 Dans chaque sous-chaîne, on récupère les n-grams.
  • 24. La tokenisation Le président de la France, François Hollande, visite le salon de l’agriculture. Le président président de de la la France
 François Hollande 
 visite le le salon salon de de l l agriculture
  • 25. La tokenisation Problème n°2 : il existe des exceptions (assez) nombreuses : acronymes (exemple « V.T.T »), mots avec apostrophe (exemple « aujourd’hui », « prud’hommes »).
  • 26. Antoine Brisset - contact@antoine-brisset.com 3ème étape : 
 l’étiquetage 
 morpho-syntaxique
  • 27. L’étiquetage morpho-syntaxique Objectif : associer chaque mot (ou token) à une catégorie morpho- syntaxique : verbe, nom, proposition, etc.
  • 28. Comment faire ?
 
 On utilise un « corpus arboré » sur lequel on entraîne un modèle de langue.
 
 French Tree Bank (870 000 mots) : http://www.llf.cnrs.fr/ fr/Gens/Abeille/French-Treebank-fr.php L’étiquetage morpho-syntaxique
  • 29. L’étiquetage morpho-syntaxique Le président de la France, François Hollande, visite le salon de l’agriculture. Le => determiner président => noun de => preposition la => determiner France => noun François => noun Hollande => noun visite => noun le => determiner salon => noun de => preposition l => pronoun agriculture => noun
  • 30. Ce n’est pas fiable à 100% ! L’étiquetage morpho-syntaxique
  • 31. L’étiquetage morpho-syntaxique Le président de la France, François Hollande, visite le salon de l’agriculture. Le => determiner président => noun de => preposition la => determiner France => noun François => noun Hollande => noun visite => noun le => determiner salon => noun de => preposition l => pronoun agriculture => noun
  • 32. Antoine Brisset - contact@antoine-brisset.com 4ème étape : 
 la casse
  • 33. La casse Objectif : convertir toutes les chaînes de caractères en majuscule en minuscule.
  • 34. La casse Pourquoi ?
 
 Pour éviter qu’un même mot avec ou sans majuscule soit comptabilisé comme deux mots distincts.
 
 Exemple : « MONSIEUR » et « monsieur »
  • 35. Antoine Brisset - contact@antoine-brisset.com 5ème étape : 
 la lemmatisation
  • 36. La lemmatisation Objectif : obtenir l’entrée du dictionnaire associée à un mot.
  • 37. La lemmatisation Pourquoi ?
 
 Pour rassembler les formes fléchies d’un même mot.
 
 Exemple : « journée » et « journées »
  • 38. Comment faire ?
 
 S’appuyer sur un dictionnaire fléchi du français : le parser correctement et le stocker en base de données. La lemmatisation
  • 39. S’il n’y a pas de « match » ?
 
 Alors on conserve la forme non lemmatisée du mot. La lemmatisation
  • 40. Les présidents du monde entier, dont le président français, sont réunis dans la capitale. les => determiner présidents => noun du => preposition monde => noun entier => adjective dont => unknown le => determiner président => noun français => adjective sont => verb réunis => verb dans => preposition la => determiner capitale => noun les
 président
 du monde
 entier dont
 le
 président
 français
 être réunir dans la
 capitale La lemmatisation
  • 41. Quelle est l’utilité de l’étiquetage ?
 
 L’étiquetage va permettre d’éliminer les sources d’erreur lors de la lemmatisation.
 
 Exemple : « mentions » dans « mentions légales » a pour lemme « mentir » ou « mention » ? La lemmatisation
  • 42. Antoine Brisset - contact@antoine-brisset.com 6ème étape : 
 les stop words
  • 43. Les stop words Objectif : supprimer les mots- vides.
  • 44. Les présidents du monde entier, dont le président français, sont réunis dans la capitale. les
 président du monde
 entier dont
 le 
 président
 français
 être réunir dans la capitale Les stop words
  • 45. Les présidents du monde entier, dont le président français, sont réunis dans la capitale. les
 président du monde
 entier dont
 le 
 président
 français être réunir dans la capitale Les stop words
  • 46. Les présidents du monde entier, dont le président français, sont réunis dans la capitale. président monde
 entier
 président
 français réunir capitale Les stop words
  • 47. Les stop words On en profite pour supprimer les chaînes de 1 caractère et les caractères numériques :
 
 /^[[:alpha:]]+$/
  • 48. Antoine Brisset - contact@antoine-brisset.com 7ème étape : 
 les accents
  • 49. Les accents Objectif : harmoniser les différentes orthographes d’un même mot (avec ou sans accent).
  • 50. Le travail de référencement consiste à améliorer le positionnement et la visibilité de sites dans des pages de résultats de moteurs de recherche. Il existe le reférencement naturel et le référencement payant … « référencement », 1 « reférencement », 1
 … Les accents
  • 51. Le travail de référencement consiste à améliorer le positionnement et la visibilité de sites dans des pages de résultats de moteurs de recherche. Il existe le reférencement naturel et le référencement payant … « referencement », 2
 … Les accents
  • 52. Antoine Brisset - contact@antoine-brisset.com A retenir
  • 53. Une analyse sémantique n’est jamais parfaite ! 
 Des frameworks existent pour nous faciliter la tâche (Treat, NLTK).
 
 Des pré-traitements en amont dépend la fiabilité des résultats en aval. A retenir
  • 54. Antoine Brisset - contact@antoine-brisset.com Merci !