SlideShare une entreprise Scribd logo
1  sur  27
Réalisé par : Fatima Zahra Fagroud
Encadré par : F.Ghanimi
Plan
2
Introduction
Tokénisation
Racinisation
Troncature
Étiquetage
Lemmatisation
Introduction
3
Introduction
4
Tokénisation
• La tokenisation peut se définir comme l’opération de découpage du texte à
analyser en groupes de mots, dont on a éliminé les éléments annexes, exemple les
signes de ponctuation
• la première étape de l’indexation
5
Tokénisation
• Exemples:
Êtes-vous disponible en ce moment?
Êtes vous disponible en ce moment
6
Racinisation
• La stemmatisation ou racinisation est le nom donné au procédé qui vise à
transformer les flexions en leur radical ou stemme
• La racine d’un mot (stemme ) est identifiée par la suppression du préfixe, le suffixe
d’un mot
7
Racinisation
• Exemples:
cheval, chevaucher, chevalier cheva
Optimiser, Optimal, Optimisation optim
8
Troncature
• permet de rechercher des termes qui ont une racine identique en
substituant un ou plusieurs caractères par un symbole : ce symbole est
l’astérisque
• Elle peut être utilisée :
• à droite d'un mot
• à gauche d'un mot
• à l'intérieur d'un mot
9
Troncature
10
Les
Troncature
• Exemples:
robot* robot, robots, robotique, robotisé
economi? économie, economic ou economia
*thèque bibliothèque, médiathèque..
11
Étiquetage
• l’étiquetage morphosyntaxique d’un texte (Part-of-Speech tagging ou POS
tagging en anglais)
• consiste à identifier pour chaque mot sa classe morphosyntaxique à partir de son
contexte et de connaissances lexicales
• but : analyser chaque mot pour lui associer divers types d’informations telles que
la catégorie grammaticale, des traits morphologiques ainsi que le lemme
correspondant
12
Étiquetage
étiqueteur
étiqueteur avec
apprentissage
automatique
étiqueteur
supervisé
étiqueteur non
supervisés
étiqueteur
symbolique
13
Étiquetage
14
Étiquetage
• Étiqueteurs supervisés: sont entraînés sur des corpus préalablement étiquetés, ce
qui permet de préparer toutes les données nécessaires pour l’étiquetage
• Étiqueteurs non supervisés: ne nécessitent pas de corpus préalablement étiqueté
pour la phase d’entraînement
15
Étiquetage
• Etiquetage à base de règles: s’appuie sur des règles grammaticales ou
morphologiques
• Etiquetage statistique : caractérise les étiqueteurs qui utilisent des fréquences et
des calculs de probabilité
• Etiquetage à base de réseaux de neurones : rarement utilisée dans le domaine du
TAL à cause de ses difficultés d'application
16
Étiquetage
• L’étiquetage morphosyntaxique automatique est processus qui s’effectue
généralement en trois étapes :
• La segmentation du texte en unités lexicales
• L’étiquetage qui consiste à attribuer pour chaque unité lexicale l’ensemble des étiquettes
morphosyntaxiques possibles
• La désambiguïsation qui permet d'attribuer, pour chacune des unités lexicales et en
fonction de son contexte, l'étiquette morphosyntaxique pertinente
17
Étiquetage
• L’étiquetage morphosyntaxique est utilisé avec succès dans des tâches de
traitement du langage comme :
• la lemmatisation
• l’analyse syntaxique, où il constitue très souvent une phase amont de l’analyse
syntaxique
• la synthèse vocale (où il sert à désambiguïser les homographes comme en distinguant le
verbe du nom)
• l’extraction terminologique
18
Étiquetage
• Exemple:
L'indice parisien est passé pour la première fois sous le seuil symbolique des 4 500 points.
L' : article défini indice : nom parisien : adjectif est : verbe au présent
passé : verbe au participe passé pour : préposition la : article défini
première : adjectif fois : nom sous : préposition le : article défini seuil : nom
symbolique : adjectif des : préposition 4 500 : valeur numérique points : nom
. : signe de ponctuation
19
Étiquetage
• Corenlp
20
Étiquetage
21
• Corenlp
Étiquetage
• Treetagger
• un outil qui permet d'annoter un texte avec des informations sur les parties du discours
(genre de mots: noms, verbes, infinitifs et particules) et des informations de
lemmatisation
• permet l'étiquetage de l'Allemand, l'Anglais, le Français, l'Italien, le Deutch, l'Espagnol,
le Bulgare, Le Russe, le Grec, le Portuguais, le chinois et les textes français anciens
22
Étiquetage
23
• Treetagger
sortie:
Étiquetage
24
Lemmatisation
• Un lemme (forme canonique) désigne le terme générique qui comprend les
différentes formes lexicales qui peuvent dériver de ce terme
• La lemmatisation est une analyse lexicale qui conduit au regroupement de
termes par lemmes, permet de diminuer fortement le nombre de mots analysés,
en éliminant toutes les flexions et les dérivations grammaticales
• Certains lemmatiseurs peuvent traiter plusieurs langues (exemple :TreeTagger
traite les langues anglaise et allemande)
25
Lemmatisation
• Exemples:
• “jouer” : possède différentes flexions qui correspondent à ses formes conjuguées à
diverses personnes et temps
• professionnelles, professionnelle, professionnels professionnel
• Exception fils correspondre à deux lemmes différents, fil et fils
26
27

Contenu connexe

Plus de Fatima Zahra Fagroud (15)

Etude comparative des fournisseurs de service BI
Etude comparative des fournisseurs de service BIEtude comparative des fournisseurs de service BI
Etude comparative des fournisseurs de service BI
 
Récupération d’une Base De Données & Flashback Database
Récupération d’une Base De Données  & Flashback DatabaseRécupération d’une Base De Données  & Flashback Database
Récupération d’une Base De Données & Flashback Database
 
Rapid miner
Rapid miner Rapid miner
Rapid miner
 
Ibm bigsheets
Ibm bigsheetsIbm bigsheets
Ibm bigsheets
 
Angular
AngularAngular
Angular
 
Cycle de vie et méthodes de construction des ontologies
Cycle de vie et méthodes de construction des ontologiesCycle de vie et méthodes de construction des ontologies
Cycle de vie et méthodes de construction des ontologies
 
Spring social
Spring socialSpring social
Spring social
 
Rapport TP Corrélation
Rapport TP CorrélationRapport TP Corrélation
Rapport TP Corrélation
 
Ionic
Ionic Ionic
Ionic
 
Ibm bluemix
Ibm bluemixIbm bluemix
Ibm bluemix
 
ATL et SVG
ATL et SVGATL et SVG
ATL et SVG
 
Rapport Projet Module Complexité
Rapport Projet Module ComplexitéRapport Projet Module Complexité
Rapport Projet Module Complexité
 
Rapport pfe licence
Rapport pfe licenceRapport pfe licence
Rapport pfe licence
 
Interfaces controlesbasededonné
Interfaces controlesbasededonnéInterfaces controlesbasededonné
Interfaces controlesbasededonné
 
Expose linux gestion des processus
Expose linux  gestion des processusExpose linux  gestion des processus
Expose linux gestion des processus
 

Processus d’indexation

  • 1. Réalisé par : Fatima Zahra Fagroud Encadré par : F.Ghanimi
  • 5. Tokénisation • La tokenisation peut se définir comme l’opération de découpage du texte à analyser en groupes de mots, dont on a éliminé les éléments annexes, exemple les signes de ponctuation • la première étape de l’indexation 5
  • 6. Tokénisation • Exemples: Êtes-vous disponible en ce moment? Êtes vous disponible en ce moment 6
  • 7. Racinisation • La stemmatisation ou racinisation est le nom donné au procédé qui vise à transformer les flexions en leur radical ou stemme • La racine d’un mot (stemme ) est identifiée par la suppression du préfixe, le suffixe d’un mot 7
  • 8. Racinisation • Exemples: cheval, chevaucher, chevalier cheva Optimiser, Optimal, Optimisation optim 8
  • 9. Troncature • permet de rechercher des termes qui ont une racine identique en substituant un ou plusieurs caractères par un symbole : ce symbole est l’astérisque • Elle peut être utilisée : • à droite d'un mot • à gauche d'un mot • à l'intérieur d'un mot 9
  • 11. Troncature • Exemples: robot* robot, robots, robotique, robotisé economi? économie, economic ou economia *thèque bibliothèque, médiathèque.. 11
  • 12. Étiquetage • l’étiquetage morphosyntaxique d’un texte (Part-of-Speech tagging ou POS tagging en anglais) • consiste à identifier pour chaque mot sa classe morphosyntaxique à partir de son contexte et de connaissances lexicales • but : analyser chaque mot pour lui associer divers types d’informations telles que la catégorie grammaticale, des traits morphologiques ainsi que le lemme correspondant 12
  • 15. Étiquetage • Étiqueteurs supervisés: sont entraînés sur des corpus préalablement étiquetés, ce qui permet de préparer toutes les données nécessaires pour l’étiquetage • Étiqueteurs non supervisés: ne nécessitent pas de corpus préalablement étiqueté pour la phase d’entraînement 15
  • 16. Étiquetage • Etiquetage à base de règles: s’appuie sur des règles grammaticales ou morphologiques • Etiquetage statistique : caractérise les étiqueteurs qui utilisent des fréquences et des calculs de probabilité • Etiquetage à base de réseaux de neurones : rarement utilisée dans le domaine du TAL à cause de ses difficultés d'application 16
  • 17. Étiquetage • L’étiquetage morphosyntaxique automatique est processus qui s’effectue généralement en trois étapes : • La segmentation du texte en unités lexicales • L’étiquetage qui consiste à attribuer pour chaque unité lexicale l’ensemble des étiquettes morphosyntaxiques possibles • La désambiguïsation qui permet d'attribuer, pour chacune des unités lexicales et en fonction de son contexte, l'étiquette morphosyntaxique pertinente 17
  • 18. Étiquetage • L’étiquetage morphosyntaxique est utilisé avec succès dans des tâches de traitement du langage comme : • la lemmatisation • l’analyse syntaxique, où il constitue très souvent une phase amont de l’analyse syntaxique • la synthèse vocale (où il sert à désambiguïser les homographes comme en distinguant le verbe du nom) • l’extraction terminologique 18
  • 19. Étiquetage • Exemple: L'indice parisien est passé pour la première fois sous le seuil symbolique des 4 500 points. L' : article défini indice : nom parisien : adjectif est : verbe au présent passé : verbe au participe passé pour : préposition la : article défini première : adjectif fois : nom sous : préposition le : article défini seuil : nom symbolique : adjectif des : préposition 4 500 : valeur numérique points : nom . : signe de ponctuation 19
  • 22. Étiquetage • Treetagger • un outil qui permet d'annoter un texte avec des informations sur les parties du discours (genre de mots: noms, verbes, infinitifs et particules) et des informations de lemmatisation • permet l'étiquetage de l'Allemand, l'Anglais, le Français, l'Italien, le Deutch, l'Espagnol, le Bulgare, Le Russe, le Grec, le Portuguais, le chinois et les textes français anciens 22
  • 25. Lemmatisation • Un lemme (forme canonique) désigne le terme générique qui comprend les différentes formes lexicales qui peuvent dériver de ce terme • La lemmatisation est une analyse lexicale qui conduit au regroupement de termes par lemmes, permet de diminuer fortement le nombre de mots analysés, en éliminant toutes les flexions et les dérivations grammaticales • Certains lemmatiseurs peuvent traiter plusieurs langues (exemple :TreeTagger traite les langues anglaise et allemande) 25
  • 26. Lemmatisation • Exemples: • “jouer” : possède différentes flexions qui correspondent à ses formes conjuguées à diverses personnes et temps • professionnelles, professionnelle, professionnels professionnel • Exception fils correspondre à deux lemmes différents, fil et fils 26
  • 27. 27