Processus d’indexation

Réalisé par : Fatima Zahra Fagroud
Encadré par : F.Ghanimi

Plan
2
Introduction
Tokénisation
Racinisation
Troncature
Étiquetage
Lemmatisation

Tokénisation
• La tokenisation peut se définir comme l’opération de découpage du texte à
analyser en groupes de mots, dont on a éliminé les éléments annexes, exemple les
signes de ponctuation
• la première étape de l’indexation
5

Tokénisation
• Exemples:
Êtes-vous disponible en ce moment?
Êtes vous disponible en ce moment
6

Racinisation
• La stemmatisation ou racinisation est le nom donné au procédé qui vise à
transformer les flexions en leur radical ou stemme
• La racine d’un mot (stemme ) est identifiée par la suppression du préfixe, le suffixe
d’un mot
7

Racinisation
• Exemples:
cheval, chevaucher, chevalier cheva
Optimiser, Optimal, Optimisation optim
8

Troncature
• permet de rechercher des termes qui ont une racine identique en
substituant un ou plusieurs caractères par un symbole : ce symbole est
l’astérisque
• Elle peut être utilisée :
• à droite d'un mot
• à gauche d'un mot
• à l'intérieur d'un mot
9

Troncature
• Exemples:
robot* robot, robots, robotique, robotisé
economi? économie, economic ou economia
*thèque bibliothèque, médiathèque..
11

Étiquetage
• l’étiquetage morphosyntaxique d’un texte (Part-of-Speech tagging ou POS
tagging en anglais)
• consiste à identifier pour chaque mot sa classe morphosyntaxique à partir de son
contexte et de connaissances lexicales
• but : analyser chaque mot pour lui associer divers types d’informations telles que
la catégorie grammaticale, des traits morphologiques ainsi que le lemme
correspondant
12

Étiquetage
étiqueteur
étiqueteur avec
apprentissage
automatique
étiqueteur
supervisé
étiqueteur non
supervisés
étiqueteur
symbolique
13

Étiquetage
• Étiqueteurs supervisés: sont entraînés sur des corpus préalablement étiquetés, ce
qui permet de préparer toutes les données nécessaires pour l’étiquetage
• Étiqueteurs non supervisés: ne nécessitent pas de corpus préalablement étiqueté
pour la phase d’entraînement
15

Étiquetage
• Etiquetage à base de règles: s’appuie sur des règles grammaticales ou
morphologiques
• Etiquetage statistique : caractérise les étiqueteurs qui utilisent des fréquences et
des calculs de probabilité
• Etiquetage à base de réseaux de neurones : rarement utilisée dans le domaine du
TAL à cause de ses difficultés d'application
16

Étiquetage
• L’étiquetage morphosyntaxique automatique est processus qui s’effectue
généralement en trois étapes :
• La segmentation du texte en unités lexicales
• L’étiquetage qui consiste à attribuer pour chaque unité lexicale l’ensemble des étiquettes
morphosyntaxiques possibles
• La désambiguïsation qui permet d'attribuer, pour chacune des unités lexicales et en
fonction de son contexte, l'étiquette morphosyntaxique pertinente
17

Étiquetage
• L’étiquetage morphosyntaxique est utilisé avec succès dans des tâches de
traitement du langage comme :
• la lemmatisation
• l’analyse syntaxique, où il constitue très souvent une phase amont de l’analyse
syntaxique
• la synthèse vocale (où il sert à désambiguïser les homographes comme en distinguant le
verbe du nom)
• l’extraction terminologique
18

Étiquetage
• Exemple:
L'indice parisien est passé pour la première fois sous le seuil symbolique des 4 500 points.
L' : article défini indice : nom parisien : adjectif est : verbe au présent
passé : verbe au participe passé pour : préposition la : article défini
première : adjectif fois : nom sous : préposition le : article défini seuil : nom
symbolique : adjectif des : préposition 4 500 : valeur numérique points : nom
. : signe de ponctuation
19

Étiquetage
• Treetagger
• un outil qui permet d'annoter un texte avec des informations sur les parties du discours
(genre de mots: noms, verbes, infinitifs et particules) et des informations de
lemmatisation
• permet l'étiquetage de l'Allemand, l'Anglais, le Français, l'Italien, le Deutch, l'Espagnol,
le Bulgare, Le Russe, le Grec, le Portuguais, le chinois et les textes français anciens
22

Étiquetage
23
• Treetagger
sortie:

Lemmatisation
• Un lemme (forme canonique) désigne le terme générique qui comprend les
différentes formes lexicales qui peuvent dériver de ce terme
• La lemmatisation est une analyse lexicale qui conduit au regroupement de
termes par lemmes, permet de diminuer fortement le nombre de mots analysés,
en éliminant toutes les flexions et les dérivations grammaticales
• Certains lemmatiseurs peuvent traiter plusieurs langues (exemple :TreeTagger
traite les langues anglaise et allemande)
25

Lemmatisation
• Exemples:
• “jouer” : possède différentes flexions qui correspondent à ses formes conjuguées à
diverses personnes et temps
• professionnelles, professionnelle, professionnels professionnel
• Exception fils correspondre à deux lemmes différents, fil et fils
26

Processus d’indexation

Contenu connexe

Tendances

Plus de Fatima Zahra Fagroud

Processus d’indexation