2. Qui suis-je...
Une quot;Talistequot;
– TAL : Traitement Automatique des Langues
– Traitement informatique des données
langagières
– Intégration de modèles linguistiques dans des
applications informatiques
– => correction orthographique, grammaticale
2
3. Sommaire
●
Définitions
●
Correction orthographique
– Un algorithme
– Des ressources linguistiques
– Schématiquement
●
Correction grammaticale du français
– Existant
– Fonctionnement des outils
– Améliorations envisagées
3
4. Définitions
en informatique
●
Correction orthographique :
– Comparaison de la graphie des mots du texte à
un lexique quot;exhaustifquot; des mots de la langue
●
Correction grammaticale :
– Toutes les erreurs non détectables par un
correcteur orthographique
●
Ex. : * des formule => erreur grammaticale
* vous comprendrer => erreur orthographique
●
Distinction grammaire/orthographe différente à
l'école...
4
6. Correction orthographique
Algorithme de correction
●
Moteur de correction : Hunspell
●
Détection des fautes par comparaison des mots
du texte aux mots d'un lexique quot;exhaustifquot;
●
Suggestions de correction
– Calcul de la distance de Levenshtein entre le mot
quot;fauxquot; et les mots du lexique :
mots les plus proches proposés en correction
– Des règles pour les erreurs les plus courantes
(i.e. fautes de frappe)
●
Aucune analyse sémantique -> traitement de
chaînes de caractères
6
7. Correction orthographique
Ressources linguistiques
●
Lexique compressé pour les besoins d'Hunspell
●
2 fichiers :
1) un fichier de mots, chacun ayant ou pas un ou
plusieurs marqueurs (flags) d'affixation
ex. :plaire/D
2) un fichier d'affixe regroupant les règles
d'affixation selon les marqueurs
ex.: PFX D Y 2
PFX D 0 dé [^aàâeèéêiîoôuh½æ]
PFX D 0 dés [aàâeèéêiîoôuh½æ]
●
Combinaison des 2 fichiers pour générer le
lexique complet => déplaire 7
8. Correction orthographique
Ressources linguistiques
●
Fichier d'affixe souvent créé manuellement
– Travail très coûteux, nécessite des linguistes
– Difficultés des langues minoritaires pour le créer
●
Aff-finder :
– Extrait automatiquement les affixes à partir
d'une liste des mots d'une langue
– Génère automatiquement les 2 fichiers
nécessaires à la correction orthographique
– Permet de doter les langues minoritaires d'un
correcteur orthographique
8
9. Correction orthographique
Schématiquement
MOTS DU
TEXTE À
CORRIGER
COMPRESSION DU LEXIQUE MOTEUR DE CORRECTION
Règles Lexique Lexique Comparaison
d'affixation quot;exhaustifquot; quot;exhaustifquot; au lexique
Décompression
Compression
Suggestions
Lexique Lexique Règles de correction
compressé compressé d'affixation distance d'édition
ou règles
MOTS
CORRIGÉS
9
11. Correction grammaticale du français
Existant
●
Des logiciels propriétaires :
– Cordial (Synapse Developpement)
– Antidote (Druide Informatique)
– Word (Microsoft)
– Etc.
●
Problèmes de ces logiciels :
– Coût d'intégration souvent élevé
– quot;Boîtes noiresquot;
– Ressources linguistiques inaccessibles
11
12. Correction grammaticale du français
Existant
●
Des logiciels libres :
– Grac (M. Biais), toute langue
– An Gramadóir (K. Scannell), gaélique
– LanguageTool (D. Naber), anglais
– Etc.
●
Problèmes de ces logiciels :
– Faible prise en charge du français
– Formalismes non adaptés pour le français
12
13. Correction grammaticale du français
Fonctionnement des outils
Texte à
Segmentation du texte en phrases, puis en
vérifier
➔
TOKENISATION
phrases et
tokens
tokens (mots + ponctuations)
T Étiquetage
A morpho-
➔
Étiquetage des mots avec les informations
G syntaxique
G
I
texte étiqueté sur leurs catégories et sous-catégories.
N Désambi-
G guïsation ➔
Réduction du nombre d'étiquettes (tags)
texte étiqueté
désambiguïsé par mot.
CHUNKING
Phrases
segmentées
➔
Segmentation à un niveau intermédiaire
en chunks
DÉTECTION
entre la phrase et le mot.
DES FAUTES
règles d'erreurs
➔
Détection des fautes par correspondance
entre le texte et un modèle dans une règle.
ou de grammaire
Texte corrigé
13
14. Correction grammaticale du français
Fonctionnement des outils
Texte à
vérifier
TOKENISATION
phrases et
tokens ●
Problème du cercle perverti :
T Étiquetage
A morpho-
G syntaxique
– Des erreurs dans le texte
G
=> mauvais étiquetage
texte étiqueté
I
N Désambi-
G guïsation
texte étiqueté => mauvaise détection des erreurs
désambiguïsé
CHUNKING
Phrases
segmentées
en chunks
●
La bonne détection des erreurs dépend
DÉTECTION
DES FAUTES d'un bon étiquetage et donc de l'absence
règles d'erreurs
ou de grammaire
de fautes dans le texte...
Texte corrigé
14
15. Correction grammaticale du français
Fonctionnement d'un outil
●
Correcteur grammatical libre LanguageTool,
créé pour l'anglais par Daniel Naber
●
Principe du pattern-matching :
– Correspondance exacte entre des séquences du
texte et des modèles d'erreur
– Impossible de prévoir tous les modèles d'erreur
– Silence et bruit dans la détection des erreurs
●
Ex. : règle : Sujet + verbe + quot;pasquot; => oubli de quot;nequot;
=> ne fonctionne pas avec : * Il travail pas assez
– Limitation au contexte immédiat
●
Ex. : * La veste qu'il voulait acheter est épuisé.
15
16. Correction grammaticale du français
Améliorations envisagées
●
Enrichissement de la base des règles de
correction :
– Constitution et analyse d'un corpus d'erreurs
– Enrichissement communautaire des règles
●
Évolutions du formalisme :
– Collaboration communautaire entre linguistes et
informaticiens
●
Évolution du principe de base...
16