Correction Orthographique et
  Grammaticale Automatique

          Agnès Souque
   Doctorante, Laboratoire Lidilem,
   Uni...
Qui suis-je...

Une quot;Talistequot;
  –   TAL : Traitement Automatique des Langues
  –   Traitement informatique des don...
Sommaire

●
    Définitions
●
    Correction orthographique
    –   Un algorithme
    –   Des ressources linguistiques
   ...
Définitions
                        en informatique
●
    Correction orthographique :
    –   Comparaison de la graphie de...
Correction orthographique automatique




                                        5
Correction orthographique
                    Algorithme de correction

●
    Moteur de correction : Hunspell
●
    Détect...
Correction orthographique
                  Ressources linguistiques

●
    Lexique compressé pour les besoins d'Hunspell
...
Correction orthographique
                     Ressources linguistiques

●
    Fichier d'affixe souvent créé manuellement
...
Correction orthographique
                                   Schématiquement
                                             ...
Correction grammaticale du français




                                      10
Correction grammaticale du français
                             Existant

●
    Des logiciels propriétaires :
    –   Cor...
Correction grammaticale du français
                             Existant

●
    Des logiciels libres :
    –   Grac (M. B...
Correction grammaticale du français
                                   Fonctionnement des outils
           Texte à

     ...
Correction grammaticale du français
                                    Fonctionnement des outils
           Texte à
     ...
Correction grammaticale du français
                       Fonctionnement d'un outil

●
    Correcteur grammatical libre L...
Correction grammaticale du français
                   Améliorations envisagées

●
    Enrichissement de la base des règle...
Merci de votre attention


   ●
       agnes.souque@free.fr

                              17
Prochain SlideShare
Chargement dans…5
×

Correction Orthographique et Grammaticale Automatique

10 734 vues

Publié le

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
10 734
Sur SlideShare
0
Issues des intégrations
0
Intégrations
47
Actions
Partages
0
Téléchargements
58
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Correction Orthographique et Grammaticale Automatique

  1. 1. Correction Orthographique et Grammaticale Automatique Agnès Souque Doctorante, Laboratoire Lidilem, Université Stendhal – Grenoble 3 Doctorante – conseil auprès de Linagora 1
  2. 2. Qui suis-je... Une quot;Talistequot; – TAL : Traitement Automatique des Langues – Traitement informatique des données langagières – Intégration de modèles linguistiques dans des applications informatiques – => correction orthographique, grammaticale 2
  3. 3. Sommaire ● Définitions ● Correction orthographique – Un algorithme – Des ressources linguistiques – Schématiquement ● Correction grammaticale du français – Existant – Fonctionnement des outils – Améliorations envisagées 3
  4. 4. Définitions en informatique ● Correction orthographique : – Comparaison de la graphie des mots du texte à un lexique quot;exhaustifquot; des mots de la langue ● Correction grammaticale : – Toutes les erreurs non détectables par un correcteur orthographique ● Ex. : * des formule => erreur grammaticale * vous comprendrer => erreur orthographique ● Distinction grammaire/orthographe différente à l'école... 4
  5. 5. Correction orthographique automatique 5
  6. 6. Correction orthographique Algorithme de correction ● Moteur de correction : Hunspell ● Détection des fautes par comparaison des mots du texte aux mots d'un lexique quot;exhaustifquot; ● Suggestions de correction – Calcul de la distance de Levenshtein entre le mot quot;fauxquot; et les mots du lexique : mots les plus proches proposés en correction – Des règles pour les erreurs les plus courantes (i.e. fautes de frappe) ● Aucune analyse sémantique -> traitement de chaînes de caractères 6
  7. 7. Correction orthographique Ressources linguistiques ● Lexique compressé pour les besoins d'Hunspell ● 2 fichiers : 1) un fichier de mots, chacun ayant ou pas un ou plusieurs marqueurs (flags) d'affixation ex. :plaire/D 2) un fichier d'affixe regroupant les règles d'affixation selon les marqueurs ex.: PFX D Y 2 PFX D 0 dé [^aàâeèéêiîoôuh½æ] PFX D 0 dés [aàâeèéêiîoôuh½æ] ● Combinaison des 2 fichiers pour générer le lexique complet => déplaire 7
  8. 8. Correction orthographique Ressources linguistiques ● Fichier d'affixe souvent créé manuellement – Travail très coûteux, nécessite des linguistes – Difficultés des langues minoritaires pour le créer ● Aff-finder : – Extrait automatiquement les affixes à partir d'une liste des mots d'une langue – Génère automatiquement les 2 fichiers nécessaires à la correction orthographique – Permet de doter les langues minoritaires d'un correcteur orthographique 8
  9. 9. Correction orthographique Schématiquement MOTS DU TEXTE À CORRIGER COMPRESSION DU LEXIQUE MOTEUR DE CORRECTION Règles Lexique Lexique Comparaison d'affixation quot;exhaustifquot; quot;exhaustifquot; au lexique Décompression Compression Suggestions Lexique Lexique Règles de correction compressé compressé d'affixation distance d'édition ou règles MOTS CORRIGÉS 9
  10. 10. Correction grammaticale du français 10
  11. 11. Correction grammaticale du français Existant ● Des logiciels propriétaires : – Cordial (Synapse Developpement) – Antidote (Druide Informatique) – Word (Microsoft) – Etc. ● Problèmes de ces logiciels : – Coût d'intégration souvent élevé – quot;Boîtes noiresquot; – Ressources linguistiques inaccessibles 11
  12. 12. Correction grammaticale du français Existant ● Des logiciels libres : – Grac (M. Biais), toute langue – An Gramadóir (K. Scannell), gaélique – LanguageTool (D. Naber), anglais – Etc. ● Problèmes de ces logiciels : – Faible prise en charge du français – Formalismes non adaptés pour le français 12
  13. 13. Correction grammaticale du français Fonctionnement des outils Texte à Segmentation du texte en phrases, puis en vérifier ➔ TOKENISATION phrases et tokens tokens (mots + ponctuations) T Étiquetage A morpho- ➔ Étiquetage des mots avec les informations G syntaxique G I texte étiqueté sur leurs catégories et sous-catégories. N Désambi- G guïsation ➔ Réduction du nombre d'étiquettes (tags) texte étiqueté désambiguïsé par mot. CHUNKING Phrases segmentées ➔ Segmentation à un niveau intermédiaire en chunks DÉTECTION entre la phrase et le mot. DES FAUTES règles d'erreurs ➔ Détection des fautes par correspondance entre le texte et un modèle dans une règle. ou de grammaire Texte corrigé 13
  14. 14. Correction grammaticale du français Fonctionnement des outils Texte à vérifier TOKENISATION phrases et tokens ● Problème du cercle perverti : T Étiquetage A morpho- G syntaxique – Des erreurs dans le texte G => mauvais étiquetage texte étiqueté I N Désambi- G guïsation texte étiqueté => mauvaise détection des erreurs désambiguïsé CHUNKING Phrases segmentées en chunks ● La bonne détection des erreurs dépend DÉTECTION DES FAUTES d'un bon étiquetage et donc de l'absence règles d'erreurs ou de grammaire de fautes dans le texte... Texte corrigé 14
  15. 15. Correction grammaticale du français Fonctionnement d'un outil ● Correcteur grammatical libre LanguageTool, créé pour l'anglais par Daniel Naber ● Principe du pattern-matching : – Correspondance exacte entre des séquences du texte et des modèles d'erreur – Impossible de prévoir tous les modèles d'erreur – Silence et bruit dans la détection des erreurs ● Ex. : règle : Sujet + verbe + quot;pasquot; => oubli de quot;nequot; => ne fonctionne pas avec : * Il travail pas assez – Limitation au contexte immédiat ● Ex. : * La veste qu'il voulait acheter est épuisé. 15
  16. 16. Correction grammaticale du français Améliorations envisagées ● Enrichissement de la base des règles de correction : – Constitution et analyse d'un corpus d'erreurs – Enrichissement communautaire des règles ● Évolutions du formalisme : – Collaboration communautaire entre linguistes et informaticiens ● Évolution du principe de base... 16
  17. 17. Merci de votre attention ● agnes.souque@free.fr 17

×