Vers une nouvelle approche de la
correction grammaticale automatique

            Agnès Souque
     Doctorante, Laboratoir...
Qui suis-je...

Une quot;Talistequot;
  –   TAL : Traitement Automatique des Langues
  –   Traitement informatique des don...
Sommaire


●
    Existant
●
    Amélioration du correcteur LanguageTool
●
    Les limites
●
    Reconsidération du problèm...
Existant
                      Précédents travaux

●
    Correction grammaticale ≠ orthographique


●
    Pas de correcteu...
Existant
                         Structure des correcteurs grammaticaux
           Texte à

                             ...
Existant
                      Correcteur grammatical libre LanguageTool
                            Créé par Daniel Naber...
Améliorations de LanguageTool
           Texte à

                            Ajout de la désambiguïsation :
           vé...
Améliorations de LanguageTool

●
    Nouvelles règles de corrections :
    –   Règles créées pour Gramadóir réécrites en X...
Les limites

Pattern-matching rigide :
  –   Prévoir toutes les contextes de fautes possibles
       ●
           Travail ...
Reconsidération du problème
        Nouvelle approche de la correction grammaticale

●
    Sortir de l'approche en couches...
Reconsidération du problème
      Nouvelle approche de la correction grammaticale

Nouvelle approche quot;left-rightquot;
...
Reconsidération du problème
        Nouvelle approche de la correction grammaticale

●
    Reconsidération complète du for...
Merci de votre attention



   agnes.souque@free.fr

                           13
Prochain SlideShare
Chargement dans…5
×

Vers une nouvelle approche de la correction grammaticale automatique

2 388 vues

Publié le

Publié dans : Technologie
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Vers une nouvelle approche de la correction grammaticale automatique

  1. 1. Vers une nouvelle approche de la correction grammaticale automatique Agnès Souque Doctorante, Laboratoire Lidilem, Université Stendhal – Grenoble 3 Doctorante – conseil auprès de Linagora 1
  2. 2. Qui suis-je... Une quot;Talistequot; – TAL : Traitement Automatique des Langues – Traitement informatique des données langagières – Intégration de modèles linguistiques dans des applications informatiques – => correction orthographique, grammaticale 2
  3. 3. Sommaire ● Existant ● Amélioration du correcteur LanguageTool ● Les limites ● Reconsidération du problème 3
  4. 4. Existant Précédents travaux ● Correction grammaticale ≠ orthographique ● Pas de correcteur grammatical générique libre pour le français ● Projet de correcteur grammatical français libre pour OpenOffice.org – Travaux de M. Lechelt sur An Gramadóir 4
  5. 5. Existant Structure des correcteurs grammaticaux Texte à Segmentation du texte en phrases, puis en vérifier ➔ TOKENISATION phrases et tokens tokens (mots + ponctuations) T Étiquetage A morpho- ➔ Étiquetage des mots avec les informations G syntaxique G I texte étiqueté sur leurs catégories et sous-catégories. N Désambi- G guïsation ➔ Réduction du nombre d'étiquettes (tags) texte étiqueté désambiguïsé par mot. CHUNKING Phrases segmentées ➔ Segmentation à un niveau intermédiaire en chunks DÉTECTION entre la phrase et le mot. DES FAUTES règles d'erreurs ➔ Détection des fautes par correspondance entre le texte et un modèle dans une règle. ou de grammaire Texte corrigé 5
  6. 6. Existant Correcteur grammatical libre LanguageTool Créé par Daniel Naber pour l'anglais Texte à vérifier ● TOKENISATION phrases et tokens ● Extension d'OpenOffice.org T Étiquetage A morpho- ● Structure : G syntaxique G I texte étiqueté – Pas de désambiguïsation, ni de chunking Règles d'erreurs en XML N Désambi- G guïsation – texte étiqueté texte étiqueté désambiguïsé désambiguïsé <rule name=quot;ma (m'a)quot; id=quot;MAquot;> CHUNKING <pattern> Phrases <token>ma</token> segmentées en chunks <token postag_regexp=quot;yesquot; postag=quot;V.*quot;/> DÉTECTION DES FAUTES </pattern> règles d'erreurs <message>Vouliez-vous écrire m'a ?</message> ou de grammaire <example type=quot;correctquot;>Il m'a répondu</example> Texte corrigé <example type=quot;incorrectquot;>Il ma répondu</example> </rule> 6
  7. 7. Améliorations de LanguageTool Texte à Ajout de la désambiguïsation : vérifier ● TOKENISATION Règle : quot;sa + verbe = fauxquot; phrases et tokens – T Étiquetage A morpho- Sa porte est fermée => faux car porte est ambigu G syntaxique G texte étiqueté (nom, mais aussi verbe) I N Désambi- G guïsation ● Ajout de la segmentation en chunks : texte étiqueté désambiguïsé – Délimitation de groupes de mots CHUNKING Phrases * [Les enfants] [en situation] [de blocage] [vont utilisé] segmentées en chunks [le code restreint] DÉTECTION DES FAUTES ● Ajout de l'unification : règles d'erreurs ou de grammaire – détermine si bons accords dans les chunks Texte corrigé ou pas 7
  8. 8. Améliorations de LanguageTool ● Nouvelles règles de corrections : – Règles créées pour Gramadóir réécrites en XML : ● généralisations, regroupements => 450 règles sur les groupes nominaux au départ, réduites à 4 – Création de règles à partir de l'analyse d'un corpus de fautes (corpus COVAREC – Lidilem Grenoble 3) ● Erreurs détectées par LanguageTool : – Confusion d'homophones : ça/sa, a/à, son/sont, etc. – Accords au sein des groupes nominaux:*des formule – Erreurs au sein des groupes verbaux : * j'ai trouver – Accords sujet-verbe : * on devrez 8
  9. 9. Les limites Pattern-matching rigide : – Prévoir toutes les contextes de fautes possibles ● Travail très coûteux, ● à refaire pour chaque langue ● Explosion combinatoire des règles dans les groupes nominaux – Silence/bruit (orthographe, étiquetage, etc.) – Limitation au contexte immédiat 9
  10. 10. Reconsidération du problème Nouvelle approche de la correction grammaticale ● Sortir de l'approche en couches quot;top-downquot;: 1)Segmentation 2)Étiquetage 3)Correction ● Sortir du cercle vicieux de cette approche : ➢ Pas d'erreur > bon étiquetage > bonne détection ● Sortir de l'approche énumérative et déclarative des fautes 10
  11. 11. Reconsidération du problème Nouvelle approche de la correction grammaticale Nouvelle approche quot;left-rightquot; – Analyse morpho-syntaxique et correction grammaticale au fur et à mesure de la lecture * Les premiers linguistes on donc d'abord écouté [GN----------------------][ erreur => problème d'attendu à droite du groupe nominal – Détection d'incohérences, déclaration de ce qui est attendu, au lieu des fautes 11
  12. 12. Reconsidération du problème Nouvelle approche de la correction grammaticale ● Reconsidération complète du formalisme et du traitement ● Conception d'un analyseur morpho-syntaxique robuste ● Constitution d'un corpus d'erreurs – Définition d'une typologie des erreurs – Validation de l'analyseur ● Formalisme de description générique 12
  13. 13. Merci de votre attention agnes.souque@free.fr 13

×