Tutoriel TAL des
NFCE
Journée ATALA
5 Juin 2004
Emilie Guimier De Neef
Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de
ce document par son destinataire implique, de la part de ce dernier, la reconnaissance du caractère
confidentiel de son contenu et l'engagement de n'en faire aucune reproduction, aucune transmission à des
tiers, aucune divulgation et aucune utilisation commerciale sans l'accord préalable écrit de France Télécom
R&D
D1 - 09/10/12
4. Un exemple de traitement automatique :
Pré-traiter des SMS avant vocalisation
chui en fisic ta pa 1 id geeeniaaale 2
kdo pr ludo :->
a2m1 steph
Pré-traitement
linguistique Synthèse vocale
Je suis en physique t'as pas
une idée de cadeau géniale
pour ludo hahaha ! À demain
Stèph
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D
D2 - 09/10/12
Plan
s Architecture du système
s L’analyseur de textes «TiLT»
s Adaptations de TiLT au pré-traitement des
SMS
s Limites du pré-traitement
s Démonstration du système
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D
D3 - 09/10/12
Architecture du système
• Combinaison de 3 briques logicielles de FTR&D :
Prolix : identification de la langue
TiLT : analyse linguistique
CVOX : synthèse vocale
• Le message SMS reçu est…
1. …envoyé à un serveur Prolix de reconnaissance de langue.
2. …pré-traité linguistiquement par TiLT (SMS français uniquement)
3. …envoyé à un serveur CVOX de synthèse vocale anglaise, allemande
ou française
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D
D4 - 09/10/12
L'analyseur de textes TiLT
Principales étapes et données :
⇒ Découpage d'un texte en
Segmentation Données de segmentation phrases, mots, numéros, signes
de ponctuation etc.
Lexiques (ensemble des mots ⇒ Association de chaque mot à
Analyse
d'une langue avec information ces différentes analyses hors
lexicale
morpho-flexionnelles) contexte
Stratégie de correction
Méthodes de (réaccentuation, phonétique, ⇒ Correction des formes
Corrections typographique, morphologique, erronées
décollement etc.)
Grammaire (règles décrivant la
⇒ Désambiguïsation lexicale
Chunking séquentialité des mots d'une
par exploration du contexte
langue)
Règles de mise en forme
⇒ Restitution adaptée du texte
Restitution (élision, tirets, espaces, formes
analysé
contractées etc.)
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D
D5 - 09/10/12
Adaptations de TiLT au pré-traitement des SMS
(1)
s Objectif : améliorer/permettre la vocalisation des
SMS
Q"corriger" les formes SMS même écrites phonétiquement
Qrestituer certaines marques formelles importantes (apostrophes,
tirets, majuscules etc)
Qrepérer les smileys pour bloquer leur épellation
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D
D6 - 09/10/12
Adaptations de TiLT au pré-traitement des SMS
(2)
s Procédés d'écriture :
QAbréviations dsl pr staprem / MDR le 6né
Recensement des formes les plus fréquentes (un millier environ)
Association à une/plusieurs formes expansées
QEcriture phonétique et par rébus: on se dbrouille / g ht
du kfé
Données de segmentation adaptées (chiffres dans les mots)
Recensement des fomes les plus fréquentes (une centaine)
Modification du phonétiseur pour interprétation dynamique en mode correction phonétique
QTroncation des mots : Veuillez m'appeler à ce numér
Correction de la troncature à 1 caractère
QAgglutination de mots : jatend son cou 2fil
France TélécomAdaptation du mode correctif séparation
R&D La communication de ce document est soumise à autorisation de France Télécom R&D
D7 - 09/10/12
Adaptations de TiLT au pré-traitement des SMS
(3)
s Marques émotionnelles :
QSmileys : slt ;-> / pq tapel pa :(
Données de segmentation adaptées
Restitution sous forme de balises sonores
QModification expressive de la graphie : g u 16 en fisic suupppeeer
Développement d'un mode de correction tolérant à la répétition de caractères
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D
D8 - 09/10/12
Adaptations de TiLT au pré-traitement des SMS
(4)
s Corrections et abréviations génèrent une ambiguïté
plus importante qu'en langue standard
s L'absence de certaines marques formelles
(apostrophes, signes de ponctuation, majuscules, tirets
etc.) brouille les repères de la grammaire
s Adaptation de la grammaire pour :
QAffiner certaines descriptions (questions, mots réduits à une lettre)
QCerner des 'îlots de confiance' (salutations pour l'identification des noms
propres etc.)
QDécider contextuellement de l'interprétation d'une chaîne
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D
D9 - 09/10/12
Adaptations de TiLT au pré-traitement des SMS
(4)
s Mise en forme du message :
QElisions : J n en ai pa l droit
Décidée contextuellement à la restitution du message
QTirets : va t on se boir un verre?
Ajout de tirets dans des configurations syntaxiques particulières
QMajuscule en début de nom propre : Bjr jean claude ca va?
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D
D10 - 09/10/12
Limites de l'approche
s Tous les phénomènes ne sont pas traités :
QPas de procédés dynamiques pour tous les mécanismes
d'écriture
QDifficulté d'interprétation si cumul de procédés (agglutination de
mots + écriture phonétique)
QSegmentation des unités lexicales impossible en l'absence de
séparateur
QDifficulté augmente avec la longueur du message
Q…
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D
D11 - 09/10/12