Publicité
Publicité

Contenu connexe

Publicité

Nouvelles formes de communication écrite - part4

  1. Tutoriel TAL des NFCE Journée ATALA 5 Juin 2004 Emilie Guimier De Neef Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire implique, de la part de ce dernier, la reconnaissance du caractère confidentiel de son contenu et l'engagement de n'en faire aucune reproduction, aucune transmission à des tiers, aucune divulgation et aucune utilisation commerciale sans l'accord préalable écrit de France Télécom R&D D1 - 09/10/12
  2. 4. Un exemple de traitement automatique : Pré-traiter des SMS avant vocalisation chui en fisic ta pa 1 id geeeniaaale 2 kdo pr ludo :-> a2m1 steph Pré-traitement linguistique Synthèse vocale Je suis en physique t'as pas une idée de cadeau géniale pour ludo hahaha ! À demain Stèph France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D2 - 09/10/12
  3. Plan s Architecture du système s L’analyseur de textes «TiLT» s Adaptations de TiLT au pré-traitement des SMS s Limites du pré-traitement s Démonstration du système France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D3 - 09/10/12
  4. Architecture du système • Combinaison de 3 briques logicielles de FTR&D :  Prolix : identification de la langue  TiLT : analyse linguistique  CVOX : synthèse vocale • Le message SMS reçu est… 1. …envoyé à un serveur Prolix de reconnaissance de langue. 2. …pré-traité linguistiquement par TiLT (SMS français uniquement) 3. …envoyé à un serveur CVOX de synthèse vocale anglaise, allemande ou française France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D4 - 09/10/12
  5. L'analyseur de textes TiLT Principales étapes et données : ⇒ Découpage d'un texte en Segmentation Données de segmentation phrases, mots, numéros, signes de ponctuation etc. Lexiques (ensemble des mots ⇒ Association de chaque mot à Analyse d'une langue avec information ces différentes analyses hors lexicale morpho-flexionnelles) contexte Stratégie de correction Méthodes de (réaccentuation, phonétique, ⇒ Correction des formes Corrections typographique, morphologique, erronées décollement etc.) Grammaire (règles décrivant la ⇒ Désambiguïsation lexicale Chunking séquentialité des mots d'une par exploration du contexte langue) Règles de mise en forme ⇒ Restitution adaptée du texte Restitution (élision, tirets, espaces, formes analysé contractées etc.) France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D5 - 09/10/12
  6. Adaptations de TiLT au pré-traitement des SMS (1) s Objectif : améliorer/permettre la vocalisation des SMS Q"corriger" les formes SMS même écrites phonétiquement Qrestituer certaines marques formelles importantes (apostrophes, tirets, majuscules etc) Qrepérer les smileys pour bloquer leur épellation France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D6 - 09/10/12
  7. Adaptations de TiLT au pré-traitement des SMS (2) s Procédés d'écriture : QAbréviations dsl pr staprem / MDR le 6né Recensement des formes les plus fréquentes (un millier environ) Association à une/plusieurs formes expansées QEcriture phonétique et par rébus: on se dbrouille / g ht du kfé Données de segmentation adaptées (chiffres dans les mots) Recensement des fomes les plus fréquentes (une centaine) Modification du phonétiseur pour interprétation dynamique en mode correction phonétique QTroncation des mots : Veuillez m'appeler à ce numér Correction de la troncature à 1 caractère QAgglutination de mots : jatend son cou 2fil France TélécomAdaptation du mode correctif séparation R&D La communication de ce document est soumise à autorisation de France Télécom R&D D7 - 09/10/12
  8. Adaptations de TiLT au pré-traitement des SMS (3) s Marques émotionnelles : QSmileys : slt ;-> / pq tapel pa :( Données de segmentation adaptées Restitution sous forme de balises sonores QModification expressive de la graphie : g u 16 en fisic suupppeeer Développement d'un mode de correction tolérant à la répétition de caractères France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D8 - 09/10/12
  9. Adaptations de TiLT au pré-traitement des SMS (4) s Corrections et abréviations génèrent une ambiguïté plus importante qu'en langue standard s L'absence de certaines marques formelles (apostrophes, signes de ponctuation, majuscules, tirets etc.) brouille les repères de la grammaire s Adaptation de la grammaire pour : QAffiner certaines descriptions (questions, mots réduits à une lettre) QCerner des 'îlots de confiance' (salutations pour l'identification des noms propres etc.) QDécider contextuellement de l'interprétation d'une chaîne France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D9 - 09/10/12
  10. Adaptations de TiLT au pré-traitement des SMS (4) s Mise en forme du message : QElisions : J n en ai pa l droit Décidée contextuellement à la restitution du message QTirets : va t on se boir un verre? Ajout de tirets dans des configurations syntaxiques particulières QMajuscule en début de nom propre : Bjr jean claude ca va? France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D10 - 09/10/12
  11. Limites de l'approche s Tous les phénomènes ne sont pas traités : QPas de procédés dynamiques pour tous les mécanismes d'écriture QDifficulté d'interprétation si cumul de procédés (agglutination de mots + écriture phonétique) QSegmentation des unités lexicales impossible en l'absence de séparateur QDifficulté augmente avec la longueur du message Q… France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D11 - 09/10/12
Publicité