Samar - Premier bilan d'étape - Oct. 2010

1 614 vues

Publié le

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 614
Sur SlideShare
0
Issues des intégrations
0
Intégrations
72
Actions
Partages
0
Téléchargements
10
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • - Réalisation d'outils d'annotation interactifs permettant la production de corpus annotés. - L’annotation effective d’environ 400 mille mots - La réalisation d’un système de translittération Fr Ar
  • Objectifs: Annotation morpho grammaticale d’un corpus de 400 mille mots: voyellés, lemmatisés et étiquetés L2.1 Analyse morpho syntaxique de l'arabe et architecture du système d'analyse morphosyntaxique Rapport L2.2 Corpus annotés: dépêches AFP, La Mena (si possible), LMD (si possible) et APS (si possible) Annotation manuelle de 400 000 occurrences issues du volume analysé Corpus L2.3 Evaluation de l’analyse morpho-grammaticale Rapport L2.4 Module d’annotation interactive et de reconnaissance d’entités nommées en arabe Logiciel + Rapport sur le module d'annotation interactive L2.5 Module de translittération Français Arabe - Arabe Français Logiciel L4.1 Rapport d’étude préliminaire sur l’extraction d'entités nommées en arabe R L4.2 Cartouche de connaissance en arabe L Rapport sur la cartouche de connaissance en arabe R L4.3 Ontologie enrichie à partir des arbres conceptuels fournis par la cartouche d'extraction L Rapport sur l'enrichissemenent de l'ontologie R L4.4 Rapport sur la fusion des entités nommées R L4.5 Evaluation sur l'extraction d'entités nommées et Optimisation des performances obtenues R Nous voulons pouvoir annoter dans les meilleures conditions de facilité, d’efficacité, de reproductibilité Etre en mesure de voir immédiatement les effets liés à l’apprentissage
  • Objectifs: Annotation morpho grammaticale d’un corpus de 400 mille mots: voyellés, lemmatisés et étiquetés L2.1 Analyse morpho syntaxique de l'arabe et architecture du système d'analyse morphosyntaxique Rapport L2.2 Corpus annotés: dépêches AFP, La Mena (si possible), LMD (si possible) et APS (si possible) Annotation manuelle de 400 000 occurrences issues du volume analysé Corpus L2.3 Evaluation de l’analyse morpho-grammaticale Rapport L2.4 Module d’annotation interactive et de reconnaissance d’entités nommées en arabe Logiciel + Rapport sur le module d'annotation interactive L2.5 Module de translittération Français Arabe - Arabe Français Logiciel L4.1 Rapport d’étude préliminaire sur l’extraction d'entités nommées en arabe R L4.2 Cartouche de connaissance en arabe L Rapport sur la cartouche de connaissance en arabe R L4.3 Ontologie enrichie à partir des arbres conceptuels fournis par la cartouche d'extraction L Rapport sur l'enrichissemenent de l'ontologie R L4.4 Rapport sur la fusion des entités nommées R L4.5 Evaluation sur l'extraction d'entités nommées et Optimisation des performances obtenues R Nous voulons pouvoir annoter dans les meilleures conditions de facilité, d’efficacité, de reproductibilité Etre en mesure de voir immédiatement les effets liés à l’apprentissage
  • Ce que nous manipulons: des arborescences lexicales
  • Ici, complexité combinatoire de la voyellation lemmatisation et étiquetage grammatical. Chaque mot est accompagné d’une structure arborescente représentant ses diverses (voyellations, lemmes, et étiquettes grammaticales) potentielles. Je m’aperçois que les solutions à venir résident dans la mise en œuvre de grammaires lexicalisées où figureront les morceaux de phrases (clés de la règle) d’une part, et leurs analyses dépendancielles d’autre part (informations associées à la clé). Ce qui aura pour effet de rendre superfétatoire l’étiquetage tel que jusqu’ici préconisé et dont certains auteurs soulignent le peu de « justification théorique intrinsèque au langage » (Fairon & Sennelart, 1999). Moyennant ces nouvelles règles, l’on pourrait alors affirmer qu’en effet, « l’attribution d’étiquettes grammaticales semble bien être un processus de très haut niveau dont la base est la compréhension complète de la phrase » (Fairon & Sennelart, 1999).
  • Voyellation/Accentuation Tableau 5 : Mesure en usage Textes Français Arabe Voy. Lexicale (sans cas) Voy. Globale (avec cas) Non ambigus 72% 25,5% 9,5% Ambigus 28% 74,5% 90,5% Nb moy. de voy. par mot 1,3 6,3 11,6 Tableau 15 : Ambiguïté grammaticale associée au vocabulaire d'un texte arabe : comptage en usage. Texte arabe Nombre total d’UL UL non ambiguës UL ambiguës Nb moyen d'étiquettes/UL voyellé 37 402 37,98 % 62,02 % 5,63 Non voyellé 40 485 24,15 % 75,85 % 8,71 Tableau 16 : Ambiguïté grammaticale associée au vocabulaire d'un texte français : comptage en usage Texte français Nombre total d’UL UL non ambiguës UL ambiguës Nb moyen d'étiquettes/UL Texte accentué 427560 39,19 % 60,81 % 1,86 Texte non accentué 427560 36,55 % 63,45 % 1,88
  • En cours
  • Coût moyen du caractère exprimé en nombre de frappes, calculé pour différents corpus : français (1 million mots), anglais (1 million de mots), arabe voyellé (950 mille mots), et arabe non voyellé (2 millions de mots). Ces chiffres signifient que la saisie d’un texte de N caractères (lettres avec ou sans signe diacritique) coûtera approximativement N*1,00001 frappes au clavier si le texte est en anglais, contre N*1,003 si le texte est en français, N*1,037 si le texte est en arabe non voyellé, et même N*1,46 si le texte est en arabe voyellé. La saisie de l’arabe voyellé est donc sensiblement plus coûteuse que celle du français ou, a fortiori, de l’anglais. Conclusions provisoires : Ces caractérisations sont bien entendu liées à la technologie, aux claviers respectivement associés à chaque langue. Elles offrent une sorte d’évaluation a posteriori des standards et normes en vigueur à l’aune desquelles trois constats peuvent être effectués: 1°) que la technologie ne semble pas conférer les mêmes avantages aux langues qu’elle prend en charge. 2°) que si ces caractérisations peuvent conforter les standards et normes en vigueur, elles peuvent aussi inciter à les amender. 3°) que ces comptages et observations suggèrent que les systèmes d’écriture qui persistent ou qui s’installent dans l’usage sont ceux dont le coût est proche de 1, tel l’anglais, le français, ou l’arabe non voyellé. On peut remarquer que l’arabe voyellé qui présente un coût de 1,46 frappes par caractère est très peu pratiqué. N’y a-t-il pas là un seuil au-delà duquel un système d’écriture n’est plus retenu ?
  • Ces niveaux d’ambiguïté associés aux difficultés que pose la saisie des voyelles, signes diacritiques en arabe, signifient que dans une perspective d’annotation manuelle, les coûts sont prohibitifs. Confectionner des corpus annotés, qui sous forme brute présentent 1°) un niveau d’ambiguïté important 2°) une saisie coûteuse Ces niveaux d’ambiguïtés indiquent que dans une perspective d’annotation manuelle, l’étendue des choix étant importante, alors l’opération d’annotation manuelle sera coûteuse, plus coûteuse que pour le français par exemple dont les niveaux d’amb sont moins importants (toutes choses égales par ailleurs: niveau de résolution automatique comparables, difficultés linguistiques (définitions des étiquettes, critères de choix, etc. comparables).
  • Un système d’annotation interactif est lui performant lorsque le nombre de manipulations imposées à l’annotateur pour parvenir à une tâche donnée est réduit à une simple validation. Cette situation se produit lorsque son moteur d’analyse automatique est performant à 100%.
  • Ici, ergonomie générale de SAMSAr. Plusieurs fenêtres permettant de visualiser Le lexique associé au texte sélectionné Les arborescences lexicales respectivement associées aux mots sélectionnés L’ensemble des phrases contenant les occurrences du mot sélectionné non encore annotées ou vérifiées La phrase en cours d’annotation interactive
  • Ergonomie en cours de développement
  • Interaction analyse morpho grammaticale / analyse syntagmatique Résolution automatique des ambiguïtés liées à la nature des entités nommées reconnues La reconnaissance parallèle de différents types d'entités nommées conduit à des situations d'ambiguïtés qui portent sur les frontières de ces entités autant que sur leur nature. Ce qui débouche sur un autre problème qui n'a pas encore été abordé: celui de la résolution automatique de ces ambiguïtés.
  • Forme générale d'une règle de translittération: P(CC | CS, Ctx 1 , Ctx 2 ) où: CS: Chaîne Source CC: Chaîne Cible Ctx 1 : Contexte avant Ctx 2 : Contexte après LCC i : Longueur de la chaîne cible
  • Règles générées à partir de l’exemple précédent
  • Les exemples suivants illustrent ces difficultés. Ils fournissent en même temps le matériau d'apprentissage des règles de translittération que nous nous proposons de construire. Forme générale d'une règle de translittération:   P(CC | CS, Ctx 1 , Ctx 2 )   où: CS: Chaîne Source CC: Chaîne Cible Ctx 1 : Contexte avant Ctx 2 : Contexte après LCC i : Longueur de la chaîne cible
  • R: Règles, T: Translittération, C: Contextuelles, NC: Non Contextuelles, V: Voyellé, NV: Non Voyellé, F: Français, A: Arabe R: Règles T: Translittération C: Contextuelles NC: Non Contextuelles V: Voyellé NV: Non Voyellé F: Français A: Arabe
  • En cours
  • En cours
  • Samar - Premier bilan d'étape - Oct. 2010

    1. 1. 1 er bilan d’étape 15 octobre 2010
    2. 2. Objectifs <ul><li>Le projet SAMAR a pour objectif de développer une plateforme de traitement multimédia en langue arabe, et de valider ces travaux en menant les expérimentations : </li></ul><ul><ul><li>Sur la totalité des dépêches arabes produites par l’AFP depuis 10 ans, soit environ un million de dépêches, représentant plus de 150 millions de mots. </li></ul></ul><ul><ul><li>Sur un ensemble de flux radios arabes </li></ul></ul><ul><ul><li>Sur un ensemble de flux télévisuels arabes </li></ul></ul>17/10/10
    3. 3. Vie du projet <ul><ul><li>Embauches </li></ul></ul><ul><ul><ul><li>Locuteurs natifs arabe, nationalités représentées </li></ul></ul></ul><ul><ul><ul><ul><li>Algérienne </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Egyptienne </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Jordanienne </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Jordano-Palestinienne </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Marocaine </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Mauritanienne </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Soudannaise </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Tunisienne </li></ul></ul></ul></ul>17/10/10
    4. 4. Vie du projet <ul><ul><li>Embauches </li></ul></ul><ul><ul><ul><li>Contrats </li></ul></ul></ul><ul><ul><ul><ul><li>3 embauches CDI : Antidot, Mondeca </li></ul></ul></ul></ul><ul><ul><ul><ul><li>5 embauches CDD : Temis, Vecsys </li></ul></ul></ul></ul><ul><ul><ul><ul><li>1 contrat régie : AFP </li></ul></ul></ul></ul><ul><ul><ul><ul><li>1 ingénieur de recherche : GREYC </li></ul></ul></ul></ul><ul><ul><ul><ul><li>1 contrat thèse : LIMSI </li></ul></ul></ul></ul><ul><ul><ul><ul><li>1 contrat Post Doctorant: LIMSI </li></ul></ul></ul></ul>17/10/10
    5. 5. Vie du projet <ul><ul><li>Un communiqué de presse </li></ul></ul><ul><ul><ul><li>Communiqués de Presse parus le 16 mars 2010 (FR US) </li></ul></ul></ul><ul><ul><ul><li>Article paru dans econtent mag (US) </li></ul></ul></ul><ul><ul><ul><ul><li>http://www.econtentmag.com/Articles/News/News-Feature/SAMAR-Project-Mapping-Arabic-Language-to-Aid-News-Searchers-67535.htm </li></ul></ul></ul></ul>17/10/10
    6. 6. Vie du projet <ul><ul><li>Logo SAMAR </li></ul></ul><ul><ul><li>Site Web http://www.samar.fr/ </li></ul></ul>17/10/10
    7. 7. Vie du projet <ul><li>Réunions </li></ul><ul><ul><li>4 plénières </li></ul></ul><ul><ul><ul><li>Lancement du projet 01/10/2009 </li></ul></ul></ul><ul><ul><li>7 réunions thématiques </li></ul></ul><ul><ul><li>2 conférences téléphoniques </li></ul></ul><ul><ul><li>1 semaine de travail en équipe à Tunis (Greyc Llacan) </li></ul></ul>17/10/10
    8. 8. Objectifs Administratifs <ul><ul><li>Accord de consortium </li></ul></ul><ul><ul><ul><li>Négociations en cours de finalisation (LIMSI AFP) </li></ul></ul></ul><ul><ul><ul><li>Accord de secret en cours de finalisation </li></ul></ul></ul><ul><ul><li>Demande de prolongation du projet (6 mois) </li></ul></ul><ul><ul><ul><li>Permettre des embauches sur 3 ans </li></ul></ul></ul><ul><ul><ul><li>Date de fin de projet </li></ul></ul></ul><ul><ul><ul><li>30/09/2012 </li></ul></ul></ul>17/10/10
    9. 9. Livrables <ul><li>11 livrables attendus pour le 01/10/2010 </li></ul><ul><ul><li>9 livrables prêts à être remis </li></ul></ul><ul><ul><li>2 seront différés </li></ul></ul><ul><ul><ul><li>L3.1: 12/2010 </li></ul></ul></ul><ul><ul><ul><li>L5.1: 01/2011 </li></ul></ul></ul>17/10/10
    10. 10. SP1 Expression des besoins Denis Teyssou Bernard Apfeldorfer Dominique Ferrandini
    11. 11. L’AFP en arabe 17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    12. 12. La production arabe de l’AFP <ul><li>Service arabe créé en 1974 au Caire puis migré à Nicosie en 1987. </li></ul><ul><ul><li>Desk de 25 journalistes. </li></ul></ul><ul><ul><li>Production journalière de 300 dépêches environ. </li></ul></ul><ul><li>En grande partie, de la traduction du français vers l’arabe. </li></ul><ul><ul><li>Une production native en développement </li></ul></ul><ul><li>Des produits multimédias avec photos, vidéos et infographies </li></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    13. 13. Taxonomie IPTC en arabe 17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    14. 14. De nouveaux services multimédia 17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    15. 15. Un CMS adapté à la production 17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    16. 16. Système Samar: vue fonctionnelle 17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    17. 17. SP1 Expression des besoins Hacène Cherfi Bernard Vatant
    18. 18. SP1 : Ressources terminologiques et ontologies <ul><li>Mise en place d’un serveur termino-ontologique </li></ul><ul><li>Créer et gérer le Modèle ontologique SAMAR </li></ul><ul><li>Donner accès aux connaissances SAMAR pour les autres systèmes </li></ul><ul><ul><li>Ressources multilingues et alignées dirigées par l’ontologie </li></ul></ul><ul><ul><li>Inférences et consolidation des entités dans la base de connaissances </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    19. 19. SP1 : Ressources terminologiques et ontologies <ul><li>V1 de l’ontologie SAMAR </li></ul><ul><li>Ressources référentielles </li></ul><ul><ul><li>IPTC </li></ul></ul><ul><ul><li>Geonames (zone du Monde arabe) </li></ul></ul><ul><ul><li>Entités nommées du Joint Research Centre : JRC </li></ul></ul><ul><ul><ul><li>début d’intégration </li></ul></ul></ul><ul><li>Démo </li></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    20. 20. SP1 : Ressources terminologiques et ontologies <ul><li>V2 de l’ontologie SAMAR </li></ul><ul><ul><li>Intégration avec le système d’annotation </li></ul></ul><ul><ul><li>Export vers le système d’indexation </li></ul></ul><ul><li>Ressources terminologiques </li></ul><ul><ul><li>Consolider la base de connaissances </li></ul></ul><ul><ul><li>JRC + autres ressources </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    21. 21. SP1 : Ressources terminologiques et ontologies <ul><li>Enrichir les référentiels </li></ul><ul><ul><li>avec des ressources dialectales (avec Vecsys) </li></ul></ul><ul><ul><ul><li>Ex. : dialecte égyptien </li></ul></ul></ul><ul><ul><li>avec des ressources translittérées (LLACAN) si monolingues </li></ul></ul><ul><ul><ul><li>Pour les entités nommées (personnes, lieux, etc.) </li></ul></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    22. 22. SP2 Analyse Morpho syntaxique de l’arabe Fathi Debili Ayadi Chabi r
    23. 23. Analyse Automatique vs Analyse Interactive O utils d'annotation interactifs et production de corpus annotés Voyellation, Etiquetage, Lemmatisation, et Analyse syntagmatique de l’arabe Appariement syllabique et Translittération Fr  Ar <ul><li>Paris, 15 octobre 2010 </li></ul>
    24. 24. Objectifs <ul><ul><li>Analyse Automatique vs Analyse Interactive Outils d'annotation interactifs et production de corpus annotés Voyellation, Etiquetage, Lemmatisation, et Analyse syntagmatique de l’arabe Appariement syllabique et Translittération Fr-Ar </li></ul></ul><ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    25. 25. Traitement de l’arabe: rappels <ul><ul><li>Réalisation d'outils d'annotation interactifs permettant la production de corpus annotés </li></ul></ul><ul><ul><li>Amélioration des performances de G-LexAr </li></ul></ul><ul><ul><li>Annotation effective d’environ 400 mille mots </li></ul></ul><ul><ul><li>Réalisation d’un système de translittération des nom propres Fr  Ar </li></ul></ul><ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    26. 26. Analyse morphologique de l’arabe Arborescence lexicale
    27. 27. Arborescence lexicale découpage 1 découpage 2 voyellation 21 voyellation 22 lemme 211 lemme 222 lemme 221 lemme 213 lemme 212 ht 2111 ht 2112 ht 2113 ht 2221 ht 2131 ht 2132 UM découpage n voyellation 2p … … … … voyellation 11 voyellation 12 ht 2121 ht 2122 ht 2211 ht 2212 lemme 111 ht 1111 ht 1112 …
    28. 28. Voyellation Lemmatisation Etiquetage <ul><li>m 1 m 2 m 3 ... m L </li></ul><ul><li>V 11 V 12 V 21 V 22 V 23 V 31 V 32 V 33 </li></ul><ul><li>L 111 L 112 L 121 L 211 L 221 L 222 L 311 L 321 L 322 L 323 </li></ul><ul><li>t 1111 t 1211 t 2211 t 2213 t 3111 t 3221 t 3231 </li></ul><ul><li>t 1112 t 2212 t 3211 t 3212 t 3213 </li></ul><ul><li>t 1121 t 1122 t 2111 t 2221 t L111 ...t Lp L q L n L </li></ul>
    29. 29. Des niveaux d’ambiguïté élevés Niveaux d’ambiguïté de l’hyper-forme arabe Ambiguïté Segmentale Vocalique et Casuelle Lemmatique Grammaticale Dictionnaire (66.10 6 d’entrées) 1,08 2,17 1,68 2,99 Sous lexique (157 031) 1,26 6,40 2,65 9,16 En usage (2.10 6 ) 1,32 7,84 3,66 10,76
    30. 30. Coût de la voyellation exprimé en nombre de frappes <ul><li>En arabe, la plupart des lettres ( 87% en définition, 77% en usage ) demandent pour être voyellées d’être accompagnées d’un signe diacritique dont la saisie coûte au minimum 2 frappes, à l’image du tréma en français. </li></ul><ul><li>Voyeller manuellement un mot arabe équivaut, en nombre de frappes au clavier, à le ressaisir entièrement voyellé. </li></ul><ul><li>La saisie de كتب ( ktb ) coûte 3 frappes. </li></ul><ul><li>La saisie de la forme voyellée كَتَبَ ( kataba ) coûte 9 frappes. </li></ul><ul><li>Voyeller كتب ( ktb ) préalablement saisie coûte aussi 9 frappes , soit autant que la forme voyellée كَتَبَ ( kataba ) entièrement ressaisie. </li></ul>
    31. 31. Les signes diacritiques <ul><li>14 choix possibles si l’on inclut l’absence de voyelle </li></ul><ul><li>ـْـ ـَـ ـُـ ـِـ </li></ul><ul><li>ـًـ ـٌـ ـٍـ </li></ul><ul><li>ـَّـ ـُّـ ـِّـ </li></ul><ul><li>ـًّـ ـٌّـ ـٍّـ </li></ul><ul><li>Non voyellé </li></ul>
    32. 32. Des coûts d’annotation et de saisie élevés Coût moyen du caractère en nombre de frappes Coût moyen du caractère Proportion des signes diacritiques Proportion dans le coût de la saisie Anglais 1,00001 0,0005 % 0,001 % Français 1,003 3,51 % 3,84 % Arabe non voyellé 1,037 - - Arabe voyellé 1,46 45% 60%
    33. 33. Annotation interactive de corpus arabes <ul><li>Les efforts doivent être fait dans deux directions: </li></ul><ul><ul><li>De l’analyse automatique: performances autant sous l’angle de la pertinence linguistique que sous l’angle de la rapidité informatique </li></ul></ul><ul><ul><li>De l’ergonomie interactive: en introduisant de nombreuses fonctionnalités permettant: </li></ul></ul><ul><ul><ul><li>De faciliter les choix linguistiques et d’assurer une meilleure reproductibilité de l’annotation manuelle </li></ul></ul></ul><ul><ul><ul><li>De réduire les coûts d’annotation et contrôle manuels </li></ul></ul></ul>
    34. 34. Analyse automatique vs Analyse interactive Analyse automatique Annotation interactive Élaboration des règles Un cercle vertueux
    35. 35. SAMSAr S ystème d’ A nnotation M orpho S yntagmatique de l’ Ar abe Sélection du mot à Voyeller Lemmatiser et Etiqueter Affichage de tous les contextes où apparaît le mot Sélection de l’une de ses occurrences Arborescence élaguée associée à l’occurrence sélectionnée Sélection de la branche VLT qui convient Attribution de la branche VLT retenue à l’occurrence sélectionnée Mise à jour des dictionnaires et des règles Sélection du Corpus puis du Texte à annoter <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    36. 36. Annotation syntagmatique <ul><li>Ce qui se présente à l'entrée de l'analyseur syntagmatique est la structure de données suivante: </li></ul><ul><li>La sortie attendue de l'analyseur syntagmatique est une structure de données où les syntagmes et entités nommées sont délimités et étiquetés </li></ul><ul><li>Etiquettes syntagmatiques : par ex. SN, SV. </li></ul><ul><li>Entités nommées : par ex. Date, Nom de personne, Nom de lieu, Distance, etc. </li></ul><ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>M 1 M 2 … M n Voyellation V 1 V 2 V n Lemme L 1 L 2 L n Etiquette T 1 T 2 T n
    37. 37. Annotation syntagmatique استقبل رئيس الجمهورية الوزير الأول اسْتَقْبَلَ CV رَئِيسُ الجُمْهُورِيَّةِ CN1 الوَزِيرَ الأَوَّلَ CN2 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    38. 38. Analyse syntagmatique et Annotation interactive Délimitation des Syntagmes et Entités Nommées Arborescences lexicales élaguées issues de G-LexAr Apprentissage des Règles issues de l’annotation en cours Extraction des Syntagmes et Entités Nommées automatiquement reconnus Ré analyse syntagmatique après annotation morpho grammaticale ou apprentissage <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    39. 39. S tation d’ A nalyse M orpho S yntaxique de l’ Ar abe SAMSAr <ul><li>Annotation morpho grammaticale manuelle </li></ul><ul><li>Analyse morpho grammaticale: introduction de dictionnaires d’hyper formes donnant accès à des arborescences élaguées </li></ul><ul><li>Analyse syntagmatique et reconnaissance des entités nommées </li></ul><ul><li>Autres développements: </li></ul><ul><li>Voyellation </li></ul><ul><li>Translittération </li></ul><ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    40. 40. Translittération Français ↔ Arabe <ul><li>Objectif : passer d'un système d'écriture à un autre. Ici, du système d'écriture du français à celui de l'arabe, et inversement. </li></ul><ul><li>Les difficultés que pose la translittération sont relativement bien connues. Elles sont liées au fait que les systèmes alphabétiques n'ont pas le même nombre de lettres, et que les correspondances établies entre lettres ou groupe de lettres ne sont pas biunivoques. </li></ul><ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    41. 41. Appariement Syllabique Amira أميرة <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>رَة مِي أَ a mi ra
    42. 42. Appariement segmental et Construction des règles de translittération Règles contextuelles Règles non contextuelles <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>Chaîne source Contexte avant Contexte après a mi mi a ra ra mi Chaîne cible Nombre d’occurrences أَ 1 مِي 1 رَة 1 Chaîne source a mi ra Chaîne cible Nombre d’occurrences أَ 1 مِي 1 رَة 1
    43. 43. Translittération Français ↔ Arabe <ul><li>Forme générale d'une règle de translittération: </li></ul><ul><li>  </li></ul><ul><li>P( CC | CS , Ctx 1 , Ctx 2 ) </li></ul><ul><li>où:  </li></ul><ul><li>CS: Chaîne Source </li></ul><ul><li>CC: Chaîne Cible </li></ul><ul><li>Ctx 1 : Contexte avant </li></ul><ul><li>Ctx 2 : Contexte après </li></ul><ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    44. 44. Translittération Français ↔ Arabe R: Règles, T: Translittération, C: Contextuelles, NC: Non Contextuelles, V: Voyellé, NV: Non Voyellé, F: Français, A: Arabe <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>Règles de translittération Français Arabe Arabe Français V oyellé N on V oyellé V oyellé N on V oyellé C ontextuelles RT C V FA RT C NV FA  RT C V AF RT C NV AF N on C ontextuelles RT NC V FA RT NC NV FA RT NC V AF RT NC NV AF
    45. 45. Translittération Fr  Ar Appariement syllabique ou infra syllabique <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    46. 46. Translittération Fr  Ar Segmentation de la chaîne source <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    47. 47. <ul><li>Edward </li></ul><ul><li>Algèbre </li></ul><ul><li>Mars </li></ul><ul><li>Toyota </li></ul><ul><li>Neptune </li></ul><ul><li>Walter </li></ul>Appariement des cognats Fr  Ar نِبْتُون إِدْوَارْد الجَبْر مَارْس <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    48. 48. SP3 Moteur de recherche Jérôme Mainka Fabrice Lacroix
    49. 49. Moteur de recherche <ul><li>Données à indexer </li></ul><ul><ul><li>Données multilingues </li></ul></ul><ul><ul><ul><li>Arabe </li></ul></ul></ul><ul><ul><ul><li>Anglais </li></ul></ul></ul><ul><ul><ul><li>Français </li></ul></ul></ul><ul><ul><li>  Données structurées </li></ul></ul><ul><ul><ul><li>Format NewsML </li></ul></ul></ul><ul><ul><li>Volumétrie : </li></ul></ul><ul><ul><ul><li>1 million de news à indexer  </li></ul></ul></ul><ul><ul><ul><li>200 news par jour </li></ul></ul></ul><ul><ul><li>Support cross lingue </li></ul></ul><ul><ul><ul><li>Utilisation de référentiels multilingues alignés </li></ul></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    50. 50. Indexation de l'Arabe <ul><li>Tokenisation </li></ul><ul><ul><li>comme pour l'Anglais et le Français : </li></ul></ul><ul><ul><li>tokens séparés par des espaces / ponctuations </li></ul></ul><ul><li>Lemmatisation </li></ul><ul><ul><li>problématique </li></ul></ul><ul><ul><li>langue très flexionnelle </li></ul></ul><ul><ul><li>beaucoup d'agglutinations </li></ul></ul><ul><ul><li>utilisation prévue du lemmatiseur du SP2 </li></ul></ul><ul><li>Normalisation </li></ul><ul><ul><li>recours au transcodage pas vraiment utile </li></ul></ul><ul><ul><li>translittération plus utile mais compliquée </li></ul></ul><ul><ul><li>fournie par le SP2 </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    51. 51. Indexation transcription S2T <ul><li>Mots associés à des indices de confiance </li></ul><ul><ul><li>Possibilité de prise en compte de ces indices : </li></ul></ul><ul><ul><ul><li>Booléen </li></ul></ul></ul><ul><ul><ul><ul><li>Seuil </li></ul></ul></ul></ul><ul><ul><ul><li>Proba </li></ul></ul></ul><ul><ul><ul><ul><li>Pondération de l'indexation  </li></ul></ul></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    52. 52. Indexation traduction <ul><li>Deux démarches </li></ul><ul><ul><li>Paresseuse </li></ul></ul><ul><ul><ul><li>On se contente d'indexer les différentes versions comme l'original </li></ul></ul></ul><ul><ul><ul><li>Problème : environnement cross lingue. On doit avoir la possibilité d'afficher le résumé et la correspondance dans toutes les langues </li></ul></ul></ul><ul><ul><ul><li>=> </li></ul></ul></ul><ul><ul><li>Innovante </li></ul></ul><ul><ul><ul><li>Faire correspondre les traductions des segments de texte  </li></ul></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    53. 53. Démonstration 17/10/10
    54. 54. Démonstration 17/10/10
    55. 55. Démonstration 17/10/10
    56. 56. Perspectives <ul><ul><li>Incorporation du lemmatiseur SP2 </li></ul></ul><ul><ul><li>Facettage multilingue </li></ul></ul><ul><ul><li>Indexation continue </li></ul></ul><ul><ul><li>Extension sémantique </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    57. 57. SP4 Extraction entités nommées Leila Zighem Sylvie Guillemin-Lanne
    58. 58. Extraction des entités nommées <ul><li>Skill Cartridge™ d’extraction d’entités nommées en arabe </li></ul><ul><ul><li>Personnes </li></ul></ul><ul><ul><li>Organisations </li></ul></ul><ul><ul><li>Lieux </li></ul></ul><ul><ul><li>Dates </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    59. 59. Particularités de la langue arabe <ul><li>Absence de majuscules </li></ul><ul><ul><li>Contrairement à d’autres langues comme le français ou l’anglais </li></ul></ul><ul><ul><li>Sachant que la majuscule est un moyen très efficace dans le processus de reconnaissance des noms propres. </li></ul></ul><ul><li>Absence de voyelles </li></ul><ul><ul><li>L’absence des voyelles brèves entraîne de nombreuses ambiguïtés </li></ul></ul><ul><li>Agglutination </li></ul><ul><ul><li>La langue arabe est une langue agglutinante, </li></ul></ul><ul><ul><li>Une segmentation en Tokens seulement n’est pas suffisante </li></ul></ul><ul><ul><li>Nécessite une analyse morphologique de la langue </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    60. 60. L’analyseur morpho-syntaxique <ul><li>Intégration de Glexar dans la solution Luxid® Temis </li></ul><ul><ul><li>L’analyseur morpho-syntaxique </li></ul></ul><ul><ul><li>Offre Arabic Pack distribuée aux partenaires du projet </li></ul></ul><ul><ul><ul><li>Antidot, Vecsys, LIMSI </li></ul></ul></ul><ul><li>Désagglutination des préfixes et des suffixes </li></ul><ul><ul><li>Basée sur les lemmes fournis par Glexar </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    61. 61. Skill Cartridge™ entités nommées <ul><li>Intégration des lexiques </li></ul><ul><ul><li>Personnes </li></ul></ul><ul><ul><ul><li>Prénoms, noms, </li></ul></ul></ul><ul><ul><ul><li>Mots amorces (civilités, fonctions, gentilés) </li></ul></ul></ul><ul><ul><li>Lieux </li></ul></ul><ul><ul><ul><li>Noms de lieux, </li></ul></ul></ul><ul><ul><ul><li>Mots amorces introduisant un lieu </li></ul></ul></ul><ul><ul><li>Organisations </li></ul></ul><ul><ul><ul><li>Organisations commerciales, </li></ul></ul></ul><ul><ul><ul><li>Organisations gouvernementales </li></ul></ul></ul><ul><ul><ul><li>Organisations non gouvernementales </li></ul></ul></ul><ul><ul><ul><li>Variantes en sigles latins, </li></ul></ul></ul><ul><ul><ul><li>Mots amorces </li></ul></ul></ul><ul><ul><li>Les dates et autres marqueurs temporels </li></ul></ul><ul><ul><ul><li>chiffres, mois, jours de semaine, séparateurs (/ ou ou -) </li></ul></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    62. 62. Skill Cartridge™ entités nommées <ul><li>Implémentation des règles d’extraction </li></ul><ul><ul><li>Expressions régulières décrivant un patron morpho-syntaxique </li></ul></ul><ul><ul><li>Manipulent des concepts, des tags grammaticaux, du lexique </li></ul></ul><ul><li>Deux étapes de développement de la Skill Cartridge™ </li></ul><ul><ul><li>Règles simples </li></ul></ul><ul><ul><ul><li>Construisent des concepts à partir des patrons morpho-syntaxiques et du lexique </li></ul></ul></ul><ul><ul><ul><li><concept name=« Person&quot; display=&quot;never&quot; level=&quot;1&quot;> </li></ul></ul></ul><ul><ul><ul><li>~FirstName-LEX/LastName-LEX </li></ul></ul></ul><ul><ul><ul><li></concept> </li></ul></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    63. 63. Skill Cartridge™ entités nommées <ul><ul><li>Règles complexes </li></ul></ul><ul><ul><ul><li>Introduisent des contextes pour guesser une entité nommée </li></ul></ul></ul><ul><ul><ul><li>Recours des mots amorces </li></ul></ul></ul><ul><ul><ul><li><concept name=&quot;Person&quot; display=&quot;always&quot; level=&quot;5“ searchon=&quot;form&quot;> </li></ul></ul></ul><ul><ul><ul><li>~~Fonction/~~Gentille?{ </li></ul></ul></ul><ul><ul><ul><li>(~~FirstName|~~LastName)/[ؠۿ]+ /(~~FirstName|~~LastName) </li></ul></ul></ul><ul><ul><ul><li>} </li></ul></ul></ul><ul><ul><ul><li></concept> </li></ul></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    64. 64. <ul><ul><li>Matrice des combinaisons possibles </li></ul></ul>L’extraction des noms de personnes <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>  abd-LEX nisba-LEX Al-LEX PSmasculin-LEX PSsacre-LEX PSfeminin-LEX prenom-compose-sacre prenom-masculin-compose prenom-feminin-compose NS-LEX nom-compose abd-LEX         prénom-compose-sacre             nisba-LEX nisba-abd   nisba-Al nom-composé nom-composé nom-composé nom-composé     nom-composé nom-composé Al-LEX Al-abd Al-nisba   nom-composé nom-composé nom-composé nom-composé     nom-composé nom-composé nisba-abd         nom-composé             nisba-Al       nom-composé nom-composé nom-composé nom-composé     nom-composé nom-composé Al-nisba       nom-composé nom-composé nom-composé nom-composé     nom-composé   Al-abd         nom-composé             PSmasculin-LEX       personne personne personne personne personne personne personne personne PSsacre-LEX       personne personne personne personne personne personne personne personne PSfeminin-LEX       personne personne personne personne personne personne personne personne prenom-compose-sacre       personne personne personne personne personne personne personne personne prenom-masculin-compose       personne personne personne personne personne personne personne personne prenom-feminin-compose       personne personne personne personne personne personne personne personne NS-LEX       personne personne personne personne personne personne personne personne nom-compose       nom composé
    65. 65.   abd-LEX nisba-LEX Al-LEX PSmasculin-LEX PSsacre-LEX PSfeminin-LEX prenom-compose-sacre prenom-masculin-compose prenom-feminin-compose NS-LEX nom-compose abd-LEX         Abd Alhakim             nisba-LEX Ben Abd   Ben Al Ben Daoud Ben Aziz Ben Zouhra Ben Abd Allah     Ben Laden Ben Al saoud Al-LEX Al Abd Al Ben   Al Daoud Al Aziz Al Zouhra Al Abd Allah     Al saoud Al Ben ali nisba-abd         Ben Abd Ellah             nisba-Al       Ben Al Daoud Ben Al Aziz Ben Al Zouhra Ben Al Abd Allah     Ben Al saoud Ben Al Ben ali Al-nisba       Al Ben Daoud Al Ben saoud Al Ben Zouhra Al Ben Abd Allah     Al Ben ali   Al-abd         Al Abd Ellah             PSmasculin-LEX       Nadjib Daoud Nadjib Abd El hafid Nadjib Zouhra Nadjib Abd Allah Nadjib chamse Eldin Nadjib Nour Elhouda Nadjib Daoud Nadjib Ben Al Ben ali PSsacre-LEX       Aziz Daoud Aziz hakim Aziz Zouhra Aziz Abd Allah Aziz chamse Eldin Aziz Nour Elhouda Aziz Daoud Aziz Ben Al Ben ali PSfeminin-LEX       Naouel Daoud Naouel hakim Naouel Zouhra Naouel Abd Allah Naouel chamse Eldin Naouel Nour Elhouda Naouel Daoud Naouel Ben Al Ben ali prenom-compose-sacre       Abd Elbasit Daoud Abd Elbasit Aziz Abd Elbasit Zouhra Abd Elbasit Abd Esamad Abd Elbasit chamse Eldin Abd Elbasit Nour Elhouda Abd Elbasit Daoud Abd Elbasit Ben Al Ben ali prenom-masculin-compose       Nour eldin Daoud Nour eldin Aziz Nour eldin Zouhra Nour eldin Abd Allah Nour eldin chamse Eldin Nour eldin Nour Elhouda Nour eldin Daoud Nour eldin Ben Al Ben ali prenom-feminin-compose       Nour Elhouda Daoud Nour Elhouda Aziz Nour Elhouda Zouhra Nour Elhouda Abd Allah Nour Elhouda chamse Eldin Nour Elhouda Nour Elhouda Nour Elhouda Daoud Nour Elhouda Ben Al Ben ali NS-LEX       Rezouk Daoud Rezouk Aziz Rezouk Zouhra Rezouk Abd Allah Rezouk chamse Eldin Rezouk Nour Elhouda Rezouk Daoud Rezouk Ben Al Ben ali nom-compose                     Ben daoud Ben Al Ben ali
    66. 66. ‘ Le roi’ Abd Elah Ben Abd Elaziz Ben Abd Elrahman Al Saoud عبد الله بن عبد العزيز بن عبد الرحمن آل سعود Person عبد الله بن عبد العزيز بن عبد الرحمن آل سعود Simple العزيز Simple الرحمن First Name عبد الله Last Name بن عبد العزيز بن عبد الرحمن آل سعود Simple بن Simple عبد Simple عبد Simple بن Simple بن Simple آل Simple سعود Simple عبد Simple الله Composé عبد الرحمن Simple عبد Simple الرحمن Termes du lexique Concepts Intermédiaires Lien entre Concepts Simple الله Simple سعود Simple آل Composé آل سعود Composé بن عبد الرحمن Simple عبد Simple بن Composé بن عبد العزيز Simple عبد Simple العزيز Composé عبد العزيز
    67. 67. L’extraction des noms de personnes 17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>‘ Le roi’ Abd Elah Ben Abd Elaziz Ben Abd Elrahman Al Saoud
    68. 68. <ul><li>Règles complexes </li></ul><ul><ul><li>Définition des contextes droits et gauches </li></ul></ul>L’extraction des noms de personnes <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>Droit Noyau Personne Gauche ~~VerbeCitation ~~Civilite ~~Fonction ~~Gentille? ~~Fonction ~~Gentille? ~~VerbeCitation ~~Fonction ~~Gentille? ~~Fonction ~~Gentille? ~~Civilite ~~Fonction ~~Gentille? ~~Fonction ~~Gentille?
    69. 69. L’extraction des noms de personnes Person محمد احمدي نجاد أعلن الرئيس الإيراني محمد احمدي نجاد A déclaré le président iranien Mohamed Ahmadi Najad Contexte أعلن الرئيس الإيراني Person محمد احمدي نجاد Fonction الرئيس Prénom نجاد Prénom محمد Nationalité الإيراني Verbe -Citation أعلن Mot pas dans le lexique <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    70. 70. Evaluation <ul><li>Corpus </li></ul><ul><ul><li>Dépêches AFP </li></ul></ul><ul><ul><ul><li>Dépêches de l’Agence France-Presse </li></ul></ul></ul><ul><ul><ul><li>Jeu de 1000 phrases extraites de dépêches (SP7) </li></ul></ul></ul><ul><ul><li>Articles du journal égyptien (Elahram) </li></ul></ul><ul><ul><ul><li>A partir d’articles sur le Web </li></ul></ul></ul><ul><ul><li>Articles du monde diplomatique </li></ul></ul><ul><ul><ul><li>Jeu d’articles fournis par ELRA </li></ul></ul></ul><ul><ul><ul><li>Ce jeu a servi pour le développement de la première version </li></ul></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    71. 71. Evaluation <ul><li>Protocole d’évaluation </li></ul><ul><ul><li>Good </li></ul></ul><ul><ul><ul><li>L’entité est bien extraite, </li></ul></ul></ul><ul><ul><ul><li>Le concept est correct </li></ul></ul></ul><ul><ul><li>Good Type </li></ul></ul><ul><ul><ul><li>Une partie seulement de l’entité est bien extraite, </li></ul></ul></ul><ul><ul><ul><li>‘ trop court ou bien trop long’ </li></ul></ul></ul><ul><ul><ul><li>Le concept est correct </li></ul></ul></ul><ul><ul><li>Wrong </li></ul></ul><ul><ul><ul><li>L’entité est erronée </li></ul></ul></ul><ul><ul><ul><li>Le concept est faux </li></ul></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    72. 72. Evaluation <ul><li>Processus d’évaluation </li></ul><ul><ul><li>Skill Cartridge™ Quality Tool (SCQT) </li></ul></ul><ul><ul><ul><li>Procède à des extractions automatiques sur un jeu de documents </li></ul></ul></ul><ul><ul><ul><li>Affiche les concepts extraits </li></ul></ul></ul><ul><ul><ul><li>Garde en mémoire les concepts déjà validés </li></ul></ul></ul><ul><ul><ul><li>Calcule automatiquement la précision des concepts extraits </li></ul></ul></ul><ul><ul><ul><li>Pas de calcul de rappel pour le moment </li></ul></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    73. 73. Evaluation 17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul><ul><li>Résultats </li></ul><ul><ul><li>Corpus Alharam </li></ul></ul><ul><ul><li>Corpus AFP </li></ul></ul>Concepts Extracted Missed Good Good Concept Not validated precision /Entity/Location 354 0 352 354 0 99,7% /Entity/Organization 77 0 77 77 0 100,0% /Entity/Person 257 0 243 248 0 95,5% /Entity/Time-Expression/Duration 56 0 48 56 0 92,9% /Entity/Time-Expression/Exacte Time 36 0 36 36 0 100,0% /Entity/Time-Expression/Relative Time 121 0 107 121 0 94,2% Global 901 0 863 892 0 95,8% Concepts Extracted Missed Good Good Concept Not validated precision /Entity/Location 2047 0 1996 2010 0 97,9% /Entity/Organization 185 0 182 182 0 98,4% /Entity/Person 495 0 422 483 0 91,4% /Entity/Time-Expression/Duration 123 0 120 122 0 98,4% /Entity/Time-Expression/Exacte Time 97 0 97 97 0 100,0% /Entity/Time-Expression/Relative Time 644 0 635 644 0 99,3% Global 3591 0 3452 3538 0 96,1%
    74. 74. Perspectives <ul><li>Skill Cartridge™ </li></ul><ul><ul><li>Etendre la couverture de la Skill Cartridge™ </li></ul></ul><ul><ul><ul><li>Ajout de règles contextuelles </li></ul></ul></ul><ul><ul><ul><li>Tester l’impact de règles « moins fiables » </li></ul></ul></ul><ul><ul><li>Enrichir les lexiques </li></ul></ul><ul><ul><ul><li>Lieux: introduire la base Geonames </li></ul></ul></ul><ul><ul><ul><li>Noms d’actualité « à ne pas rater » </li></ul></ul></ul><ul><li>Évaluations </li></ul><ul><ul><li>Evaluer le rappel </li></ul></ul><ul><ul><ul><li>Fonctionnalité d’annotation bientôt intégrée à la plateforme d’évaluation </li></ul></ul></ul><ul><ul><li>Etendre la représentativité des corpus </li></ul></ul><ul><ul><ul><li>Variation des corpus, des domaines (ex : des textes juridiques, scientifiques) et des styles (ex : Forum, blog) </li></ul></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    75. 75. CMS Nuxeo à l’AFP 17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    76. 76. <ul><li>شكرا جزيلا </li></ul><ul><li>Choukran Djazilan </li></ul><ul><li>Merci </li></ul>
    77. 77. SP6 Transcription de la parole Samir Matrouf Cécile Woerhling Bernard Prouts
    78. 78. SP6 Reconnaissance de la parole <ul><li>Objet de la tâche dans le projet </li></ul><ul><ul><li>Transcription automatique en langue arabe destinée à la traduction et à l’indexation des documents audio </li></ul></ul><ul><li>Développement du module de transcription automatique </li></ul><ul><ul><li>Système existant pour l’arabe moderne standard BN: Emissions d’information Radio/TV </li></ul></ul><ul><ul><li>Adaptation du système à d’autres types de parole: Emissions de plateau, reportages </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    79. 79. SP6 Reconnaissance de la parole <ul><li>Adaptation des modèles acoustiques et des modèles de langage </li></ul><ul><ul><li>Adaptation des modèles à d’autres types de document: débat, interview, (dialectes: Egyptien, Levantin…) </li></ul></ul><ul><li>Corpus </li></ul><ul><ul><li>Audio: environ une centaine d’heures de données dialectales pour adapter modèles (débat, dialecte, thématique) </li></ul></ul><ul><ul><li>Texte: quelques millions de mots pour les modèles de langage </li></ul></ul><ul><li>Collecte des données audio et texte </li></ul><ul><ul><li>Définition des sources (Chaîne TV/Radio, web, AFP) </li></ul></ul><ul><ul><li>Infrastructure dédiée à la collecte et au traitement des transcriptions </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    80. 80. SP6 Reconnaissance de la parole <ul><li>Transcription manuelle des données audio </li></ul><ul><ul><li>Spécification des conventions (normalisation de l’écriture) </li></ul></ul><ul><ul><li>Transcription manuelle pour l’apprentissage </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    81. 81. SP6 Reconnaissance de la parole <ul><li>Travail effectué </li></ul><ul><ul><li>Description du corpus et spécification des conventions de transcription </li></ul></ul><ul><ul><li>Collecte des données Audio: 150 heures </li></ul></ul><ul><ul><li>Collecte des données texte: quelques millions de mots de l’AFP et 20 millions de mots du web. </li></ul></ul><ul><ul><li>Transcription manuelle des données pour l’apprentissage: 40 heures </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    82. 82. SP6 Reconnaissance de la parole <ul><li>Démonstration (Vidéo) </li></ul><ul><ul><li>Arabe journalistique </li></ul></ul><ul><ul><li>Arabe dialectale </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    83. 83. SP6 Reconnaissance de la parole <ul><li>Exemple de résultat de transcription en MSA (Journalistique) </li></ul><ul><ul><li>الخضروات والتي زرعها محمد غنيم لإ تبدو جيدة هذا العام بسبب شح المياه الخضروات والتي زرعها محمد حنين لا تبدو جيدة هذا العام ف بسبب شح المياه محاصيل موتور دون قطاف تقتطع منها بعض المواشي في المنطقة هنا في مدينة الخليل في الضفة الغربية كثيرون كمحمد يكافحون للتأقلم مع النقص الحاد في المياه بعد ان تورك بعضهم دون مياه لمدة خمسة أسابيع وترافق ذلك مع جفاف شديد بعد مرور فصل الصيف الحارة ومحمد يقول أن المشكلة تكمن بالمستوطنات الإسرائيلية التي تتحكم بكميات المياه </li></ul></ul><ul><li>Exemple de résultat de transcription en dialecte égyptien </li></ul><ul><ul><li>الزلزال بعرض الحقائق الموجودة في كتب الإخوان ومن أين كل أنهم يقولك كان ,, فهذا شأنهم وده يعني بطرقة هم أه اتفضل على </li></ul></ul><ul><li>Exemple de résultat de transcription en dialecte palestinien </li></ul><ul><ul><li>ولا مشروب ولا ينتظر الآن صراعا لحم موات ما واربح دولة من عشرين الجريمة ذاتها شيكل سنظل صدمة </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    84. 84. SP6 Reconnaissance de la parole <ul><li>Perspectives </li></ul><ul><ul><li>Finir les collectes et les transcriptions manuelles </li></ul></ul><ul><ul><li>Adapter les modèles acoustiques et modèles de langages pour prendre en compte le BC (Broadcast Conversation: Dialecte, interview, débat,…) </li></ul></ul><ul><ul><li>Enrichir le texte reconnu par les ponctuations </li></ul></ul><ul><ul><li>Evaluation </li></ul></ul><ul><ul><li>Intégration </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    85. 85. SP7 Traduction Automatique Hélène Bonneau-Maynard François Yvon Souhir Gahbiche Gilles Adda Adrien Lardilleux
    86. 86. Objectifs <ul><li>LIMSI : Traduction automatique </li></ul><ul><ul><li>de l’arabe vers le français </li></ul></ul><ul><ul><li>de l’arabe vers l’anglais </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    87. 87. Travail effectué <ul><li>Étude “Ressources nécessaires à l’amélioration des modèles de traduction automatique” </li></ul><ul><ul><li>livrable SP7.1 avec GREYC </li></ul></ul><ul><li>Acquisition des ressources en arabe : </li></ul><ul><ul><li>ar:fr (7,6 M phrases), ar:en (5 M phrases) </li></ul></ul><ul><li>Comparaison des outils linguistiques pour le traitement de la langue arabe. </li></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    88. 88. Construction d’un système de traduction <ul><li>Système ar:fr de référence </li></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    89. 89. Système ar:fr de référence <ul><li>Corpus parallèle pour le système ar:fr de référence : </li></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>débats politiques 7 403 K phrases commentaires de nouvelles journalistiques 221 K phrases Nouvelles dans le domaine de la santé 18 K phrases
    90. 90. Travail effectué <ul><li>Mise en place d'un flux FTP accessible aux partenaires. </li></ul><ul><li>Traduction périodique des dépêches de l’AFP de l’arabe vers le français (depuis déc. 2009) avec le système de référence. </li></ul><ul><li>37K dépêches, 729 K phrases arabes traduites en français. </li></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    91. 91. Système SAMAR-1 <ul><li>Objectif : construire un système adapté aux données AFP </li></ul><ul><ul><li>Pas de données parallèles adaptées  </li></ul></ul><ul><ul><li>Beaucoup de dépêches en arabes sont des traductions de dépêches écrites en français  </li></ul></ul><ul><ul><li>Méthode pour extraire automatiquement les dépêches qui sont des traductions les unes des autres </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    92. 92. Système SAMAR-1 <ul><ul><li>Au total 43090 phrases parallèles (41870 phrases pour entraînement, 1250 pour l’évaluation) </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    93. 93. Résultats obtenus <ul><li>Evaluation sur 1250 phrases </li></ul><ul><li>BLEU = mesure d’évaluation pour la traduction. </li></ul><ul><li>Etat de l’art (Quaero ar:fr, BLEU = 18) </li></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>Système de traduction Taille du corpus d’apprentissage BLEU Référence 7 643 717 29,1 SAMAR-1 41 840 31,4 Référence + SAMAR-1 7 685 557 34,2
    94. 94. Exemple de Traduction Automatique (AR-FR) <ul><li>Système : Référence + SAMAR-1 </li></ul><ul><li>Taille du texte à traduire : 1250 phrases extraites des dépêches AFP </li></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    95. 95. Perspectives <ul><li>Traitement spécifique des entités nommées (Temis), en intégrant leur translittération (LLacan). </li></ul><ul><li>Constitution dynamique des corpus d'entrainement pour adapter les modèles de traduction à l'actualité => traduction plus performante. </li></ul><ul><li>Traduction de transcriptions automatiques de données audio (traduction de la parole). </li></ul><ul><ul><li>difficile pour la langue arabe </li></ul></ul><ul><ul><li>l’arabe parlé diffère de l’arabe écrit </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    96. 96. <ul><li>Merci pour votre attention </li></ul><ul><li>شكرا لاهتمامكم </li></ul>17/10/10
    97. 97. SP7 Traduction Automatique Yves Lepage Nadine Lucas Wigdan Mekki
    98. 98. SP7: Traduction Automatique <ul><li>Contribution du Greyc </li></ul><ul><ul><li>Mise au point d’un module automatique de traduction de l’arabe vers le français et vers l’anglais </li></ul></ul><ul><ul><ul><li>SP 7.1 : recueil et prétraitement des corpus arabe-anglais et arabe-français </li></ul></ul></ul><ul><ul><ul><li>SP 7.2 : développement de système de traduction « baseline » </li></ul></ul></ul><ul><ul><ul><li>SP 7.3 : amélioration des alignements sous-phrastiques </li></ul></ul></ul><ul><ul><ul><li>SP 7.4 : améliorations du système « baseline » </li></ul></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    99. 99. Approche statistique en T. A. <ul><ul><li>Apprentissage : </li></ul></ul><ul><ul><li>À partir de données alignées au niveau des phrases, on apprend dans un premier temps des modèles qu’on appliquera dans un deuxième temps lors de la traduction sur des données nouvelles à traduire. Il est donc nécessaire de disposer de données alignées en quantité suffisante. </li></ul></ul><ul><ul><li>L’acquisition ou la production de telles données est donc à prendre en compte du point de vue financier dans la réalisation d’un système de traduction automatique par méthode statistique. </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    100. 100. Objectifs <ul><ul><li>Traitement des corpus acquis par l’analyseur du LLACAN </li></ul></ul><ul><ul><ul><li>(SP 7.1) ‏ </li></ul></ul></ul><ul><ul><li>Constitution d’un système de traduction baseline </li></ul></ul><ul><ul><ul><li>(SP 7.2) ‏ </li></ul></ul></ul><ul><ul><li>Production de tables de traduction avec GIZA++, Anymalign et retour au LLACAN </li></ul></ul><ul><ul><ul><li>(SP 7.3 et SP 2) ‏ </li></ul></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    101. 101. Corpus analysé <ul><ul><li>LDC arabe-anglais </li></ul></ul><ul><ul><li>1 200 000 phrases alignées </li></ul></ul><ul><ul><li>32 855 000 mots </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    102. 102. Sortie avec GLexar <ul><ul><li>Forme brute : الهجمات `attaques’ </li></ul></ul><ul><ul><li>Forme voyellée : الْهَجَمَاتُ `attaques’ </li></ul></ul><ul><ul><li>Forme lemmatisée : هَجْمَة `attaque’ </li></ul></ul><ul><ul><li>Forme segmentée : الْ هَجْمَة `l’attaque’ </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    103. 103. Résultats <ul><li>http://users.info.unicaen.fr/~jgosme/?traduction-arabe-original </li></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    104. 104. Conclusion <ul><ul><li>Résultats montrant que voyellation, lemmatisation ou segmentation n’apportent pas forcément en scores BLEU sur des données de petite taille. </li></ul></ul><ul><ul><li>La traduction à partir de l’original l’emporte (peut-être de façon significative). Les pré-traitements n’ont pas eu d’influence sur les données. </li></ul></ul><ul><ul><li>G-Lexar donne de meilleurs résultats avec la forme segmentée </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    105. 105. Perspectives <ul><ul><li>Reproduction d’expériences de traduction avec GIZA++ et Moses sur le corpus arabe-anglais de la campagne IWSLT’10 </li></ul></ul><ul><ul><ul><li>(changement du domaine) : </li></ul></ul></ul><ul><ul><ul><li>Avec GLexar </li></ul></ul></ul><ul><ul><ul><li>Avec BAMA </li></ul></ul></ul><ul><ul><li>Reproduction d’expériences sur les données de l’AFP (arabe-français) ‏ </li></ul></ul><ul><ul><li>Définition d’un serveur local d’expériences de traduction </li></ul></ul>17/10/10 <ul><li>Objectifs </li></ul><ul><li>Travail effectué </li></ul><ul><li>Travail en cours </li></ul><ul><li>Perspectives </li></ul>
    106. 106. SP8 Integration Stefane Fermigier
    107. 107. Prérequis Techniques
    108. 108. API Web Services <ul><li>Antidot: REST </li></ul><ul><li>Mondeca: SOAP, SPARQL </li></ul><ul><li>Nuxeo: CMIS, REST, SOAP </li></ul><ul><li>Temis: SOAP, UIMA </li></ul><ul><li>Vecsys: SOAP </li></ul>
    109. 109. Use case et flux globaux
    110. 110. Services et points d’intégration
    111. 111. Questions ouvertes <ul><li>Finir de déterminer les points d’intégration et les protocoles / API utilisés </li></ul><ul><li>Choix de la méthode d’intégration: point-to-point, ESB, UIMA, FISE? </li></ul><ul><li>Packaging: une ou plusieurs machines virtuelles? </li></ul>
    112. 112. Conclusion

    ×