29. Des niveaux d’ambiguïté élevés Niveaux d’ambiguïté de l’hyper-forme arabe Ambiguïté Segmentale Vocalique et Casuelle Lemmatique Grammaticale Dictionnaire (66.10 6 d’entrées) 1,08 2,17 1,68 2,99 Sous lexique (157 031) 1,26 6,40 2,65 9,16 En usage (2.10 6 ) 1,32 7,84 3,66 10,76
30.
31.
32. Des coûts d’annotation et de saisie élevés Coût moyen du caractère en nombre de frappes Coût moyen du caractère Proportion des signes diacritiques Proportion dans le coût de la saisie Anglais 1,00001 0,0005 % 0,001 % Français 1,003 3,51 % 3,84 % Arabe non voyellé 1,037 - - Arabe voyellé 1,46 45% 60%
33.
34. Analyse automatique vs Analyse interactive Analyse automatique Annotation interactive Élaboration des règles Un cercle vertueux
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48. SP3 Moteur de recherche Jérôme Mainka Fabrice Lacroix
65. abd-LEX nisba-LEX Al-LEX PSmasculin-LEX PSsacre-LEX PSfeminin-LEX prenom-compose-sacre prenom-masculin-compose prenom-feminin-compose NS-LEX nom-compose abd-LEX Abd Alhakim nisba-LEX Ben Abd Ben Al Ben Daoud Ben Aziz Ben Zouhra Ben Abd Allah Ben Laden Ben Al saoud Al-LEX Al Abd Al Ben Al Daoud Al Aziz Al Zouhra Al Abd Allah Al saoud Al Ben ali nisba-abd Ben Abd Ellah nisba-Al Ben Al Daoud Ben Al Aziz Ben Al Zouhra Ben Al Abd Allah Ben Al saoud Ben Al Ben ali Al-nisba Al Ben Daoud Al Ben saoud Al Ben Zouhra Al Ben Abd Allah Al Ben ali Al-abd Al Abd Ellah PSmasculin-LEX Nadjib Daoud Nadjib Abd El hafid Nadjib Zouhra Nadjib Abd Allah Nadjib chamse Eldin Nadjib Nour Elhouda Nadjib Daoud Nadjib Ben Al Ben ali PSsacre-LEX Aziz Daoud Aziz hakim Aziz Zouhra Aziz Abd Allah Aziz chamse Eldin Aziz Nour Elhouda Aziz Daoud Aziz Ben Al Ben ali PSfeminin-LEX Naouel Daoud Naouel hakim Naouel Zouhra Naouel Abd Allah Naouel chamse Eldin Naouel Nour Elhouda Naouel Daoud Naouel Ben Al Ben ali prenom-compose-sacre Abd Elbasit Daoud Abd Elbasit Aziz Abd Elbasit Zouhra Abd Elbasit Abd Esamad Abd Elbasit chamse Eldin Abd Elbasit Nour Elhouda Abd Elbasit Daoud Abd Elbasit Ben Al Ben ali prenom-masculin-compose Nour eldin Daoud Nour eldin Aziz Nour eldin Zouhra Nour eldin Abd Allah Nour eldin chamse Eldin Nour eldin Nour Elhouda Nour eldin Daoud Nour eldin Ben Al Ben ali prenom-feminin-compose Nour Elhouda Daoud Nour Elhouda Aziz Nour Elhouda Zouhra Nour Elhouda Abd Allah Nour Elhouda chamse Eldin Nour Elhouda Nour Elhouda Nour Elhouda Daoud Nour Elhouda Ben Al Ben ali NS-LEX Rezouk Daoud Rezouk Aziz Rezouk Zouhra Rezouk Abd Allah Rezouk chamse Eldin Rezouk Nour Elhouda Rezouk Daoud Rezouk Ben Al Ben ali nom-compose Ben daoud Ben Al Ben ali
66. ‘ Le roi’ Abd Elah Ben Abd Elaziz Ben Abd Elrahman Al Saoud عبد الله بن عبد العزيز بن عبد الرحمن آل سعود Person عبد الله بن عبد العزيز بن عبد الرحمن آل سعود Simple العزيز Simple الرحمن First Name عبد الله Last Name بن عبد العزيز بن عبد الرحمن آل سعود Simple بن Simple عبد Simple عبد Simple بن Simple بن Simple آل Simple سعود Simple عبد Simple الله Composé عبد الرحمن Simple عبد Simple الرحمن Termes du lexique Concepts Intermédiaires Lien entre Concepts Simple الله Simple سعود Simple آل Composé آل سعود Composé بن عبد الرحمن Simple عبد Simple بن Composé بن عبد العزيز Simple عبد Simple العزيز Composé عبد العزيز
67.
68.
69.
70.
71.
72.
73.
74.
75.
76.
77. SP6 Transcription de la parole Samir Matrouf Cécile Woerhling Bernard Prouts
- Réalisation d'outils d'annotation interactifs permettant la production de corpus annotés. - L’annotation effective d’environ 400 mille mots - La réalisation d’un système de translittération Fr Ar
Objectifs: Annotation morpho grammaticale d’un corpus de 400 mille mots: voyellés, lemmatisés et étiquetés L2.1 Analyse morpho syntaxique de l'arabe et architecture du système d'analyse morphosyntaxique Rapport L2.2 Corpus annotés: dépêches AFP, La Mena (si possible), LMD (si possible) et APS (si possible) Annotation manuelle de 400 000 occurrences issues du volume analysé Corpus L2.3 Evaluation de l’analyse morpho-grammaticale Rapport L2.4 Module d’annotation interactive et de reconnaissance d’entités nommées en arabe Logiciel + Rapport sur le module d'annotation interactive L2.5 Module de translittération Français Arabe - Arabe Français Logiciel L4.1 Rapport d’étude préliminaire sur l’extraction d'entités nommées en arabe R L4.2 Cartouche de connaissance en arabe L Rapport sur la cartouche de connaissance en arabe R L4.3 Ontologie enrichie à partir des arbres conceptuels fournis par la cartouche d'extraction L Rapport sur l'enrichissemenent de l'ontologie R L4.4 Rapport sur la fusion des entités nommées R L4.5 Evaluation sur l'extraction d'entités nommées et Optimisation des performances obtenues R Nous voulons pouvoir annoter dans les meilleures conditions de facilité, d’efficacité, de reproductibilité Etre en mesure de voir immédiatement les effets liés à l’apprentissage
Objectifs: Annotation morpho grammaticale d’un corpus de 400 mille mots: voyellés, lemmatisés et étiquetés L2.1 Analyse morpho syntaxique de l'arabe et architecture du système d'analyse morphosyntaxique Rapport L2.2 Corpus annotés: dépêches AFP, La Mena (si possible), LMD (si possible) et APS (si possible) Annotation manuelle de 400 000 occurrences issues du volume analysé Corpus L2.3 Evaluation de l’analyse morpho-grammaticale Rapport L2.4 Module d’annotation interactive et de reconnaissance d’entités nommées en arabe Logiciel + Rapport sur le module d'annotation interactive L2.5 Module de translittération Français Arabe - Arabe Français Logiciel L4.1 Rapport d’étude préliminaire sur l’extraction d'entités nommées en arabe R L4.2 Cartouche de connaissance en arabe L Rapport sur la cartouche de connaissance en arabe R L4.3 Ontologie enrichie à partir des arbres conceptuels fournis par la cartouche d'extraction L Rapport sur l'enrichissemenent de l'ontologie R L4.4 Rapport sur la fusion des entités nommées R L4.5 Evaluation sur l'extraction d'entités nommées et Optimisation des performances obtenues R Nous voulons pouvoir annoter dans les meilleures conditions de facilité, d’efficacité, de reproductibilité Etre en mesure de voir immédiatement les effets liés à l’apprentissage
Ce que nous manipulons: des arborescences lexicales
Ici, complexité combinatoire de la voyellation lemmatisation et étiquetage grammatical. Chaque mot est accompagné d’une structure arborescente représentant ses diverses (voyellations, lemmes, et étiquettes grammaticales) potentielles. Je m’aperçois que les solutions à venir résident dans la mise en œuvre de grammaires lexicalisées où figureront les morceaux de phrases (clés de la règle) d’une part, et leurs analyses dépendancielles d’autre part (informations associées à la clé). Ce qui aura pour effet de rendre superfétatoire l’étiquetage tel que jusqu’ici préconisé et dont certains auteurs soulignent le peu de « justification théorique intrinsèque au langage » (Fairon & Sennelart, 1999). Moyennant ces nouvelles règles, l’on pourrait alors affirmer qu’en effet, « l’attribution d’étiquettes grammaticales semble bien être un processus de très haut niveau dont la base est la compréhension complète de la phrase » (Fairon & Sennelart, 1999).
Voyellation/Accentuation Tableau 5 : Mesure en usage Textes Français Arabe Voy. Lexicale (sans cas) Voy. Globale (avec cas) Non ambigus 72% 25,5% 9,5% Ambigus 28% 74,5% 90,5% Nb moy. de voy. par mot 1,3 6,3 11,6 Tableau 15 : Ambiguïté grammaticale associée au vocabulaire d'un texte arabe : comptage en usage. Texte arabe Nombre total d’UL UL non ambiguës UL ambiguës Nb moyen d'étiquettes/UL voyellé 37 402 37,98 % 62,02 % 5,63 Non voyellé 40 485 24,15 % 75,85 % 8,71 Tableau 16 : Ambiguïté grammaticale associée au vocabulaire d'un texte français : comptage en usage Texte français Nombre total d’UL UL non ambiguës UL ambiguës Nb moyen d'étiquettes/UL Texte accentué 427560 39,19 % 60,81 % 1,86 Texte non accentué 427560 36,55 % 63,45 % 1,88
En cours
Coût moyen du caractère exprimé en nombre de frappes, calculé pour différents corpus : français (1 million mots), anglais (1 million de mots), arabe voyellé (950 mille mots), et arabe non voyellé (2 millions de mots). Ces chiffres signifient que la saisie d’un texte de N caractères (lettres avec ou sans signe diacritique) coûtera approximativement N*1,00001 frappes au clavier si le texte est en anglais, contre N*1,003 si le texte est en français, N*1,037 si le texte est en arabe non voyellé, et même N*1,46 si le texte est en arabe voyellé. La saisie de l’arabe voyellé est donc sensiblement plus coûteuse que celle du français ou, a fortiori, de l’anglais. Conclusions provisoires : Ces caractérisations sont bien entendu liées à la technologie, aux claviers respectivement associés à chaque langue. Elles offrent une sorte d’évaluation a posteriori des standards et normes en vigueur à l’aune desquelles trois constats peuvent être effectués: 1°) que la technologie ne semble pas conférer les mêmes avantages aux langues qu’elle prend en charge. 2°) que si ces caractérisations peuvent conforter les standards et normes en vigueur, elles peuvent aussi inciter à les amender. 3°) que ces comptages et observations suggèrent que les systèmes d’écriture qui persistent ou qui s’installent dans l’usage sont ceux dont le coût est proche de 1, tel l’anglais, le français, ou l’arabe non voyellé. On peut remarquer que l’arabe voyellé qui présente un coût de 1,46 frappes par caractère est très peu pratiqué. N’y a-t-il pas là un seuil au-delà duquel un système d’écriture n’est plus retenu ?
Ces niveaux d’ambiguïté associés aux difficultés que pose la saisie des voyelles, signes diacritiques en arabe, signifient que dans une perspective d’annotation manuelle, les coûts sont prohibitifs. Confectionner des corpus annotés, qui sous forme brute présentent 1°) un niveau d’ambiguïté important 2°) une saisie coûteuse Ces niveaux d’ambiguïtés indiquent que dans une perspective d’annotation manuelle, l’étendue des choix étant importante, alors l’opération d’annotation manuelle sera coûteuse, plus coûteuse que pour le français par exemple dont les niveaux d’amb sont moins importants (toutes choses égales par ailleurs: niveau de résolution automatique comparables, difficultés linguistiques (définitions des étiquettes, critères de choix, etc. comparables).
Un système d’annotation interactif est lui performant lorsque le nombre de manipulations imposées à l’annotateur pour parvenir à une tâche donnée est réduit à une simple validation. Cette situation se produit lorsque son moteur d’analyse automatique est performant à 100%.
Ici, ergonomie générale de SAMSAr. Plusieurs fenêtres permettant de visualiser Le lexique associé au texte sélectionné Les arborescences lexicales respectivement associées aux mots sélectionnés L’ensemble des phrases contenant les occurrences du mot sélectionné non encore annotées ou vérifiées La phrase en cours d’annotation interactive
Ergonomie en cours de développement
Interaction analyse morpho grammaticale / analyse syntagmatique Résolution automatique des ambiguïtés liées à la nature des entités nommées reconnues La reconnaissance parallèle de différents types d'entités nommées conduit à des situations d'ambiguïtés qui portent sur les frontières de ces entités autant que sur leur nature. Ce qui débouche sur un autre problème qui n'a pas encore été abordé: celui de la résolution automatique de ces ambiguïtés.
Forme générale d'une règle de translittération: P(CC | CS, Ctx 1 , Ctx 2 ) où: CS: Chaîne Source CC: Chaîne Cible Ctx 1 : Contexte avant Ctx 2 : Contexte après LCC i : Longueur de la chaîne cible
Règles générées à partir de l’exemple précédent
Les exemples suivants illustrent ces difficultés. Ils fournissent en même temps le matériau d'apprentissage des règles de translittération que nous nous proposons de construire. Forme générale d'une règle de translittération: P(CC | CS, Ctx 1 , Ctx 2 ) où: CS: Chaîne Source CC: Chaîne Cible Ctx 1 : Contexte avant Ctx 2 : Contexte après LCC i : Longueur de la chaîne cible
R: Règles, T: Translittération, C: Contextuelles, NC: Non Contextuelles, V: Voyellé, NV: Non Voyellé, F: Français, A: Arabe R: Règles T: Translittération C: Contextuelles NC: Non Contextuelles V: Voyellé NV: Non Voyellé F: Français A: Arabe