SlideShare une entreprise Scribd logo
1  sur  112
Télécharger pour lire hors ligne
1 er  bilan d’étape 15 octobre 2010
Objectifs ,[object Object],[object Object],[object Object],[object Object],17/10/10
Vie du projet ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10
Vie du projet ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10
Vie du projet ,[object Object],[object Object],[object Object],[object Object],17/10/10
Vie du projet ,[object Object],[object Object],17/10/10
Vie du projet ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10
Objectifs Administratifs ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10
Livrables ,[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10
SP1  Expression des besoins Denis Teyssou Bernard Apfeldorfer Dominique Ferrandini
L’AFP en arabe 17/10/10 ,[object Object],[object Object],[object Object],[object Object]
La production arabe de l’AFP ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Taxonomie IPTC en arabe 17/10/10 ,[object Object],[object Object],[object Object],[object Object]
De nouveaux services multimédia 17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Un CMS adapté à la production 17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Système Samar: vue fonctionnelle 17/10/10 ,[object Object],[object Object],[object Object],[object Object]
SP1  Expression des besoins Hacène Cherfi Bernard Vatant
SP1 : Ressources terminologiques et ontologies ,[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
SP1 : Ressources terminologiques et ontologies ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
SP1 : Ressources terminologiques et ontologies ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
SP1 : Ressources terminologiques et ontologies ,[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
SP2  Analyse Morpho syntaxique de l’arabe Fathi Debili Ayadi Chabi r
Analyse Automatique  vs  Analyse Interactive O utils d'annotation interactifs et  production de corpus annotés Voyellation, Etiquetage, Lemmatisation,  et Analyse syntagmatique de l’arabe Appariement syllabique et Translittération Fr  Ar ,[object Object]
Objectifs ,[object Object],[object Object],[object Object],[object Object],[object Object]
Traitement de l’arabe: rappels ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Analyse morphologique de l’arabe  Arborescence lexicale
Arborescence lexicale découpage 1   découpage 2 voyellation 21 voyellation 22 lemme 211 lemme 222 lemme 221 lemme 213 lemme 212 ht 2111 ht 2112 ht 2113   ht 2221 ht 2131 ht 2132 UM découpage  n voyellation 2p … … … … voyellation 11 voyellation 12 ht 2121   ht 2122   ht 2211   ht 2212   lemme 111   ht 1111   ht 1112   …
Voyellation Lemmatisation Etiquetage ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Des niveaux d’ambiguïté élevés Niveaux d’ambiguïté de l’hyper-forme arabe Ambiguïté Segmentale Vocalique et Casuelle Lemmatique Grammaticale Dictionnaire (66.10 6  d’entrées) 1,08 2,17 1,68 2,99 Sous lexique (157 031) 1,26 6,40 2,65 9,16 En usage (2.10 6 ) 1,32 7,84 3,66 10,76
Coût de la voyellation exprimé en nombre de frappes ,[object Object],[object Object],[object Object],[object Object],[object Object]
Les signes diacritiques ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Des coûts d’annotation et de saisie élevés  Coût   moyen du caractère en nombre de frappes Coût moyen du caractère Proportion des signes diacritiques Proportion dans le coût de la saisie Anglais 1,00001 0,0005 % 0,001 % Français 1,003   3,51 % 3,84 % Arabe non voyellé 1,037   - - Arabe voyellé 1,46 45% 60%
Annotation interactive de corpus arabes ,[object Object],[object Object],[object Object],[object Object],[object Object]
Analyse automatique  vs  Analyse interactive Analyse automatique Annotation interactive Élaboration des règles Un cercle vertueux
SAMSAr   S ystème d’ A nnotation  M orpho  S yntagmatique de l’ Ar abe Sélection du mot à Voyeller Lemmatiser et Etiqueter Affichage de tous les contextes où apparaît le mot  Sélection de l’une de ses occurrences Arborescence élaguée associée à l’occurrence sélectionnée Sélection  de la branche VLT qui convient Attribution de  la branche VLT retenue à l’occurrence  sélectionnée Mise à jour des  dictionnaires et des règles Sélection du  Corpus puis du Texte à annoter ,[object Object],[object Object],[object Object],[object Object]
Annotation syntagmatique ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],M 1 M 2 … M n Voyellation V 1 V 2 V n Lemme L 1 L 2 L n Etiquette T 1 T 2 T n
Annotation syntagmatique استقبل رئيس الجمهورية الوزير الأول اسْتَقْبَلَ CV رَئِيسُ الجُمْهُورِيَّةِ CN1 الوَزِيرَ الأَوَّلَ CN2 ,[object Object],[object Object],[object Object],[object Object]
Analyse syntagmatique  et Annotation interactive Délimitation des Syntagmes et Entités Nommées Arborescences lexicales élaguées issues de G-LexAr Apprentissage des Règles issues de l’annotation en cours Extraction des Syntagmes et  Entités Nommées automatiquement reconnus Ré analyse syntagmatique après annotation morpho grammaticale ou apprentissage  ,[object Object],[object Object],[object Object],[object Object]
S tation d’ A nalyse  M orpho  S yntaxique de l’ Ar abe   SAMSAr  ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Translittération   Français  ↔  Arabe ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Appariement Syllabique Amira أميرة ,[object Object],[object Object],[object Object],[object Object],رَة مِي أَ a mi ra
Appariement segmental et  Construction des règles de translittération Règles  contextuelles Règles   non   contextuelles ,[object Object],[object Object],[object Object],[object Object],Chaîne source Contexte avant Contexte après a mi mi a ra ra mi Chaîne cible Nombre d’occurrences أَ 1 مِي 1 رَة 1 Chaîne source a mi ra Chaîne cible Nombre d’occurrences أَ 1 مِي 1 رَة 1
Translittération   Français  ↔  Arabe ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Translittération   Français   ↔   Arabe R: Règles,  T: Translittération, C: Contextuelles, NC: Non Contextuelles,  V: Voyellé, NV: Non Voyellé, F: Français, A: Arabe ,[object Object],[object Object],[object Object],[object Object],Règles de translittération  Français   Arabe Arabe   Français V oyellé N on  V oyellé V oyellé N on  V oyellé C ontextuelles RT C V FA RT C NV FA  RT C V AF RT C NV AF N on C ontextuelles RT NC V FA RT NC NV FA RT NC V AF RT NC NV AF
Translittération Fr    Ar Appariement syllabique ou infra syllabique ,[object Object],[object Object],[object Object],[object Object]
Translittération Fr    Ar Segmentation de la chaîne source ,[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Appariement des cognats Fr    Ar نِبْتُون إِدْوَارْد الجَبْر مَارْس ,[object Object],[object Object],[object Object],[object Object]
SP3  Moteur de recherche Jérôme Mainka Fabrice Lacroix
Moteur de recherche ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Indexation de l'Arabe ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Indexation transcription S2T ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Indexation traduction ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Démonstration 17/10/10
Démonstration 17/10/10
Démonstration 17/10/10
Perspectives ,[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
SP4  Extraction entités nommées Leila Zighem Sylvie Guillemin-Lanne
Extraction des entités nommées ,[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Particularités de la langue arabe ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
L’analyseur morpho-syntaxique ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Skill Cartridge™ entités nommées  ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Skill Cartridge™ entités nommées  ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Skill Cartridge™ entités nommées  ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
[object Object],L’extraction des noms de personnes  ,[object Object],[object Object],[object Object],[object Object],  abd-LEX  nisba-LEX  Al-LEX  PSmasculin-LEX  PSsacre-LEX  PSfeminin-LEX  prenom-compose-sacre prenom-masculin-compose prenom-feminin-compose NS-LEX  nom-compose abd-LEX          prénom-compose-sacre             nisba-LEX  nisba-abd   nisba-Al nom-composé nom-composé nom-composé nom-composé     nom-composé nom-composé Al-LEX  Al-abd Al-nisba   nom-composé nom-composé nom-composé nom-composé     nom-composé nom-composé nisba-abd         nom-composé             nisba-Al       nom-composé nom-composé nom-composé nom-composé     nom-composé nom-composé Al-nisba       nom-composé nom-composé nom-composé nom-composé     nom-composé   Al-abd         nom-composé             PSmasculin-LEX        personne personne personne personne personne personne personne personne PSsacre-LEX        personne personne personne personne personne personne personne personne PSfeminin-LEX        personne personne personne personne personne personne personne personne prenom-compose-sacre       personne personne personne personne personne personne personne personne prenom-masculin-compose       personne personne personne personne personne personne personne personne prenom-feminin-compose       personne personne personne personne personne personne personne personne NS-LEX        personne personne personne personne personne personne personne personne nom-compose       nom composé
  abd-LEX  nisba-LEX  Al-LEX  PSmasculin-LEX  PSsacre-LEX  PSfeminin-LEX  prenom-compose-sacre prenom-masculin-compose prenom-feminin-compose NS-LEX  nom-compose abd-LEX          Abd Alhakim             nisba-LEX  Ben Abd   Ben Al Ben Daoud Ben Aziz Ben Zouhra Ben Abd Allah     Ben Laden Ben Al saoud Al-LEX  Al  Abd Al Ben   Al Daoud Al Aziz Al Zouhra Al Abd Allah     Al saoud Al Ben ali nisba-abd         Ben Abd Ellah             nisba-Al       Ben Al Daoud Ben Al Aziz Ben Al Zouhra Ben Al Abd Allah     Ben Al saoud Ben Al Ben ali Al-nisba       Al Ben Daoud Al Ben saoud Al Ben Zouhra Al Ben Abd Allah     Al Ben ali   Al-abd         Al Abd Ellah             PSmasculin-LEX        Nadjib Daoud Nadjib Abd El hafid Nadjib Zouhra Nadjib Abd Allah Nadjib chamse Eldin Nadjib Nour Elhouda Nadjib Daoud Nadjib Ben Al Ben ali PSsacre-LEX        Aziz Daoud Aziz hakim Aziz Zouhra Aziz Abd Allah Aziz  chamse Eldin Aziz Nour Elhouda Aziz Daoud Aziz Ben Al Ben ali PSfeminin-LEX        Naouel Daoud Naouel hakim Naouel Zouhra Naouel Abd Allah Naouel  chamse Eldin Naouel Nour Elhouda Naouel Daoud Naouel Ben Al Ben ali prenom-compose-sacre       Abd Elbasit Daoud Abd Elbasit Aziz Abd Elbasit Zouhra Abd Elbasit Abd Esamad Abd Elbasit  chamse Eldin Abd Elbasit Nour Elhouda Abd Elbasit Daoud Abd Elbasit Ben Al Ben ali prenom-masculin-compose       Nour eldin Daoud Nour eldin Aziz Nour eldin Zouhra Nour eldin Abd Allah Nour eldin  chamse Eldin Nour eldin Nour Elhouda Nour eldin Daoud Nour eldin Ben Al Ben ali prenom-feminin-compose       Nour Elhouda Daoud Nour Elhouda Aziz Nour Elhouda Zouhra Nour Elhouda Abd Allah Nour Elhouda  chamse Eldin Nour Elhouda Nour Elhouda Nour Elhouda Daoud Nour Elhouda Ben Al Ben ali NS-LEX        Rezouk Daoud Rezouk Aziz Rezouk Zouhra Rezouk Abd Allah Rezouk  chamse Eldin Rezouk Nour Elhouda Rezouk Daoud Rezouk Ben Al Ben ali nom-compose                     Ben daoud Ben  Al Ben ali
‘ Le roi’  Abd  Elah   Ben  Abd  Elaziz  Ben  Abd  Elrahman   Al  Saoud عبد   الله  بن  عبد   العزيز  بن  عبد   الرحمن   آل   سعود   Person عبد الله بن عبد العزيز بن عبد الرحمن آل سعود Simple   العزيز Simple   الرحمن First Name عبد الله Last Name بن عبد العزيز بن عبد الرحمن آل سعود Simple   بن Simple   عبد  Simple   عبد  Simple   بن Simple   بن Simple   آل Simple سعود Simple   عبد  Simple الله Composé عبد الرحمن Simple   عبد  Simple   الرحمن Termes du lexique Concepts Intermédiaires  Lien entre Concepts Simple الله Simple سعود Simple   آل Composé آل سعود Composé بن عبد الرحمن Simple   عبد  Simple   بن Composé بن عبد العزيز Simple   عبد  Simple   العزيز Composé عبد العزيز
L’extraction des noms de personnes  17/10/10 ,[object Object],[object Object],[object Object],[object Object],‘ Le roi’  Abd  Elah   Ben  Abd  Elaziz  Ben  Abd  Elrahman   Al  Saoud
[object Object],[object Object],L’extraction des noms de personnes  ,[object Object],[object Object],[object Object],[object Object],Droit Noyau Personne Gauche ~~VerbeCitation ~~Civilite ~~Fonction ~~Gentille? ~~Fonction ~~Gentille? ~~VerbeCitation ~~Fonction ~~Gentille? ~~Fonction ~~Gentille? ~~Civilite ~~Fonction ~~Gentille? ~~Fonction ~~Gentille?
L’extraction des noms de personnes  Person محمد احمدي نجاد أعلن الرئيس الإيراني  محمد احمدي نجاد A déclaré le président iranien  Mohamed Ahmadi Najad Contexte أعلن الرئيس الإيراني Person  محمد احمدي نجاد Fonction الرئيس Prénom نجاد Prénom محمد Nationalité الإيراني Verbe -Citation   أعلن Mot pas dans le lexique ,[object Object],[object Object],[object Object],[object Object]
Evaluation ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Evaluation ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Evaluation ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Evaluation 17/10/10 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Concepts Extracted Missed Good Good Concept Not validated precision /Entity/Location 354 0 352 354 0 99,7% /Entity/Organization 77 0 77 77 0 100,0% /Entity/Person 257 0 243 248 0 95,5% /Entity/Time-Expression/Duration 56 0 48 56 0 92,9% /Entity/Time-Expression/Exacte Time 36 0 36 36 0 100,0% /Entity/Time-Expression/Relative Time 121 0 107 121 0 94,2% Global 901 0 863 892 0 95,8% Concepts Extracted Missed Good Good Concept Not validated precision /Entity/Location 2047 0 1996 2010 0 97,9% /Entity/Organization 185 0 182 182 0 98,4% /Entity/Person 495 0 422 483 0 91,4% /Entity/Time-Expression/Duration 123 0 120 122 0 98,4% /Entity/Time-Expression/Exacte Time 97 0 97 97 0 100,0% /Entity/Time-Expression/Relative Time 644 0 635 644 0 99,3% Global 3591 0 3452 3538 0 96,1%
Perspectives ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
CMS Nuxeo à l’AFP 17/10/10 ,[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object]
SP6  Transcription de la parole Samir Matrouf Cécile Woerhling Bernard Prouts
SP6 Reconnaissance de la parole ,[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
SP6 Reconnaissance de la parole ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
SP6 Reconnaissance de la parole ,[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
SP6 Reconnaissance de la parole ,[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
SP6 Reconnaissance de la parole ,[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
SP6 Reconnaissance de la parole ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
SP6 Reconnaissance de la parole ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
SP7  Traduction Automatique Hélène Bonneau-Maynard François Yvon Souhir Gahbiche Gilles Adda Adrien Lardilleux
Objectifs ,[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Travail effectué ,[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Construction d’un système de traduction  ,[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Système ar:fr de référence ,[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object],débats politiques  7 403 K phrases commentaires de nouvelles journalistiques  221 K phrases Nouvelles dans le domaine de la santé  18 K phrases
Travail effectué ,[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Système SAMAR-1  ,[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Système SAMAR-1  ,[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Résultats obtenus ,[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object],Système de traduction Taille du corpus d’apprentissage BLEU Référence 7 643 717  29,1 SAMAR-1 41 840 31,4 Référence + SAMAR-1 7 685 557 34,2
Exemple de Traduction Automatique (AR-FR)  ,[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Perspectives ,[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],17/10/10
SP7  Traduction Automatique Yves Lepage Nadine Lucas Wigdan Mekki
SP7:  Traduction Automatique ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Approche statistique en T. A. ,[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Objectifs ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Corpus analysé ,[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Sortie avec GLexar ,[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Résultats ,[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Conclusion ,[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
Perspectives ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10 ,[object Object],[object Object],[object Object],[object Object]
SP8 Integration Stefane Fermigier
Prérequis Techniques
API Web Services ,[object Object],[object Object],[object Object],[object Object],[object Object]
Use case et flux globaux
Services et points d’intégration
Questions ouvertes ,[object Object],[object Object],[object Object]
Conclusion

Contenu connexe

Similaire à Samar - Premier bilan d'étape - Oct. 2010

Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...Estelle Delpech
 
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUETRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUEAchraf OTHMAN
 
Le langage C.pdf
Le langage C.pdfLe langage C.pdf
Le langage C.pdfNoamHaythem
 
Jep 2012 Swahili
Jep 2012 SwahiliJep 2012 Swahili
Jep 2012 Swahilitihtow
 
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...JUSTINDAVONDAMBAT
 
COURS C++ [Enregistrement automatique]Complet (1).pptx
COURS C++ [Enregistrement automatique]Complet (1).pptxCOURS C++ [Enregistrement automatique]Complet (1).pptx
COURS C++ [Enregistrement automatique]Complet (1).pptxLuneSabsPericolo1
 
C028AL_slides_module1-fr-gz.pdf
C028AL_slides_module1-fr-gz.pdfC028AL_slides_module1-fr-gz.pdf
C028AL_slides_module1-fr-gz.pdfABID303441
 
Vers des langues de programmation ?
Vers des langues de programmation ?Vers des langues de programmation ?
Vers des langues de programmation ?Nicolas Dubois
 
Environnement de développement de bases de données
Environnement de développement de bases de donnéesEnvironnement de développement de bases de données
Environnement de développement de bases de donnéesISIG
 
Environnement de développement de bases de données
Environnement de développement de bases de donnéesEnvironnement de développement de bases de données
Environnement de développement de bases de donnéesISIG
 

Similaire à Samar - Premier bilan d'étape - Oct. 2010 (20)

compilation1-2020.pdf
compilation1-2020.pdfcompilation1-2020.pdf
compilation1-2020.pdf
 
Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...
 
Machine Translation
Machine TranslationMachine Translation
Machine Translation
 
Traduction des SMS
Traduction des SMSTraduction des SMS
Traduction des SMS
 
Logo
LogoLogo
Logo
 
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUETRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE
 
Seo camp2017 Marguerite Leenhardt
Seo camp2017 Marguerite LeenhardtSeo camp2017 Marguerite Leenhardt
Seo camp2017 Marguerite Leenhardt
 
Le langage C.pdf
Le langage C.pdfLe langage C.pdf
Le langage C.pdf
 
Jep 2012 Swahili
Jep 2012 SwahiliJep 2012 Swahili
Jep 2012 Swahili
 
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
 
COURS C++ [Enregistrement automatique]Complet (1).pptx
COURS C++ [Enregistrement automatique]Complet (1).pptxCOURS C++ [Enregistrement automatique]Complet (1).pptx
COURS C++ [Enregistrement automatique]Complet (1).pptx
 
Langage C++
Langage C++Langage C++
Langage C++
 
C028AL_slides_module1-fr-gz.pdf
C028AL_slides_module1-fr-gz.pdfC028AL_slides_module1-fr-gz.pdf
C028AL_slides_module1-fr-gz.pdf
 
Les logiciels oraliseurs
Les logiciels oraliseursLes logiciels oraliseurs
Les logiciels oraliseurs
 
Vers des langues de programmation ?
Vers des langues de programmation ?Vers des langues de programmation ?
Vers des langues de programmation ?
 
Environnement de développement de bases de données
Environnement de développement de bases de donnéesEnvironnement de développement de bases de données
Environnement de développement de bases de données
 
Environnement de développement de bases de données
Environnement de développement de bases de donnéesEnvironnement de développement de bases de données
Environnement de développement de bases de données
 
Compte rendu Blend Web Mix 2015
Compte rendu Blend Web Mix 2015Compte rendu Blend Web Mix 2015
Compte rendu Blend Web Mix 2015
 
Builsing DSL using MDE
Builsing DSL using MDEBuilsing DSL using MDE
Builsing DSL using MDE
 
Cergar atala09
Cergar atala09Cergar atala09
Cergar atala09
 

Plus de Stefane Fermigier

Pitch Abilian - Paris Open Source Summit 2015
Pitch Abilian - Paris Open Source Summit 2015Pitch Abilian - Paris Open Source Summit 2015
Pitch Abilian - Paris Open Source Summit 2015Stefane Fermigier
 
15 ans de politiques publiques du logiciel libre en France
15 ans de politiques publiques du logiciel libre en France15 ans de politiques publiques du logiciel libre en France
15 ans de politiques publiques du logiciel libre en FranceStefane Fermigier
 
Créer une communauté open source: pourquoi ? comment ?
Créer une communauté open source: pourquoi ? comment ?Créer une communauté open source: pourquoi ? comment ?
Créer une communauté open source: pourquoi ? comment ?Stefane Fermigier
 
L'open source professionnel - un business model open source
L'open source professionnel - un business model open sourceL'open source professionnel - un business model open source
L'open source professionnel - un business model open sourceStefane Fermigier
 
Roadmap du GT Logiciel Libre 2013-2020
Roadmap du GT Logiciel Libre 2013-2020Roadmap du GT Logiciel Libre 2013-2020
Roadmap du GT Logiciel Libre 2013-2020Stefane Fermigier
 
Le MOOC powered by Abilian - Plateforme open source de MOOC
Le MOOC powered by Abilian - Plateforme open source de MOOCLe MOOC powered by Abilian - Plateforme open source de MOOC
Le MOOC powered by Abilian - Plateforme open source de MOOCStefane Fermigier
 
Pourquoi le big data open source ?
Pourquoi le big data open source ?Pourquoi le big data open source ?
Pourquoi le big data open source ?Stefane Fermigier
 
Pleniere du GT Logiciel Libre, janvier 2013
Pleniere du GT Logiciel Libre, janvier 2013Pleniere du GT Logiciel Libre, janvier 2013
Pleniere du GT Logiciel Libre, janvier 2013Stefane Fermigier
 
Nuxeo, an open source platform for content-centric business applications
Nuxeo, an open source platform for content-centric business applicationsNuxeo, an open source platform for content-centric business applications
Nuxeo, an open source platform for content-centric business applicationsStefane Fermigier
 
Nuxeo on the Cloud - Nuxeo World 2011
Nuxeo on the Cloud - Nuxeo World 2011Nuxeo on the Cloud - Nuxeo World 2011
Nuxeo on the Cloud - Nuxeo World 2011Stefane Fermigier
 
ECM Meets the Semantic Web - Nuxeo World 2011
ECM Meets the Semantic Web - Nuxeo World 2011ECM Meets the Semantic Web - Nuxeo World 2011
ECM Meets the Semantic Web - Nuxeo World 2011Stefane Fermigier
 

Plus de Stefane Fermigier (20)

Pitch Abilian - Paris Open Source Summit 2015
Pitch Abilian - Paris Open Source Summit 2015Pitch Abilian - Paris Open Source Summit 2015
Pitch Abilian - Paris Open Source Summit 2015
 
15 ans de politiques publiques du logiciel libre en France
15 ans de politiques publiques du logiciel libre en France15 ans de politiques publiques du logiciel libre en France
15 ans de politiques publiques du logiciel libre en France
 
Créer une communauté open source: pourquoi ? comment ?
Créer une communauté open source: pourquoi ? comment ?Créer une communauté open source: pourquoi ? comment ?
Créer une communauté open source: pourquoi ? comment ?
 
L'open source professionnel - un business model open source
L'open source professionnel - un business model open sourceL'open source professionnel - un business model open source
L'open source professionnel - un business model open source
 
Roadmap du GT Logiciel Libre 2013-2020
Roadmap du GT Logiciel Libre 2013-2020Roadmap du GT Logiciel Libre 2013-2020
Roadmap du GT Logiciel Libre 2013-2020
 
Le MOOC powered by Abilian - Plateforme open source de MOOC
Le MOOC powered by Abilian - Plateforme open source de MOOCLe MOOC powered by Abilian - Plateforme open source de MOOC
Le MOOC powered by Abilian - Plateforme open source de MOOC
 
Pitch Abilian mai 2013
Pitch Abilian mai 2013Pitch Abilian mai 2013
Pitch Abilian mai 2013
 
Open Innovation in Action
Open Innovation in ActionOpen Innovation in Action
Open Innovation in Action
 
Pourquoi le big data open source ?
Pourquoi le big data open source ?Pourquoi le big data open source ?
Pourquoi le big data open source ?
 
Save the date OWF 2013
Save the date OWF 2013Save the date OWF 2013
Save the date OWF 2013
 
Ecosystemes logiciel libre
Ecosystemes logiciel libreEcosystemes logiciel libre
Ecosystemes logiciel libre
 
Pleniere du GT Logiciel Libre, janvier 2013
Pleniere du GT Logiciel Libre, janvier 2013Pleniere du GT Logiciel Libre, janvier 2013
Pleniere du GT Logiciel Libre, janvier 2013
 
OWF 2012 Outcome
OWF 2012 OutcomeOWF 2012 Outcome
OWF 2012 Outcome
 
Demo Cup 2012
Demo Cup 2012Demo Cup 2012
Demo Cup 2012
 
Four Python Pains
Four Python PainsFour Python Pains
Four Python Pains
 
Cours ECM à l'EPITA
Cours ECM à l'EPITACours ECM à l'EPITA
Cours ECM à l'EPITA
 
Nuxeo, an open source platform for content-centric business applications
Nuxeo, an open source platform for content-centric business applicationsNuxeo, an open source platform for content-centric business applications
Nuxeo, an open source platform for content-centric business applications
 
Nuxeo on the Cloud - Nuxeo World 2011
Nuxeo on the Cloud - Nuxeo World 2011Nuxeo on the Cloud - Nuxeo World 2011
Nuxeo on the Cloud - Nuxeo World 2011
 
ECM Meets the Semantic Web - Nuxeo World 2011
ECM Meets the Semantic Web - Nuxeo World 2011ECM Meets the Semantic Web - Nuxeo World 2011
ECM Meets the Semantic Web - Nuxeo World 2011
 
Nuxeo at 10
Nuxeo at 10Nuxeo at 10
Nuxeo at 10
 

Samar - Premier bilan d'étape - Oct. 2010

  • 1. 1 er bilan d’étape 15 octobre 2010
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10. SP1 Expression des besoins Denis Teyssou Bernard Apfeldorfer Dominique Ferrandini
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17. SP1 Expression des besoins Hacène Cherfi Bernard Vatant
  • 18.
  • 19.
  • 20.
  • 21.
  • 22. SP2 Analyse Morpho syntaxique de l’arabe Fathi Debili Ayadi Chabi r
  • 23.
  • 24.
  • 25.
  • 26. Analyse morphologique de l’arabe Arborescence lexicale
  • 27. Arborescence lexicale découpage 1 découpage 2 voyellation 21 voyellation 22 lemme 211 lemme 222 lemme 221 lemme 213 lemme 212 ht 2111 ht 2112 ht 2113 ht 2221 ht 2131 ht 2132 UM découpage n voyellation 2p … … … … voyellation 11 voyellation 12 ht 2121 ht 2122 ht 2211 ht 2212 lemme 111 ht 1111 ht 1112 …
  • 28.
  • 29. Des niveaux d’ambiguïté élevés Niveaux d’ambiguïté de l’hyper-forme arabe Ambiguïté Segmentale Vocalique et Casuelle Lemmatique Grammaticale Dictionnaire (66.10 6 d’entrées) 1,08 2,17 1,68 2,99 Sous lexique (157 031) 1,26 6,40 2,65 9,16 En usage (2.10 6 ) 1,32 7,84 3,66 10,76
  • 30.
  • 31.
  • 32. Des coûts d’annotation et de saisie élevés Coût moyen du caractère en nombre de frappes Coût moyen du caractère Proportion des signes diacritiques Proportion dans le coût de la saisie Anglais 1,00001 0,0005 % 0,001 % Français 1,003 3,51 % 3,84 % Arabe non voyellé 1,037 - - Arabe voyellé 1,46 45% 60%
  • 33.
  • 34. Analyse automatique vs Analyse interactive Analyse automatique Annotation interactive Élaboration des règles Un cercle vertueux
  • 35.
  • 36.
  • 37.
  • 38.
  • 39.
  • 40.
  • 41.
  • 42.
  • 43.
  • 44.
  • 45.
  • 46.
  • 47.
  • 48. SP3 Moteur de recherche Jérôme Mainka Fabrice Lacroix
  • 49.
  • 50.
  • 51.
  • 52.
  • 56.
  • 57. SP4 Extraction entités nommées Leila Zighem Sylvie Guillemin-Lanne
  • 58.
  • 59.
  • 60.
  • 61.
  • 62.
  • 63.
  • 64.
  • 65.   abd-LEX nisba-LEX Al-LEX PSmasculin-LEX PSsacre-LEX PSfeminin-LEX prenom-compose-sacre prenom-masculin-compose prenom-feminin-compose NS-LEX nom-compose abd-LEX         Abd Alhakim             nisba-LEX Ben Abd   Ben Al Ben Daoud Ben Aziz Ben Zouhra Ben Abd Allah     Ben Laden Ben Al saoud Al-LEX Al Abd Al Ben   Al Daoud Al Aziz Al Zouhra Al Abd Allah     Al saoud Al Ben ali nisba-abd         Ben Abd Ellah             nisba-Al       Ben Al Daoud Ben Al Aziz Ben Al Zouhra Ben Al Abd Allah     Ben Al saoud Ben Al Ben ali Al-nisba       Al Ben Daoud Al Ben saoud Al Ben Zouhra Al Ben Abd Allah     Al Ben ali   Al-abd         Al Abd Ellah             PSmasculin-LEX       Nadjib Daoud Nadjib Abd El hafid Nadjib Zouhra Nadjib Abd Allah Nadjib chamse Eldin Nadjib Nour Elhouda Nadjib Daoud Nadjib Ben Al Ben ali PSsacre-LEX       Aziz Daoud Aziz hakim Aziz Zouhra Aziz Abd Allah Aziz chamse Eldin Aziz Nour Elhouda Aziz Daoud Aziz Ben Al Ben ali PSfeminin-LEX       Naouel Daoud Naouel hakim Naouel Zouhra Naouel Abd Allah Naouel chamse Eldin Naouel Nour Elhouda Naouel Daoud Naouel Ben Al Ben ali prenom-compose-sacre       Abd Elbasit Daoud Abd Elbasit Aziz Abd Elbasit Zouhra Abd Elbasit Abd Esamad Abd Elbasit chamse Eldin Abd Elbasit Nour Elhouda Abd Elbasit Daoud Abd Elbasit Ben Al Ben ali prenom-masculin-compose       Nour eldin Daoud Nour eldin Aziz Nour eldin Zouhra Nour eldin Abd Allah Nour eldin chamse Eldin Nour eldin Nour Elhouda Nour eldin Daoud Nour eldin Ben Al Ben ali prenom-feminin-compose       Nour Elhouda Daoud Nour Elhouda Aziz Nour Elhouda Zouhra Nour Elhouda Abd Allah Nour Elhouda chamse Eldin Nour Elhouda Nour Elhouda Nour Elhouda Daoud Nour Elhouda Ben Al Ben ali NS-LEX       Rezouk Daoud Rezouk Aziz Rezouk Zouhra Rezouk Abd Allah Rezouk chamse Eldin Rezouk Nour Elhouda Rezouk Daoud Rezouk Ben Al Ben ali nom-compose                     Ben daoud Ben Al Ben ali
  • 66. ‘ Le roi’ Abd Elah Ben Abd Elaziz Ben Abd Elrahman Al Saoud عبد الله بن عبد العزيز بن عبد الرحمن آل سعود Person عبد الله بن عبد العزيز بن عبد الرحمن آل سعود Simple العزيز Simple الرحمن First Name عبد الله Last Name بن عبد العزيز بن عبد الرحمن آل سعود Simple بن Simple عبد Simple عبد Simple بن Simple بن Simple آل Simple سعود Simple عبد Simple الله Composé عبد الرحمن Simple عبد Simple الرحمن Termes du lexique Concepts Intermédiaires Lien entre Concepts Simple الله Simple سعود Simple آل Composé آل سعود Composé بن عبد الرحمن Simple عبد Simple بن Composé بن عبد العزيز Simple عبد Simple العزيز Composé عبد العزيز
  • 67.
  • 68.
  • 69.
  • 70.
  • 71.
  • 72.
  • 73.
  • 74.
  • 75.
  • 76.
  • 77. SP6 Transcription de la parole Samir Matrouf Cécile Woerhling Bernard Prouts
  • 78.
  • 79.
  • 80.
  • 81.
  • 82.
  • 83.
  • 84.
  • 85. SP7 Traduction Automatique Hélène Bonneau-Maynard François Yvon Souhir Gahbiche Gilles Adda Adrien Lardilleux
  • 86.
  • 87.
  • 88.
  • 89.
  • 90.
  • 91.
  • 92.
  • 93.
  • 94.
  • 95.
  • 96.
  • 97. SP7 Traduction Automatique Yves Lepage Nadine Lucas Wigdan Mekki
  • 98.
  • 99.
  • 100.
  • 101.
  • 102.
  • 103.
  • 104.
  • 105.
  • 108.
  • 109. Use case et flux globaux
  • 110. Services et points d’intégration
  • 111.

Notes de l'éditeur

  1. - Réalisation d'outils d'annotation interactifs permettant la production de corpus annotés. - L’annotation effective d’environ 400 mille mots - La réalisation d’un système de translittération Fr Ar
  2. Objectifs: Annotation morpho grammaticale d’un corpus de 400 mille mots: voyellés, lemmatisés et étiquetés L2.1 Analyse morpho syntaxique de l'arabe et architecture du système d'analyse morphosyntaxique Rapport L2.2 Corpus annotés: dépêches AFP, La Mena (si possible), LMD (si possible) et APS (si possible) Annotation manuelle de 400 000 occurrences issues du volume analysé Corpus L2.3 Evaluation de l’analyse morpho-grammaticale Rapport L2.4 Module d’annotation interactive et de reconnaissance d’entités nommées en arabe Logiciel + Rapport sur le module d'annotation interactive L2.5 Module de translittération Français Arabe - Arabe Français Logiciel L4.1 Rapport d’étude préliminaire sur l’extraction d'entités nommées en arabe R L4.2 Cartouche de connaissance en arabe L Rapport sur la cartouche de connaissance en arabe R L4.3 Ontologie enrichie à partir des arbres conceptuels fournis par la cartouche d'extraction L Rapport sur l'enrichissemenent de l'ontologie R L4.4 Rapport sur la fusion des entités nommées R L4.5 Evaluation sur l'extraction d'entités nommées et Optimisation des performances obtenues R Nous voulons pouvoir annoter dans les meilleures conditions de facilité, d’efficacité, de reproductibilité Etre en mesure de voir immédiatement les effets liés à l’apprentissage
  3. Objectifs: Annotation morpho grammaticale d’un corpus de 400 mille mots: voyellés, lemmatisés et étiquetés L2.1 Analyse morpho syntaxique de l'arabe et architecture du système d'analyse morphosyntaxique Rapport L2.2 Corpus annotés: dépêches AFP, La Mena (si possible), LMD (si possible) et APS (si possible) Annotation manuelle de 400 000 occurrences issues du volume analysé Corpus L2.3 Evaluation de l’analyse morpho-grammaticale Rapport L2.4 Module d’annotation interactive et de reconnaissance d’entités nommées en arabe Logiciel + Rapport sur le module d'annotation interactive L2.5 Module de translittération Français Arabe - Arabe Français Logiciel L4.1 Rapport d’étude préliminaire sur l’extraction d'entités nommées en arabe R L4.2 Cartouche de connaissance en arabe L Rapport sur la cartouche de connaissance en arabe R L4.3 Ontologie enrichie à partir des arbres conceptuels fournis par la cartouche d'extraction L Rapport sur l'enrichissemenent de l'ontologie R L4.4 Rapport sur la fusion des entités nommées R L4.5 Evaluation sur l'extraction d'entités nommées et Optimisation des performances obtenues R Nous voulons pouvoir annoter dans les meilleures conditions de facilité, d’efficacité, de reproductibilité Etre en mesure de voir immédiatement les effets liés à l’apprentissage
  4. Ce que nous manipulons: des arborescences lexicales
  5. Ici, complexité combinatoire de la voyellation lemmatisation et étiquetage grammatical. Chaque mot est accompagné d’une structure arborescente représentant ses diverses (voyellations, lemmes, et étiquettes grammaticales) potentielles. Je m’aperçois que les solutions à venir résident dans la mise en œuvre de grammaires lexicalisées où figureront les morceaux de phrases (clés de la règle) d’une part, et leurs analyses dépendancielles d’autre part (informations associées à la clé). Ce qui aura pour effet de rendre superfétatoire l’étiquetage tel que jusqu’ici préconisé et dont certains auteurs soulignent le peu de « justification théorique intrinsèque au langage » (Fairon & Sennelart, 1999). Moyennant ces nouvelles règles, l’on pourrait alors affirmer qu’en effet, « l’attribution d’étiquettes grammaticales semble bien être un processus de très haut niveau dont la base est la compréhension complète de la phrase » (Fairon & Sennelart, 1999).
  6. Voyellation/Accentuation Tableau 5 : Mesure en usage Textes Français Arabe Voy. Lexicale (sans cas) Voy. Globale (avec cas) Non ambigus 72% 25,5% 9,5% Ambigus 28% 74,5% 90,5% Nb moy. de voy. par mot 1,3 6,3 11,6 Tableau 15 : Ambiguïté grammaticale associée au vocabulaire d'un texte arabe : comptage en usage. Texte arabe Nombre total d’UL UL non ambiguës UL ambiguës Nb moyen d'étiquettes/UL voyellé 37 402 37,98 % 62,02 % 5,63 Non voyellé 40 485 24,15 % 75,85 % 8,71 Tableau 16 : Ambiguïté grammaticale associée au vocabulaire d'un texte français : comptage en usage Texte français Nombre total d’UL UL non ambiguës UL ambiguës Nb moyen d'étiquettes/UL Texte accentué 427560 39,19 % 60,81 % 1,86 Texte non accentué 427560 36,55 % 63,45 % 1,88
  7. En cours
  8. Coût moyen du caractère exprimé en nombre de frappes, calculé pour différents corpus : français (1 million mots), anglais (1 million de mots), arabe voyellé (950 mille mots), et arabe non voyellé (2 millions de mots). Ces chiffres signifient que la saisie d’un texte de N caractères (lettres avec ou sans signe diacritique) coûtera approximativement N*1,00001 frappes au clavier si le texte est en anglais, contre N*1,003 si le texte est en français, N*1,037 si le texte est en arabe non voyellé, et même N*1,46 si le texte est en arabe voyellé. La saisie de l’arabe voyellé est donc sensiblement plus coûteuse que celle du français ou, a fortiori, de l’anglais. Conclusions provisoires : Ces caractérisations sont bien entendu liées à la technologie, aux claviers respectivement associés à chaque langue. Elles offrent une sorte d’évaluation a posteriori des standards et normes en vigueur à l’aune desquelles trois constats peuvent être effectués: 1°) que la technologie ne semble pas conférer les mêmes avantages aux langues qu’elle prend en charge. 2°) que si ces caractérisations peuvent conforter les standards et normes en vigueur, elles peuvent aussi inciter à les amender. 3°) que ces comptages et observations suggèrent que les systèmes d’écriture qui persistent ou qui s’installent dans l’usage sont ceux dont le coût est proche de 1, tel l’anglais, le français, ou l’arabe non voyellé. On peut remarquer que l’arabe voyellé qui présente un coût de 1,46 frappes par caractère est très peu pratiqué. N’y a-t-il pas là un seuil au-delà duquel un système d’écriture n’est plus retenu ?
  9. Ces niveaux d’ambiguïté associés aux difficultés que pose la saisie des voyelles, signes diacritiques en arabe, signifient que dans une perspective d’annotation manuelle, les coûts sont prohibitifs. Confectionner des corpus annotés, qui sous forme brute présentent 1°) un niveau d’ambiguïté important 2°) une saisie coûteuse Ces niveaux d’ambiguïtés indiquent que dans une perspective d’annotation manuelle, l’étendue des choix étant importante, alors l’opération d’annotation manuelle sera coûteuse, plus coûteuse que pour le français par exemple dont les niveaux d’amb sont moins importants (toutes choses égales par ailleurs: niveau de résolution automatique comparables, difficultés linguistiques (définitions des étiquettes, critères de choix, etc. comparables).
  10. Un système d’annotation interactif est lui performant lorsque le nombre de manipulations imposées à l’annotateur pour parvenir à une tâche donnée est réduit à une simple validation. Cette situation se produit lorsque son moteur d’analyse automatique est performant à 100%.
  11. Ici, ergonomie générale de SAMSAr. Plusieurs fenêtres permettant de visualiser Le lexique associé au texte sélectionné Les arborescences lexicales respectivement associées aux mots sélectionnés L’ensemble des phrases contenant les occurrences du mot sélectionné non encore annotées ou vérifiées La phrase en cours d’annotation interactive
  12. Ergonomie en cours de développement
  13. Interaction analyse morpho grammaticale / analyse syntagmatique Résolution automatique des ambiguïtés liées à la nature des entités nommées reconnues La reconnaissance parallèle de différents types d'entités nommées conduit à des situations d'ambiguïtés qui portent sur les frontières de ces entités autant que sur leur nature. Ce qui débouche sur un autre problème qui n'a pas encore été abordé: celui de la résolution automatique de ces ambiguïtés.
  14. Forme générale d'une règle de translittération: P(CC | CS, Ctx 1 , Ctx 2 ) où: CS: Chaîne Source CC: Chaîne Cible Ctx 1 : Contexte avant Ctx 2 : Contexte après LCC i : Longueur de la chaîne cible
  15. Règles générées à partir de l’exemple précédent
  16. Les exemples suivants illustrent ces difficultés. Ils fournissent en même temps le matériau d'apprentissage des règles de translittération que nous nous proposons de construire. Forme générale d'une règle de translittération:   P(CC | CS, Ctx 1 , Ctx 2 )   où: CS: Chaîne Source CC: Chaîne Cible Ctx 1 : Contexte avant Ctx 2 : Contexte après LCC i : Longueur de la chaîne cible
  17. R: Règles, T: Translittération, C: Contextuelles, NC: Non Contextuelles, V: Voyellé, NV: Non Voyellé, F: Français, A: Arabe R: Règles T: Translittération C: Contextuelles NC: Non Contextuelles V: Voyellé NV: Non Voyellé F: Français A: Arabe
  18. En cours
  19. En cours