SlideShare une entreprise Scribd logo

Samar - Premier bilan d'étape - Oct. 2010

1  sur  112
Télécharger pour lire hors ligne
1 er  bilan d’étape 15 octobre 2010
Objectifs ,[object Object],[object Object],[object Object],[object Object],17/10/10
Vie du projet ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10
Vie du projet ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],17/10/10
Vie du projet ,[object Object],[object Object],[object Object],[object Object],17/10/10
Vie du projet ,[object Object],[object Object],17/10/10

Recommandé

Introduction a la compilation Aperçu de la compilation / Assembleur MIPS - C1
Introduction a la compilation  Aperçu de la compilation / Assembleur MIPS - C1Introduction a la compilation  Aperçu de la compilation / Assembleur MIPS - C1
Introduction a la compilation Aperçu de la compilation / Assembleur MIPS - C1Beligh HAMDI
 
Les fondamentaux de langage C#
Les fondamentaux de langage C#Les fondamentaux de langage C#
Les fondamentaux de langage C#Youness Boukouchi
 
Cours de C++, en français, 2002 - Cours 1.5
Cours de C++, en français, 2002 - Cours 1.5Cours de C++, en français, 2002 - Cours 1.5
Cours de C++, en français, 2002 - Cours 1.5Laurent BUNIET
 
Analyse Marketing de Coca-Cola
Analyse Marketing de Coca-ColaAnalyse Marketing de Coca-Cola
Analyse Marketing de Coca-ColaCamille Rabier
 

Contenu connexe

Similaire à Samar - Premier bilan d'étape - Oct. 2010

Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...Estelle Delpech
 
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUETRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUEAchraf OTHMAN
 
Le langage C.pdf
Le langage C.pdfLe langage C.pdf
Le langage C.pdfNoamHaythem
 
Jep 2012 Swahili
Jep 2012 SwahiliJep 2012 Swahili
Jep 2012 Swahilitihtow
 
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...JUSTINDAVONDAMBAT
 
COURS C++ [Enregistrement automatique]Complet (1).pptx
COURS C++ [Enregistrement automatique]Complet (1).pptxCOURS C++ [Enregistrement automatique]Complet (1).pptx
COURS C++ [Enregistrement automatique]Complet (1).pptxLuneSabsPericolo1
 
C028AL_slides_module1-fr-gz.pdf
C028AL_slides_module1-fr-gz.pdfC028AL_slides_module1-fr-gz.pdf
C028AL_slides_module1-fr-gz.pdfABID303441
 
Vers des langues de programmation ?
Vers des langues de programmation ?Vers des langues de programmation ?
Vers des langues de programmation ?Nicolas Dubois
 
Environnement de développement de bases de données
Environnement de développement de bases de donnéesEnvironnement de développement de bases de données
Environnement de développement de bases de donnéesISIG
 
Environnement de développement de bases de données
Environnement de développement de bases de donnéesEnvironnement de développement de bases de données
Environnement de développement de bases de donnéesISIG
 

Similaire à Samar - Premier bilan d'étape - Oct. 2010 (20)

compilation1-2020.pdf
compilation1-2020.pdfcompilation1-2020.pdf
compilation1-2020.pdf
 
Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...
 
Machine Translation
Machine TranslationMachine Translation
Machine Translation
 
Traduction des SMS
Traduction des SMSTraduction des SMS
Traduction des SMS
 
Logo
LogoLogo
Logo
 
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUETRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE
 
Seo camp2017 Marguerite Leenhardt
Seo camp2017 Marguerite LeenhardtSeo camp2017 Marguerite Leenhardt
Seo camp2017 Marguerite Leenhardt
 
Le langage C.pdf
Le langage C.pdfLe langage C.pdf
Le langage C.pdf
 
Jep 2012 Swahili
Jep 2012 SwahiliJep 2012 Swahili
Jep 2012 Swahili
 
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
 
COURS C++ [Enregistrement automatique]Complet (1).pptx
COURS C++ [Enregistrement automatique]Complet (1).pptxCOURS C++ [Enregistrement automatique]Complet (1).pptx
COURS C++ [Enregistrement automatique]Complet (1).pptx
 
Langage C++
Langage C++Langage C++
Langage C++
 
C028AL_slides_module1-fr-gz.pdf
C028AL_slides_module1-fr-gz.pdfC028AL_slides_module1-fr-gz.pdf
C028AL_slides_module1-fr-gz.pdf
 
Les logiciels oraliseurs
Les logiciels oraliseursLes logiciels oraliseurs
Les logiciels oraliseurs
 
Vers des langues de programmation ?
Vers des langues de programmation ?Vers des langues de programmation ?
Vers des langues de programmation ?
 
Environnement de développement de bases de données
Environnement de développement de bases de donnéesEnvironnement de développement de bases de données
Environnement de développement de bases de données
 
Environnement de développement de bases de données
Environnement de développement de bases de donnéesEnvironnement de développement de bases de données
Environnement de développement de bases de données
 
Compte rendu Blend Web Mix 2015
Compte rendu Blend Web Mix 2015Compte rendu Blend Web Mix 2015
Compte rendu Blend Web Mix 2015
 
Builsing DSL using MDE
Builsing DSL using MDEBuilsing DSL using MDE
Builsing DSL using MDE
 
Cergar atala09
Cergar atala09Cergar atala09
Cergar atala09
 

Plus de Stefane Fermigier

Pitch Abilian - Paris Open Source Summit 2015
Pitch Abilian - Paris Open Source Summit 2015Pitch Abilian - Paris Open Source Summit 2015
Pitch Abilian - Paris Open Source Summit 2015Stefane Fermigier
 
15 ans de politiques publiques du logiciel libre en France
15 ans de politiques publiques du logiciel libre en France15 ans de politiques publiques du logiciel libre en France
15 ans de politiques publiques du logiciel libre en FranceStefane Fermigier
 
Créer une communauté open source: pourquoi ? comment ?
Créer une communauté open source: pourquoi ? comment ?Créer une communauté open source: pourquoi ? comment ?
Créer une communauté open source: pourquoi ? comment ?Stefane Fermigier
 
L'open source professionnel - un business model open source
L'open source professionnel - un business model open sourceL'open source professionnel - un business model open source
L'open source professionnel - un business model open sourceStefane Fermigier
 
Roadmap du GT Logiciel Libre 2013-2020
Roadmap du GT Logiciel Libre 2013-2020Roadmap du GT Logiciel Libre 2013-2020
Roadmap du GT Logiciel Libre 2013-2020Stefane Fermigier
 
Le MOOC powered by Abilian - Plateforme open source de MOOC
Le MOOC powered by Abilian - Plateforme open source de MOOCLe MOOC powered by Abilian - Plateforme open source de MOOC
Le MOOC powered by Abilian - Plateforme open source de MOOCStefane Fermigier
 
Pourquoi le big data open source ?
Pourquoi le big data open source ?Pourquoi le big data open source ?
Pourquoi le big data open source ?Stefane Fermigier
 
Pleniere du GT Logiciel Libre, janvier 2013
Pleniere du GT Logiciel Libre, janvier 2013Pleniere du GT Logiciel Libre, janvier 2013
Pleniere du GT Logiciel Libre, janvier 2013Stefane Fermigier
 
Nuxeo, an open source platform for content-centric business applications
Nuxeo, an open source platform for content-centric business applicationsNuxeo, an open source platform for content-centric business applications
Nuxeo, an open source platform for content-centric business applicationsStefane Fermigier
 
Nuxeo on the Cloud - Nuxeo World 2011
Nuxeo on the Cloud - Nuxeo World 2011Nuxeo on the Cloud - Nuxeo World 2011
Nuxeo on the Cloud - Nuxeo World 2011Stefane Fermigier
 
ECM Meets the Semantic Web - Nuxeo World 2011
ECM Meets the Semantic Web - Nuxeo World 2011ECM Meets the Semantic Web - Nuxeo World 2011
ECM Meets the Semantic Web - Nuxeo World 2011Stefane Fermigier
 

Plus de Stefane Fermigier (20)

Pitch Abilian - Paris Open Source Summit 2015
Pitch Abilian - Paris Open Source Summit 2015Pitch Abilian - Paris Open Source Summit 2015
Pitch Abilian - Paris Open Source Summit 2015
 
15 ans de politiques publiques du logiciel libre en France
15 ans de politiques publiques du logiciel libre en France15 ans de politiques publiques du logiciel libre en France
15 ans de politiques publiques du logiciel libre en France
 
Créer une communauté open source: pourquoi ? comment ?
Créer une communauté open source: pourquoi ? comment ?Créer une communauté open source: pourquoi ? comment ?
Créer une communauté open source: pourquoi ? comment ?
 
L'open source professionnel - un business model open source
L'open source professionnel - un business model open sourceL'open source professionnel - un business model open source
L'open source professionnel - un business model open source
 
Roadmap du GT Logiciel Libre 2013-2020
Roadmap du GT Logiciel Libre 2013-2020Roadmap du GT Logiciel Libre 2013-2020
Roadmap du GT Logiciel Libre 2013-2020
 
Le MOOC powered by Abilian - Plateforme open source de MOOC
Le MOOC powered by Abilian - Plateforme open source de MOOCLe MOOC powered by Abilian - Plateforme open source de MOOC
Le MOOC powered by Abilian - Plateforme open source de MOOC
 
Pitch Abilian mai 2013
Pitch Abilian mai 2013Pitch Abilian mai 2013
Pitch Abilian mai 2013
 
Open Innovation in Action
Open Innovation in ActionOpen Innovation in Action
Open Innovation in Action
 
Pourquoi le big data open source ?
Pourquoi le big data open source ?Pourquoi le big data open source ?
Pourquoi le big data open source ?
 
Save the date OWF 2013
Save the date OWF 2013Save the date OWF 2013
Save the date OWF 2013
 
Ecosystemes logiciel libre
Ecosystemes logiciel libreEcosystemes logiciel libre
Ecosystemes logiciel libre
 
Pleniere du GT Logiciel Libre, janvier 2013
Pleniere du GT Logiciel Libre, janvier 2013Pleniere du GT Logiciel Libre, janvier 2013
Pleniere du GT Logiciel Libre, janvier 2013
 
OWF 2012 Outcome
OWF 2012 OutcomeOWF 2012 Outcome
OWF 2012 Outcome
 
Demo Cup 2012
Demo Cup 2012Demo Cup 2012
Demo Cup 2012
 
Four Python Pains
Four Python PainsFour Python Pains
Four Python Pains
 
Cours ECM à l'EPITA
Cours ECM à l'EPITACours ECM à l'EPITA
Cours ECM à l'EPITA
 
Nuxeo, an open source platform for content-centric business applications
Nuxeo, an open source platform for content-centric business applicationsNuxeo, an open source platform for content-centric business applications
Nuxeo, an open source platform for content-centric business applications
 
Nuxeo on the Cloud - Nuxeo World 2011
Nuxeo on the Cloud - Nuxeo World 2011Nuxeo on the Cloud - Nuxeo World 2011
Nuxeo on the Cloud - Nuxeo World 2011
 
ECM Meets the Semantic Web - Nuxeo World 2011
ECM Meets the Semantic Web - Nuxeo World 2011ECM Meets the Semantic Web - Nuxeo World 2011
ECM Meets the Semantic Web - Nuxeo World 2011
 
Nuxeo at 10
Nuxeo at 10Nuxeo at 10
Nuxeo at 10
 

Samar - Premier bilan d'étape - Oct. 2010

  • 1. 1 er bilan d’étape 15 octobre 2010
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10. SP1 Expression des besoins Denis Teyssou Bernard Apfeldorfer Dominique Ferrandini
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17. SP1 Expression des besoins Hacène Cherfi Bernard Vatant
  • 18.
  • 19.
  • 20.
  • 21.
  • 22. SP2 Analyse Morpho syntaxique de l’arabe Fathi Debili Ayadi Chabi r
  • 23.
  • 24.
  • 25.
  • 26. Analyse morphologique de l’arabe Arborescence lexicale
  • 27. Arborescence lexicale découpage 1 découpage 2 voyellation 21 voyellation 22 lemme 211 lemme 222 lemme 221 lemme 213 lemme 212 ht 2111 ht 2112 ht 2113 ht 2221 ht 2131 ht 2132 UM découpage n voyellation 2p … … … … voyellation 11 voyellation 12 ht 2121 ht 2122 ht 2211 ht 2212 lemme 111 ht 1111 ht 1112 …
  • 28.
  • 29. Des niveaux d’ambiguïté élevés Niveaux d’ambiguïté de l’hyper-forme arabe Ambiguïté Segmentale Vocalique et Casuelle Lemmatique Grammaticale Dictionnaire (66.10 6 d’entrées) 1,08 2,17 1,68 2,99 Sous lexique (157 031) 1,26 6,40 2,65 9,16 En usage (2.10 6 ) 1,32 7,84 3,66 10,76
  • 30.
  • 31.
  • 32. Des coûts d’annotation et de saisie élevés Coût moyen du caractère en nombre de frappes Coût moyen du caractère Proportion des signes diacritiques Proportion dans le coût de la saisie Anglais 1,00001 0,0005 % 0,001 % Français 1,003 3,51 % 3,84 % Arabe non voyellé 1,037 - - Arabe voyellé 1,46 45% 60%
  • 33.
  • 34. Analyse automatique vs Analyse interactive Analyse automatique Annotation interactive Élaboration des règles Un cercle vertueux
  • 35.
  • 36.
  • 37.
  • 38.
  • 39.
  • 40.
  • 41.
  • 42.
  • 43.
  • 44.
  • 45.
  • 46.
  • 47.
  • 48. SP3 Moteur de recherche Jérôme Mainka Fabrice Lacroix
  • 49.
  • 50.
  • 51.
  • 52.
  • 56.
  • 57. SP4 Extraction entités nommées Leila Zighem Sylvie Guillemin-Lanne
  • 58.
  • 59.
  • 60.
  • 61.
  • 62.
  • 63.
  • 64.
  • 65.   abd-LEX nisba-LEX Al-LEX PSmasculin-LEX PSsacre-LEX PSfeminin-LEX prenom-compose-sacre prenom-masculin-compose prenom-feminin-compose NS-LEX nom-compose abd-LEX         Abd Alhakim             nisba-LEX Ben Abd   Ben Al Ben Daoud Ben Aziz Ben Zouhra Ben Abd Allah     Ben Laden Ben Al saoud Al-LEX Al Abd Al Ben   Al Daoud Al Aziz Al Zouhra Al Abd Allah     Al saoud Al Ben ali nisba-abd         Ben Abd Ellah             nisba-Al       Ben Al Daoud Ben Al Aziz Ben Al Zouhra Ben Al Abd Allah     Ben Al saoud Ben Al Ben ali Al-nisba       Al Ben Daoud Al Ben saoud Al Ben Zouhra Al Ben Abd Allah     Al Ben ali   Al-abd         Al Abd Ellah             PSmasculin-LEX       Nadjib Daoud Nadjib Abd El hafid Nadjib Zouhra Nadjib Abd Allah Nadjib chamse Eldin Nadjib Nour Elhouda Nadjib Daoud Nadjib Ben Al Ben ali PSsacre-LEX       Aziz Daoud Aziz hakim Aziz Zouhra Aziz Abd Allah Aziz chamse Eldin Aziz Nour Elhouda Aziz Daoud Aziz Ben Al Ben ali PSfeminin-LEX       Naouel Daoud Naouel hakim Naouel Zouhra Naouel Abd Allah Naouel chamse Eldin Naouel Nour Elhouda Naouel Daoud Naouel Ben Al Ben ali prenom-compose-sacre       Abd Elbasit Daoud Abd Elbasit Aziz Abd Elbasit Zouhra Abd Elbasit Abd Esamad Abd Elbasit chamse Eldin Abd Elbasit Nour Elhouda Abd Elbasit Daoud Abd Elbasit Ben Al Ben ali prenom-masculin-compose       Nour eldin Daoud Nour eldin Aziz Nour eldin Zouhra Nour eldin Abd Allah Nour eldin chamse Eldin Nour eldin Nour Elhouda Nour eldin Daoud Nour eldin Ben Al Ben ali prenom-feminin-compose       Nour Elhouda Daoud Nour Elhouda Aziz Nour Elhouda Zouhra Nour Elhouda Abd Allah Nour Elhouda chamse Eldin Nour Elhouda Nour Elhouda Nour Elhouda Daoud Nour Elhouda Ben Al Ben ali NS-LEX       Rezouk Daoud Rezouk Aziz Rezouk Zouhra Rezouk Abd Allah Rezouk chamse Eldin Rezouk Nour Elhouda Rezouk Daoud Rezouk Ben Al Ben ali nom-compose                     Ben daoud Ben Al Ben ali
  • 66. ‘ Le roi’ Abd Elah Ben Abd Elaziz Ben Abd Elrahman Al Saoud عبد الله بن عبد العزيز بن عبد الرحمن آل سعود Person عبد الله بن عبد العزيز بن عبد الرحمن آل سعود Simple العزيز Simple الرحمن First Name عبد الله Last Name بن عبد العزيز بن عبد الرحمن آل سعود Simple بن Simple عبد Simple عبد Simple بن Simple بن Simple آل Simple سعود Simple عبد Simple الله Composé عبد الرحمن Simple عبد Simple الرحمن Termes du lexique Concepts Intermédiaires Lien entre Concepts Simple الله Simple سعود Simple آل Composé آل سعود Composé بن عبد الرحمن Simple عبد Simple بن Composé بن عبد العزيز Simple عبد Simple العزيز Composé عبد العزيز
  • 67.
  • 68.
  • 69.
  • 70.
  • 71.
  • 72.
  • 73.
  • 74.
  • 75.
  • 76.
  • 77. SP6 Transcription de la parole Samir Matrouf Cécile Woerhling Bernard Prouts
  • 78.
  • 79.
  • 80.
  • 81.
  • 82.
  • 83.
  • 84.
  • 85. SP7 Traduction Automatique Hélène Bonneau-Maynard François Yvon Souhir Gahbiche Gilles Adda Adrien Lardilleux
  • 86.
  • 87.
  • 88.
  • 89.
  • 90.
  • 91.
  • 92.
  • 93.
  • 94.
  • 95.
  • 96.
  • 97. SP7 Traduction Automatique Yves Lepage Nadine Lucas Wigdan Mekki
  • 98.
  • 99.
  • 100.
  • 101.
  • 102.
  • 103.
  • 104.
  • 105.
  • 108.
  • 109. Use case et flux globaux
  • 110. Services et points d’intégration
  • 111.

Notes de l'éditeur

  1. - Réalisation d'outils d'annotation interactifs permettant la production de corpus annotés. - L’annotation effective d’environ 400 mille mots - La réalisation d’un système de translittération Fr Ar
  2. Objectifs: Annotation morpho grammaticale d’un corpus de 400 mille mots: voyellés, lemmatisés et étiquetés L2.1 Analyse morpho syntaxique de l'arabe et architecture du système d'analyse morphosyntaxique Rapport L2.2 Corpus annotés: dépêches AFP, La Mena (si possible), LMD (si possible) et APS (si possible) Annotation manuelle de 400 000 occurrences issues du volume analysé Corpus L2.3 Evaluation de l’analyse morpho-grammaticale Rapport L2.4 Module d’annotation interactive et de reconnaissance d’entités nommées en arabe Logiciel + Rapport sur le module d'annotation interactive L2.5 Module de translittération Français Arabe - Arabe Français Logiciel L4.1 Rapport d’étude préliminaire sur l’extraction d'entités nommées en arabe R L4.2 Cartouche de connaissance en arabe L Rapport sur la cartouche de connaissance en arabe R L4.3 Ontologie enrichie à partir des arbres conceptuels fournis par la cartouche d'extraction L Rapport sur l'enrichissemenent de l'ontologie R L4.4 Rapport sur la fusion des entités nommées R L4.5 Evaluation sur l'extraction d'entités nommées et Optimisation des performances obtenues R Nous voulons pouvoir annoter dans les meilleures conditions de facilité, d’efficacité, de reproductibilité Etre en mesure de voir immédiatement les effets liés à l’apprentissage
  3. Objectifs: Annotation morpho grammaticale d’un corpus de 400 mille mots: voyellés, lemmatisés et étiquetés L2.1 Analyse morpho syntaxique de l'arabe et architecture du système d'analyse morphosyntaxique Rapport L2.2 Corpus annotés: dépêches AFP, La Mena (si possible), LMD (si possible) et APS (si possible) Annotation manuelle de 400 000 occurrences issues du volume analysé Corpus L2.3 Evaluation de l’analyse morpho-grammaticale Rapport L2.4 Module d’annotation interactive et de reconnaissance d’entités nommées en arabe Logiciel + Rapport sur le module d'annotation interactive L2.5 Module de translittération Français Arabe - Arabe Français Logiciel L4.1 Rapport d’étude préliminaire sur l’extraction d'entités nommées en arabe R L4.2 Cartouche de connaissance en arabe L Rapport sur la cartouche de connaissance en arabe R L4.3 Ontologie enrichie à partir des arbres conceptuels fournis par la cartouche d'extraction L Rapport sur l'enrichissemenent de l'ontologie R L4.4 Rapport sur la fusion des entités nommées R L4.5 Evaluation sur l'extraction d'entités nommées et Optimisation des performances obtenues R Nous voulons pouvoir annoter dans les meilleures conditions de facilité, d’efficacité, de reproductibilité Etre en mesure de voir immédiatement les effets liés à l’apprentissage
  4. Ce que nous manipulons: des arborescences lexicales
  5. Ici, complexité combinatoire de la voyellation lemmatisation et étiquetage grammatical. Chaque mot est accompagné d’une structure arborescente représentant ses diverses (voyellations, lemmes, et étiquettes grammaticales) potentielles. Je m’aperçois que les solutions à venir résident dans la mise en œuvre de grammaires lexicalisées où figureront les morceaux de phrases (clés de la règle) d’une part, et leurs analyses dépendancielles d’autre part (informations associées à la clé). Ce qui aura pour effet de rendre superfétatoire l’étiquetage tel que jusqu’ici préconisé et dont certains auteurs soulignent le peu de « justification théorique intrinsèque au langage » (Fairon & Sennelart, 1999). Moyennant ces nouvelles règles, l’on pourrait alors affirmer qu’en effet, « l’attribution d’étiquettes grammaticales semble bien être un processus de très haut niveau dont la base est la compréhension complète de la phrase » (Fairon & Sennelart, 1999).
  6. Voyellation/Accentuation Tableau 5 : Mesure en usage Textes Français Arabe Voy. Lexicale (sans cas) Voy. Globale (avec cas) Non ambigus 72% 25,5% 9,5% Ambigus 28% 74,5% 90,5% Nb moy. de voy. par mot 1,3 6,3 11,6 Tableau 15 : Ambiguïté grammaticale associée au vocabulaire d'un texte arabe : comptage en usage. Texte arabe Nombre total d’UL UL non ambiguës UL ambiguës Nb moyen d'étiquettes/UL voyellé 37 402 37,98 % 62,02 % 5,63 Non voyellé 40 485 24,15 % 75,85 % 8,71 Tableau 16 : Ambiguïté grammaticale associée au vocabulaire d'un texte français : comptage en usage Texte français Nombre total d’UL UL non ambiguës UL ambiguës Nb moyen d'étiquettes/UL Texte accentué 427560 39,19 % 60,81 % 1,86 Texte non accentué 427560 36,55 % 63,45 % 1,88
  7. En cours
  8. Coût moyen du caractère exprimé en nombre de frappes, calculé pour différents corpus : français (1 million mots), anglais (1 million de mots), arabe voyellé (950 mille mots), et arabe non voyellé (2 millions de mots). Ces chiffres signifient que la saisie d’un texte de N caractères (lettres avec ou sans signe diacritique) coûtera approximativement N*1,00001 frappes au clavier si le texte est en anglais, contre N*1,003 si le texte est en français, N*1,037 si le texte est en arabe non voyellé, et même N*1,46 si le texte est en arabe voyellé. La saisie de l’arabe voyellé est donc sensiblement plus coûteuse que celle du français ou, a fortiori, de l’anglais. Conclusions provisoires : Ces caractérisations sont bien entendu liées à la technologie, aux claviers respectivement associés à chaque langue. Elles offrent une sorte d’évaluation a posteriori des standards et normes en vigueur à l’aune desquelles trois constats peuvent être effectués: 1°) que la technologie ne semble pas conférer les mêmes avantages aux langues qu’elle prend en charge. 2°) que si ces caractérisations peuvent conforter les standards et normes en vigueur, elles peuvent aussi inciter à les amender. 3°) que ces comptages et observations suggèrent que les systèmes d’écriture qui persistent ou qui s’installent dans l’usage sont ceux dont le coût est proche de 1, tel l’anglais, le français, ou l’arabe non voyellé. On peut remarquer que l’arabe voyellé qui présente un coût de 1,46 frappes par caractère est très peu pratiqué. N’y a-t-il pas là un seuil au-delà duquel un système d’écriture n’est plus retenu ?
  9. Ces niveaux d’ambiguïté associés aux difficultés que pose la saisie des voyelles, signes diacritiques en arabe, signifient que dans une perspective d’annotation manuelle, les coûts sont prohibitifs. Confectionner des corpus annotés, qui sous forme brute présentent 1°) un niveau d’ambiguïté important 2°) une saisie coûteuse Ces niveaux d’ambiguïtés indiquent que dans une perspective d’annotation manuelle, l’étendue des choix étant importante, alors l’opération d’annotation manuelle sera coûteuse, plus coûteuse que pour le français par exemple dont les niveaux d’amb sont moins importants (toutes choses égales par ailleurs: niveau de résolution automatique comparables, difficultés linguistiques (définitions des étiquettes, critères de choix, etc. comparables).
  10. Un système d’annotation interactif est lui performant lorsque le nombre de manipulations imposées à l’annotateur pour parvenir à une tâche donnée est réduit à une simple validation. Cette situation se produit lorsque son moteur d’analyse automatique est performant à 100%.
  11. Ici, ergonomie générale de SAMSAr. Plusieurs fenêtres permettant de visualiser Le lexique associé au texte sélectionné Les arborescences lexicales respectivement associées aux mots sélectionnés L’ensemble des phrases contenant les occurrences du mot sélectionné non encore annotées ou vérifiées La phrase en cours d’annotation interactive
  12. Ergonomie en cours de développement
  13. Interaction analyse morpho grammaticale / analyse syntagmatique Résolution automatique des ambiguïtés liées à la nature des entités nommées reconnues La reconnaissance parallèle de différents types d'entités nommées conduit à des situations d'ambiguïtés qui portent sur les frontières de ces entités autant que sur leur nature. Ce qui débouche sur un autre problème qui n'a pas encore été abordé: celui de la résolution automatique de ces ambiguïtés.
  14. Forme générale d'une règle de translittération: P(CC | CS, Ctx 1 , Ctx 2 ) où: CS: Chaîne Source CC: Chaîne Cible Ctx 1 : Contexte avant Ctx 2 : Contexte après LCC i : Longueur de la chaîne cible
  15. Règles générées à partir de l’exemple précédent
  16. Les exemples suivants illustrent ces difficultés. Ils fournissent en même temps le matériau d'apprentissage des règles de translittération que nous nous proposons de construire. Forme générale d'une règle de translittération:   P(CC | CS, Ctx 1 , Ctx 2 )   où: CS: Chaîne Source CC: Chaîne Cible Ctx 1 : Contexte avant Ctx 2 : Contexte après LCC i : Longueur de la chaîne cible
  17. R: Règles, T: Translittération, C: Contextuelles, NC: Non Contextuelles, V: Voyellé, NV: Non Voyellé, F: Français, A: Arabe R: Règles T: Translittération C: Contextuelles NC: Non Contextuelles V: Voyellé NV: Non Voyellé F: Français A: Arabe
  18. En cours
  19. En cours