OUTILS LINGUISTIQUES POUR LE DÉVELOPPEMENT DES APPLICATIONS AUTOMATIQUES DE L’ARABE 
Prof. Dr. Mohamed El Hannach 
Univers...
POSTULAT & HYPOTHÈSE 
La majorité des applications informatiques développées pour l’arabe connaissent un échec à différen...
CADRE THÉORIQUE & MÉTHODOLOGIQUE 
Pourquoi une ré-description de l’arabe ? 
Description structurale et autres (l’histoir...
BASE DE DONNÉES : MORPHOLOGIE 
Le cadre morphologique générale de l’arabe: 
Morphologie: Racine + Schème (ajouts)= Mot 
...
LES FORMES LINGUISTIQUES 
Les structures sont basées sur cinq cadres formels dont le schéma de base est: V N0 W conçue so...
LES BASES DE DONNÉES: SYNTAXE 
A partir de la forme de base (ci-dessus): V N0 W 
P=: V (x, y, … ) 
Nous avons 19 classes...
COLLECTION DES DONNÉES SYNTAXIQUES 
5 structures de base: V N0 W (W=: 0, 1, 2) 
L’adoption du principe de transf. non or...
SAMPLE SYNTACTIC DATABASE 
Verb 
No 
Nominalization =: Vsup N0 nr V-n Prep N1 +hum 
No=: +Concret 
No=: Nnr 
Completive 
S...
BASE DE DONNÉES: STRUCTURES FIGÉS 
30,000 expressions idiomatiques 
Combinaison fixe entre les éléments de la structure ...
DICTIONNAIRES ÉLECTRONIQUES 
Recueil électronique des données linguistique: 
Les noms non dérivés 
Les verbes 
Les Adv...
APPLICATIONS 
Ontologie 
Contenu digital 
Traduction automatique 
Web Sémantique, OWL 
OCR 
Résumé automatique 
Ens...
CONCLUSION 
Nous insistons sur le fait de prendre en considération les travaux linguistiques basés sur un cadre théorique...
Prochain SlideShare
Chargement dans…5
×

Mohammed el hannach keynote anlp ieee cist 2014

606 vues

Publié le

OUTILS LINGUISTIQUES POUR LE DÉVELOPPEMENT DES APPLICATIONS AUTOMATIQUES DE L’ARABE.
Prof. Dr. Mohamed El Hannach
University Of Sidi Mohamed Ben Abdellah, FES &
Arabic Language Engineering Society, Morocco

Publié dans : Logiciels
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
606
Sur SlideShare
0
Issues des intégrations
0
Intégrations
87
Actions
Partages
0
Téléchargements
11
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Mohammed el hannach keynote anlp ieee cist 2014

  1. 1. OUTILS LINGUISTIQUES POUR LE DÉVELOPPEMENT DES APPLICATIONS AUTOMATIQUES DE L’ARABE Prof. Dr. Mohamed El Hannach Université Sidi Mohamed Ben Abdellah, FES & Arabic Language Engineering Society in Morocco
  2. 2. POSTULAT & HYPOTHÈSE La majorité des applications informatiques développées pour l’arabe connaissent un échec à différents degrés, en particulier le traitement incorrecte des données linguistiques, et ce, est dû à notre avis, à l’insuffisance des descriptions informelle des données linguistiques de cette langue, sur lesquelles sont basés les développeurs. A notre avis, il est impératif d’entamer une ré-description formelle de différents parties de discours de l’arabe, tenant en compte le et le système algorithmique de l’arabe et le développement que connait les techniques informatiques destinés au traitement automatique des langues naturelles, en particulier l’arabe qui se veut une langue fusionniste, par opposition au reste des langues fondées sur le système ensembliste.
  3. 3. CADRE THÉORIQUE & MÉTHODOLOGIQUE Pourquoi une ré-description de l’arabe ? Description structurale et autres (l’histoire irrationnel) Grammaire combinatoire, empirisme et métalangage rationnel: La phrase est l’unité minimale du sens: Sens=: V N0 W Le mot isolé n’a pas d’autonomie linguistique Le verbe est une phrase simple Les verbes se divisent en trois catégories: Verbe ordinaire Verbe support Verbe figé Chaque forme linguistique (mot ou phrase) est associée à un schéma formel qui détermine son appartenance au système linguistique de l’arabe. Les phrases de la langue sont finies et relativement acceptables Les règles formelles sont relatives
  4. 4. BASE DE DONNÉES : MORPHOLOGIE Le cadre morphologique générale de l’arabe: Morphologie: Racine + Schème (ajouts)= Mot Trois bases de données en découlent: 1, Racines, 2, Schèmes, 3, algorithmes morphologico - phonologique Chaque mot est le résultat de la fusion / combinaison d’une racine est d’un schème en plus des ajouts=: سألتمونيها Le schème assure la distribution des voyelles sur les consonnes des la racine Les voyelles se divises en trois catégories à nature phonologique: Inchoative =: lexicale Médiane =: morphologique Last =: flexionnelle Noms: simple, fléchi et complétives Verbes (simple et fléchi): trois catégories V-a déverbaux (simples et fléchis): 10 catégories V-n (simples et fléchis): 5 catégories
  5. 5. LES FORMES LINGUISTIQUES Les structures sont basées sur cinq cadres formels dont le schéma de base est: V N0 W conçue sous forme de sujets et prédicats: 1.V N0 2.V N0 N1 3.V N0 Prép N1 4.V N0 N1 Prép N2 5.V N0 Prép N1 Prép N2 Remarques: - Pas de verbe sans sujet à cause de l’absence de la catégorie infinitif en arabe - Le N peut être simple ou flexionnel - Le N = Nj occupe une place déterminé dans la structure - Chaque verbe sélectionne sa séquence nominale
  6. 6. LES BASES DE DONNÉES: SYNTAXE A partir de la forme de base (ci-dessus): V N0 W P=: V (x, y, … ) Nous avons 19 classes syntaxiques, divisées selon des critères distributionnelles relevant du verbe ordinaire voire principale. Les contraintes distributionnelles sont à la base de la classification transformationnelle Chacune des classes syntaxiques possède ses propriétés transformationnelles. Il y a cinq propriétés transformationnelles couvrant la totalité des verbes: Restructuration, passif, nominalisation, adjectivation, et la propriété ‘non restreint’ =: V Nnr W, ou V N0 N1nr N2 directe, comme se veut la tradition, n’existe pas en arabe
  7. 7. COLLECTION DES DONNÉES SYNTAXIQUES 5 structures de base: V N0 W (W=: 0, 1, 2) L’adoption du principe de transf. non orientée nous donne trois types de structures : Phrase ordinaire: V N0 W < => 5 formes transformées كسر أحمد )عنق الزجاجة( > -- < كسر أحمد الزجاجة 1 من عنقها 2 R=: Phrase a verbe support: Exemple: V N0 W < => 3 formes nominalisées أقلق هذا الأمر عليا > -- < أثار هذا الأمر القلق في علي Nom A=: Phrase figés: Exemple: V N0 W < => nombre indéfini de formes Fig=: لقي أحمد حتفه
  8. 8. SAMPLE SYNTACTIC DATABASE Verb No Nominalization =: Vsup N0 nr V-n Prep N1 +hum No=: +Concret No=: Nnr Completive Sabbaba V-n Li N1 Sabbaba No Det V-n Li N1 'athara No V-n Fi N1 'athara No Det V-n Fi N1 'athara N1 (V-n N1) Xalaqa No Det V-n Li N1 Xalaqa No V-n Li N1 'adxala No Det V-n 'ala N1 'adxala No V-n 'ala N1 'ahdatha No Det V-n Li N1 'ahdatha No V-n Li N1 Harraka No Det V-n Fi N1 Harraka No V-n Fi N1 Ba'atha No Det V-n Fi N1 'a'ta No Det V-n Li N1 'adhfa No V-n 'ala N1 Jalaba No Det V-n Li N1 No=: 'an P No=: 'anna P No=: Kawn P No=: V-n W Sabbaba No (V-n N1)1 أطرب + + + + - + - - - - - - - - - - - - + - - + - + أطفأ - + + + + + + - + - - - - - - - - + - - - - - - أظلم - + + + + + - - - - - - + + - - - + + + + + - + أكل - + + + - + - - - - - - - - - - - - + - - - - - أكمل - + + + + + + - - - - - - - - - - + - - - + - + ألجم + + + + + + + - - - - - - - - - - + - - - + - - ألزم + + + + + + + - - - - - - - - - - - - + - + - - ألم + + + + + + + - + + + + + + + + - + + + + + - + ألهب + + + + + + + + + - + - + + + - - + + + + - - + ألهم - + + + - + - - - + - - - - - - + - + - + - - - أمات - + + + - + + - + - - - - - - - - - + - - + - + أنحل - + + + - + + - + - - - - - + + + + - - - + - + أنذر + + + + - + - - - - - - - - - - - - - - - + - - أنعش + + + + + + - - - - - - - - - + - + + + + + - + أنقد + + + + - + + - + - - - - - - - - - - - - - - - أنشي - + + + + + + + - + - + + + + - - + - + + + - + أنهك + + + + + + + - + - - - - - - - + + - - - - + - أنهض + + + + - + + - + + - - - - - - - - + - + - - - أصاب + + + + - + - - - - - - - - - - - + - - - - - - أصحى + + + + + + + - + + - + + - - - + + + - + - - + أصلح - + + + - + - - - - - - - - + + - + + - + + - - أضاء - + + + + + - - - + - - + + + + - - + - + + + + أضجر + + + + + + + + + - - - + - + + + + + + + + + + أضحك + + + + + + - - - + - + - - - - - - + - + - - + أضرم - + + + + + - - - + + + - - + - - + + - + - + + أضني + + + + + + + - + + - - + + - - + + + - + + + + أضعف - + + + + + - - - - - - + - + + - + + - + + + + أعاق + + + + + + - - - - - - + + - - - + - - - - - - أعجب + + + + + + - - - + + + + + + + - - + - + - + - أعدي + + + + + + + - - + - - + - - - - - + - + - - + أعلي + + + + - + - - - - - - - - - - - - + - + + - - أعمي - + + + + + + - + - - - + - - - - + - - + + - -
  9. 9. BASE DE DONNÉES: STRUCTURES FIGÉS 30,000 expressions idiomatiques Combinaison fixe entre les éléments de la structure syntaxique: Structure opaque Syntaxe locale Sous forme de graphes Réduction morphologique Réduction transformationnelle Sens métaphorique
  10. 10. DICTIONNAIRES ÉLECTRONIQUES Recueil électronique des données linguistique: Les noms non dérivés Les verbes Les Adverbes Noms déverbaux Les sons (Kacst) Lexicon grammar
  11. 11. APPLICATIONS Ontologie Contenu digital Traduction automatique Web Sémantique, OWL OCR Résumé automatique Enseignement =: teaching et évaluation Indexation Analyseurs automatiques Moteur de recherche sur le net
  12. 12. CONCLUSION Nous insistons sur le fait de prendre en considération les travaux linguistiques basés sur un cadre théorique formel. Nos bases de données linguistiques sont à la disposition des chercheurs désirant collaborer avec notre société en vue de développement des applications sur l’arabe Nos remercions l’équipe de chercheurs ayant travaillé sur les bases de données pendand des années.

×