Etiquetage morphosyntaxique de l’arabe avec Nooj

Dédicace
Je dédie ce travail avec mes sincères sentiments de reconnaissance, de gratitude et
d’amour à :
Ma mère pour les sacrifices dont elle a fait preuve à mon égard pour m’élever dignement et pour
s’assurer que je puisse avoir la meilleure éducation. J’espère ne jamais avoir à la décevoir.
Mon père, qui a toujours eu confiance en mon potentiel et qui m’a toujours encouragée dans
toutes mes décisions. J’espère être à la hauteur de ses attentes.
Mes sœurs Hajer et Wiem, qui m’ont toujours soutenue et qui ont toujours été mes concurrentes,
me poussant toujours à m’acharner sur mon travail.
Nafaa qui m’a poussé et motivé tout le long de mon PFE. Sans ton aide, tes conseils et tes
encouragements ce travail n’aurait vu le jour.
Mes meilleures amies et sœurs Soumaya et Yasmine, qui ont fait de moi la personne que je suis
aujourd’hui. Je leur souhaite tout le bonheur du monde.
Mes amis Sahnoun, Khouloud, Wael, et Asma qui malgré la courte période pendant laquelle j’ai
fait votre connaissance, vous m’avez enchanté et rendu cette année universitaire merveilleuse.
Zelaiti Chaima

Dédicace
Je dédie ce modeste travail à :
Mon chère père ‫رضا‬, vous êtes pour moi le symbole de la bonté par excellence, la source de
tendresse, rien au monde ne vaut les efforts fournis jour et nuit pour mon éducation et mon bien
être.
Ma très chère mère ‫وحيدة‬, vous êtes la lumière de mes jours, la source de mes efforts, la flamme de
mon cœur, ma vie et mon bonheur.
A mon très cher frère Rochdi, son épouse Hajer Et leurs fils Hamdi et Haroun, mon ange gardien
et mon fidèle guide dans les moments les plus délicats de cette vie mystérieuse.
Ma précieuse sœur sawsen , les mots ne peuvent résumer ma reconnaissance et mon amour à ton
égard.
Mon frère Zied, ton compréhension et ton encouragement sont pour moi le
Soutien indispensable que tu as toujours su m’apporter.
A mon très cher oncles Moncef et Jamel, Vous êtes toujours présents pour me conseiller. Vos
affections et vos soutiens m’ont été d’un grand secours le long de ma vie professionnelle et
personnelle.
A mes chers amis Nafaa, Iyadh, Sahnoun, Asma, qui m’ont énormément aidée et à qui je témoigne
mon affection et ma profonde reconnaissance.
Dhifallah Othmen

Remerciements
En préambule à ce rapport, nous souhaiterons adresser nos remerciements les plus sincères aux
personnes qui nous ont apporté leur aide et qui ont contribué à l'élaboration de ce travail ainsi
qu’à la réussite de cette formidable année universitaire.
Nous tenons à exprimer notre profonde gratitude envers Monsieur Zrigui Mounir, qui, en tant
qu’encadrant, s'est toujours montré à l'écoute et très disponible tout au long de la réalisation de
ce PFE, ainsi pour l'inspiration, l'aide et le temps qu'il a bien voulu nous consacrer.
Nos remerciements s’adressent également à Monsieur Ayadi Rami notre Co-encadrant, pour la
patience dont il a fait preuve pour notre égard et l’aide précieuse qu’il nous a attribué tout au
long de ce semestre.
Nous présentons en outre nos remerciements anticipés aux membres du jury qui nous ont fait
l’honneur d’accepter d’évaluer notre travail.
Nos sincères remerciements s’adressent également à tous les enseignants du département
informatique de la faculté des Sciences de Monastir pour avoir mis autant d’énergie pour nous
assurer une formation de qualité.

Table des matières
Introduction générale ...................................................................................................................... 1
Partie I : Etat de l’art....................................................................................................................... 2
Chapitre I : Traitement automatique du langage et langue arabe ................................................... 2
1. Introduction ............................................................................................................................. 2
2. Particularités de la langue arabe .............................................................................................. 2
3. L’alphabet arabe ...................................................................................................................... 4
4. Morphologie de l’arabe ........................................................................................................... 4
4.1 Structure d’un mot............................................................................................................ 5
4.2 Catégorie d’un mot........................................................................................................... 6
4.2.1 Le verbe .................................................................................................................... 6
4.2.2 Les noms ................................................................................................................... 7
4.2.3 Les particules ............................................................................................................ 8
5. Conclusion............................................................................................................................. 11
Chapitre II : L’étiquetage morphosyntaxique de la langue arabe................................................. 13
1. Introduction ........................................................................................................................... 13
2. Méthodes d’étiquetage........................................................................................................... 13
2.1. Les étiqueteurs symboliques....................................................................................... 13
2.2. Les étiqueteurs avec apprentissage automatique........................................................ 14
2.2.1. Etiquetage non supervisé ........................................................................................ 14
2.2.2. Etiquetage supervisé ............................................................................................... 14
3. L’étiquetage de la langue arabe............................................................................................. 16
3.1. L’ambiguïté.................................................................................................................... 16
3.2. Les mots inconnus.......................................................................................................... 17

3.3. Absence de voyelle......................................................................................................... 17
3.4. L’ordre du mot dans la phrase........................................................................................ 18
Partie II : L’étiquetage morphosyntaxique ................................................................................... 19
Chapitre III : L’étiquetage morphosyntaxique de l’arabe avec NooJ........................................... 19
1. Introduction ........................................................................................................................... 19
2. L’outil NooJ........................................................................................................................... 19
2.1 NooJ : Une plateforme de développement linguistique ................................................. 19
1.2 Les principales caractéristiques de NooJ ....................................................................... 20
1.2.1 Architecture intégrée............................................................................................... 20
1.2.2 Architecture orientée objet...................................................................................... 20
1.2.3 Développement des ressources linguistiques à large couverture............................ 20
1.2.4 Moteur linguistique robuste.................................................................................... 21
1.2.5 Traitement de corpus............................................................................................... 21
1.3 Technologie utilisée ....................................................................................................... 21
1.4 Domaine d’utilisation..................................................................................................... 21
1.5 Les utilisateurs de NooJ ................................................................................................. 22
3. Installation et utilisation de NooJ .......................................................................................... 22
3.1 Installation de NooJ........................................................................................................ 22
3.2 Utilisation de NooJ......................................................................................................... 25
3.3 Résultats obtenus............................................................................................................ 27
Chapitre IV : Modélisation de l’ambiguïté ................................................................................... 28
1. Introduction ........................................................................................................................... 28
2. Problèmes .............................................................................................................................. 28
3. Solutions proposées............................................................................................................... 29
3.1. Modèle de langage probabiliste...................................................................................... 31

3.1.1. Principe ................................................................................................................... 31
3.1.2. Interprétation des résultats obtenus......................................................................... 31
Conclusion générale........................................................................................................................ 1
Bibliographie................................................................................................................................... 1
Webographie................................................................................................................................... 1

Liste des tableaux
Tableau 1 : Interprétation du mot "‫"كتب‬.......................................................................................... 3
Tableau 2 : Les variations de la lettre "‫"ع‬....................................................................................... 3
Tableau 3 : Classification des consonnes arabes ............................................................................ 4
Tableau 4 : Exemples des schèmes appliqués au mot ‫عمل‬.............................................................. 4
Tableau 5 : Structure d'un mot........................................................................................................ 5
Tableau 6 : Liste des préfixes arabe................................................................................................ 8
Tableau 7 : Liste des suffixes les plus fréquents en arabe .............................................................. 9
Tableau 8 : Exemples d'enclitiques............................................................................................... 10
Tableau 9 : Exemple de groupe de pré-base................................................................................. 10
Tableau 10: Exemple de groupe de post-bases............................................................................. 11
Tableau 11 : Différentes catégories de mot voyellé « ‫كتب‬ »......................................................... 18
Tableau 12 : Exemple d'application des n-grammes .................................................................... 30
Liste des figures
Figure 1 : Chargement du module ................................................................................................ 23
Figure 2 : Ressources fournies par NooJ ...................................................................................... 24
Figure 3 : Chargement des dictionnaires ...................................................................................... 24
Figure 4 : Chargement de la grammaire syntaxique ..................................................................... 24
Figure 5 : Import du texte ............................................................................................................. 25
Figure 6 : Lancement de l'analyse................................................................................................. 25
Figure 7 : Annotation d'un texte par NooJ.................................................................................... 26
Figure 8 : Analyse du mot "‫"ذهبت‬ ................................................................................................. 28
Figure 9 : Analyse du mot " "‫الطالبة‬ ................................................................................................ 29
Figure 10 : Analyse du mot "‫كبير‬ "................................................................................................ 29
Figure 11 : Résultat du traitement -1-........................................................................................... 30
Figure 12 : Calcul de probabilité .................................................................................................. 31

1
Introduction générale
La linguistique informatique est un champ de recherches et de pratiques technologiques qui
s'enracine à la fois dans l'informatique et dans la linguistique, tout en faisant parfois appel à
d'autres disciplines.
Avec l'évolution rapide des technologies informatiques, le besoin s'est rapidement fait sentir de
s'appuyer sur les techniques linguistiques pour faciliter la communication homme-machine.
Parallèlement, la linguistique a pu profiter de la puissance des ordinateurs pour acquérir une
nouvelle dimension et ouvrir la voie à de nouveaux domaines de recherche.
Ce projet s’inscrit dans le cadre du traitement automatique du langage, une branche de la
linguistique informatique qui concerne la conception et le développement des programmes et des
techniques informatiques permettant le traitement automatique des données exprimées dans un
langage naturel.
Notre travail porte en particulier sur la langue arabe. Bien que ce soit une des langues les plus
parlées dans le monde, et qu’aujourd’hui plusieurs ressources sont disponibles pour les
chercheurs, les traitements et l’exploitation de ces ressources restent médiocres et présentent un
défi pour les chercheurs.
De ce fait et vu que l’étiquetage présente une étape primordiale pour la compréhension et le
traitement automatique de l’arabe, nous allons essayer de créer un corpus étiqueté, portant sur
divers domaines.
Ainsi nous articulons notre rapport autour de quatre chapitres :
Le premier met l’accent sur la langue arabe et les difficultés rencontrées lors de son traitement
automatique.
Le deuxième va présenter l’étiquetage morphosyntaxique et en particulier l’étiquetage de l’arabe.
Le troisième précise l’environnement et l’outil de travail utilisés.
Et enfin, le dernier décrit les traitements effectués pour l’obtention de notre corpus étiqueté.

2
Partie I : Etat de l’art
Chapitre I : Traitement automatique du langage
et langue arabe
1. Introduction
Malgré des nombreuses recherches effectuées dessus, la langue arabe est encore considérée comme
une langue difficile à maitriser dans le domaine du traitement automatique de la langue à cause de
sa richesse morphologique.
Et vu que l’arabe est une des langues les plus parlées dans le monde, et avec l’évolution de
l’informatique, la nécessité a poussé les chercheurs à aborder des problématiques variées comme
la morphologie, la traduction automatique, l’indexation des documents arabes, etc…
Au cours de ce chapitre nous présenterons les particularités de la langue arabe ainsi que certaines
de ses propriétés morphologiques et syntaxiques. [2]
2. Particularités de la langue arabe
Contrairement aux autres langues, l’arabe se lit et s’écrit de droite à gauche. En outre, l’utilisation
des voyelles en arabe est facultative. Ces dernières sont utiles à la lecture et à la compréhension
correcte d’un texte, car elles permettent de distinguer des mots ayant la même représentation
graphique. Notamment, elles sont utiles, pour effectuer la correcte interprétation grammaticale
d’un mot indépendamment de sa position dans la phrase. [2]
Le tableau suivant donne un exemple pour les mots s’écrivant ‫كتب‬ sous la forme non-voyellée.
Mot sans voyelles Interprétation 1 Interprétation 2 Interprétation 3
‫كتب‬ ‫ب‬َ‫ت‬َ‫ك‬ «il a écrit» ََ‫ب‬ِ‫ت‬ُ‫ك‬ َ‫ُب‬‫ت‬ُ‫ك‬

3
« il a été écrit » « des livres »
Tableau 1 : Interprétation du mot "‫"كتب‬
En général les voyelles ne sont utilisées que pour textes sacrés et didactiques (comme les textes du
Coran), la presse, la littérature et la plupart des textes écrits contemporains ne contiennent pas de
voyelles. De plus, même pour des textes non voyelles, il existe des variations d’usage au niveau
des diacritiques. Par exemple, Par exemple, ‫أ‬ ou ‫,إ‬ qui correspondent à des réalisations différents
de la lettre ‫,ا‬ et qui sont en principe sont souvent écrites ‫ا‬ sans les diacritiques. Il est de même pour
les lettres ‫ي‬ et ‫ة‬ qui s’écrivent parfois ‫ى‬ et ‫,ه‬ ce qui est une grande source l’ambiguïté dans
l’interprétation des mots.
Les voyelles jouent donc un rôle analogue à celui des accents en français, comme par exemple
pour le mot « peche » qui peut être interprété comme pêche, pèche ou péché.
Mais, ces ambiguïtés sont démultipliées en arabe, car chaque lettre de chaque mot devrait posséder
sa voyelle, ce qui augmente les combinaisons possibles.
Signalons une dernière difficulté concernant le système d’écriture, les lettres
Arabes changent de forme de présentation selon leur position, au début, au milieu ou à la fin du
mot.
Le tableau suivant montre par exemple les variations de la lettre ‫.ع‬ Toutes les lettres sont liées
entre elles sauf (‫ذ‬ ‫د‬ ‫ز‬ ‫ر‬ ‫و‬ ‫)ا‬ qui ne se joignent pas à gauche. [2]
Lettre A la fin Au milieu Au début
‫ع‬ ‫ـع‬ ‫ـعـ‬ ‫َـ‬‫ع‬
Tableau 2 : Les variations de la lettre "‫"ع‬
Mais ces variations n’affectent pas le traitement automatique, car elles ne touchent que les glyphes
(représentations graphiques définies lors du rendu) et pas les caractères eux même dans le codage
informatique des textes.

4
3. L’alphabet arabe
L’alphabet de la langue arabe compte 28 consonnes appelées « Huruf al_Hija » et se compose de
deux familles contenant le même nombre de consonnes :
 Familles Solaires : contient 14 consonnes.
 Familles Lunaires : contient 14 consonnes.
Familles Solaires Familles Lunaires
‫ت‬َ‫ث‬َ‫د‬َ‫ذ‬َ‫ر‬َ‫ز‬َ‫س‬َ‫ش‬َ‫ص‬َ‫ض‬َ‫ط‬َ‫ظ‬َ‫ل‬ ‫أ‬َ‫ب‬َ‫ج‬َ‫ح‬َ‫خ‬َ‫ع‬َ‫غ‬َ‫ف‬َ‫ق‬َ‫آ‬َ‫ه‬َ‫م‬َ‫و‬َ‫ي‬
Tableau 3 : Classification des consonnes arabes
4. Morphologie de l’arabe
La langue arabe se compose principalement de trois catégorie principales de mots : les verbes, les
mots, et les particules, qui eux-mêmes se subdivisent en différentes sous catégories (préposition,
conjonction, pronom, article, interjection et adverbe). Les verbes et les noms sont souvent dérivés
d’une racine à trois ou quatre consonnes radicales.
Une famille de mots se référant à une même représentation sémantique, peut être générée à partir
d’une seule racine, à l’aide de différents schèmes. Ce phénomène est caractéristique de la
morphologie arabe. On déduit le lexique arabe selon des schèmes qui se traduisent par des
adjonctions et des manipulations de la racine. [2]
Le tableau suivant donne quelques exemples des schèmes appliqués au verbe ‫عمل‬ :
Schème Mot
‫عل‬َ‫ف‬ ‫مل‬َ‫ع‬
‫اعل‬َ‫ف‬ ‫امل‬َ‫ع‬
ََ‫ل‬َ‫ع‬َ‫ف‬ ََ‫ل‬َ‫م‬َ‫ع‬
‫فعل‬َ‫م‬ ‫عمل‬َ‫م‬
ََ‫ل‬‫ع‬ُ‫ف‬ ََ‫ل‬ِ‫ُم‬‫ع‬
‫فعول‬َ‫م‬ ‫عمول‬َ‫م‬
Tableau 4 : Exemples des schèmes appliqués au mot ‫عمل‬

5
Au total, l’arabe utilise environ 150 schèmes dont certains plus complexes, tel le redoublement
d’une consonne ou l’allongement d’une consonne de la racine (voyelles longues).
Une autre propriété syntaxique est le caractère flexionnel des éléments : les déclinaisons, qui
s’attachent au début ou à la fin de radical permettent par exemple de distinguer le mode du verbe
ou la nominalisation.
4.1 Structure d’un mot
Les mots peuvent avoir une structure composée, résultat d’une agglutination de morphèmes
lexicaux et grammaticaux. En arabe un mot peut représenter toute une proposition. La
représentation suivante schématise une structure possible de mot complexe. Notons bien que la
lecture se fait de droite à gauche.
Enclitique Suffixe Corps schématique Préfixe Proclitique
Tableau 5 : Structure d'un mot
 Les proclitiques sont des prépositions ou des conjonctions.
 Les préfixes et suffixes expriment des traits grammaticaux, tels que les fonctions de noms,
le mode du verbe, le nombre, le genre, la personne…
 Les enclitiques sont des pronoms personnels.
 Le corps schématique représente la base de mot.
Exemple : ‫أتقصدوننا‬
La segmentation correcte de ce mot se fait sous la forme suivante :
 Proclitique :ََ‫أ‬َ conjonction d’interrogation.
 Préfixe : ‫ت‬ préfixe verbal exprimant l’aspect inaccompli.
 Corps schématique : ‫قصد‬ dérivé de la racine (‫)قَصَد‬ selon le schème ََ‫ل‬َ‫ع‬َ‫ف‬
 Suffixe : ‫ون‬ suffixe verbal exprimant le pluriel.
 Enclitique : ‫نا‬ pronom suffixe.

6
Cet exemple montre bien la richesse morphologique de la langue arabe. Pour identifier les
différentes formes soudées par ces phénomènes d’agglutination, et envisager un traitement
automatique, il va donc falloir mettre en œuvre une phase spécifique de segmentation.
4.2 Catégorie d’un mot
La langue arabe comporte trois catégories de mots :
 Le verbe : entité qui exprime un sens dépendant du temps, c’est un élément fondamental
auquel se rattachent directement ou indirectement les divers mots qui constituent
l’ensemble.
 Le nom : l’élément désignant un être ou un objet qui exprime un sens indépendant du temps.
 Les particules : entités qui servent à situer les événements et les objets par rapport au temps.
4.2.1 Le verbe
En arabe, la majorité des mots dérivent d’un verbe de 3 consonnes qui représente une racine d’un
groupe de mots. Comme en français, le mot en arabe se détermine à partir d’un radical en rajoutant
des préfixes, des suffixes ou les deux en même temps. Comme les autres langues, la conjugaison
de verbe en arabe dépend de facteurs suivants :
 L’aspect : accompli (passé) ou inaccompli (présent).
 Le nombre du sujet : singulier, pluriel ou duel.
 Le genre du sujet : masculin ou féminin.
 La personne : première, deuxième ou troisième.
 La voix : active ou passive.
La langue arabe possède trois temps :
 L’accompli : indique le passé et les verbes conjugués se distinguent par des suffixes. Pour
notre exemple, avec le féminin pluriel, on obtient ََ‫تحن‬َ‫ف‬ «elles ont ouvert » ; pour le masculin
pluriel, on obtient ‫تحو‬َ‫ف‬‫ا‬ « ils ont ouvert».

7
 L’inaccompli présent : les verbes conjugués à ce temps se distinguent par les préfixes. Pour
notre exemple, au masculin singulier on obtient ‫فتح‬َ‫ي‬ « il ouvre » ; et pour le féminin
singulier on obtient ‫فتح‬َ‫ت‬ « elle ouvre ».
 L’inaccompli futur : la conjugaison d’un verbe au futur nécessite d’ajouter l’antéposition
au début du verbe conjugué à l’inaccompli. En ajoutant l’antéposition à notre exemple ‫س‬
on obtient ‫يفتح‬َ‫س‬ « il ouvrira », qui désigne le futur ; on peut également ajouter
l’antéposition ‫وف‬َ‫س‬ on obtient ‫فتح‬َ‫ي‬ ‫وف‬َ‫س‬ « il va ouvrir ».
4.2.2 Les noms
En arabe les noms sont divisés en deux familles, ceux qui sont dérivés à partir d’une racine
(verbale) et les autres comme les noms étrangers et certains noms fixes. La première famille est
composée des tous les noms qui sont dérivés à partir d’une racine verbale. La variabilité des noms
obéit à plusieurs règles, en ajoutant des morphèmes spécifiques :
 Le féminin singulier : pour obtenir le nom féminin singulier, dans la majorité des cas on
ajoute le lettre ‫ة‬ (exemple : ‫فل‬ِ‫ط‬ « enfant » devient ‫فلة‬ِ‫ط‬ « fille»).
 Le féminin pluriel externe : pour obtenir le nom féminin pluriel on ajoute les deux lettres
‫ات‬ (exemple : ‫َاتب‬‫ك‬ devient (‫َاتبات‬‫ك‬))
 Le masculin pluriel externe : on ajoute les deux lettres َ‫ين‬ ou ‫ون‬ qui dépendent de la position
du nom dans la phrase (avant ou après le verbe). Exemple : ‫م‬‫معل‬ «Enseignant » se transforme
en ‫مين‬‫معل‬ ou ‫مون‬‫معل‬ « enseignants ».
 Le pluriel masculin, féminin et interne : c’est le cas le plus complexe en arabe, la
construction de ces types des noms s’obtient en insérant des lettres au début, au milieu ou
à la fin (exemple : ‫فل‬ِ‫ط‬ « enfant » se transforme en ‫طفال‬َ‫أ‬ « enfants » et ‫صل‬َ‫ف‬ « saison » se
transforme en ‫صول‬ُ‫ف‬ « saisons »).
Comme en français, les noms en arabe assument des fonctions diverses :

8
 Agent : celui qui fait l’action.
 Objet : celui qui subit l’action.
 Instrument : signifiant l’instrument de l’action.
 Lieu : qui désigne en général un endroit (exemple : ‫ل‬ ِ‫منز‬ « maison »).
 Nom d’action : désigne l’action
 etc…
Notons que, la morphologie des noms arabes dépend de ces fonctions.
4.2.3 Les particules
En général, les particules sont les mots outils pour une langue donnée. Ils représentent en
particulier les mots qui expriment des faits ou des choses par rapport au temps ou au lieu. Par
exemple :
 Particules temporelles : َُ‫ذ‬‫من‬ (pendant), ‫بل‬َ‫ق‬ (avant), ‫عد‬َ‫ب‬ (après),…
 Particules spatiales : ‫َيث‬‫ح‬ (où)
Les particules peuvent aussi exprimer des pronoms relatifs (la détermination, avec une valeur
référentielle) : ‫ذي‬ً‫ل‬‫ا‬ (ce), ‫ا‬‫ذين‬ً‫ل‬ (ceux), ‫تي‬ً‫ل‬‫ا‬ (cette),…
Le problème, c’est que certaines particules peuvent également porter des préfixes et suffixes, ce
qui complique la phase de segmentation pour les identifier.
4.2.3.1 Les préfixes
Les préfixes sont représentés par un morphème correspondant à une seule lettre en début de mot,
qui indique la personne de la conjugaison des verbes au présent. Les préfixes ne se combinent pas
entre eux. Le tableau suivant présente la liste des préfixes verbaux en arabe
‫أ‬ Indique la première personne au singulier (je)
ََ‫ن‬ Indique la première personne au pluriel (nous)
ََ‫ت‬ Indique la deuxième personne féminine, masculine, singulière etَduelle
ََ‫ي‬ Indique la troisième personne masculine au singulier, duel, pluriel,َ
masculin et féminin pluriel
Tableau 6 : Liste des préfixes arabe

9
4.2.3.2 Les suffixes
Les suffixes en arabe sont utilisés pour des terminaisons des conjugaisons verbales, ainsi que les
marques du pluriel et du féminin pour les noms
L=1 L=2 L=3 L=4 L=5
‫ت‬ ‫َه‬‫ت‬ ‫َها‬‫ت‬ ‫َهما‬‫ت‬ ‫َهنا‬‫ن‬‫و‬
‫و‬ ‫ي‬ِ‫ت‬ ‫َهم‬‫ت‬ ‫ا‬َ‫م‬‫وه‬ ‫تاهما‬
‫ن‬ ‫َك‬‫ت‬ ‫َهن‬‫ت‬ ‫ا‬َ‫م‬‫نه‬ ‫َهما‬‫ت‬‫ا‬
‫ا‬ ‫هو‬ ‫َكم‬‫ت‬ ‫ا‬َ‫م‬‫اه‬ ‫َهما‬‫ن‬‫ي‬
‫ي‬ ‫كو‬ ‫َكن‬‫ت‬ ‫ا‬َ‫م‬‫يه‬ ‫َاهما‬‫ن‬
‫ة‬ ‫َه‬‫ن‬ ‫تون‬ ‫َهم‬‫ن‬‫و‬ ‫َنهما‬‫ت‬
‫ه‬ ‫َك‬‫ن‬ ‫َنا‬‫ت‬ ‫َهن‬‫ن‬‫و‬ ‫َهما‬‫ن‬‫ا‬
‫ك‬ ‫آه‬ ‫َا‬‫ه‬‫و‬ ‫َكم‬‫ن‬‫و‬ ‫َموها‬‫ت‬
‫آك‬ ‫َم‬‫ه‬‫و‬ ‫َكن‬‫ن‬‫و‬ ‫َموهم‬‫ت‬
‫نو‬ ‫َن‬‫ه‬‫و‬ ‫َنو‬‫ن‬‫و‬ ‫َمونا‬‫ت‬
‫َا‬‫ت‬ ََ‫وكن‬ ‫َنا‬‫ن‬‫و‬ ‫َماها‬‫ت‬
‫آت‬ ََ‫وكم‬ ‫تاها‬ ‫َماهم‬‫ت‬
‫وون‬ ‫َماهن‬‫ت‬
Tableau 7 : Liste des suffixes les plus fréquents en arabe
4.2.3.3 Les proclitiques
En combinant les proclitiques, on obtient plus d’informations sur le mot arabe (traits sémantiques,
coordination, détermination...). En effet les proclitiques dépendent exclusivement de l’aspect
verbal. Ils prennent donc tous les pronoms et par conséquent ils sont compatibles avec tous les
préfixes.
Et voici quelques exemples de proclitique arabe :
 La coordination par les coordonnants : ‫ف‬ et ‫و‬
 L’interrogation : َ‫أ‬
 La marque du futur : ‫س‬

10
 L’article : َ‫ال‬
 Les prépositions par les lettres : ‫ـ‬ِ‫ب‬ et ‫ـ‬ِ‫ل‬
4.2.3.4 Les enclitiques
Comme les proclitiques, les enclitiques se combinent entre eux pour donner une post-base
composée.
Ils s’attachent toujours à la fin du mot pour produire des pronoms suffixes qui s’attachent aux
verbes, aux noms et aux prépositions.
Mot Enclitique
َْ‫م‬‫ه‬َ‫ج‬َ‫ر‬ْ‫أح‬ َ‫هم‬
َِ‫ن‬َ‫ج‬َ‫ر‬ْ‫أح‬‫ى‬ ‫ى‬
‫ما‬ُ‫ه‬ُ‫ج‬َ‫ر‬ْ‫أح‬ ‫ُما‬‫ه‬
Tableau 8 : Exemples d'enclitiques
4.2.3.5 Les pré-bases
Les pré-bases sont obtenues par combinaison entre le(s) proclitique(s) et le préfixe. La génération
des pré-bases se fait d’une manière automatique.
Pré-base Préfixe Proclitique
ََ‫ت‬َ‫أ‬ ََ‫ت‬ ‫أ‬
ََ‫ت‬َ‫س‬ ََ‫ت‬ ََ‫س‬
ََ‫ت‬َ‫ف‬‫أ‬ ََ‫ت‬ ََ‫أف‬
ََ‫ت‬َ‫س‬‫أ‬ ََ‫ت‬ ََ‫س‬َ‫أ‬
ََ‫ت‬َ‫س‬‫و‬ ََ‫ت‬ ََ‫س‬ َ‫و‬
ََ‫ت‬َ‫س‬َ‫ف‬ ََ‫ت‬ ََ‫س‬َ‫ف‬
‫ست‬َ‫ف‬‫أ‬ ََ‫ت‬ ََ‫س‬َ‫ف‬َ‫أ‬
Tableau 9 : Exemple de groupe de pré-base

11
4.2.3.6 Les post-bases
En arabe, les post-bases sont obtenues par combinaison entre le suffixe et le(s)
enclitique(s). Les compatibilités dépendent des pronoms décrits par chacune des particules
 Les suffixes de la première personne se combinent très souvent avec les enclitiques de la
deuxième et la troisième personne.
 Les suffixes de la deuxième personne se combinent très souvent avec les enclitiques de la
première et la troisième personne.
 Les suffixes de la troisième personne se combinent très souvent avec les enclitiques de la
première, la deuxième personne et la troisième personne.
Enfin, il existe en arabe des suffixes qui jouent le rôle de caractère terminal du mot. En effet ces
types des suffixes ne se combinent avec aucun enclitique(s).
Le tableau suivant présente un exemple de groupe de post-bases :
Post-base Enclitique Suffixe
ََ‫وك‬ ‫ك‬ ‫و‬
‫ُم‬‫ه‬‫و‬ ‫ُم‬‫ه‬ ‫و‬
‫َنا‬‫ن‬‫و‬ ‫َا‬‫ن‬ ََ‫ون‬
‫َني‬‫ن‬‫و‬ ‫ي‬ِ‫ن‬ ََ‫ون‬
‫َكم‬‫ن‬‫أ‬ ‫م‬ُ‫ك‬ ََ‫أن‬
‫َهم‬‫ن‬‫أ‬ ‫ُم‬‫ه‬ ََ‫ن‬َ‫أ‬
‫َموه‬‫ت‬ ‫ه‬ ‫َمو‬‫ت‬
Tableau 10: Exemple de groupe de post-bases
5. Conclusion
Ce chapitre nous a permis de mettre l’accent sur la morphologie arabe, sa richesse et sa complexité.

12
Les problèmes d’ambiguïté liés au système d’écriture non-voyellé, ainsi que les difficultés de
segmentation lexicale liées à l’agglutination, font que l’arabe reste une langue particulièrement
difficile à traiter, surtout sur le plan de l’écrit.
Dans le chapitre suivant, nous allons détailler les différents problèmes posés par le traitement de
la langue arabe.

13
Chapitre II : L’étiquetage morphosyntaxique de
la langue arabe
1. Introduction
L’étiquetage morphosyntaxique est l’opération qui consiste à ajouter aux mots des informations
linguistiques d’ordre morphologique ou syntaxique pour les identifier dans leurs contextes. C’est
une étape fondamentale pour l’analyse d’un texte, et un préliminaire à tout traitement de plus haut
niveau.
Tout travail d’étiquetage cache derrière sa définition théorique un processus plus complexe que
nous ne pouvons aborder automatiquement que jusqu’à un certain niveau. Selon [LAPORTE E.,
200] l’analyse morphosyntaxique est l’ensemble des techniques qui concourent à passer d’un texte
brut, exempt d’information linguistique, à une séquence de mots étiquetés par des informations
linguistiques morphologiques et syntaxiques.[1]
L’étiquetage de l’arabe, à cause de sa morphologie, s’avère être un tâche non triviale et des
problèmes d’ambigüité peuvent se poser. Plusieurs méthodes d’étiquetage ont été mise en place
pour essayer de résoudre ces problèmes.
2. Méthodes d’étiquetage
Les différentes méthodes utilisent toutes les mêmes informations pour étiqueter un mot dans un
texte : son contexte et sa morphologie. Ce qui diffère, c’est la façon de représenter ces éléments et
de hiérarchiser ces informations.
Deux grandes familles d’étiqueteur existent. Les étiqueteurs symboliques et ceux avec
apprentissage automatique.
2.1. Les étiqueteurs symboliques
Ils appliquent des règles qui leur ont été fournies par des experts humains. Dans ce type
d’étiqueteur, il y a très peu d’automatisation ; c’est le concepteur qui manipule toutes les règles

14
d’étiquetage et qui fournit au besoin une liste des morphèmes, La conception n’est pas automatisée
mais l’étiqueteur, une fois ses règles élaborées, fournit un étiquetage automatique. Ils utilisent
généralement une information contextuelle pour affecter des tags aux mots inconnus ou ambigus
La conception d’un tel étiqueteur est longue et coûteuse. De plus, les étiqueteurs ainsi conçus ne
sont pas facilement portables, c’est-à-dire qu’ils ne sont efficaces que pour une langue donnée et
un domaine donné.
2.2. Les étiqueteurs avec apprentissage automatique
Parmi les étiqueteurs de ce type, il existe deux grandes familles : les étiqueteurs supervisés qui
apprennent à partir de corpus pré-étiquetés, et les étiqueteurs non supervisés qui apprennent à partir
de corpus bruts sans information additionnelle. Qu’ils soient supervisés ou non, les étiqueteurs
avec apprentissage peuvent être regroupés en trois familles : système à base de règles, statistiques
ou neuronal.
2.2.1. Etiquetage non supervisé
Au contraire des étiqueteurs supervisés, les étiqueteurs non supervisés ne nécessitent pas de corpus
préalablement étiqueté pour la phase d’entraînement. Ils utilisent une analyse distributionnelle afin
de regrouper automatiquement les mots en groupes ou classes de mots, c’est-à-dire qu’à partir d’un
corpus analysé syntaxiquement on peut rapprocher des couples d’unités sur la base de contextes
syntaxiques identiques et induire de cette façon des classes sémantiques de mots.
2.2.2. Etiquetage supervisé
Les étiqueteurs supervisés sont entraînés sur des corpus préalablement étiquetés, ce qui permet de
préparer toutes les données nécessaires pour l’étiquetage. Ces données sont créées à partir de
dictionnaires permettant d’attribuer à chaque mot un ensemble de critères : catégorie ; lemme ;
fréquence moyenne d’apparition du mot ; parfois des statistiques sur les étiquettes du mot en
contexte ; et des règles pour faciliter l’analyse du mot par la suite.
Ces étiqueteurs ont tendance à donner de meilleurs résultats lorsqu’ils sont utilisés pour étiqueter
le même type de texte que ceux sur lesquels ils ont été entraînés.
2.2.2.1. Etiquetage à base de règles
Ils utilisent typiquement une information contextuelle pour affecter les tags à des mots inconnus
ou ambigus. Par exemple, une règle contextuelle peut dire qu’un mot X ambigu ou inconnu

15
précédé d’un nom est un verbe. Cette règle servira à désambiguïser un mot en arabe comme « ‫ذهب‬
» qui peut être un nom « de l’or » ou un verbe « aller ».
En outre, plusieurs étiqueteurs utilisent l’information morphologique et grammaticale pour
résoudre l’ambiguïté provoquée par des mots inconnus. Par exemple, une règle qui tient compte
de la morphologie peut spécifier qu’un mot ambigu ou inconnu qui se termine par «‫ُم‬‫ه‬» et qui est
précédé par un verbe est un nom.
Quelques systèmes vont au-delà de l’information contextuelle et morphologique en incluant des
règles prenant en compte des facteurs comme la ponctuation ou l’emploi des majuscules.
2.2.2.2. Etiquetage probabiliste
Les méthodes probabilistes se sont révélées particulièrement efficaces pour résoudre les problèmes
apparaissant aux différents niveaux de la reconnaissance de parole
Ce succès a entraîné le développement de ces méthodes vers de nombreuses autres applications,
telles l’étiquetage grammatical, le rattachement prépositionnel, la classification de mots pour aller
jusqu’à des applications aussi complexes que la traduction automatique.
Il est bien connu qu’une grande partie des difficultés rencontrées dans le traitement de la langue
naturelle concernent la résolution des ambiguïtés. Le grand intérêt des méthodes probabilistes est
d’en fournir une solution simple et immédiate. Chaque solution potentielle se voit alors associée
une probabilité que l’on peut interpréter comme une fréquence d’apparition de cette solution.
Résoudre l’ambiguïté revient alors simplement à choisir l’hypothèse de plus forte probabilité.
Pour une phrase M, on veut donc construire une suite de classes grammaticales C :
𝑀 = 𝑚1 𝑚2 … . 𝑚 𝑛
𝐶 = 𝐶1 𝐶2 … 𝐶 𝑛
Le principe de l’étiquetage probabiliste est de définir un modèle probabiliste permettant de
calculer la probabilité d’une suite de mots-classe : P (M, C). Lorsqu’on veut étiqueter un
nouveau texte M’, on utilise ce modèle pour trouver la suite de classes C’ qui maximise la
probabilité P (M’, C’). [7]

16
3. L’étiquetage de la langue arabe
« L’étiquetage morphosyntaxique automatique est processus qui s’effectue généralement en trois
étapes :
 La segmentation du texte en unités lexicales.
 L’étiquetage qui consiste à attribuer pour chaque unité lexicale l’ensemble des étiquettes
morphosyntaxiques possibles.
 La désambiguïsation qui permet d'attribuer, pour chacune des unités lexicales et en
fonction de son contexte, l'étiquette morphosyntaxique pertinente. »1
Lors de l’étiquetage de l’arabe, plusieurs problèmes se posent.
3.1. L’ambiguïté
L'ambiguïté est un problème central de l'analyse morphosyntaxique de l'arabe. Les analyseurs se
trouvent fréquemment confrontés à des situations d'ambiguïtés à tous les niveaux de l'analyse que
ce soit au niveau lexical, syntaxique ou sémantique. Outre la richesse des constructions
syntaxiques et leurs interprétations multiples auxquelles les analyseurs sont confrontés, cette
ambiguïté est due, essentiellement, à l'ambiguïté des segmentations en unités lexicales et à
l'homographie poly catégorielle.
En effet, beaucoup de mots en arabe sont homographiques : Ils ont la même forme orthographique
bien que la prononciation soit différente. De cette homographie lorsqu’elle est majorée par d’autres
phénomènes (absence de voyellation, morphologie flexionnelle et agglutinante, etc.. ) déroule un
taux d’ambigüité assez élevé.
Les mots peuvent être ambigus d’abord aux niveaux lexical ou grammatical. Le mot «‫ذهب‬ » est
ambigu lexicalement. Il peut désigner « l’or » en français ou encore le verbe « aller ».
« ‫َتب‬‫ك‬ » quant à lui, est ambigu grammaticalement. Il peut appartenir à plusieurs catégories
grammaticales différentes : verbe ou nom. Le sens de ce mot sera très différent selon sa catégorie :
nom = « écrivain », verbe = « écrit ». Il existe aussi des ambiguïtés qui relèvent du niveau
syntaxique. Une même phrase peut avoir plusieurs sens possibles en fonction de ses interprétations
syntaxiques.
1 Thi Minh, Laurent & Xuan, 2003, p 79

17
3.2. Les mots inconnus
Les mots inconnus, du fait de leurs très grandes ambiguïtés, posent un véritable problème pour le
traitement de l'arabe. En effet, généralement un mot inconnu peut avoir plusieurs catégories,
contrairement aux mots connus répertoriés dans un dictionnaire.
Certains étiqueteurs à base de règles peuvent traiter les mots inconnus. Par exemple, rapporte un
taux d’efficacité de 87 % pour l’anglais. Pour ce qui est des étiqueteurs statistiques, leur taux
efficacité est d’environ 85 % pour l’anglais2
. Mais pour la langue arabe, ce problème reste très
difficile à traiter à cause de l’ambiguïté de ces types de mots.[2]
3.3. Absence de voyelle
La langue arabe se caractérise par l’absence des voyelles courtes (diacritiques) dans la plupart des
textes écrits. Bien que les voyelles apparaissent dans certains textes religieux (Coran hadith) ou
littéraires (poésie classique, notamment), elles ne sont pas indispensable.
Un mot sans voyelles peut générer plusieurs cas d’ambiguïtés lexicales etَmorphologiques. Par
exemple le mot sans voyelle «‫كتب‬ » possède 17 voyellationsَpotentielles, représentant 9 catégories
grammaticales différentes
Mots avec voyelles Traduction Catégorie
ََ‫ب‬َ‫ت‬َ‫ك‬ A écrit Verbe Accompli voix active, 3ème
personne,
masculin, singulier
َُ‫ك‬ََ‫ب‬ِ‫ت‬ A été écrit Verbe Accompli voix passive, 3ème
personne,
masculin, singulier
َ‫َت‬‫ك‬ََ‫ب‬ َA fait écrire Verbe Accompli voix active, 3ème
personne,
masculin, singulier
ََ‫ب‬ِ‫ُت‬‫ك‬ A été fait écrire Verbe Accompli voix active, 3ème
personne,
masculin, singulier
ََ‫ب‬ِ‫َت‬‫ك‬ Fais écrire Verbe impératif, 2ème
personne, masculin, singulier
َ‫ُب‬‫ت‬ُ‫ك‬ Substantif, masculin, pluriel, nominatif,
indéterminé
2 Vasilakopoulos, 2003

18
َُ‫ت‬ُ‫ك‬َ‫ب‬ Substantif, masculin, pluriel, génitif, indéterminé
َ‫َتب‬‫ك‬ Substantif, masculin, singulier, nominatif,
indéterminé
َ‫َتب‬‫ك‬ Substantif, masculin, singulier, génitif, indéterminé
َِ‫ب‬َ‫ت‬+‫ك‬ Préposition + Substantif, masculin, singulier,
génitif, déterminé
َ‫ك+تب‬ Préposition + Substantif, masculin, singulier,
génitif, indéterminé
Tableau 11 : Différentes catégories de mot voyellé « ‫كتب‬ »
3.4. L’ordre du mot dans la phrase
L’ordre du mot dans la phrase considère la structure syntaxique d'une phrase. En effet, la phrase
arabe est caractérisée par une grande variabilité au niveau d’ordre de ses mots. En général, dans la
langue arabe on met au début de la phrase le mot sur lequel on veut attirer (nom ou verbe)
l’attention et on termine sur le terme le plus riche pour garder le sens de phrase. Cette variabilité
de l’ordre des mots, provoque des ambiguïtés syntaxiques artificielles dans la mesure ce pour cela
il faut donner dans la grammaire toutes les règles de combinaisons possibles d’inversion de l’ordre
des mots dans la phrase qui sont réalisées par des linguistes.

19
Partie II : L’étiquetage morphosyntaxique
Chapitre III : L’étiquetage morphosyntaxique de
l’arabe avec NooJ
1. Introduction
La langue arabe, bien que très importante par sa richesse morphologique, présente des phénomènes
morphosyntaxiques très particuliers. Il s'ensuit des difficultés de traitement automatique qui sont
considérables. Le choix d'un environnement linguistique fournissant des outils puissants et la
possibilité d'améliorer les performances selon nos besoins spécifiques nous ont conduits à utiliser
la plateforme linguistique NooJ.
Dans ce chapitre nous allons présenter l’analyseur morphosyntaxique de langues NooJ ,en
présentons les résultat de l’étiquetage morphosyntaxique de l’arabe avec ce dernier.
2. L’outil NooJ
2.1 NooJ : Une plateforme de développement linguistique
NooJ est un environnement de développement linguistique utilisé comme outil de formalisation
des langues naturelles et de développement d'applications de traitement automatique des langues
naturelles (TALN).
Ce dernier inclut des dictionnaires à large couverture. En effet, NooJ comporte des modules
linguistiques pour une douzaine de langues incluant l’arabe, le français et l’anglais.
Les fonctionnalités de NooJ sont adaptées à un public très varié incluant des linguistiques
(description de la morphologie et de la syntaxe des langues, analyse de corpus), des informaticiens
du TAL (applications d’extraction d’information) ainsi que des enseignants tant en linguistiques
qu’en enseignement des langues.

20
Le nouveau moteur de NooJ a été réécrit à partir de son prédécesseur INTEX pour apporter plus
de facilité de manipulation et répondre aux besoins de la communauté qui s’est construit autour de
lui. [5]
1.2 Les principales caractéristiques de NooJ
1.2.1 Architecture intégrée
L’architecture globale de NooJ est basée sur un ensemble de modules linguistiques :
orthographique, flexionnel, morphologique, dérivationnel, et syntictico-sémantique.
Cette structure est garnie par un ensemble d’outils tels qu’un éditeur de graphe, un concordancier,
un déboggeur de grammaires, des outils statistiques …
Cette collection constitue un ensemble en interaction permettant de répondre aux besoins de ses
utilisateurs et notamment des spécialistes du TALN.[4]
1.2.2 Architecture orientée objet
Cette architecture se repose sur trois piliers : Encapsulation, héritage et polymorphisme. Elle
représente les avantages suivants :
 Eviter les redondances dans le code source grâce au concept d’héritage. Ceci rend le code
plus lisible et gérable.
 Accéder directement à toutes les méthodes publiques de NooJ. Ceci apporte flexibilité et
utilisabilité supplémentaires au système.
 Pouvoir ajouter des fonctionnalités supplémentaires et des méthodes spécifiques à des
langues sans avoir à modifier l’architecture globale de l’application. [4]
1.2.3 Développement des ressources linguistiques à large couverture
NooJ est un environnement de développement linguistique permettant de construire, de tester et
de gérer des descriptions formalisées à large couverture des langues naturelles, sous forme de
dictionnaires et de grammaires électroniques.
En l’occurrence elles sont représentées soit par un format textuel lisible et accessible par un non
informaticien (comme pour les dictionnaires et les fichiers des paradigmes flexionnels et
dérivationnels), soit sous forme de graphes facilement accessibles et compréhensibles qui peuvent
être aisément contrôlés et modifiés sans avoir à maîtriser l’ensemble du programme.[4]

21
1.2.4 Moteur linguistique robuste
Etant donné le nombre robuste des langues prises en charge par NooJ, son moteur linguistique est
assez robuste. En effet, analyser les textes écrits en Français, Allemand, thaïlandais, chinois, et
arabe exige divers algorithmes d’analyse pour traiter : [4]
 L’absence d’accentuation pour les lettres majuscules en français
 L’absence de vocalisation dans les lettres arabes standards
 La taille importante de l’alphabet chinois
 Le nombre potentiellement illimité des mots composés dans les mots en allemands
 Etc…
1.2.5 Traitement de corpus
NooJ peut traiter automatiquement des ensembles potentiellement importants de documents. Ces
documents peuvent être codés dans plus d’une centaine de formats : tous les formats de types
ASCII, EBCDIC, Unicode (UTF-8, UTF-16, etc…), ainsi que les formats standards tels que
HTML, XML, PDF, RTF… [4]
1.3 Technologie utilisée
NooJ est basé sur la plate-forme. NET, qui est la réponse de Microsoft à JAVA/J2EE,
L'architecture de composants de NooJ est une évolution de l'Orienté Objet architecture, qui permet
à ses méthodes publiques soient accessibles à toute autre application. NET. NooJ reconnaît plus
de 100 formats de fichiers + texte, y compris les quatre codages Unicode, tous / Windows / Mac /
encodages EBCDIC DOS, MS-Word, HTML, XML, etc…
Et en terme de technologie et architecture NooJ comprend des outils pour vérifier, corriger, adapter,
maintenir, et de les partager. [5]
1.4 Domaine d’utilisation
NooJ est un environnement libre gratuit, linguistique de développement technique utilisée pour
formaliser les différents types de phénomènes textuels (orthographe, morphologie lexicale et
productive, locales, structurelles et de syntaxe transformationnelle) en utilisant une grande gamme
de dispositifs de calcul.

22
NooJ comprend des outils pour construire, tester, déboguer, maintenir et accumuler de grands
ensembles de ressources linguistiques, et peut les appliquer à de grands textes.
En effet est un Modules pour une quinzaine de langues sont déjà disponibles pour téléchargement
gratuit: arabe, arménien, bulgare, catalan, chinois, anglais, français, hébreu, polonais hongrois,
italien, portugais et espagnol. Une dizaine d'autres modules sont en cours de construction.
1.5 Les utilisateurs de NooJ
La plupart des laboratoires et centres universitaires utilisent NooJ comme un outil de recherche ou
d’enseignement : certains utilisateurs sont intéressés par ses fonctionnalités et son Corpus
traitement tel que (analyse de texte littéraire, de recherche et d'extraire des informations de
journaux ou de corpus techniques, etc…)
D'autres utilisent NooJ pour formaliser certains phénomènes linguistiques : Par exemple : décrire
la morphologie d'une langue, d'autres pour des applications informatiques (analyse automatique
de texte),
Et on peut aussi faire la traduction, avec NooJ, d’une langue a autre et cela nécessite un accès
au dictionnaire monolingue de la langue cible pour déterminer les formes fléchies correspondantes
à l’entrée.
NooJ peut également être utilisé comme un système de traitement de corpus, ce qui permet de
traiter des ensembles des fichiers et de texte avec plusieurs façons, y compris :
 Indexation des Motifs morphosyntaxiques
 Création de concordances lemmatisées
 L'analyse statistique des résultats
3. Installation et utilisation de NooJ
3.1 Installation de NooJ
L'installation de NooJ est simple et est basé sur le modèle XCOPY : il suffit de le télécharger à
partir de leur site et puis copier le dossier de l'application de NooJ sur l’ordinateur. Sans avoir
besoin des droits "administratives" finir l’installation.

23
Chargement du module
Le paquet "NoojApp.zip" contient deux modules de langues : le français et l'anglais modules
standards. Les membres de la communauté de NooJ ont enregistré des autres modules pour NooJ,
y compris des modules pour l'arabe, l'arménien occidental, chinois, hébreu, Italien, latin, espagnol.
Figure 1 : Chargement du module
Choix du dictionnaire et de la grammaire
Le module arabe contient un dictionnaire complet (EL-DICAR) qui contient plus que 52000 entité
lexicale composées de :
 19504 Noms (N)
 10162 Verbes (V)
 5816 Adjectifs (ADJ)
 1230 Particules (PREP, ADV, REL, DEM)
 3686 Localisations (N+LOC)
 11860 Noms propres (N+Prénom)
Ainsi qu’un extrait du dictionnaire (_Example.dic) associé avec sa grammaire flexionnelle
(_Example.nof).

24
Figure 2 : Ressources fournies par NooJ
Après l’installation de NooJ, il est indispensable de charger les ressources à utiliser tel que les
dictionnaires et les grammaires syntaxiques nécessaires relatifs à la langue choisie.
Figure 3 : Chargement des dictionnaires
Figure 4 : Chargement de la grammaire syntaxique

25
3.2 Utilisation de NooJ
Après avoir installé la plateforme NooJ, on va y avoir recours pour étiqueter nos textes. On dispose
d’un corpus de 3000 fichiers divisés sur plusieurs catégories (Sport, Culture …) qu’on va analyser
grâce à NooJ.
La première étape consiste à importer le fichier texte à analyser. Une fois le fichier est importé et
lu par NooJ, l’analyse linguistique est lancée.
Figure 6 : Lancement de l'analyse
Figure 5 : Import du texte

26
NooJ effectue plusieurs traitements sur notre texte. En effet il compte l’occurrence d’apparition de
chaque mot de notre texte ainsi que l’extraction des leurs lemmes. En outre il affiche la liste des
mots ambigus et non ambigus et l’analyse morphosyntaxique de chacun d’eux.
Pour notre projet, on va seulement s’intéresser à l’étiquetage des mots. NooJ fourni ce tableau ci-
dessous décrivant l’étiquetage morphosyntaxique du texte arabe donné.
Figure 7 : Annotation d'un texte par NooJ
En effet à la fin de l’analyse linguistique, NooJ offre plusieurs informations qui décrivent le texte
analysé tels que :
 Des informations morphologiques portant sur le genre, le nombre, le temps…
 Des informations grammaticales : V, N, A, ADV, PREP, PRON, CONJS, INTER, etc…
 Des informations sémantiques : les contraintes de sélection
 Information structurale : la structure des noms composés et il est possible d’ajouter des
catégories, comme les domaines (médical, transport, etc…).
Ces informations vont être stockés dans un fichier qu’on va utiliser par la suite pour notre
étiquetage.

27
3.3 Résultats obtenus
Après l’analyse du fichier, on devra extraire les informations pertinentes relatives à notre
étiquetage. Vu que notre texte d’entrée est non voyellé, NooJ rencontre des problèmes de
reconnaissance des mots, ce qui provoque un problème d’ambigüité.

28
Chapitre IV : Modélisation de l’ambiguïté
1. Introduction
Les résultats obtenus par NooJ présentent des problèmes d’ambiguïtés. En effet, et par manque de
voyellation, NooJ peut afficher pour un mot donné une ou plusieurs classes grammaticales. Cette
ambiguïté peut par la suite générer des problèmes lors de notre étiquetage, c’est pour cela qu’on
va essayer de la supprimer.
2. Problèmes
A cause de l’absence de voyellation et l’agglutination des morphèmes en arabe, des problèmes
d’ambiguïté son fréquemment rencontrés. Plusieurs recherches ont été effectuées pour remédier à
ce problème, mais aucune d’elle ne présente un résultat optimal.
Pour notre cas, et puisque notre texte d’entrée est non voyellé NooJ va essayer d’énumérer les
possibles voyellation que peut avoir chaque mot.
Par exemple pour le mot « ‫ذهبت‬ », bien que NooJ reconnaisse que c’est un verbe, il ne peut pas
spécifier s’il s’agit de « َ‫ت‬َ‫ب‬َ‫ه‬َ‫ذ‬ » ou « َُ‫ت‬‫ب‬َ‫ه‬َ‫ذ‬ » … C’est pourquoi on a eu plusieurs indexes
morphosyntaxiques pour ce mot qui peuvent être considérés comme redondances.
Figure 8 : Analyse du mot "‫"ذهبت‬

29
En outre, contrairement à l’exemple précédent, lorsque NooJ a essayé de lister les étiquettes
possibles du mot « ‫طالبة‬ », il n’a pas reconnu le mot comme il a été entré, et donc a essayé de lister
les mots les plus proches de l’entrée. Le résultat a donc indiqué qu’il peut s’agir d’un
nom «‫»طالب‬ aussi bien qu’un adjectifَ«‫.»طلب‬
Figure 9 : Analyse du mot "‫"الطالبة‬
Un autre problème se pose lors de la segmentation de chaque mot. A cause de la morphologie
agglutinante de l’arabe, un même mot peut être segmenté de plusieurs manières différentes
dépendant du contexte. Par exemple pour le mot « ‫ير‬ِ‫ب‬َ‫ك‬ » qui devrait être indiqué comme adjectif,
NooJ a choisi de segmenter le mot en «‫كَ+َبير‬ ».
Figure 10 : Analyse du mot "‫كبير‬ "
Après avoir analysé tous les fichiers de notre corpus, on va essayer de remédier à ces problèmes
grâce à des module qu’on va implémenter.
3. Solutions proposées
Tout d’abord, grâce à un module développé en JAVA, on va essayer de supprimer les redondances
rencontrées. Pour cela on va parcourir le fichier de sortie de NooJ, supprimer la voyellation de tous
les mots et supprimer toutes les lignes qui contiennent la même paire (mot non voyellé, classe

30
grammaticale). A la fin de ce traitement, on aura un fichier (2) où toutes les redondances seront
inexistantes.
Figure 11 : Résultat du traitement -1-
Par la suite, on va essayer à partir du fichier (2) de sélectionner les mots les plus proches des mots
du fichier texte d’entrée. Pour cela on va avoir recours aux algorithmes 2-grammes.
Ces algorithmes vont diviser chacune des mots à comparer en syllabes de deux lettres, puis va
compter le nombre de syllabes communes entre les deux mots. A partir de ces valeurs, on pourra
détecter le mot qui aura le plus de syllabes communs avec notre mot source et affecter sa classe
grammaticale à cette dernière.
Par exemple, pour notre mot « ‫ََ»الطالبة‬ notre fichier de sortie de NooJ ne contient pas ce mot, mais
comme on l’a indiqué précédemment, il contient « ‫َ»طالب‬et « ‫طلب‬ ». Le tableau si dessous décrit
les résultats obtenus suite à l’application des 2-grammes sur nos mots
Mots Syllabes
‫طالب‬ [# ‫ب‬َ,‫,َلب,َال,َطا‬‫ط‬ #]
‫طلب‬ [# ‫ب‬َ,‫,َلب,َطل‬‫ط‬ #]
‫الطالبة‬ [# ‫ة‬,‫,َبة,َلب,ال,طا,لط,ال‬‫ا‬ #]
Tableau 12 : Exemple d'application des n-grammes
Pour pouvoir sélectionner le mot adéquat, on calcule le nombre de syllabes commun entre « ‫»الطالبة‬
et « ‫»طالب‬ et entre « ‫»الطالبة‬ et « ‫طلب‬ » et on choisit celui avec le nombre le plus grand, dans notre
cas « ‫.»طالب‬ On affecte par la suite la classe grammaticale du mot choisi au mot du texte source.
Cette étape ne va pas supprimer les ambiguïtés mais elle va supprimer les mots inutiles qu’a
générés le NooJ.

31
Pour supprimer l’ambigüité, on va avoir recours à un modèle statistique qui à partir d’un ensemble
de fichier préalablement étiqueté correctement va pouvoir étiqueter d’autres fichiers.
3.1. Modèle de langage probabiliste
Avec l’évolution du traitement de la langue naturelle Il est bien connu qu’une grande partie des
difficultés rencontrées dans la linguistique et plus précisément au niveau d’étiquetage
morphosyntaxique concernent la résolution des ambiguïtés. En effet, le grand intérêt des
méthodes probabilistes est d’en fournir une solution simple et immédiate.
Chaque solution potentielle se voit alors associée une probabilité que l’on peut interpréter comme
une fréquence d’apparition de cette solution.
Apres avoir éliminé l’ambigüité manuellement nous avons défini un modèle statistique
fondé sur des classes de mots, qui prend en entrée les fichiers filtré manuellement. Ce modèle
est basé sur la fréquence d’apparition des mots et leur catégorie grammaticale.
3.1.1. Principe
Notre travail commence par le regroupement des mots et leur catégorie grammaticale et le calcul
du nombre d’apparition de chaque mots et leur catégorie dans toute le corpus étiqueté
manuellement sachant que l’apparition d’un mot dépend du mot précédent.
En effet nous avons définir deux sortes d’information, la première et sur le mot à étiqueter
(l’association entre le mot et l’étiquette) la deuxième information est contextuelle
syntaxique (la possibilité de déterminer La probabilité d’avoir une étiquète « i » quand elle est
précédé de l’étiquète « j » dans le texte.
3.1.2. Interprétation des résultats obtenus
Figure 12 : Calcul de probabilité

32
Une fois le nombre d’occurrence des mots a été calculé, on a évalué la probabilité qu’à chaque
mot d’apparaitre avec chaque classe grammaticale précise.
Pour ce faire, la formule suivante a été utilisée
𝑃(𝑒) =
p(g) ∗ 100
p(c)
Avec :
P(e) : la probabilité d’apparition du mot avec une classe.
P(g) : le nombre d’occurrence de chaque étiquette.
P(c) : le nombre d’occurrence du mot.
Une phase d’apprentissage aura lieux pour nous aider à estimer les probabilités élémentaires
à utiliser pour traiter de nouvelles donnée

Conclusion générale
Dans cette étude nous nous sommes intéressés à l’étiquetage morphosyntaxique de la langue arabe.
Pour cela nous avons adapté l’outil NooJ. Cependant les résultats obtenus par NooJ ne sont pas
satisfaisants présentant plusieurs problèmes notamment les problèmes d’ambigüité. Notre travail
consiste à les résoudre.
En effet les n-grammes nous ont permis de détecter parmi une liste les mots pertinents appartenant
au texte à analyser. Bien que ces algorithmes aient permis de diminuer le nombre de classes
grammaticales associées à chaque mot, l’ambigüité persiste. Pour y remédier une étude statistique
a été effectuée sur des textes résultants. Cette étude consiste en un filtrage manuel des fichiers
ambigus suivi par un calcul du pourcentage d’apparition de chaque classe grammaticale relative à
un mot précis. Ces statistiques vont nous permettre de filtrer automatiquement notre corpus.
Même si cette méthode d’étiquetage résout le problème d’ambigüité, elle n’est pas adaptée aux
corpus de taille importante puisque la plupart des traitements sont couteux en termes de temps.

Bibliographie
[1] Abbes, R. (2004). La conception et la réalisation d'un concordancier éléctronique
pour l'arabe. Thèse de doctorat, L'institut national des sciences appliquées de
Lyon, Lyon.
[2] Dhaou, G. (2010-2011). Outils génériques pour l'étiquetage morphosyntaxique de la
langue arabe : segmentation et corpus d'entrainement. Mémoire de master de
recherche, Université Stendhal , Grenoble 3.
[3] MERIALDO, B. (s.d.). Modèles probabilistes et étiquetage automatique. Récupéré sur
http://www.eurecom.fr/fr/publication/88/download/mm-meribe-950101.pdf
[4] Mesfar, S. (2008). Analyse morphosyntaxique automatique et reconnaissance des
entités nommées en arabe standard. Thèse de doctorat, université de franche-
Comte, Franche-Comté.
Webographie
[5] Roux, M. (s.d.). Récupéré sur Documentation de NooJ:
http://www.nooj4nlp.net/Doc_NooJ.pdf
[6] Silberztein, M. (2002). Récupéré sur http://www.nooj4nlp.net/pages/nooj.html
[7] MERIALDO, B. (s.d.). Modèles probabilistes et étiquetage automatique. Récupéré sur
http://www.eurecom.fr/fr/publication/88/download/mm-meribe-950101.pdf

Etiquetage morphosyntaxique de l’arabe avec Nooj

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Etiquetage morphosyntaxique de l’arabe avec Nooj

Similaire à Etiquetage morphosyntaxique de l’arabe avec Nooj (20)

Etiquetage morphosyntaxique de l’arabe avec Nooj