I. Bounhas et Y. Slimani, “Désambiguïsation de textes Arabes pour l'extraction des syntagmes nominaux, L'apport de la structure des documents”, 10ème Colloque Africain sur la Recherche en Informatique et en Mathématiques Appliquées, Yamoussoukro, Côte d'Ivoire, 18 – 21 octobre 2010, pp. 93-100.
1. Désambiguïsation de textes arabes
pour l'extraction des candidats termes
L'apport de la structure des
documents
Ibrahim Bounhas & Yahya slimani
Faculté des sciences de Tunis
2. Contexte
Accès aux fonds documentaires arabes:
TALN
Indexation:
associer à chaque document un ensemble
de descripteurs
Extraction de connaissances
Construction d’ontologies
Concepts
Relations sémantiques
Modèles
de recherche d’information
3. Terminologie
A term is “a surface representation of a specific domain concept”
(Jacquemin, 1997)
A domain is a « culturally bounded segment of the social world
containing producers/products, audiences and a language that tells
to whom these distinctions apply and what they mean » (Hannan, Pólos
and Carroll, 2007)
Un terme général « cover term »
Un ensemble de termes reliés
Une terminologie partagée par une communauté
Propriétés des termes
Termhood: expresses how much (the degree) a linguistic unit is related
to domain-specific concepts (Pazienza, Pennacchiotti and Zanzotto 2005)
Unithood: expresses strength or stability of syntagmatic collocations
(Pazienza, Pennacchiotti and Zanzotto 2005)
4. Spécificités de la langue arabe
Le niveau morphologique
Langue agglutinative, dérivationnelle et inflectionnelle
Exemple: le mot ": " وضوء
"( "وضوءwuDuw' / ablution)
ُءوُ ءو
"( "وضوءwaDuw' / eau pour l’ablution)
َُ ءو
" ( " وwa/ et) + "( "ضوءDw'/lumière)
َ
َْ "ء
Absence de voyellation dans la majorité des textes
Approches de désambigüisations:
Utilisation du contexte gauche et droite
Apprentissage à partir d’un corpus étiqueté
Utilisation de classifieurs
5. Spécificités de la langue arabe
Le niveau syntaxique
Sources de l’ambiguïté:
Liberté dans l’ordre des mots: "( "اللكل في البيتmanger à la maison) et
"( "في البيت اللكلà la maison manger)
Ambiguïté grammaticale "( " رمثأثمرالبحث عن نتائجla recherche a donné
des résultats) et "( " لواحاولالبحث عن لواحلil a essayé de chercher une
solution)
Typologie des syntagmes nominaux arabes:
Annexation (( المرلك ب الضافي (: ةرايسيارةالرجلla voiture de l’homme)
ّءوُ ب
Syntagme adjectival (( المرلك ب النعتي (:رجل غنيun homme riche)
ّءوُ ب
Syntagme prépositionnel (( المرلك ب الحرفي : ( : نوعمن الحلواءun type de
ّءوُ ب
bonbon)
Syntagme conjonctif: ( القطوالفأرle chat et la souris)
Syntagme complexe: ( الةرايستمرارلثكثر ةرايسنةcontinuer pendant plus
qu’une année)
6. Etat de l’art
Approches linguistiques
Identifier des configurations qui ne peuvent pas faire partie
des syntagmes (ponctuation, verbes, etc.)
2.
Analyser la structure en implémentant les règles de la
grammaire
Aucune définition de termhood ni de unithood
1.
–
Approches statistiques
Termhood: le nombre d’occurrence, la fréquence normalisée,
TF-IDF
Unithood: les mesures d’association (Information mutuelle,
Facteur de Dice, etc.)
Non détection des termes rares
–
Approches hybrides
Analyse morphosyntaxique
Désambiguïsation basée sur le contexte
Pondération par des mesures statistiques
7. Etat de l’art
Exemples
d’approches
Analyse morphosyntaxique
(Attia, 2008)
Morphologique
(Boulaknadel,
Daille and
Aboutajdine 2008).
POS (Part Of
Speech): catégorie
grammaticale
Pondération
Complète
(Habash, Rambow
and Roth 2009)
Désambiguïsation
Morphologique
Mesures
d’association
8. Approche proposée
Analyse morphosyntaxique complète
Intégration
d’un analyseur morphologique
Développement d’un analyseur syntaxique (Bounhas and
Slimani 2009)
Evaluation du termhood et du unithood
Combiner les deux propriétés en une seule
mesure
Choix
de la solution morphosyntaxique
Evaluation de la pertinence au domaine
Exploitation de la structure des documents
9. Information contextuelle
Le contexte structurel
1.
Level 1
ti2
Sup
ti1
Chapitre 1
Level 2
tj
…
Level M
Section 1
Paragraphe 1
titre principal
Chapitre 2
…
Chapitre n
.…
.…
∀ i ∈d , ∀ j ∈d , path( ndi , ndj ), level ( ndi ) >level ( ndj )
nd
nd
∀i ∈ndi, ∀j ∈ndj , ti ≠tj ⇒
t
t
R (tj , [ Sup, ti ]) = Freq (tj , ndj ) /(level ( ndi ) −level ( ndj ))
10. Information contextuelle
2.
Le contexte morphologique: Intégration de MADA:
classifieur SVM avec une fenêtre [-2 ,+2]
3.
Contexte syntaxique
Soit T un terme composé:
T= (t1,t2, s)
Si s est symétrique
R (t1, [ s, t 2]) = R (t 2, [ s, t1]) = Freq(T )
Sinon
R (t 1, [ s _ expansion, t 2]) = R (t 2, [ s _ head , t 1]) = Freq (T )
13. Mesure de pertinence
Termhood possibiliste
∀j ∈ j
t
nd
Q ={ ([ Sup , ti ], wi ) }
ti ∈ i , path ( ndi , ndj ), level ( ndi ) >level ( ndj ), ti ≠tj
nd
wi = /(level ( ndi ) −
1
level ( ndj ))
Termhood (tj ) =DPP (Q | tj )
π([ Sup, ti ] | tj ) =R (tj , [ Sup, ti ])
Unithood possibiliste
DPP (t1 | [s, t2]) * DPP (t2 | [s, t1]) si s est symétrique
Unithood (T)=
DPP(t1|[s_expansion, t2])*DPP (t2|[s_head, t1]) sinon
Pertinence au domaine
PD (T)=Termhood(T) * Unithood(T)
14. 100 termes
20 termes
Exemple (1/3)
الزواج
Mariage
لباس
vêtements
العرس
Fête
الرجل
لباس العرس
Homme
لباس الرجل
Les vêtements de l’homme
Les vêtements de la fête
16. )3/3( Exemple
Ambiguïté syntaxique
لباس الرجل المزخرف
لباس الرجل المزخرف
لباس الرجل المزخرف
Décoré
المزخرف
لباس الرجل "(=842.0"( Termhood
جَ لُ
لباس الرجل "( =1000.0"(Unithood
جَ لُ
الرجل المزخرف "( =0 "( Termhood
جَ لُ لُ جَ جَ
الرجل المزخرف "(=0"(Unithood
جَ لُ لُ جَ جَ
17.
Le corpus
Expérimentation
Boissons
Purification
Total
Titres de niveau 1
1
1
10
12
Titres de niveau 2
200
444
745
1389
Paragraphes
1897
3038
6130
11065
Mots
32320
53752
107058
193130
Les résultats
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
Recall
Precision
ib
ili
s
A
A
D
A
llP
o
ss
M
llA
o
s
-P
W
T
tic
tic
si
b
ili
s
D
A
A
-M
M
o
s
W
T
M
S
im
p
le
-P
le
-M
A
D
A
si
b
ili
st
i
c
F-Measure
im
p
S
Mariage
18. Référence
Jacquemin, Christian. 1997. Variation terminologique: Reconnaissance et acquisition
automatiques de termes et de leurs variantes en corpus. Mémoire d'Habilitation à
Diriger des Recherches en informatique fondamentale, University of Nantes, France.
Hannan , Michael T., László Pólos and Glenn R. Carroll. 2007. Logics of Organization
Theory: Audiences, Codes, and Ecologies. Princeton: Princeton University Press.
Pazienza, Maria Teresa, Marco Pennacchiotti and Fabio MassimoZanzotto . 2005.
Terminology Extraction: An Analysis of Linguistic and Statistical Approaches.
Knowledge Mining Series: Studies in Fuzziness and Soft Computing, Berlin /
Heidelberg , Springer, Pages 255–279. S. Sirmakessis Editor.
Bounhas, Ibrahim and Yahya Slimani. 2009. A social approach for semi-structured
document modeling and analysis. In Proceedings of the International Conference on
Knowledge Management and Information Sharing (KMIS), pages 95-102, Madeira,
Portugal.
Elayeb, Bilel. 2009. SARIPOD: Système multi-Agent de Recherche Intelligente
POssibiliste des Documents Web. Ph.D. thesis, The Polytechnic National Institute of
Toulouse (France) and the National School of Computer Sciences (ENSI), University
of la Manouba (Tunisia).