Exposé cari

939 vues

Publié le

I. Bounhas et Y. Slimani, “Désambiguïsation de textes Arabes pour l'extraction des syntagmes nominaux, L'apport de la structure des documents”, 10ème Colloque Africain sur la Recherche en Informatique et en Mathématiques Appliquées, Yamoussoukro, Côte d'Ivoire, 18 – 21 octobre 2010, pp. 93-100.

0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
939
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
13
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Exposé cari

  1. 1. Désambiguïsation de textes arabes pour l'extraction des candidats termes L'apport de la structure des documents Ibrahim Bounhas & Yahya slimani Faculté des sciences de Tunis
  2. 2. Contexte  Accès aux fonds documentaires arabes:  TALN  Indexation: associer à chaque document un ensemble de descripteurs  Extraction de connaissances  Construction d’ontologies   Concepts Relations sémantiques  Modèles de recherche d’information
  3. 3. Terminologie  A term is “a surface representation of a specific domain concept” (Jacquemin, 1997)  A domain is a « culturally bounded segment of the social world containing producers/products, audiences and a language that tells to whom these distinctions apply and what they mean » (Hannan, Pólos and Carroll, 2007)  Un terme général « cover term »  Un ensemble de termes reliés  Une terminologie partagée par une communauté  Propriétés des termes Termhood: expresses how much (the degree) a linguistic unit is related to domain-specific concepts (Pazienza, Pennacchiotti and Zanzotto 2005)  Unithood: expresses strength or stability of syntagmatic collocations  (Pazienza, Pennacchiotti and Zanzotto 2005)
  4. 4. Spécificités de la langue arabe  Le niveau morphologique   Langue agglutinative, dérivationnelle et inflectionnelle Exemple: le mot "‫: " وضوء‬      "‫( "وضوء‬wuDuw' / ablution) ُ‫ءوُ ءو‬ "‫( "وضوء‬waDuw' / eau pour l’ablution) ُ‫َ ءو‬ " ‫( " و‬wa/ et) + "‫( "ضوء‬Dw'/lumière) َ ْ‫َ "ء‬ Absence de voyellation dans la majorité des textes Approches de désambigüisations:    Utilisation du contexte gauche et droite Apprentissage à partir d’un corpus étiqueté Utilisation de classifieurs
  5. 5. Spécificités de la langue arabe  Le niveau syntaxique  Sources de l’ambiguïté:    Liberté dans l’ordre des mots: "‫( "اللكل في البيت‬manger à la maison) et "‫( "في البيت اللكل‬à la maison manger) Ambiguïté grammaticale "‫( " رمثأثمرالبحث عن نتائج‬la recherche a donné des résultats) et "‫( " لواحاولالبحث عن لواحل‬il a essayé de chercher une solution) Typologie des syntagmes nominaux arabes:      Annexation (‫( المرلك ب الضافي (: ةرايسيارةالرجل‬la voiture de l’homme) ّ‫ءوُ ب‬ Syntagme adjectival (‫( المرلك ب النعتي (:رجل غني‬un homme riche) ّ‫ءوُ ب‬ Syntagme prépositionnel (‫( المرلك ب الحرفي : ( : نوعمن الحلواء‬un type de ّ‫ءوُ ب‬ bonbon) Syntagme conjonctif: ‫( القطوالفأر‬le chat et la souris) Syntagme complexe: ‫( الةرايستمرارلثكثر ةرايسنة‬continuer pendant plus qu’une année)
  6. 6. Etat de l’art  Approches linguistiques Identifier des configurations qui ne peuvent pas faire partie des syntagmes (ponctuation, verbes, etc.) 2. Analyser la structure en implémentant les règles de la grammaire  Aucune définition de termhood ni de unithood 1. – Approches statistiques Termhood: le nombre d’occurrence, la fréquence normalisée, TF-IDF  Unithood: les mesures d’association (Information mutuelle, Facteur de Dice, etc.)  Non détection des termes rares  – Approches hybrides    Analyse morphosyntaxique Désambiguïsation basée sur le contexte Pondération par des mesures statistiques
  7. 7. Etat de l’art Exemples d’approches Analyse morphosyntaxique (Attia, 2008) Morphologique (Boulaknadel, Daille and Aboutajdine 2008). POS (Part Of Speech): catégorie grammaticale Pondération Complète (Habash, Rambow and Roth 2009) Désambiguïsation Morphologique Mesures d’association
  8. 8. Approche proposée  Analyse morphosyntaxique complète  Intégration d’un analyseur morphologique  Développement d’un analyseur syntaxique (Bounhas and Slimani 2009)   Evaluation du termhood et du unithood Combiner les deux propriétés en une seule mesure  Choix de la solution morphosyntaxique  Evaluation de la pertinence au domaine  Exploitation de la structure des documents
  9. 9. Information contextuelle Le contexte structurel 1. Level 1 ti2 Sup ti1 Chapitre 1 Level 2 tj … Level M Section 1 Paragraphe 1 titre principal Chapitre 2 … Chapitre n .… .… ∀ i ∈d , ∀ j ∈d , path( ndi , ndj ), level ( ndi ) >level ( ndj ) nd nd ∀i ∈ndi, ∀j ∈ndj , ti ≠tj ⇒ t t R (tj , [ Sup, ti ]) = Freq (tj , ndj ) /(level ( ndi ) −level ( ndj ))
  10. 10. Information contextuelle 2. Le contexte morphologique: Intégration de MADA: classifieur SVM avec une fenêtre [-2 ,+2] 3. Contexte syntaxique Soit T un terme composé: T= (t1,t2, s) Si s est symétrique R (t1, [ s, t 2]) = R (t 2, [ s, t1]) = Freq(T ) Sinon R (t 1, [ s _ expansion, t 2]) = R (t 2, [ s _ head , t 1]) = Freq (T )
  11. 11. Architecture du système Semi-structured Semi-structured document Document document semi-structuré Analyseur macro-logique Eléments non ambigus Eléments ambigus 3 Désambiguisation 1 5 6 4 Solutions morphologiques MADA Structure Logique Graphe Contextuel Candidats termes Construction/MAJ du graphe 2 Analyseur syntaxique
  12. 12. Un modèle d’appariement possibiliste Q= [ (t1, w1) (t2, w2) … (tn, wm)] DPP(Dj) = π(Dj|Q) + N(Dj|Q) Possibilité π(Dj|Q) = π(t1| Dj)* w1…* π(tm| Dj) *wm  Nécessité N(Dj|Q) = 1-(1- φ1j/w1)*…* (1- φmj/ wm) φij = Log10(|D|/nDi)* π(ti| Dj)  Distribution de possibilité initiale π(ti| Dj)= Freqij  (Elayeb, 2009)
  13. 13. Mesure de pertinence  Termhood possibiliste ∀j ∈ j t nd Q ={ ([ Sup , ti ], wi ) } ti ∈ i , path ( ndi , ndj ), level ( ndi ) >level ( ndj ), ti ≠tj nd wi = /(level ( ndi ) − 1 level ( ndj )) Termhood (tj ) =DPP (Q | tj ) π([ Sup, ti ] | tj ) =R (tj , [ Sup, ti ])  Unithood possibiliste DPP (t1 | [s, t2]) * DPP (t2 | [s, t1]) si s est symétrique Unithood (T)= DPP(t1|[s_expansion, t2])*DPP (t2|[s_head, t1]) sinon  Pertinence au domaine PD (T)=Termhood(T) * Unithood(T)
  14. 14. 100 termes 20 termes Exemple (1/3) ‫الزواج‬ Mariage ‫لباس‬ vêtements ‫العرس‬ Fête ‫الرجل‬ ‫لباس العرس‬ Homme ‫لباس الرجل‬ Les vêtements de l’homme Les vêtements de la fête
  15. 15. Exemple (2/3) Ambiguïté morphologique ‫الرجل‬ ‫الرجل‬ ّْ Le pied ‫المزخرف‬ ‫ّجل‬ ُ ‫الر‬ L’homme Décoré Q= ([Sup,"1,[" ‫[( )لباس‬Sup,"1,[" ‫[( )عرس‬Sup,"1,[" ‫[( )لباس العرس‬Sup,"0.5,[" ‫)زواج‬ Termhood ("‫ =)"رجل‬DPP ("0.248=("‫رجل‬ َُ َُ Termhood (" ِ ‫=)"رج‬DPP (" ِ =("‫رجل‬ ‫ْل‬ 0 ْ
  16. 16. ‫)3/3( ‪Exemple‬‬ ‫‪Ambiguïté syntaxique‬‬ ‫لباس الرجل المزخرف‬ ‫لباس الرجل المزخرف‬ ‫لباس الرجل المزخرف‬ ‫‪Décoré‬‬ ‫المزخرف‬ ‫لباس الرجل "(=842.0"( ‪Termhood‬‬ ‫جَ لُ‬ ‫لباس الرجل "( =1000.0"(‪Unithood‬‬ ‫جَ لُ‬ ‫الرجل المزخرف "( =0 "( ‪Termhood‬‬ ‫جَ لُ لُ جَ جَ‬ ‫الرجل المزخرف "(=0"(‪Unithood‬‬ ‫جَ لُ لُ جَ جَ‬
  17. 17.  Le corpus Expérimentation Boissons Purification Total Titres de niveau 1 1 1 10 12 Titres de niveau 2 200 444 745 1389 Paragraphes 1897 3038 6130 11065 Mots 32320 53752 107058 193130 Les résultats 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Recall Precision ib ili s A A D A llP o ss M llA o s -P W T tic tic si b ili s D A A -M M o s W T M S im p le -P le -M A D A si b ili st i c F-Measure im p S  Mariage
  18. 18. Référence      Jacquemin, Christian. 1997. Variation terminologique: Reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus. Mémoire d'Habilitation à Diriger des Recherches en informatique fondamentale, University of Nantes, France. Hannan , Michael T., László Pólos and Glenn R. Carroll. 2007. Logics of Organization Theory: Audiences, Codes, and Ecologies. Princeton: Princeton University Press. Pazienza, Maria Teresa, Marco Pennacchiotti and Fabio MassimoZanzotto . 2005. Terminology Extraction: An Analysis of Linguistic and Statistical Approaches. Knowledge Mining Series: Studies in Fuzziness and Soft Computing, Berlin / Heidelberg , Springer, Pages 255–279. S. Sirmakessis Editor. Bounhas, Ibrahim and Yahya Slimani. 2009. A social approach for semi-structured document modeling and analysis. In Proceedings of the International Conference on Knowledge Management and Information Sharing (KMIS), pages 95-102, Madeira, Portugal. Elayeb, Bilel. 2009. SARIPOD: Système multi-Agent de Recherche Intelligente POssibiliste des Documents Web. Ph.D. thesis, The Polytechnic National Institute of Toulouse (France) and the National School of Computer Sciences (ENSI), University of la Manouba (Tunisia).

×