SlideShare une entreprise Scribd logo
1  sur  18
Désambiguïsation de textes arabes
pour l'extraction des candidats termes

L'apport de la structure des
documents

Ibrahim Bounhas & Yahya slimani

Faculté des sciences de Tunis
Contexte


Accès aux fonds documentaires arabes:
 TALN
 Indexation:

associer à chaque document un ensemble
de descripteurs
 Extraction de connaissances
 Construction d’ontologies



Concepts
Relations sémantiques

 Modèles

de recherche d’information
Terminologie


A term is “a surface representation of a specific domain concept”
(Jacquemin, 1997)



A domain is a « culturally bounded segment of the social world
containing producers/products, audiences and a language that tells
to whom these distinctions apply and what they mean » (Hannan, Pólos
and Carroll, 2007)
 Un terme général « cover term »
 Un ensemble de termes reliés



Une terminologie partagée par une communauté



Propriétés des termes
Termhood: expresses how much (the degree) a linguistic unit is related
to domain-specific concepts (Pazienza, Pennacchiotti and Zanzotto 2005)
 Unithood: expresses strength or stability of syntagmatic collocations


(Pazienza, Pennacchiotti and Zanzotto 2005)
Spécificités de la langue arabe


Le niveau morphologique



Langue agglutinative, dérivationnelle et inflectionnelle
Exemple: le mot "‫: " وضوء‬







"‫( "وضوء‬wuDuw' / ablution)
ُ‫ءوُ ءو‬
"‫( "وضوء‬waDuw' / eau pour l’ablution)
ُ‫َ ءو‬
" ‫( " و‬wa/ et) + "‫( "ضوء‬Dw'/lumière)
َ
ْ‫َ "ء‬

Absence de voyellation dans la majorité des textes
Approches de désambigüisations:




Utilisation du contexte gauche et droite
Apprentissage à partir d’un corpus étiqueté
Utilisation de classifieurs
Spécificités de la langue arabe


Le niveau syntaxique


Sources de l’ambiguïté:





Liberté dans l’ordre des mots: "‫( "اللكل في البيت‬manger à la maison) et
"‫( "في البيت اللكل‬à la maison manger)
Ambiguïté grammaticale "‫( " رمثأثمرالبحث عن نتائج‬la recherche a donné
des résultats) et "‫( " لواحاولالبحث عن لواحل‬il a essayé de chercher une
solution)

Typologie des syntagmes nominaux arabes:






Annexation (‫( المرلك ب الضافي (: ةرايسيارةالرجل‬la voiture de l’homme)
ّ‫ءوُ ب‬
Syntagme adjectival (‫( المرلك ب النعتي (:رجل غني‬un homme riche)
ّ‫ءوُ ب‬
Syntagme prépositionnel (‫( المرلك ب الحرفي : ( : نوعمن الحلواء‬un type de
ّ‫ءوُ ب‬
bonbon)
Syntagme conjonctif: ‫( القطوالفأر‬le chat et la souris)
Syntagme complexe: ‫( الةرايستمرارلثكثر ةرايسنة‬continuer pendant plus
qu’une année)
Etat de l’art


Approches linguistiques
Identifier des configurations qui ne peuvent pas faire partie
des syntagmes (ponctuation, verbes, etc.)
2.
Analyser la structure en implémentant les règles de la
grammaire
 Aucune définition de termhood ni de unithood
1.

–

Approches statistiques
Termhood: le nombre d’occurrence, la fréquence normalisée,
TF-IDF

Unithood: les mesures d’association (Information mutuelle,
Facteur de Dice, etc.)
 Non détection des termes rares


–

Approches hybrides




Analyse morphosyntaxique
Désambiguïsation basée sur le contexte
Pondération par des mesures statistiques
Etat de l’art
Exemples
d’approches

Analyse morphosyntaxique

(Attia, 2008)

Morphologique

(Boulaknadel,
Daille and
Aboutajdine 2008).

POS (Part Of
Speech): catégorie
grammaticale

Pondération

Complète

(Habash, Rambow
and Roth 2009)

Désambiguïsation

Morphologique

Mesures
d’association
Approche proposée


Analyse morphosyntaxique complète
 Intégration

d’un analyseur morphologique
 Développement d’un analyseur syntaxique (Bounhas and
Slimani 2009)




Evaluation du termhood et du unithood
Combiner les deux propriétés en une seule
mesure
 Choix

de la solution morphosyntaxique
 Evaluation de la pertinence au domaine


Exploitation de la structure des documents
Information contextuelle
Le contexte structurel

1.
Level 1

ti2

Sup
ti1
Chapitre 1

Level 2
tj

…
Level M

Section 1

Paragraphe 1

titre principal

Chapitre 2

…

Chapitre n

.…

.…

∀ i ∈d , ∀ j ∈d , path( ndi , ndj ), level ( ndi ) >level ( ndj )
nd
nd
∀i ∈ndi, ∀j ∈ndj , ti ≠tj ⇒
t
t
R (tj , [ Sup, ti ]) = Freq (tj , ndj ) /(level ( ndi ) −level ( ndj ))
Information contextuelle
2.

Le contexte morphologique: Intégration de MADA:
classifieur SVM avec une fenêtre [-2 ,+2]

3.

Contexte syntaxique

Soit T un terme composé:
T= (t1,t2, s)
Si s est symétrique
R (t1, [ s, t 2]) = R (t 2, [ s, t1]) = Freq(T )

Sinon
R (t 1, [ s _ expansion, t 2]) = R (t 2, [ s _ head , t 1]) = Freq (T )
Architecture du système
Semi-structured
Semi-structured
document
Document
document

semi-structuré

Analyseur
macro-logique

Eléments non
ambigus

Eléments
ambigus
3
Désambiguisation

1
5
6

4

Solutions
morphologiques

MADA

Structure
Logique

Graphe Contextuel

Candidats
termes

Construction/MAJ du
graphe
2

Analyseur
syntaxique
Un modèle d’appariement
possibiliste
Q= [ (t1, w1) (t2, w2) … (tn, wm)]
DPP(Dj) = π(Dj|Q) + N(Dj|Q)
Possibilité
π(Dj|Q) = π(t1| Dj)* w1…* π(tm| Dj) *wm


Nécessité
N(Dj|Q) = 1-(1- φ1j/w1)*…* (1- φmj/ wm)
φij = Log10(|D|/nDi)* π(ti| Dj)


Distribution de possibilité initiale
π(ti| Dj)= Freqij


(Elayeb, 2009)
Mesure de pertinence


Termhood possibiliste
∀j ∈ j
t
nd

Q ={ ([ Sup , ti ], wi ) }
ti ∈ i , path ( ndi , ndj ), level ( ndi ) >level ( ndj ), ti ≠tj
nd
wi = /(level ( ndi ) −
1
level ( ndj ))
Termhood (tj ) =DPP (Q | tj )
π([ Sup, ti ] | tj ) =R (tj , [ Sup, ti ])


Unithood possibiliste
DPP (t1 | [s, t2]) * DPP (t2 | [s, t1]) si s est symétrique
Unithood (T)=
DPP(t1|[s_expansion, t2])*DPP (t2|[s_head, t1]) sinon



Pertinence au domaine
PD (T)=Termhood(T) * Unithood(T)
100 termes
20 termes

Exemple (1/3)
‫الزواج‬

Mariage

‫لباس‬

vêtements

‫العرس‬

Fête

‫الرجل‬
‫لباس العرس‬

Homme

‫لباس الرجل‬

Les vêtements de l’homme

Les vêtements de la fête
Exemple (2/3)
Ambiguïté morphologique
‫الرجل‬

‫الرجل‬
ّْ
Le pied
‫المزخرف‬

‫ّجل‬
ُ ‫الر‬
L’homme

Décoré

Q= ([Sup,"1,[" ‫[( )لباس‬Sup,"1,[" ‫[( )عرس‬Sup,"1,[" ‫[( )لباس العرس‬Sup,"0.5,[" ‫)زواج‬
Termhood ("‫ =)"رجل‬DPP ("0.248=("‫رجل‬
َُ
َُ
Termhood (" ِ ‫=)"رج‬DPP (" ِ =("‫رجل‬
‫ْل‬
0
ْ
‫)3/3( ‪Exemple‬‬
‫‪Ambiguïté syntaxique‬‬
‫لباس الرجل المزخرف‬

‫لباس الرجل المزخرف‬

‫لباس الرجل المزخرف‬
‫‪Décoré‬‬

‫المزخرف‬

‫لباس الرجل "(=842.0"( ‪Termhood‬‬
‫جَ  لُ‬
‫لباس الرجل "( =1000.0"(‪Unithood‬‬
‫جَ  لُ‬
‫الرجل المزخرف "( =0 "( ‪Termhood‬‬
‫جَ  لُ  لُ جَ جَ‬
‫الرجل المزخرف "(=0"(‪Unithood‬‬
‫جَ  لُ  لُ جَ جَ‬


Le corpus

Expérimentation
Boissons

Purification

Total

Titres de niveau 1

1

1

10

12

Titres de niveau 2

200

444

745

1389

Paragraphes

1897

3038

6130

11065

Mots

32320

53752

107058

193130

Les résultats
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0

Recall
Precision

ib
ili
s

A
A
D
A

llP
o

ss

M
llA

o
s
-P
W
T

tic

tic
si
b
ili
s

D
A
A
-M
M

o
s

W
T
M

S

im
p

le
-P

le
-M

A

D
A

si
b
ili
st
i

c

F-Measure

im
p
S



Mariage
Référence









Jacquemin, Christian. 1997. Variation terminologique: Reconnaissance et acquisition
automatiques de termes et de leurs variantes en corpus. Mémoire d'Habilitation à
Diriger des Recherches en informatique fondamentale, University of Nantes, France.
Hannan , Michael T., László Pólos and Glenn R. Carroll. 2007. Logics of Organization
Theory: Audiences, Codes, and Ecologies. Princeton: Princeton University Press.
Pazienza, Maria Teresa, Marco Pennacchiotti and Fabio MassimoZanzotto . 2005.
Terminology Extraction: An Analysis of Linguistic and Statistical Approaches.
Knowledge Mining Series: Studies in Fuzziness and Soft Computing, Berlin /
Heidelberg , Springer, Pages 255–279. S. Sirmakessis Editor.
Bounhas, Ibrahim and Yahya Slimani. 2009. A social approach for semi-structured
document modeling and analysis. In Proceedings of the International Conference on
Knowledge Management and Information Sharing (KMIS), pages 95-102, Madeira,
Portugal.
Elayeb, Bilel. 2009. SARIPOD: Système multi-Agent de Recherche Intelligente
POssibiliste des Documents Web. Ph.D. thesis, The Polytechnic National Institute of
Toulouse (France) and the National School of Computer Sciences (ENSI), University
of la Manouba (Tunisia).

Contenu connexe

En vedette

Porfolio "Un aprendizaje conjunto"
Porfolio "Un aprendizaje conjunto"Porfolio "Un aprendizaje conjunto"
Porfolio "Un aprendizaje conjunto"MileMarN
 
Diseño de estrategias de mercadeo en un caso real
Diseño de estrategias de mercadeo en un caso realDiseño de estrategias de mercadeo en un caso real
Diseño de estrategias de mercadeo en un caso reallindallanes
 
2010 Acompañamiento a Personas con Transtorno Mental Grave en Situación de Ex...
2010 Acompañamiento a Personas con Transtorno Mental Grave en Situación de Ex...2010 Acompañamiento a Personas con Transtorno Mental Grave en Situación de Ex...
2010 Acompañamiento a Personas con Transtorno Mental Grave en Situación de Ex...Bizitegi Bizitegi
 
08 le-shopping-d%27hommes
08 le-shopping-d%27hommes08 le-shopping-d%27hommes
08 le-shopping-d%27hommesDominique Pongi
 
Fascinant 1-[1]. .-merci_de_diffuser
Fascinant 1-[1]. .-merci_de_diffuserFascinant 1-[1]. .-merci_de_diffuser
Fascinant 1-[1]. .-merci_de_diffuserDominique Pongi
 
Nieves et javier a.
Nieves et javier a.Nieves et javier a.
Nieves et javier a.anaisruiz
 
TRABAJO DE IMFORMATICA
TRABAJO DE IMFORMATICATRABAJO DE IMFORMATICA
TRABAJO DE IMFORMATICAcelina72
 
Crêpes. Sheila Rojas Flores. 2º D
 Crêpes. Sheila Rojas Flores. 2º D Crêpes. Sheila Rojas Flores. 2º D
Crêpes. Sheila Rojas Flores. 2º Danaisruiz
 
Crónica
CrónicaCrónica
Crónicadeboray
 
Présentation riche
Présentation richePrésentation riche
Présentation richesorgho
 

En vedette (20)

Porfolio "Un aprendizaje conjunto"
Porfolio "Un aprendizaje conjunto"Porfolio "Un aprendizaje conjunto"
Porfolio "Un aprendizaje conjunto"
 
Botticelli
BotticelliBotticelli
Botticelli
 
Tisséo opendata
Tisséo opendataTisséo opendata
Tisséo opendata
 
Diseño de estrategias de mercadeo en un caso real
Diseño de estrategias de mercadeo en un caso realDiseño de estrategias de mercadeo en un caso real
Diseño de estrategias de mercadeo en un caso real
 
2010 Acompañamiento a Personas con Transtorno Mental Grave en Situación de Ex...
2010 Acompañamiento a Personas con Transtorno Mental Grave en Situación de Ex...2010 Acompañamiento a Personas con Transtorno Mental Grave en Situación de Ex...
2010 Acompañamiento a Personas con Transtorno Mental Grave en Situación de Ex...
 
Le train du chocolat
Le train du chocolatLe train du chocolat
Le train du chocolat
 
08 le-shopping-d%27hommes
08 le-shopping-d%27hommes08 le-shopping-d%27hommes
08 le-shopping-d%27hommes
 
Titanic12cy
Titanic12cyTitanic12cy
Titanic12cy
 
La deudeuche
La deudeucheLa deudeuche
La deudeuche
 
7 chouettes
7 chouettes7 chouettes
7 chouettes
 
Fascinant 1-[1]. .-merci_de_diffuser
Fascinant 1-[1]. .-merci_de_diffuserFascinant 1-[1]. .-merci_de_diffuser
Fascinant 1-[1]. .-merci_de_diffuser
 
Pologne mine de_sel
Pologne mine de_selPologne mine de_sel
Pologne mine de_sel
 
Nieves et javier a.
Nieves et javier a.Nieves et javier a.
Nieves et javier a.
 
TRABAJO DE IMFORMATICA
TRABAJO DE IMFORMATICATRABAJO DE IMFORMATICA
TRABAJO DE IMFORMATICA
 
Crêpes. Sheila Rojas Flores. 2º D
 Crêpes. Sheila Rojas Flores. 2º D Crêpes. Sheila Rojas Flores. 2º D
Crêpes. Sheila Rojas Flores. 2º D
 
Crónica
CrónicaCrónica
Crónica
 
Behavioral Economics - CHOCOLATE (FR)
Behavioral Economics - CHOCOLATE (FR)Behavioral Economics - CHOCOLATE (FR)
Behavioral Economics - CHOCOLATE (FR)
 
Présentation riche
Présentation richePrésentation riche
Présentation riche
 
L. o pps
L. o ppsL. o pps
L. o pps
 
Deivis pte
Deivis pteDeivis pte
Deivis pte
 

Exposé cari

  • 1. Désambiguïsation de textes arabes pour l'extraction des candidats termes L'apport de la structure des documents Ibrahim Bounhas & Yahya slimani Faculté des sciences de Tunis
  • 2. Contexte  Accès aux fonds documentaires arabes:  TALN  Indexation: associer à chaque document un ensemble de descripteurs  Extraction de connaissances  Construction d’ontologies   Concepts Relations sémantiques  Modèles de recherche d’information
  • 3. Terminologie  A term is “a surface representation of a specific domain concept” (Jacquemin, 1997)  A domain is a « culturally bounded segment of the social world containing producers/products, audiences and a language that tells to whom these distinctions apply and what they mean » (Hannan, Pólos and Carroll, 2007)  Un terme général « cover term »  Un ensemble de termes reliés  Une terminologie partagée par une communauté  Propriétés des termes Termhood: expresses how much (the degree) a linguistic unit is related to domain-specific concepts (Pazienza, Pennacchiotti and Zanzotto 2005)  Unithood: expresses strength or stability of syntagmatic collocations  (Pazienza, Pennacchiotti and Zanzotto 2005)
  • 4. Spécificités de la langue arabe  Le niveau morphologique   Langue agglutinative, dérivationnelle et inflectionnelle Exemple: le mot "‫: " وضوء‬      "‫( "وضوء‬wuDuw' / ablution) ُ‫ءوُ ءو‬ "‫( "وضوء‬waDuw' / eau pour l’ablution) ُ‫َ ءو‬ " ‫( " و‬wa/ et) + "‫( "ضوء‬Dw'/lumière) َ ْ‫َ "ء‬ Absence de voyellation dans la majorité des textes Approches de désambigüisations:    Utilisation du contexte gauche et droite Apprentissage à partir d’un corpus étiqueté Utilisation de classifieurs
  • 5. Spécificités de la langue arabe  Le niveau syntaxique  Sources de l’ambiguïté:    Liberté dans l’ordre des mots: "‫( "اللكل في البيت‬manger à la maison) et "‫( "في البيت اللكل‬à la maison manger) Ambiguïté grammaticale "‫( " رمثأثمرالبحث عن نتائج‬la recherche a donné des résultats) et "‫( " لواحاولالبحث عن لواحل‬il a essayé de chercher une solution) Typologie des syntagmes nominaux arabes:      Annexation (‫( المرلك ب الضافي (: ةرايسيارةالرجل‬la voiture de l’homme) ّ‫ءوُ ب‬ Syntagme adjectival (‫( المرلك ب النعتي (:رجل غني‬un homme riche) ّ‫ءوُ ب‬ Syntagme prépositionnel (‫( المرلك ب الحرفي : ( : نوعمن الحلواء‬un type de ّ‫ءوُ ب‬ bonbon) Syntagme conjonctif: ‫( القطوالفأر‬le chat et la souris) Syntagme complexe: ‫( الةرايستمرارلثكثر ةرايسنة‬continuer pendant plus qu’une année)
  • 6. Etat de l’art  Approches linguistiques Identifier des configurations qui ne peuvent pas faire partie des syntagmes (ponctuation, verbes, etc.) 2. Analyser la structure en implémentant les règles de la grammaire  Aucune définition de termhood ni de unithood 1. – Approches statistiques Termhood: le nombre d’occurrence, la fréquence normalisée, TF-IDF  Unithood: les mesures d’association (Information mutuelle, Facteur de Dice, etc.)  Non détection des termes rares  – Approches hybrides    Analyse morphosyntaxique Désambiguïsation basée sur le contexte Pondération par des mesures statistiques
  • 7. Etat de l’art Exemples d’approches Analyse morphosyntaxique (Attia, 2008) Morphologique (Boulaknadel, Daille and Aboutajdine 2008). POS (Part Of Speech): catégorie grammaticale Pondération Complète (Habash, Rambow and Roth 2009) Désambiguïsation Morphologique Mesures d’association
  • 8. Approche proposée  Analyse morphosyntaxique complète  Intégration d’un analyseur morphologique  Développement d’un analyseur syntaxique (Bounhas and Slimani 2009)   Evaluation du termhood et du unithood Combiner les deux propriétés en une seule mesure  Choix de la solution morphosyntaxique  Evaluation de la pertinence au domaine  Exploitation de la structure des documents
  • 9. Information contextuelle Le contexte structurel 1. Level 1 ti2 Sup ti1 Chapitre 1 Level 2 tj … Level M Section 1 Paragraphe 1 titre principal Chapitre 2 … Chapitre n .… .… ∀ i ∈d , ∀ j ∈d , path( ndi , ndj ), level ( ndi ) >level ( ndj ) nd nd ∀i ∈ndi, ∀j ∈ndj , ti ≠tj ⇒ t t R (tj , [ Sup, ti ]) = Freq (tj , ndj ) /(level ( ndi ) −level ( ndj ))
  • 10. Information contextuelle 2. Le contexte morphologique: Intégration de MADA: classifieur SVM avec une fenêtre [-2 ,+2] 3. Contexte syntaxique Soit T un terme composé: T= (t1,t2, s) Si s est symétrique R (t1, [ s, t 2]) = R (t 2, [ s, t1]) = Freq(T ) Sinon R (t 1, [ s _ expansion, t 2]) = R (t 2, [ s _ head , t 1]) = Freq (T )
  • 11. Architecture du système Semi-structured Semi-structured document Document document semi-structuré Analyseur macro-logique Eléments non ambigus Eléments ambigus 3 Désambiguisation 1 5 6 4 Solutions morphologiques MADA Structure Logique Graphe Contextuel Candidats termes Construction/MAJ du graphe 2 Analyseur syntaxique
  • 12. Un modèle d’appariement possibiliste Q= [ (t1, w1) (t2, w2) … (tn, wm)] DPP(Dj) = π(Dj|Q) + N(Dj|Q) Possibilité π(Dj|Q) = π(t1| Dj)* w1…* π(tm| Dj) *wm  Nécessité N(Dj|Q) = 1-(1- φ1j/w1)*…* (1- φmj/ wm) φij = Log10(|D|/nDi)* π(ti| Dj)  Distribution de possibilité initiale π(ti| Dj)= Freqij  (Elayeb, 2009)
  • 13. Mesure de pertinence  Termhood possibiliste ∀j ∈ j t nd Q ={ ([ Sup , ti ], wi ) } ti ∈ i , path ( ndi , ndj ), level ( ndi ) >level ( ndj ), ti ≠tj nd wi = /(level ( ndi ) − 1 level ( ndj )) Termhood (tj ) =DPP (Q | tj ) π([ Sup, ti ] | tj ) =R (tj , [ Sup, ti ])  Unithood possibiliste DPP (t1 | [s, t2]) * DPP (t2 | [s, t1]) si s est symétrique Unithood (T)= DPP(t1|[s_expansion, t2])*DPP (t2|[s_head, t1]) sinon  Pertinence au domaine PD (T)=Termhood(T) * Unithood(T)
  • 14. 100 termes 20 termes Exemple (1/3) ‫الزواج‬ Mariage ‫لباس‬ vêtements ‫العرس‬ Fête ‫الرجل‬ ‫لباس العرس‬ Homme ‫لباس الرجل‬ Les vêtements de l’homme Les vêtements de la fête
  • 15. Exemple (2/3) Ambiguïté morphologique ‫الرجل‬ ‫الرجل‬ ّْ Le pied ‫المزخرف‬ ‫ّجل‬ ُ ‫الر‬ L’homme Décoré Q= ([Sup,"1,[" ‫[( )لباس‬Sup,"1,[" ‫[( )عرس‬Sup,"1,[" ‫[( )لباس العرس‬Sup,"0.5,[" ‫)زواج‬ Termhood ("‫ =)"رجل‬DPP ("0.248=("‫رجل‬ َُ َُ Termhood (" ِ ‫=)"رج‬DPP (" ِ =("‫رجل‬ ‫ْل‬ 0 ْ
  • 16. ‫)3/3( ‪Exemple‬‬ ‫‪Ambiguïté syntaxique‬‬ ‫لباس الرجل المزخرف‬ ‫لباس الرجل المزخرف‬ ‫لباس الرجل المزخرف‬ ‫‪Décoré‬‬ ‫المزخرف‬ ‫لباس الرجل "(=842.0"( ‪Termhood‬‬ ‫جَ لُ‬ ‫لباس الرجل "( =1000.0"(‪Unithood‬‬ ‫جَ لُ‬ ‫الرجل المزخرف "( =0 "( ‪Termhood‬‬ ‫جَ لُ لُ جَ جَ‬ ‫الرجل المزخرف "(=0"(‪Unithood‬‬ ‫جَ لُ لُ جَ جَ‬
  • 17.  Le corpus Expérimentation Boissons Purification Total Titres de niveau 1 1 1 10 12 Titres de niveau 2 200 444 745 1389 Paragraphes 1897 3038 6130 11065 Mots 32320 53752 107058 193130 Les résultats 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Recall Precision ib ili s A A D A llP o ss M llA o s -P W T tic tic si b ili s D A A -M M o s W T M S im p le -P le -M A D A si b ili st i c F-Measure im p S  Mariage
  • 18. Référence      Jacquemin, Christian. 1997. Variation terminologique: Reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus. Mémoire d'Habilitation à Diriger des Recherches en informatique fondamentale, University of Nantes, France. Hannan , Michael T., László Pólos and Glenn R. Carroll. 2007. Logics of Organization Theory: Audiences, Codes, and Ecologies. Princeton: Princeton University Press. Pazienza, Maria Teresa, Marco Pennacchiotti and Fabio MassimoZanzotto . 2005. Terminology Extraction: An Analysis of Linguistic and Statistical Approaches. Knowledge Mining Series: Studies in Fuzziness and Soft Computing, Berlin / Heidelberg , Springer, Pages 255–279. S. Sirmakessis Editor. Bounhas, Ibrahim and Yahya Slimani. 2009. A social approach for semi-structured document modeling and analysis. In Proceedings of the International Conference on Knowledge Management and Information Sharing (KMIS), pages 95-102, Madeira, Portugal. Elayeb, Bilel. 2009. SARIPOD: Système multi-Agent de Recherche Intelligente POssibiliste des Documents Web. Ph.D. thesis, The Polytechnic National Institute of Toulouse (France) and the National School of Computer Sciences (ENSI), University of la Manouba (Tunisia).