Systemedinformationarabe

504 vues

Publié le

La recherche d’information reste toujours un sujet d’actualité malgré les diverses solutions qui existe, on cherche toujours des améliorations pour la pertinence des résultats, l’une des pistes intéressante dans ce cadre est le traitement des langues complexes et leurs influencent sur les systèmes de recherche d’information. Dans notre travail on va étudier la recherche d’information appliquée à la langue arabe qui est considérée comme l’une des langues avec une grande complexité morphologique

Publié dans : Sciences
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
504
Sur SlideShare
0
Issues des intégrations
0
Intégrations
4
Actions
Partages
0
Téléchargements
12
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Systemedinformationarabe

  1. 1. Mémoire de fin d’études Présenté pour l’obtention du : Diplôme de Master Systèmes d’Information Réseaux et Multimédia Discipline : Informatique Spécialité : Systèmes d’Information Multimédias et Décisionnels/ Réseaux et Systèmes Présenté par : LATIF Mounaim Sous la direction du : Pr : Lechger Abd El Mounaim Système de recherche d’information Arabe Université Sidi Mohamed Ben Abdellah Faculté des Sciences Dhar Mehraz – Fès (FSDM) Master Systèmes d’Information Réseaux et Multimédia (SIRM)
  2. 2. Système de recherche d’information arabe 1 Systèmederecherched’informationarabe Résumé La recherche d’information reste toujours un sujet d’actualité malgré les diverses solutions qui existe, on cherche toujours des améliorations pour la pertinence des résultats, l’une des pistes intéressante dans ce cadre est le traitement des langues complexes et leurs influencent sur les systèmes de recherche d’information. Dans notre travail on va étudier la recherche d’information appliquée à la langue arabe qui est considérée comme l’une des langues avec une grande complexité morphologique. Ce travail est réalisé dans le laboratoire LISQ (Laboratoire d’informatique, statistique et qualité) au sein de la Faculté des Sciences Dhar Mehraz sous la direction du Pr Abdelmonaime LACHKAR (ENSA-Fès). Il s’inscrit dans le cadre de l’amélioration de la recherche d’information arabe. On va traiter d’abord les différents aspects théoriques et algorithmiques (lemmatisation, classification etc ...) de la recherche d’information puis on passera à la mise en œuvre avec un prototype de SIRA (Système de recherche d’information arabe) Mots Clés : Système de Recherche d’information, Langue Arabe, Lemmatisation, Clustering.
  3. 3. Système de recherche d’information arabe 2 Systèmederecherched’informationarabe Abstract Seeking information is still a hot topic, despite the various existing solutions, we always seek improvements to the results pertinence. One interesting track in this context is the treatment of complex languages and their influence on information retrieval systems. In this work we will study the retrieval of information in Arabic language which is considered one of the complex morphology languages. This work is done in the CLSQ (Computing laboratory, statistics and quality) laboratory, in the Faculty of Sciences Dhar Mehraz under the direction of Professor Abdelmonaime LACHKAR (ENSA-Fès). It is part of improving Arabic information retrieval. We will treat first the different theoretical and algorithmic aspects of research (lemmatisation, classification etc ...), then we proceed to the implementation of a prototype with AIRS (Arabic information retrieval system) Keywords: Arabic information retrieval, Stemming , Arabic Langue , clustering
  4. 4. Système de recherche d’information arabe 3 Systèmederecherched’informationarabe ‫مــــلخص‬ ‫اللغة‬‫العالم‬ ‫في‬ ‫انتشارا‬ ‫األكثر‬ ‫اللغات‬ ‫من‬ ‫واحدة‬ ‫هي‬ ‫العربية‬.‫لكن‬‫نسبيا‬‫فقط‬ ‫قليل‬ ‫عدد‬ ‫هناك‬ ‫ال‬ ‫من‬‫دراسات‬‫البحث‬ ‫مجال‬ ‫في‬‫عن‬‫النصوص‬ ‫وتصنيف‬ ‫المعلومات‬‫العربية‬. ‫و‬‫قد‬‫تم‬‫العمل‬ ‫هذا‬‫مختبر‬ ‫في‬LISQ)‫مخ‬)‫والجودة‬ ‫واإلحصاء‬ ‫الكمبيوتر‬ ‫علوم‬ ‫تبر‬‫ب‬‫كلية‬ ‫العلوم‬‫بفاس‬ ‫المهراز‬ ‫ظهر‬‫ت‬‫حث‬‫إ‬‫شرا‬‫ف‬‫األست‬‫ا‬‫ذ‬‫أست‬ ‫لشقر‬ ‫المنعم‬ ‫عبد‬‫ا‬‫ذ‬.‫ب‬‫االمد‬‫رسة‬ ‫ال‬‫و‬‫طن‬‫ية‬‫للع‬‫لو‬‫م‬‫التطب‬‫ي‬‫قي‬‫ة‬‫ب‬‫فاس‬.‫و‬‫هو‬‫يدخل‬‫مجال‬ ‫في‬ ‫عموما‬‫وبشكل‬ ،‫المعلومات‬ ‫عن‬ ‫البحث‬ ‫أكثر‬‫دقة‬‫في‬‫مجال‬‫دراسة‬‫نجاعة‬‫أساليب‬‫الجذع‬ ‫و‬ ‫الجذر‬ ‫عن‬ ‫البحث‬‫و‬‫تصنيف‬ ‫تقنيات‬ ‫النصوص‬‫تحسين‬ ‫في‬‫عن‬ ‫البحث‬ ‫أنظمة‬ ‫مردودية‬‫المعلومات‬‫با‬‫العربية‬ ‫للغة‬.
  5. 5. Système de recherche d’information arabe 4 Systèmederecherched’informationarabe Remerciement Au terme de ce travail, j’ai l’honneur d’exprimer mes vifs remerciements, non seulement par nécessité, mais par respect et profonde gratitude, à mes encadrants, Messieurs ABDELMOUNAIME LACHKAR et SAID OUATIK EL ALAOUI pour leur aide précieuse et leurs conseils qu’ils m’ont fourni au cours de ce projet, et aussi pour tout le temps qu’ils m’ont octroyé. Je remercie également mes parents, pour leur soutien et leur compagnie, qui m’ont permis de réaliser le projet dans les meilleures conditions possibles. je ne peux oublier mes amis Youssef Dehbi EL ALAOUI, Jalal Triak, Amine Essamri ,Imadeddine Mountasser et Selouane Mohammed. Pour leurs soutiens et leurs aides. Un sincère remerciement aussi à tout le corps professoral et administratif de la Faculté des Sciences Dhar ElMahraz de Fès.
  6. 6. Système de recherche d’information arabe 5 Systèmederecherched’informationarabe Introduction Générale L’objectif principal de la recherche d’information c’est de donner à l’utilisateur un accès simple à l’information, un système de recherche d’information traite l’information d’une manière adéquate, puis fournit à l’utilisateur le résultat qui doit correspondre à son besoin exprimé par une requête. Dans certaines langues, telles que l’arabe, les moyens déployés pour la recherche d’information ne semblent avoir les mêmes performances que dans d’autres langues. Cette carence est probablement due à l’introduction tardive de l’Internet dans le monde scientifique et technique arabisant d’une part et d’autre part c’est la complexité de la langue qui influence négativement les résultats dans un système de recherche d’information. Ce sujet s’inscrit dans le cadre de la recherche d’information appliqué à la langue arabe. L’objectif de notre travail c’est d’abord de donner une vue détaillée sur le traitement automatique de la langue arabe et les différentes éléments qui compose un système de recherche d’informations puis de réaliser un prototype pour le SRIA. Organisation du mémoire Ce travail se compose de 5 chapitres : - Le premier chapitre présente un état de l’art sur la langue arabe et la recherche d’informations. - Le second chapitre comporte une étude morphologique de la langue arabe. - Le troisième définit la phase de prétraitement. - Le quatrième définit la notion de clustering avec quelques algorithmes. - Et le dernier, consacré pour les détails du prototype de SIRA réalisé ainsi la discussion des résultats.
  7. 7. Système de recherche d’information arabe 6 Systèmederecherched’informationarabe Table des Matières Chapitre 1 : Etat de l’art................................................................................................................ 9 1 - Introduction.................................................................................................................................. 10 2 - Motivation et Problématique....................................................................................................... 11 3 - La Recherche D’informations....................................................................................................... 12 3.1 – Processus de recherche d’informations ................................................................................ 13 3.2 - Prétraitement et La Lemmatisation ...................................................................................... 13 1.1 - Les Modèles de Recherche d’information............................................................................ 14 1.2 - Classification et Clustering des Documents.......................................................................... 15 2 – Exemple de SRI (Moteur de recherche)....................................................................................... 16 3 - Conclusion.................................................................................................................................... 17 Chapitre 2 : La langue Arabe et l’analyse morphologique.............................................................18 1 - Introduction.................................................................................................................................. 19 2 - La langue Arabe et ses variantes.................................................................................................. 20 3 - Grammaire et caractéristique de l’arabe .................................................................................... 21 3.1 Voyellation............................................................................................................................... 23 3.2 Flexion ..................................................................................................................................... 23 3.3 Agglutination ........................................................................................................................... 24 3.4 Pro-drop (= à sujet pronominal vide) ...................................................................................... 25 4 - Les parties de discours en arabe ................................................................................................. 25 4.1 Les parties de discours classiques ........................................................................................... 25 4.2 Classification récentes des unités lexicales de l’arabe ............................................................ 26 5 - Ressources linguistiques : état des lieux..................................................................................... 27 5.1 Lexiques................................................................................................................................... 28 5.2 Corpus...................................................................................................................................... 28 6 – Conclusion ................................................................................................................................... 31 Chapitre 3 : Prétraitement des documents arabe .........................................................................33 1 – Introduction................................................................................................................................. 34 2 – Représentation des documents................................................................................................... 34 3 – Prétraitent et La Lemmatisation.................................................................................................. 38 3.1 – Prétraitement nécessaires.................................................................................................... 38 3.2 – Lemmatisation (Stemming) .................................................................................................. 39 4 – Conclusion ................................................................................................................................... 43
  8. 8. Système de recherche d’information arabe 7 Systèmederecherched’informationarabe Chapitre 4 : Regroupement des documents (Clustering) ...............................................................44 1 - Introduction.................................................................................................................................. 45 2 - Différentes approches en clustering ............................................................................................ 46 2.1 - Structures des résultats de clustering................................................................................... 46 2.2 – Les Méthode de clustering ................................................................................................... 48 2.3 – Analyse Sémantique Latente............................................................................................... 56 2.4 - Critères d’évaluation de la qualité d’un clustering ............................................................... 59 3 – Conclusion ................................................................................................................................... 61 Chapitre 5 : Prototype d’un Système de recherche d’information Arabe .......................................63 1 – Introduction................................................................................................................................. 64 2 – Architecture Fonctionnelle du système..................................................................................... 64 2.1 - Module de Prétraitement Lemmatisation............................................................................. 65 3 – Analyse est conception................................................................................................................ 69 3.1 - Diagramme de cas d’utilisation........................................................................................... 69 3.2 – Diagramme de classe et analyse.......................................................................................... 70 4 – Fonctionnalités du système et résultats...................................................................................... 73 4.1 – Description du Système........................................................................................................ 73 4.2 Discutions des résultats........................................................................................................... 75 5 - Conclusion.................................................................................................................................... 77
  9. 9. Système de recherche d’information arabe 8 Systèmederecherched’informationarabe Table des Figures FIGURE 1.1 : SYSTÈME DE RECHERCHE D’INFORMATION .......................................................................................... 13 FIGURE 2.1 : AMBIGUÏTÉ CAUSÉE PAR L’ABSENCE DE VOYELLES POUR LES UNITÉS LEXICALES ‫كتب‬ ET ‫مدرسة‬............... 23 FIGURE 2.2 : EXEMPLE DES FLEXIONS DANS LA LANGUE ARABE ................................................................................ 24 FIGURE 2.3 : EXEMPLE REPRÉSENTE L’AGGLUTINATION DANS LA LANGUE ARABE...................................................... 24 FIGURE 2.4 : CLASSIFICATION DES UNITÉS LEXICALES PROPOSÉE PAR [2]................................................................. 27 FIGURE 2.5 COMPOSITION DU CORPUS NEMLAR.................................................................................................... 31 FIGURE 3.1 : APPROCHE « ROOT-BASED » POUR LA LEMMATISATION........................................................................ 42 FIGURE 4.1 : EXEMPLE D’UN JEU DE DONNÉES DÉCRITES PAR DEUX ATTRIBUTS ET CONTENANT TROIS CLUSTERS IDENTIfiABLES VISUELLEMENT. ........................................................................................................................ 45 FIGURE 4.2 : EXEMPLE DE RÉSULTAT HIÉRARCHIQUE. ............................................................................................. 48 FIGURE 4.3 : REPRÉSENTATION GRAPHIQUE D’UN EXEMPLE DE DÉROULEMENT DE L’ALGORITHME K-MEANS............ 49 FIGURE 4.4 : ALGORITHME DE K-MEDOIDES ........................................................................................................... 52 FIGURE 4.5 : ALGORITHM PAM (PARTITIONING AROUND MEDOIDS) ...................................................................... 52 FIGURE 4.6 : ILLUSTRATION DES DIFFÉRENTES STRATÉGIES DE REGROUPEMENT DE CLUSTERS EN CLUSTERING HIÉRARCHIQUE............................................................................................................................................... 54 FIGURE 4.7 : FONCTION DE SIMILARITÉ POUR LE SUFFIX TREE CLUSTERING ............................................................ 55 FIGURE 4.8 : DÉCOMPOSITION EN VALEURS SINGULIÈRES -Y EST L'APPROXIMATION DE X ......................................... 58 FIGURE 4.9 : ALGORITHME DE LINGO CLUSTERING ............................................................................................... 59 FIGURE 4.10 : ILLUSTRATION DU CALCUL DU COEFFICIENT SILHOUETTE POUR CHAQUE OBJET D’UN CLUSTERING..... 61 FIGURE 5.1 : ARCHITECTURE FONCTIONNELLE DU SYSTÈME .................................................................................... 65 FIGURE 5.2 : STRUCTURE D’INDEX DE LUCENE ....................................................................................................... 68 FIGURE 5.3 DIAGRAMME DE CAS D’UTILISATION ...................................................................................................... 70 FIGURE 5.4 : DIAGRAMME DE CLASSE D’UN ARABIC ANALYSER BASÉ SUR LE LEMMATISEUR ASSOUPLIT ..................... 71 FIGURE 5.5 : DIAGRAMME DE CLASS DU MODULE D’INDEXATION.............................................................................. 72 Table des Formules FORMULE 4.1 : SOMME DES COEFFICIENTS DANS FUZZY C-MEANS............................................................................ 50 FORMULE 4.2 : DEGRÉ D’APPARTENANCE DANS FUZZY C-MEANS ............................................................................. 50 FORMULE 4.3 : CALCULE DU CENTROÏDE DANS FUZZY C-MEANS. ............................................................................. 50 FORMULE 4.4 : DEGRÉ D’APPARTENANCE NORMALISÉ DANS FUZZY C-MEANS ........................................................... 51 FORMULE 4.5 : STRATÉGIE SIMGLE-LINK POUR CALCULE DE SIMILARITÉ................................................................... 53 FORMULE 4.6 : STRATÉGIE COMPLETE-LINK POUR CALCULE DE SIMILARITÉ.............................................................. 54 FORMULE 4.7 : STRATÉGIE AVERAGE-LINK POUR CALCULE DE SIMILARITÉ................................................................ 54 FORMULE 4.8 : SOMME DES ERREURS AU CARRÉ ...................................................................................................... 60 FORMULE 4.9 : COEFFICIENT SILHOUETTE POUR UN OBJET..................................................................................... 61 FORMULE 4.10 : COEFFICIENT SILHOUETTE POUR UN CLUSTERING.......................................................................... 61
  10. 10. Système de recherche d’information arabe 9 Systèmederecherched’informationarabe Chapitre 1 : Etat de l’art
  11. 11. Système de recherche d’information arabe 10 Systèmederecherched’informationarabe 1 - Introduction Depuis plusieurs décennies déjà, des recherches sont poursuivies dans le cadre du traitement automatique de la langue arabe. L’un des premiers théoriciens de ce domaine, David Cohen propose un essai d’analyse automatique dès 1961 (Cohen, 1961/1970). Partant d’une analyse morphologique minimaliste, basée sur le principe que toute forme linguistique arabe se traduit en schème et racine, les recherches vont se développer depuis les premiers travaux sur le lexique et la morphologie jusqu’à la mise au point d’analyseurs automatiques, de systèmes d’indexation, de correcteurs, etc. De nombreux projets sont en cours et il existe des bases de données disponibles proposant des corpus divers sous forme électronique, traités automatiquement. Un traitement automatique de l’arabe est donc non seulement possible, mais réalisé et en cours de perfectionnement (notamment dans le domaine de la traduction automatique).Cependant, dans le cadre bien précis de nos recherches, nous avons été amenés à créer notre propre programme de lemmatisation. Après un exposé du problème, nous présenterons ce logiciel, ainsi que la réflexion méthodologique qui a présidé à son élaboration. Les premiers résultats obtenus et surtout les développements envisagés seront ensuite décrits. Maintenant L’évolution très rapide d’Internet a conduit à révéler la RI au grand jour, notamment par le biais des moteurs de recherche. La profusion de données numériques disponibles a rendu indispensables des moyens de recherche performants et automatiques, permettant à tout un chacun de trouver une information précise. Un système de recherche d’information (SRI) doit faire face à trois types de défis à savoir, la gestion d’un volume important d’informations, la présence de multiples supports et, finalement, le caractère plurilingue de la Toile qui représente un enjeu considérable. Dans ce contexte, l’importance grandissante d’autres langues que l’anglais a suscité le développement d’outils et de techniques automatiques afin de permettre leur traitement informatique. Ce besoin n’est pas marginal. En septembre20071, la proportion d’internautes naviguant en langue arabe était estimée à 17,4 %. Sur cette base, nous estimons que l’utilisation de la langue arabe sur le Web va atteindre des valeurs comparables à celle des langues européennes. En comparaison de l’anglais ou d’autres langues indo-européennes, la langue arabe présente des caractéristiques singulières. Ainsi, son traitement automatique doit faire face à :
  12. 12. Système de recherche d’information arabe 11 Systèmederecherched’informationarabe  la nature agglutinante de la langue : l’ensemble des morphèmes collés à l’unité lexicale véhiculent plusieurs informations morphosyntaxiques.  la richesse flexionnelle de l’arabe  l’absence de voyellation de la majorité des textes arabes écrits : ce phénomène entraîne un nombre important d’ambiguïtés morphologiques. En arabe, chaque lettre doit prendre un signe de voyellation et de surcroît les voyelles finales sont porteuses de certains traits morphosyntaxiques comme la déclinaison, le mode, le cas. 1 - Motivation et Problématique Dans la plupart des recherches précédentes en RI, les pionniers dans ce domaine ont concentré leurs efforts au développement d'outils de RI sur des collections en anglais. Ensuite graduellement, ils se sont intéressés à étudier les langues européennes et les langues asiatiques, notamment le chinois, le japonais et le coréen. Néanmoins, toute une famille de langues telle que l'arabe, n'a connu que peu d'intérêt par la communauté de recherche d'information. Parallèlement, la vulgarisation de l'Internet a de plus en plus permis l'accès à d'autres langues moins connues comme l'arabe. C'est dans cette optique que nous avons trouvé l'intérêt de notre travail de recherche dont l'objectif est de trouver les meilleures solutions pour améliorer la recherche de l’information arabe. La langue arabe présente plusieurs défis au traitement automatique des langages naturels, en grande partie, dus à sa morphologie très riche et variable. Dans cette langue, le traitement morphologique devient particulièrement important pour la recherche d'information, parce que la RI doit déterminer une forme appropriée d'index à partir des mots. La plupart des études faites dans le contexte de la lemmatisation concluent que l'utilisation des termes obtenus à partir d'une analyse morphologique est plus efficace que l'utilisation des mots sans transformation. L'arabe, de son coté, n'a pas échappé à ce fait. La lemmatisation des mots arabes a été une problématique majeure pour plusieurs travaux dans la RI arabe. Dans ces travaux, des approches pour lemmatiser les mots arabes sont proposées, certaines plus souples et d'autres plus sévères. Malgré ces études, il est encore peu clair quel type de lemmatisation est approprié pour la recherche d'information arabe. D'une part, une lemmatisation assouplie peut empêcher de grouper deux mots différents, mais elle court également le risque de ne pas grouper deux mots sémantiquement semblables, menant à un rappel plus faible. D'autre part,
  13. 13. Système de recherche d’information arabe 12 Systèmederecherched’informationarabe une lemmatisation plus sévère peut grouper incorrectement des mots sémantiquement non similaires dans un même index, menant à une précision plus faible. 2 - La Recherche D’informations Le but de la recherche d’information (RI) est de développer des systèmes capables de retrouver parmi un ensemble de documents ceux qui répondent au mieux à la requête d’un utilisateur. Pour cela, il est important de constituer une représentation du contenu du document et de la requête afin de procéder à un appariement plus pertinent entre eux. L’approche souvent adoptée en RI textuelle est plutôt de chercher des représentants qui correspondent généralement, dans le cadre de l’indexation automatique, à un ensemble d’unités lexicales extraits des documents et requêtes, nommés termes d’indexation, pour la langue arabe ce traitement est très complexe vu la complexité morphologique de la langue arabe. Après il ne reste qu’à associer à chaque document (ou à chaque requête) un descripteur (également nommé index) formé de l’ensemble des termes d’indexation extraits de son contenu. Pour établir une correspondance entre documents et requêtes, représentés par des descripteurs, les SRI se basent sur des modèles de RI. Ils permettent : - d’offrir une interprétation aux descripteurs en donnant une représentation interne des textes et des questions basée sur les termes d’indexation. - de définir les stratégies à adopter pour comparer les représentations des documents et des requêtes. Leur comparaison donne lieu à un score qui traduit leur degré de ressemblance. - de proposer éventuellement des méthodes de classement des résultats retournés à l’utilisateur. Une fois les représentations des documents et des requêtes mises en correspondance, le système retourne à l’utilisateur la liste des documents répondant à sa requête. Ainsi, des méthodes et des mesures d’évaluation sont nécessaires pour estimer la validité des résultats retournés par le système.
  14. 14. Système de recherche d’information arabe 13 Systèmederecherched’informationarabe 2.1 – Processus de recherche d’informations Le processus de RI a pour but d’établir une correspondance pertinente entre l’information recherchée par l’utilisateur, représentée généralement par le biais d’une requête, et l’ensemble des documents disponibles. Il s’articule autour de deux étapes essentielles : les phases d’indexation et de recherche. Le processus complet est représenté en figure suivante. L’étape d’indexation se base sur l’analyse des documents et des requêtes afin de créer une représentation de leur contenu textuel qui soit utilisable par le SRI. Chaque document (et requête) est alors associé à un descripteur représenté par l’ensemble des termes d’indexation extraits. La phase de recherche a pour objectif d’apparier les documents et la requête de l’utilisateur en comparant leurs descripteurs respectifs. Elle se base sur un formalisme précis défini par un modèle de RI. Les documents présentés en résultat à l’utilisateur, et considérés comme les plus pertinents, sont ceux dont les termes d’indexation sont les plus proches de ceux de la requête. Figure 1.1 : Schéma général Système de recherche d’information 2.2 - Prétraitement et La Lemmatisation Il y a une autre façon pour rendre les termes d'un document plus utiles pour une recherche efficace. Cette voie consiste en l'élimination des différences morphologiques non significatives sémantiquement. L'idée est de fusionner les termes ayant un sens similaire avec de petites différences sur la forme morphologique. On peut remarquer facilement que beaucoup de mots ont des formes légèrement différentes, mais leur sens reste le même ou très similaire. C'est notamment le cas des mots conjugués ou dérivés. Par exemple, les mots
  15. 15. Système de recherche d’information arabe 14 Systèmederecherched’informationarabe suivants ont des sens très similaires: informer, informés, informent, information, informateur. Si tous ces mots sont traités séparément, le rappel de recherche sourira parce que cette différence de forme empêche le système de retrouver un texte dans lequel un mot similaire apparaît. Ainsi, l'idéal est d'éliminer toutes ces différences non significatives et ramener tous ces mots à une forme identique qu'on appellera le lemme (stem) ou la racine. L'idée de lemmatisation/troncature est d'éliminer ces indices de forme ou terminaisons à partir des termes et de ne garder que la racine ou le lemme. Pour la langue arabe la méthode de lemmatisation qui donne les meilleurs résultats jusqu’ maintenant dans un système de recherche d’information c’est la lemmatisation assouplie, il est inspiré par le processus de lemmatisation de langue anglaise, cet algorithme se base sur l’élimination d’un ensemble de suffixes et de préfixes. Il commence par la suppression de la lettre (‫)و‬ si elle est la première lettre du mot, puis il procède à une élimination des préfixes (‫,ال‬ ‫,وال‬ ‫,كال‬ ‫فال‬ , ‫لل‬ ,‫بال‬ ) et des suffixes (‫,ها‬‫ون‬ ,‫ين‬ ‫,ات‬ ‫ان‬ ,‫ي‬ ,‫ة‬ ,‫ه‬ ,‫يية‬ ,‫يه‬ ). 1.1 - Les Modèles de Recherche d’information On distingue plusieurs familles de modèles de recherche d’information : les modèles basés sur la théorie des ensembles, les modèles basés sur des principes algébriques et les modèles basés sur les probabilités. Les modèles booléens apparus dans les années 1950 se basent sur la théorie des ensembles. Ainsi, un tel modèle renvoyant un ensemble de documents jugés pertinents sans en proposer un ordonnancement est écarté. Les modèles vectoriels reposent sur des principes algébriques. Le premier système vectoriel de recherche d’information apparaît dans les années 1970 avec le système SMART [19]. Dans le modèle vectoriel, des vecteurs de poids représentent document et requête. Chaque poids dans le vecteur désigne l'importance du terme correspondant dans le document ou dans la requête. Pour qu'un vecteur prenne une signification, il faut préalablement définir un espace vectoriel. L'espace vectoriel se définit par l'ensemble de termes que le système a rencontré durant l'indexation, c’est-à-dire l’ensemble des termes de la collection de documents.
  16. 16. Système de recherche d’information arabe 15 Systèmederecherched’informationarabe Le premier modèle probabiliste apparaît au début des années 1960 avec Maron et Kuhns [17]. Le principe consiste à présenter les résultats de recherche d’un système de recherche d’information dans un ordre basé sur la probabilité de pertinence d’un document vis-à-vis d’une requête. Trois paramètres entrent dans le modèle probabiliste : la requête Q, le document D et la pertinence R. Le modèle classique de Robertson est fondé sur le ratio de vraisemblance entre P(R=1 | D,Q) et P(R=0 | D,Q). Ces deux probabilités signifient respectivement : si on retrouve le document D, quelle est la probabilité d’obtenir une information pertinente et si on retrouve le document D, quelle est la probabilité d’obtenir une information non pertinente [Nie, 2007].Le principe s’appuie sur la détection de termes à la fois présents dans le document et la requête. Une pondération binaire des termes est utilisée, 0 ou 1, ce qui correspond à l’absence ou la présence d’un terme dans le document ou la requête. Pour une requête donnée, on cherche à déterminer P(R=1 | D) et P(R=0 | D). Le calcul de ces probabilités permet le classement des documents entre eux selon leur pertinence par rapport à la requête. 1.2 - Classification et Clustering des Documents La classification automatique de texte implique l’attribution de documents texte dans la collection de données tests à une classe ou catégorie prédéfinie basé sur leurs contenus. Contrairement à la classification manuelle, qui consume le temps et exige une grande précision, la classification automatique permet au processus de classification d’être plus rapide et efficace puisqu’elle catégorise les documents automatiquement. Le but de la classification est d’attribuer des étiquettes de classe à des documents non étiquetés. Chaque document peut être dans de multiple, exactement une, ou aucune catégorie. Dans notre cas on se concentrera dans le cas d’attribution d’une seule étiquette. Le Clustering (regroupement) des documents vise à mettre les documents similaires ensemble. En ce faisant, on veut atteindre un des buts suivants:  Le nombre de clusters, par rapport au nombre de documents, est beaucoup plus petit. Ainsi, on peut accélérer le processus de recherche.
  17. 17. Système de recherche d’information arabe 16 Systèmederecherched’informationarabe  Si un document est pertinent à une requête, alors les documents similaires ont plus de chance à être pertinents aussi. Ainsi, les Cluster peuvent être aussi vus comme un moyen d'expansion.  Finalement, les réponses du système peut être regroupées, plutôt qu'être mises dans une liste individuellement. L'avantage de cette présentation de résultats est que l'utilisateur peut avoir une idée globale des résultats que le système a trouvés assez rapidement. Avec le progrès rapide sur les matériels d'informatique, le premier avantage semble beaucoup moins important maintenant. Les deux autres restent toujours d'actualité. On peut deviser les méthodes de Clustering en deux groupe : Hiérarchique et non- Hiérarchique Le premier type d'algorithme essaie de créer une hiérarchie des clusters, les documents les plus similaires sont regroupés dans des clusters aux plus bas niveaux, tandis que les documents moins similaires sont regroupés dans des clusters aux plus haut niveaux. Selon comment la hiérarchie est créée, ce type d'algorithmes peut encore se diviser en deux: divisif ou agglomératif. En partition, on tente de diviser un grand cluster en 2 plus petits (approche descendante). En regroupement, on tente de regrouper 2 clusters en un plus grand (approche ascendante). Le deuxième type d'algorithmes ne crée pas une hiérarchie. Les clusters sont au même niveau. Il est important de déterminer le cluster à découper ou les clusters à regrouper dans une approche hiérarchique, et de déterminer une fonction de similarité dans une approche non- hiérarchique. Les mesures utilisées varient. Quelques mesures souvent utilisées sont:  Similarité de clusters: elle est définie comme la similarité- entre les centroïdes de ces clusters (le centroïde est le vecteur moyen de tous les éléments dans le cluster).  ou bien entre les medoïdes de ces clusters (le medoïde est l'élément le plus au centre du cluster). 2 – Exemple de SRI (Moteur de recherche) Un moteur de recherche peut être défini comme un outil de recherche sur le web constitué de « robots », encore appelés spiders, crawlers ou agents qui parcourent les sites à intervalles réguliers et de façon automatique (sans intervention humaine, ce qui les distingue des annuaires) pour découvrir de nouvelles adresses (URL). Ils suivent les liens hypertextes (qui relient les pages les unes aux autres) rencontrés sur chaque page atteinte. Chaque page
  18. 18. Système de recherche d’information arabe 17 Systèmederecherched’informationarabe identifiée est alors indexée dans une base de données, accessible ensuite par les internautes à partir de mots-clés. Le fonctionnement d'un moteur de recherche se décompose en trois étapes principales : 1. L'exploration ou crawl : le web est systématiquement exploré par un robot d'indexation suivant récursivement tous les hyperliens qu'il trouve et récupérant les ressources jugées intéressantes. L'exploration est lancée depuis une ressource pivot, comme une page d'annuaire web. 2. L'indexation des ressources récupérées, consiste à extraire les mots considérés comme significatifs (pratiquement tous) correspondant à chaque ressource. Les mots extraits sont enregistrés dans une base de données organisée comme un gigantesque dictionnaire inverse ou, plus exactement, comme l'index terminologique d'un ouvrage, qui permet de retrouver rapidement dans quel chapitre de l'ouvrage se situe un terme significatif donné. 3. La recherche, correspond à la partie requêtes du moteur, qui restitue les résultats. Un algorithme est généralement appliqué pour donner un poids variable aux correspondances, afin de pouvoir présenter les résultats des recherches par ordre de pertinence supposée. L'algorithme tient généralement compte du contexte du mot clé (titre, paragraphe, hyperlien...) et de la ressource (ressources liées, popularité du site...) 3 - Conclusion Ce premier chapitre donne une idée générale sur la recherche d’information arabe et les différents concepts de lemmatisation, classification et de clustering. Dans le chapitre suivant on va détailler la morphologie de la langue arabe à cause de sa nature très complexe par rapport à d’autre langue et vue qu’elle a une influence directe sur la qualité des résultats dans un système de recherche d’information.
  19. 19. Système de recherche d’information arabe 18 Systèmederecherched’informationarabe Chapitre 2 : La langue Arabe et l’analyse morphologique
  20. 20. Système de recherche d’information arabe 19 Systèmederecherched’informationarabe 1- Introduction L’arabe (alarabiya en transcription traditionnelle) est la langue parlée à l’origine par les Arabes. C’est une langue sémitique (comme l’akkadien et l’hébreu). Au sein de cet ensemble, elle appartient au sous-groupe du sémitique méridional. Du fait de l’expansion territoriale au Moyen Âge et par la diffusion du Coran, cette langue s’est répandue dans toute l’Afrique du nord et en Asie mineure. Dire langue arabe, c’est donc parler d’un ensemble complexe dans lequel se déploient des variétés écrites et orales répondant à un spectre très diversifié d’usages sociaux, des plus savants aux plus populaires. Mais au-delà de cette diversité, les sociétés arabes ont une conscience aiguë d’appartenir à une communauté linguistique homogène. Elles sont farouchement attachées à l’intégrité de leur langue, d’où l’importance de l’ASM qui constitue le terrain commun pour cette large population. Par ses propriétés morphologiques et syntaxiques, le traitement automatique doit faire face à :  la nature agglutinante de la langue : l’ensemble des morphèmes collés à l’unité lexicale1 véhiculent plusieurs informations morphosyntaxiques.  la richesse flexionnelle de l’arabe.  l’absence de voyellation de la majorité des textes arabes écrits : ce phénomène entraîne un nombre important d’ambiguïtés morphologiques. En arabe, chaque lettre doit prendre un signe de voyellation et de surcroît les voyelles finales sont porteuses de certains traits morpho-syntaxiques comme la déclinaison, le mode, le cas. En outre des propriétés linguistiques, l’arabe recense un nombre de ressources linguistiques comprenant des lexiques monolingues et multilingues ainsi que des corpus de langue générale et des corpus de spécialité consacrés à une situation de communication ou à un domaine de la connaissance. L’arabe compte aussi un certain nombre d’outils linguistiques à savoir les analyseurs morphologiques ainsi que les racineurs basés essentiellement sur une procédure de dé-suffixation qui consiste à supprimer les suffixes qui différencient les flexions des unités lexicales (les formes conjuguées d’un verbe par exemple).
  21. 21. Système de recherche d’information arabe 20 Systèmederecherched’informationarabe Dans ce chapitre, nous introduisons la langue arabe. La section (2) est consacrée à son statut géographique, à ses diverses variantes et celle qui sera l’objet de l’étude. Dans la section (3) nous présentons les caractéristiques linguistiques et la classification des unités lexicales de l’arabe. Finalement, dans les sections (5), (6) nous aborderons les ressources linguistiques de l’arabe ainsi que les outils pour son traitement. 2 - La langue Arabe et ses variantes L’arabe est une langue parlée par plus de 200 millions de personnes. Elle est langue officielle d’au moins 22 pays. C’est aussi la langue de référence pour plus d’un milliard de musulmans. Comme son nom l’indique, la langue arabe est la langue parlée à l’origine par le peuple arabe. C’est une langue sémitique (comme l’hébreu, l’araméen et le syriaque). Au sein de cet ensemble, elle appartient au sous-groupe du sémitique méridional. Le développement de la langue arabe a été associé à la naissance et la diffusion de l’islam. L’arabe s’est imposée, depuis l’époque arabo-musulmane, comme langue religieuse mais plus encore comme langue de l’administration, de la culture et de la pensée, des dictionnaires, des traités des sciences et des techniques. Ce développement s’est accompagné d’une rapide et profonde évolution (en particulier dans la syntaxe et l’enrichissement lexical). L’arabe peut être considéré comme un terme générique rassemblant plusieurs variétés :  l’arabe classique : la langue du Coran, parlée au VIIe siècle.  l’arabe standard moderne (l’ASM) : une forme un peu différenciée de l’arabe classique, et qui constitue la langue écrite de tous les pays arabophones. L’ASM reste le langage de la presse, delà littérature et de la correspondance formelle, alors que l’arabe classique appartient au domaine religieux et est pratiqué par les membres du clergé.  les dialectes arabes : malgré l’existence d’une langue commune, chaque pays a développé son propre dialecte. Issus de l’arabe classique, leurs systèmes grammaticaux respectifs affichent de nettes divergences avec celui de l’ASM. On peut regrouper ces dialectes en quatre grands groupes : 1. les dialectes arabes, parlés dans la Péninsule Arabique : dialectes du Golfe, dialecte du najd, yéménite. 2. les dialectes maghrébins : algérien, marocain, tunisien, hassaniya de Mauritanie.
  22. 22. Système de recherche d’information arabe 21 Systèmederecherched’informationarabe 3. les dialectes proche-orientaux : égyptien, soudanais, syro-libano-palestinien, irakien (nord et sud). 4. la langue maltaise est également considérée comme un dialecte arabe. L’arabe est un ensemble complexe dans lequel s’étendent des variétés écrites et orales répondant à un spectre très varié d’usages sociaux. Mais au-delà de cette variété, les sociétés arabes ont une conscience aiguë d’appartenir à une communauté linguistique homogène, d’où l’importance de l’ASM qui forme un terrain commun pour cette large population. L’ASM est la langue des médias officiels, de la communication écrite et de tout type de communication non spontanée. Elle se distingue des dialectes arabes par son système grammatical partagé avec l’arabe classique. L’ASM, quoique qu’elle soit considérée comme le symbole le plus puissant de l’unité arabe, possède des variations régionales. Nous reconnaissons un texte marocain vis-à-vis d’un texte égyptien ou d’un texte provenant des pays du Golfe. Cette variation est du eaux différences qui ont lieu dans la formation de nouveaux vocabulaires. Mais elle est aussi la conséquence de l’histoire coloniale différente des régions impliquées. Les pays du Maghreb, par exemple, ont une tendance naturelle à regarder des exemples français, et le texte est largement influencé par la langue française même au niveau de la syntaxe et de la stylistique. Nous trouvons, par exemple ‫الوزير‬‫االول‬ (de : le premier ministre français) au lieu du terme fréquent ‫رئيس‬‫الوزراء‬ (le président des ministres). Dans les pays arabes sans un passé colonial français, l’anglais remplace le français en tant que langue fournissant les modèles syntaxiques et stylistiques. 3- Grammaire et caractéristique de l’arabe La grammaire traditionnelle se divise en deux branches : 1. La morphologie, ‫رف‬َ‫ص‬‫ل‬َ‫ا‬ qui comprend :  Morphologie dérivationnelle, qui étudie la construction des unités lexicales et leur transformation selon le sens voulu. Ainsi, la dérivation morphologique est décrite sur une base morphosémantique: d’une même racine, se dérivent différentes unités lexicales selon des schèmes qui sont des adjonctions et des manipulations de la racine. La racine [KTB] épouse plusieurs schèmes selon qu’on veut exprimer un procès accompli (c1 a c2 a c3 a) [kataba] ou inaccompli (y a c1 c2 u c3 u) [yaktubu], un nom d’agent (c1 a : c2 i c3 u n) [ka:tibun], un nom de patient (ma c1 c2 u : c3 u n) [maktu:bun], etc.
  23. 23. Système de recherche d’information arabe 22 Systèmederecherched’informationarabe  Morphologie flexionnelle concerne le marquage casuel pour le nom et l’adjectif ou la conjugaison du verbe, appelé «‫اب‬َ‫ر‬‫ع‬ َ‫.»اَل‬ 2. La Syntaxe « ‫النحو‬ » qui étudie la formation correcte des phrases garantit la grammaticalité de la phrase en analysant : a. La position des unités lexicales les unes par rapport aux autres, déterminant ainsi l’ordre des unités lexicales. b. Le marquage casuel des unités lexicales de la phrase. Ainsi, la fonction syntaxique de l’unité lexicale est déterminée en s’appuyant sur la morphophonologie. Pour la reconnaissance des unités lexicales dans les textes, nous sommes confrontés à l’ambiguïté provoquée surtout par la voyellation partielle, l’agglutination et l’ordre relativement libre des unités lexicales. Par exemple l’unité lexicale ferme, est hors contexte, un substantif, un adjectif ou un verbe. Alors que l’unité lexicale arabe RaLaKa « َ‫ق‬َ‫ل‬َ‫غ‬» est un verbe à la 3ème personne masculin singulier de l’accompli actif, par contre sa forme non « ‫غلق‬ » dans l’exemple donné ne sont représentées que les consonnes RLK) admet quatre catégories grammaticales :  Substantif masculin singulier (RaLKun : une fermeture).  Verbe à la 3è personne masculin singulier de l’accompli actif (RaLaKa : il a fermé ou RaLLaKa il a fait fermer).  Verbe à la 3è personne masculin singulier de l’accompli passif (RuLiKa : il a été fermé).  Verbe à l’impératif 2ème personne masculin singulier (RaLLiK: fais fermer).Une autre difficulté de l’arabe est l’agglutination par laquelle les composantes de l’unité lexicale sont liées les unes aux autres. Nous décrivons ci-dessous les propriétés linguistiques de la langue arabe, à savoir la voyellation, la flexion et l’agglutination. Une autre difficulté de l’arabe est l’agglutination par laquelle les composantes de l’unité lexicale sont liées les unes aux autres. Nous décrivons ci-dessous les propriétés linguistiques de la langue arabe, à savoir la voyellation, la flexion et l’agglutination.
  24. 24. Système de recherche d’information arabe 23 Systèmederecherched’informationarabe 3.1 Voyellation La langue arabe s’écrit et se lit de droite à gauche, son alphabet compte 28 consonnes adoptant différentes graphies selon leur position (au début, au milieu ou à la fin d’une unité lexicale). Une unité lexicale arabe s’écrit avec des consonnes et des voyelles. Les voyelles sont ajoutées au-dessus ou au-dessous des lettres. Elles sont nécessaires à la lecture et à la compréhension correcte d’un texte et elles permettent de différencier des unités lexicales ayant la même représentation. Pour mieux comprendre prenons l’exemple «‫كتب‬ » du tableau 4.2.1. Le dictionnaire nous renvoie les voyellations lexicales suivantes : Figure 2.1 : Ambiguïté causée par l’absence de voyelles pour les unités lexicales ‫كتب‬ et ‫مدرسة‬ 3.2 Flexion Une langue flexionnelle est une langue dans laquelle les unités lexicales varient en nombre et en flexion (soit le nombre des noms, soit le temps verbal) suivant les rapports grammaticaux qu’ils entretiennent avec les autres unités lexicales. L’ensemble des formes différentes d’une même unité lexicale fléchie constitue son paradigme. D’après cette définition, l’arabe se classe comme une langue à morphologie extrêmement riche : Le système flexionnel affiche un marquage varié. Par exemple, l’arabe contient trois cas : le nominatif(NOM), qui est le cas par défaut, l’accusatif (ACC) pour les compléments verbaux et le génitif (GEN) pour le dépendant d’une préposition. Les morphes sont divisés dans la translittération par le symbole"+" :
  25. 25. Système de recherche d’information arabe 24 Systèmederecherched’informationarabe Figure 2.2 : Exemple des flexions dans la langue arabe 3.3 Agglutination L’arabe montre une forte tendance à l’agglutination : l’ensemble des morphèmes collés les unes aux autres et constituant une unité lexicale véhiculent plusieurs informations morphosyntaxiques. Ces unités lexicales sont souvent traduisibles par l’équivalent d’une phrase en français. La structure d’une unité lexicale arabe est donc décomposable en cinq éléments : proclitique, préfixe, base, suffixe et enclitique. La base est une combinaison de lettres radicales (le plus souvent trois) et d’un schème. La base – avec préfixe et suffixe - forme le noyau lexical, éventuellement entouré d’extensions [36]. Comme le montre l’exemple suivant : «‫ا‬َ‫ه‬ُ‫ب‬ِ‫ضر‬َ‫ي‬ِ‫ل‬ َََ‫و‬ » Figure 2.3 : Exemple représente l’agglutination dans la langue arabe
  26. 26. Système de recherche d’information arabe 25 Systèmederecherched’informationarabe Cet exemple révèle la complexité morphologique de l’arabe. Il s’agit du verbe «‫ب‬ِ‫ر‬‫ض‬َ‫ي‬» employé au présent du subjonctif, 3ème personne du masculin pluriel, la base verbale est / َ‫ب‬َ‫ر‬َ‫ض‬ / et la racine / « ‫ضرب‬ »/. Le pronom sujet n’est pas réalisé. En position proclitique, on utilise la conjonction de coordination "wa" « ‫و‬ » la conjonction "li" « ‫ل‬ ». En position enclitique, on utilise le pronom complément d’objet 3ème personne du féminin singulier "haA" «‫َا‬‫ه‬ » "elle". 3.4 Pro-drop (= à sujet pronominal vide) L’ASM néglige systématiquement la réalisation morphologique du pronom sujet. Cependant, le verbe s’accorde en personne, en genre et en nombre avec le pronom omis, comme l’affiche l’exemple suivant: /ُ‫م‬ُ‫ه‬ / َ‫ك‬‫ا‬ُ‫ل‬ vs /‫ُن‬‫ه‬ /‫ن‬َ‫ل‬‫اك‬ / Le pronom correspondant est mis entre / / : Akalu /homo/ vs Akalnna /honna/ (V)PASSE.3.MASC.PL vs (V)PASSE.3.FEM.PL ont mangé /ils/ vs ont mangé /elles/ "Ils ont mangé" vs "Elles ont mangé" 4 - Les parties de discours en arabe Les unités lexicales qui composent le discours sont regroupées par catégories selon les caractéristiques qu’ils ont en commun. Ces différentes catégories s’appellent les parties du discours. Cette section donne une classification des unités lexicales de la langue arabe. Dans un premier temps, nous présentons la classification traditionnelle des unités lexicales (sous- section 4.1), ensuite des tentatives de classification plus récentes (sous-section 4.2). 4.1 Les parties de discours classiques La grammaire traditionnelle compte trois classes: le nom, le verbe et la lettre. La catégorie nominale rassemble toutes les unités lexicales n’ayant pas de sens lié au temps et regroupe les catégories du substantif et de l’adjectif. La catégorie verbale comprend toutes les unités lexicales référant à un état ou à une action au passé, au présent ou au futur. La classe lettre, quant à elle, se répartit d’une part, en lettres de l’alphabet, littéralement les lettres de construction , ‫حروف‬‫المعاني‬ , qui s’unissent pour former des unités lexicales, et d’autre part, en lettres de signification, ‫حروف‬‫المباني‬ , dont le sens n’est complet que si elles sont utilisées avec un nom ou un verbe. La grammaire traditionnelle recense presque quatre-vingts particules, dont l’identification de la classe syntaxique exige d’étudier séparément les propriétés distributionnelles de chaque lettre.
  27. 27. Système de recherche d’information arabe 26 Systèmederecherched’informationarabe Sur critères morphologiques, la classe du nom se répartit en deux groupes :  Noms variables comprenant les deux propriétés suivantes : o Ils acceptent les changements morphologiques et comprennent des variantes numérales (singulier, duel et pluriel). Cette sous-catégorie contient les déverbaux (PY tel le nom d’agent, le nom de patient, le nom de résultat, et le nom d’instrument). o Ils ont des formes dérivées adjectivales et diminutives. Ils se répartissent en noms dérivés du paradigme verbal et noms non dérivés. Ces derniers se subdivisent aussi, sur une base de distinction conceptuelle, en noms abstraits, relatifs à l’espace mental, et noms concrets, relatifs à l’espace physique.  Noms invariables regroupant des lexèmes tels que le pronom, le démonstratif, l’interrogatif, le relatif et certains numéros. Ces noms sont dits invariables car la marque casuelle n’est pas identifiée phonologiquement. Cependant, ces lexèmes exercent les fonctions d’un nom. 4.2 Classification récentes des unités lexicales de l’arabe A notre connaissance, les études qui ont cherché à classifier des unités lexicales en arabe selon les parties de discours sont très peu nombreuses [21]. Les démarches récentes de classification des unités lexicales se répartissent en deux approches. Certaines consistent en une classification identifiée pour les langues indo-européennes sans prendre en considération l’existence possible d’une classe n’existant pas dans ces langues, ou bien l’inverse. D’autres ont conservé la classification traditionnelle arabe tout en lui suggérant des raffinements. Nous présentons une classification assez récente réalisée dans le cadre du développement d’un étiqueteur morphosyntaxique [2] qui a servi de référence pour d’autres recherches comme [1]. [2] présente un étiquetage basé sur la classification traditionnelle et raffinée par les subdivisions proposées par [3].Selon cette classification, les unités lexicales se répartissent en cinq classes : nom, verbe, particule, résiduel et ponctuation. Certaines sont raffinées en sous classes illustrées sur la figure suivante : Nous avons présenté une description succincte de la grammaire arabe et avons décrit ses propriétés linguistiques :  Une langue voyellée qui avec l’absence de voyellation entraîne une ambiguïté à différencier des unités lexicales ayant la même représentation.
  28. 28. Système de recherche d’information arabe 27 Systèmederecherched’informationarabe Figure 2.4 : Classification des unités lexicales proposée par [2]  Une langue flexionnelle dans laquelle les unités lexicales varient en nombre et en flexion (soit le nombre des noms, soit le temps verbal), suivant les rapports grammaticaux qu’ils entretiennent avec les autres unités lexicales.  une langue agglutinante où l’ensemble des morphèmes collées les unes aux autres et constituant une unité lexicale véhiculent plusieurs informations morphosyntaxiques. Ces unités lexicales sont souvent traduisibles par l’équivalent d’une phrase en français.  Une langue pro-drop où elle néglige systématiquement la réalisation morphologique du pronom sujet. Nous avons ensuite présenté la classification traditionnelle tripartite -verbe, nom et particule-, puis nous avons décrit une classification structurale récente des unités lexicales en arabe, ainsi elles se répartissent en cinq classes : nom, verbe, particule, résiduel et ponctuation. 5- Ressources linguistiques : état des lieux Les ressources linguistiques (RL) jouent un rôle essentiel dans les applications de la technologie des langues. Ainsi, d’une part les RL alimentent les différents processus des systèmes de TAL, d’autre part, elles sont de plus en plus exploitées pour accompagner le travail de modélisation linguistique par des méthodes statistiques [4].
  29. 29. Système de recherche d’information arabe 28 Systèmederecherched’informationarabe Les RL à grande échelle connaissent une diffusion croissante, notamment grâce à des structures le LDC 5 (Linguistic Data Consortium) aux Etats-Unis et l’ELRA 6 (European Language Ressources Association) en Europe. Nous donnons un aperçu des ressources linguistiques existantes pour l’arabe. Nous nous limitons à celles utiles pour l’analyse automatique des corpus textuels. 5.1 Lexiques Un lexique se constitue d’une liste d’entrées lexicales auxquelles peuvent être associées des informations linguistiques relevant la morphologie, la syntaxe, ou la sémantique ainsi que sa fréquence d’usage, des exemples d’emploi, etc. Toutes ces informations peuvent être regroupées en deux groupes distincts, les informations intra-lexicales et inter-lexicales. Les informations intra-lexicales (constituant la microstructure du lexique) tandis que, les informations inter-lexicales (constituant la macrostructure du lexique) sont celles qui lient les unités lexicales entre eux dans le lexique. Nous distinguons différents types de liens :  les liens morphologiques permettent de lier l’unité lexicale à sa forme de base. Ils regroupent les informations flexionnelles et dérivationnelles (lien entre une forme fléchie et son lemme).  les liens sémantiques lient l’entrée lexicale avec ses informations sémantiques. Nous présentons quelques-uns des lexiques électroniques de l’arabe, en abordant d’une part les lexiques monolingues et d’autre part les lexiques multilingues. 5.2 Corpus Le corpus se définit de fait comme l’objet concret auquel s’applique le traitement, qu’il s’agisse d’une étude qualitative ou quantitative. Le corpus est défini par [5] comme « l’ensemble limité des éléments (énoncés) sur lesquels se base l’étude d’un phénomène linguistique ». Mais les données ont un nom trompeur : elles ne s’imposent pas, elles sont construites. Certes, il y a un existant, directement sous forme de textes électroniques par exemple, et donc l’analyste n’a pas une totale liberté d’inventer ses données, il part d’une réalité, mais il reste des décisions du type : faut-il considérer tout ce qui est disponible ou en extraire un sous-ensemble plus significatif et équilibré ; comment éventuellement l’adapter au traitement envisagé. Ainsi, selon [6] le corpus doit vérifier trois types de conditions : des conditions de signifiance, des conditions d’acceptabilité, et des conditions d’exploitabilité.
  30. 30. Système de recherche d’information arabe 29 Systèmederecherched’informationarabe  Conditions de signifiance : un corpus est constitué en vue d’une étude déterminée, portant sur un objet particulier, une réalité telle qu’elle est perçue sous un certain angle de vue. Les documents retenus doivent être adéquats comme source d’information pour correspondre à l’objectif qui suscite l’analyse.  Conditions d’acceptabilité : le corpus doit apporter une représentation fidèle, sans être parasité par des contraintes externes. Il doit avoir une ampleur et un niveau de détail adaptés au degré de finesse et à la richesse attendue en résultat de l’analyse.  Conditions d’exploitabilité : les textes qui forment le corpus doivent être commensurables. Le corpus doit apporter suffisamment d’éléments pour pouvoir repérer des comportements significatifs (au sens statistique du terme). Dans notre cas, nous distinguons deux grandes catégories de corpus : les corpus de spécialités tentent de refléter l’usage de la langue dans un domaine particulier (corpus techniques, médicaux), tandis que les corpus généralistes s’intéressent à l’ensemble d’une langue et rassemblent souvent des textes plus diversifiés, représentatifs de sa diversité. 5.2.a – Corpus général Le corpus de langue générale est consacré à une langue naturelle. Il tend à représenter la diversité des usages de la langue choisie. A ce titre, il est constitué d’un ensemble de données dont les conditions de production et de réception sont représentatives d’une grande variété de situations de communication (orale : monologue, interview, écrite : lettre, roman...), et de types textuels (exposé scientifique, fiction narrative, reportage...). Il permet la constitution de sous corpus en registre 7 pour des analyses contrastives par exemple. En outre, le corpus de langue générale est souvent ouvert, c’est-à-dire que son contenu est sans cesse augmenté de nouvelles données, ce qui autorise à terme des analyses diachroniques (néologismes, emplois morphologiques privilégiés). Enfin, le corpus de langue générale est de grande taille, il dépasse aujourd’hui plusieurs millions d’occurrences. Al-Hayat Le corpus Al- Hayat est distribué par l’organisme ELRA, il a été développé dans le cadre d’un projet de recherche de l’Université d’Essex, en collaboration avec Open University. Ce corpus est constitué d’articles extraits du journal Al-Hayat, qui ont été utilisés dans les campagnes TREC. Les données sont réparties dans sept rubriques, suivant les critères de répartition des sujets du journal Al-Hayat : rubrique Générale, rubrique Automobile, rubrique Informatique, rubrique Actualités, rubrique Economie, rubrique Sciences, et rubrique Sport.
  31. 31. Système de recherche d’information arabe 30 Systèmederecherched’informationarabe Le balisage, les nombres, les caractères spéciaux et la ponctuation ont été supprimés. La taille totale du fichier est de 268 Mo. Il contient 18 639 264 unités lexicales, 42 591 articles. An-Nahar Le corpus de textes du quotidien libanais An-Nahar distribué par ELRA, est constitué d’articles en arabe standard de 1995 à2000, stockés sous la forme de fichiers HTML sur CD-ROM. Chaque année contient 45 000 articles et24 millions de mots. Chaque article contient des informations telles que le titre, le nom du quotidien, la date, le pays, le type, la page, etc. NEMLAR : Network for Euro-Mediterranean Language Resources Ce corpus a été produit dans le cadre du projet NEMLAR 8. Le corpus écrit NEMLAR est constitué de 500 000 unités lexicales regroupés en 13 catégories différentes, visant à obtenir un corpus bien équilibré qui offre une représentation de la variété de traits syntaxiques, sémantiques et pragmatiques de la langue arabe moderne. Les différentes catégories sont illustrées dans la table 2.5. Le corpus est fourni sous la forme de 4 versions différentes:  Texte brut  Texte entièrement voyellée  Texte comprenant une analyse lexicale de l’arabe  Texte enrichi linguistiquement avec les parties du discours Agence France Presse L’Agence France Presse (http://www.afp.com/arabic/home/) est l’un des plus gros diffuseurs européen de dépêches en langues Arabe. Le corpus est constitué de 383 872 documents. Il a été encodé en utilisant le SGML et a été transcodé à Unicode (UTF-8). Le corpus inclut des articles journalistiques du 13 mai 1994 au 20 décembre 2000 avec approximativement 76 millions d’unité lexicale. Les données sont réparties dans six rubriques, suivant les critères de répartition des sujets du journal Agence France Presse : rubrique Générale, rubrique Informatique, rubrique Actualités, rubrique Economie, rubrique Sciences, et rubrique Sport. Chaque article contient des informations telles que le titre, la date, le pays, la page, etc. Corpus arborés Un corpus arboré est un corpus annoté par des informations de nature interprétative [22]. Les différents type d’annotation dont parle J. Véronis sont : l’annotation grammaticale, sémantique, multilingue ainsi que l’annotation phonétique. Il existe deux types d’annotation grammaticale. Le premier consiste à effectuer un étiquetage des catégories grammaticales et des informations morphosyntaxiques associées. Le deuxième est un marquage de structures syntaxiques,
  32. 32. Système de recherche d’information arabe 31 Systèmederecherched’informationarabe Figure 2.5 Composition du corpus NEMLAR 6 – Conclusion Le but de ce chapitre était de présenter la langue arabe, de décrire plus particulièrement ses propriétés linguistiques :  Une langue voyellée qui avec l’absence de voyellation entraîne une ambigüité à différencier des unités lexicales ayant la même représentation.  Une langue flexionnelle dans laquelle les unités lexicales varient en nombre et en flexion (soit le nombre des noms, soit le temps verbal), suivant les rapports grammaticaux qu’ils entretiennent avec les autres unités lexicales.  une langue agglutinante où l’ensemble des morphèmes collées les unes aux autres et constituant une unité lexicale véhiculent plusieurs informations morphosyntaxiques. Ces unités lexicales sont souvent traduisibles par l’équivalent d’une phrase en français.  Une langue pro-drop où elle néglige systématiquement la réalisation morphologique du pronom sujet.
  33. 33. Système de recherche d’information arabe 32 Systèmederecherched’informationarabe Nous avons ensuite présenté la classification traditionnelle tripartite -verbe, nom et particule-, puis nous avons décrit une classification structurale récente des unités lexicales en arabe, ainsi elles se répartissent en cinq classes : nom, verbe, particule, résiduel et ponctuation. Et finalement nous avons donné un aperçu sur les différentes ressources linguistiques disponibles en arabe, à savoir les lexiques monolingues et multilingues, et les corpus bruts et annotés. Dans le chapitre suivant on va attaquer la phase de prétraitement des documents arabe qui représente une phase très importante pour la recherche d’informations avec influence directe sur la performance et la qualité des résultats.
  34. 34. Système de recherche d’information arabe 33 Systèmederecherched’informationarabe Chapitre 3 : Prétraitement des documents arabe
  35. 35. Système de recherche d’information arabe 34 Systèmederecherched’informationarabe 1 – Introduction Après avoir donné un aperçu général sur les systèmes de recherche d’information, et donner des spécificités de la langue arabe et ça complexité morphologique. On va présenter dans ce chapitre d’abord les différentes méthodes de la représentation des documents pour un traitement automatique .puis on va définir la notion de lemmatisation avec les différentes approche qui existes 2 – Représentation des documents La phase de représentation est très importante et comporte deux choix qui affectent souvent les performances : le choix de termes (mot, lemme, stem ou n-grammes) et le choix des poids associés à ces termes (absence/présence, nombre d’occurrences, fréquence, ... etc.). 2.1.a – Modèle Vectorielle À chaque fois qu’il est question de définir un problème de façon à assurer un traitement automatique, il est impossible de passer outre l’étape où il faut choisir la façon dont on va représenter le problème. Dans le cas de la classification automatique de textes, on doit opter pour une façon efficace de représenter les instances à traiter, soit les textes. Un grand nombre de chercheurs dans le domaine ont choisi d’utiliser une représentation vectorielle [10] dans laquelle chaque texte est représenté par un vecteur de n termes pondérés. À la base, les n termes sont tout simplement les n différents mots apparaissant dans les textes de l’ensemble d’entraînement. Cette approche est aussi appelée «bag-of-words». On peut utiliser d’autres types d’attributs pour caractériser les vecteurs dont certains seront présentés plus loin. Il existe aussi plusieurs façons d’associer un poids à un terme. Il peut être tout simplement binaire (1 si le mot est présent dans le texte, 0 sinon). Il peut aussi représenter le nombre d’occurrences du mot dans le texte. Cependant, en procédant ainsi, on donne une importance trop grande aux termes qui apparaissent très souvent à travers toutes les classes et qui sont peu représentatifs d’une classe en particulier. Une façon largement utilisée de calculer le poids d’un terme est la fonction TFIDF (acronyme pour «term frequency inverse document frequency»). Issue du monde de la recherche d’information [23], celle-ci donne plus d’importance aux mots qui apparaissent souvent à l’intérieur d’un même texte, ce qui correspond bien à l’idée intuitive que ces mots sont plus représentatifs du document. Mais sa particularité est qu’elle donne également moins de poids aux mots qui appartiennent à plusieurs documents, pour refléter le fait que ces mots ont un faible pouvoir de discrimination entre les classes.
  36. 36. Système de recherche d’information arabe 35 Systèmederecherched’informationarabe Le poids d’un terme tk dans un document dj est calculé avec la formule suivante : Pour avoir des poids entre 0 et 1, on peut appliquer une normalisation, ce qui est souvent le cas. La fonction TFIDF a démontré une bonne efficacité dans des tâches de catégorisation de textes, et, en plus, son calcul est simple. Il faut savoir que d’autres méthodes plus sophistiquées peuvent aussi être utilisées [25]. Malgré la grande popularité de l’approche «bag-of-words» pour représenter les textes, plusieurs chercheurs ont expérimenté l’utilisation des modes de représentation alternatifs. Une des motivations est que cette approche met de côté une quantité considérable d’information contenue dans le document original. Les paragraphes, les phrases et l’ordre des mots sont complètement écartés. Toute l’information sur les structures syntaxiques est perdue. La question est bien sûr de savoir si la qualité de la classification automatique des textes va être affectée négativement par cette façon d’agir. Est- ce que tout ce qui est mis à l’écart au profit d’une représentation «bag-of-words» est véritablement pertinent lors de l’assignation d’un texte à une catégorie ? La question à savoir si les mots pris séparément représentent toujours des unités sémantiques atomiques n’est plus à débattre. Il est clair que ce n’est pas le cas. Personne ne peut contredire le fait que les mots «apprentissage» et «automatique» ensemble ont une sémantique différente que lorsque pris séparément. On peut donc oser croire que des modes de représentation conservant l’information sur les liens entre les mots pourraient améliorer la classification de textes, sachant que cette tâche est directement liée au sens du message véhiculé par le texte, c’est-à- dire à sa sémantique. En particulier, [12] ont essayé une dizaine de façons de représenter les textes sur un classificateur ayant comme base l’apprentissage de règles (RIPPER). Ils ont d’abord considéré les groupes nominaux, en extrayant des suites de noms et d’adjectifs pour construire les termes de l’espace vectoriel. L’utilisation d’une application analysant la nature grammaticale des mots du texte a été nécessaire à la mise en place de ce mode de représentation. Puis, en utilisant une approche plutôt statistique que syntaxique, ils ont également considéré les groupes-clés, c’est-à-dire les groupes de mots ayant le plus de sens dans un document. En parallèle, ils ont aussi évalué l’impact de regrouper les mots - #( tk, dj) est le nombre d’occurrences de tk dans dj - |Tr| est le nombre de documents d’entraînements - #( tk) est le nombre de documents d’entraînements dans lesquels tk apparaît au moins une fois
  37. 37. Système de recherche d’information arabe 36 Systèmederecherched’informationarabe synonymes en un même méta-attribut. Dans le même ordre d’idées, la notion d’hyperonymes a été mise à l’épreuve pour regrouper des mots de la même façon. Malheureusement, aucun de ces modes alternatifs n’a produit de résultats équivalents ou supérieurs à l’approche «bag-of- words». 2.1.b – Représentation par concept Une autre méthode de représentation [2], bien qu’il se base aussi sur le formalisme vectoriel pour représenter les documents, reste fondamentalement différente. Les dimensions de l’espace vectoriel ne sont pas associées ici à des termes d’indexation mais à des concepts. Pour permettre une telle représentation des documents, il est nécessaire de pouvoir projeter n’importe quelle lexie du dictionnaire sur l’espace généré par l’ensemble des concepts prédéfinis. Comme espace de concepts on cite le thésaurus Larousse composé de 873 concepts hiérarchisés en 4 niveaux. Par exemple, le mot “mélodie”, défini par les concepts 741, 781 et 784 (phrase, musique et chant) du thésaurus, sera représenté par un vecteur de dimension 873 dont toutes les composantes seront nulles sauf celles associées aux concepts 741, 781 et 784 qui seront identiques. Le thésaurus Larousse sera donc défini comme un ensemble de couple appartenant à avec L correspondant à l’ensemble des lemmes du thésaurus.
  38. 38. Système de recherche d’information arabe 37 Systèmederecherched’informationarabe 2.1.c – Représentation Mixte L’avantage de la représentation conceptuelle est en particulier, de réduire les effets synonymiques du vocabulaire. Par exemple, “pic”, “cime”, “sommet”, “crête” possèdent des sens en commun. Lors d’une représentation statistique (représentation vectorielle), chaque mot sera associé à une dimension. Il n’y aura donc aucune ressemblance entre des textes utilisant ces différents mots. L’avantage de la représentation conceptuelle est que des mots synonymes partagent au moins un concept. Cependant, l’inconvénient majeur de la représentation conceptuelle est que les noms propres du document ne sont pas pris en compte. En effet les noms propres, étant sémantiquement vides par définition, ne possèdent pas de représentation au sein du thésaurus. Par exemple les mots “Ferrari” et “Montpellier” sont définis comme des vecteurs “nuls” alors qu’ils peuvent être utile lors d’un processus de catégorisation, notamment pour des catégories de type : “Automobile” ou “Langedoc- Roussillon”. L’idée de la représentation mixte [2] est donc d’allier, à une représentation conceptuelle pure, une dimension statistique supplémentaire. Cette double représentation des textes a pour avantage de fournir deux informations différentes et complémentaires à un processus de catégorisation. En effet, la représentation statistique permet de mettre en évidence le vocabulaire discriminant tandis que la représentation conceptuelle permet quant à elle, d’obtenir une vision plus globale du texte en projetant ce dernier sur un ensemble de concepts. Cette projection permet d’en déduire le “champs sémantique” du texte en question. Chaque document dans le processus de catégorisation mixte sera représenté par un vecteur défini comme la concaténation des deux vecteurs suivants : - La première moitié du vecteur mixte correspondra au vecteur statistique. - La seconde moitié du vecteur mixte correspondra au vecteur conceptuel. Comme les deux vecteurs ne sont pas obligatoirement uniformes, le vecteur mixte final est normalisé :
  39. 39. Système de recherche d’information arabe 38 Systèmederecherched’informationarabe 3 – Prétraitent et Lemmatisation 3.1 – Prétraitement nécessaires 3.1.a - Encodage : L'arabe est encodé sur le Web suivant plusieurs formats d'encodage comme Unicode, ISO-8859-6 et CP1256. Les textes recherchés et les requêtes peuvent être encodés différemment, ce qui les rend incomparables. Par exemple, notre corpus de test provient de la collection « ». Les documents sont représentés en Unicode (UTF-8) et les requêtes, en ISO-8859-6. Un autre encodage (Windows CP1256) est utilisé sur le Web pour représenter les textes arabes. Afin d'apparier les documents avec les requêtes, nous devons réutiliser des outils de conversion entre différents encodages en utilisant des tables de l'alphabet arabe. Ainsi, tout a été transformé en format Unicode dans notre cas. 3.1.b - Tokenisation : La tokenisation consiste à identifier les mots dans une séquence de lettres. Pour la tokenisation des textes arabes, en plus des mêmes ponctuations présentes dans les textes européennes, nous avons ajouté d'autres signes de ponctuation arabe (encodés en arabe) comme la virgule, le point-virgule et le point d'interrogation et nous les avons considérés comme des séparateurs. Ainsi, tous ces signes agissent comme séparateurs de mots arabes. 3.1.c - Normalisation orthographique : Dans l'arabe écrit, les voyelles sont souvent omises dans les textes et un lecteur familier avec ce langage ne trouvera pas vraiment de difficulté pour lire correctement un texte sans voyelles. Néanmoins, on peut parfois trouver quelques voyelles présentes avec les mots dans les textes. Ainsi, l'élimination de ces voyelles est nécessaire pour fin de normalisation. D'autre part, certaines lettres subissent une légère modification dans l'écriture qui n'influe pas considérablement sur le sens du mot. Mais l'encodage de ces lettres change d'un mot à un autre. On peut citer à titre d'exemple la lettre « ‫أ‬ ». Au début des mots, elle peut être représentée par « ‫أ‬ » comme (‫,)أكل‬ par « ‫إ‬ » comme (‫)إستخدم‬ ou encore « ‫آ‬ » comme dans (‫.)آالت‬ Une autre raison pour ce prétraitement est qu'on a tendance fréquemment à mal écrire ces différentes formes de hamza. Ce genre d'erreurs est très répandu dans les textes arabes. Afin
  40. 40. Système de recherche d’information arabe 39 Systèmederecherched’informationarabe de tenir compte de toutes ces spécificités de ce langage et de remédier au problème de variation de représentation des caractères arabes dans les textes comme dans les requêtes, il est nécessaire d'adopter et d'appliquer quelques méthodes de normalisation sur le corpus avant la lemmatisation :  Remplacer les hamzas (‫آ‬ ,‫إ‬ ,‫)أ‬ par (‫.)ا‬  Remplacer (‫)ى‬ par (‫)ي‬ à la fin des mots.  Remplacer (‫)ة‬ par (‫)ه‬ encore à la fin des mots.  Remplacer la séquence (‫)ئ‬ par (‫.)ي‬  Eliminer le caractère « tatweel » et « kashida » ( _ ) utilisé pour l'esthétique dans les textes arabes.  Eliminer les diacritiques (voyelles) et la « chedda ». Cette étape de normalisation améliore clairement la performance de la recherche quand lors de sa mise en place dans un système de RI. 3.1.d - Construction de Stoplist (Liste des mots outils) : Comme pour d'autres langues, l'arabe contient aussi des mots fonctionnels (ou mots outils) qui ne partagent pas un sens particulier utile pour la recherche d'information. Nous éliminons ainsi ces mots outils avant la phase de lemmatisation. Cette table de mots outils renferme presque toutes les prépositions et les particules de l'arabe et les traductions de quelques mots outils (stopwords) anglais qu'on peut trouver dans les requêtes. Plusieurs tables de mots outils ont été conçues pour l'arabe. La plus répandue, et largement reprise par d'autres travaux dans ce domaine, est celle de Khoja renfermant 168 entités [24]. 3.2 – Lemmatisation (Stemming) Un des traitements les plus importants pour la langue arabe, en vue de la recherche d'information et de la catégorisation des documents est la lemmatisation des mots. L'objectif de la lemmatisation est de trouver la forme représentative d'index d'un mot à partir de sa forme représentée dans le document et réduire son espace caractéristique par l'application de la troncature des affixes.
  41. 41. Système de recherche d’information arabe 40 Systèmederecherched’informationarabe Comme nous l'avons introduit précédemment, un mot arabe est formé généralement par une séquence de {antéfixe, préfixe, noyau, suffixe, postfixe}. Ainsi un mot arabe peut avoir une forme plus compliquée si tous ces affixes sont attachés à sa forme standard. De telles situations se présentent fréquemment dans la morphologie arabe. La lemmatisation des mots arabes a été une problématique majeure dans plusieurs travaux dans la recherche d'information arabe. Alors, notre étude permet d’identifier l’ensemble des méthodes qui s’adresse au problème d’extraction d’information à partir d’un document texte arabe. Nous avons constaté que ces méthodes peuvent être divisées en quatre classes, « Root Extractor », « Light Stemming », « Statistical Approach » et finalement « Hybrid Approach ». La première catégorie se base essentiellement sur une connaissance approfondie de la langue arabe, sa morphologie et ses variations. Alors que la seconde classe consiste à éliminer l’ensemble des fréquents suffixe et préfixes. La troisième catégorie regroupe l’ensemble des techniques d’extraction non linguistiques qui ne dépendent guère des caractéristiques de langue arabe et se base sur une étude statistique d’extraction d’information indépendamment de la complexité de la langue. Notre dernière classe est la résultante d’un mélange regroupant l’ensemble des approches des différentes classes déjà citées. 3.2.a – 1ére approche « Stem-based » Plusieurs algorithmes de lemmatisation des règles prédéfinies pour éliminer l’ensemble des affixes (suffixes, infixes, préfixes…) du mot en s’arrêtant au niveau du lemme. Cette catégorie permet de récupérer des informations remarquablement bonnes sans passer par une analyse morphologique correcte. Plusieurs algorithmes ont été développés en se basant sur cette approche en conservant la sémantique du mot car il ne cherche pas à extraire la racine, mais il essaie d’éliminer les suffixes et les préfixes les plus fréquemment utilisés dans la langue arabe. Jusqu’à maintenant, il n’y a pratiquement pas d’algorithme standard pour la lemmatisation des textes arabes à base des lemmes.
  42. 42. Système de recherche d’information arabe 41 Systèmederecherched’informationarabe Les travaux déjà réalisés Al Ameed et al. (2005), Larkey et al. (2002), Chen & Gey (2002), Kadri & Nie (2006), utilisent un ensemble de règles afin d’enlever des affixes sachant que jusqu’à maintenant aucune listes prédéfinies des préfixes et suffixes n’est disponible. Une phase de normalisation est appliquée avant l’application de ces algorithmes. Par exemple, on doit remplacer (‫,)أ‬ (‫)إ‬ et (‫)آ‬ par « Alif » (‫,)ا‬ même chose pour (‫,)ى‬ on la remplace par (‫)ي‬ à la fin du mot. Light stemming ou lemmatisation assouplie comme les francophones l’appellent est une approche proposée et développée par Larkey et al. (2002), inspiré par le processus de lemmatisation de langue anglaise, cet algorithme se base sur l’élimination d’un ensemble de suffixes et de préfixes. Il commence par la suppression de la lettre (‫)و‬ si elle est la première lettre du mot, puis il procède à une élimination des préfixes (‫,ال‬ ‫,وال‬ ‫,كال‬ ‫فال‬ , ‫لل‬ ,‫بال‬ ) et des suffixes (‫,ها‬‫ون‬ ,‫ين‬ ‫,ات‬ ‫ان‬ ,‫ي‬ ,‫ة‬ ,‫ه‬ ,‫يية‬ ,‫يه‬ ). 3.2.b – 2éme approche « root-extractor » Bien évidemment plusieurs algorithmes de lemmatisation qui se basent sur les patrons et les affixes ont été développés afin d’extraire les racines de longueur trois, quatre et cinq à partir des formes verbales, des noms et des adjectifs dérivant des verbes. La plupart de ces travaux [1] [2] [3] [4] [5] [6] dont le but est d’extraire la racine afin de diminuer l’espace caractéristique des termes, se base essentiellement sur le processus de correspondance entre les termes et les patrons. S.Khoja et R.Garside (1999) [1] ont proposé une méthode impliquant l’élimination des voyelles, de la ponctuation, les nombres, les articles définis (‫,)ال‬ conjonction de coordination (‫)و‬ et les « stopwords » ainsi que les plus fréquents suffixes et préfixes. Pour ce faire, il procède à une analyse morphologique qui compare le terme à une liste de patrons et de racines pour déterminer si la forme sans affixes peut être obtenue en appliquant un certain patron sur une racine connue. S’il ya une correspondance, les caractères représentants la racine dans le patron sont extraits. La Figure suivante illustre le mécanisme d’extraction de la racine en se basant sur la correspondance d’un patron avec le mot, par exemple le mot (‫)أحالم‬ correspond au patron (‫)أفعال‬ et nous donne la racine )‫.(حلم‬
  43. 43. Système de recherche d’information arabe 42 Systèmederecherched’informationarabe Figure 3.1 : Approche « root-based » pour la lemmatisation 3.2.c – Approche statistique Toutes les approches statistiques se basent essentiellement sur les techniques N-gram, cette technique nous permet d’avoir la capacité de décider à partir des structures de caractères que deux mots sont sémantiquement similaires ou non. Similaire signifie que les deux mots possèdent plusieurs sous-chaînes de N caractères communes entre eux. Cette approche possède plusieurs avantages, elle est applicable à toutes les langues car elle ne nécessite pas une connaissance préalable de la langue à traiter, elle n’exige pas l’application d’un ensemble de règles prédéfinis et la construction d’une base de vocabulaires. L’application de cette technique a donné des bons résultats en plusieurs langues, même sur la langue arabe en utilisant les 3-gram et les 4-gram et surtout sur les cas appelés « noisy-texts » qui sont des textes contenant des erreurs typographiques. Cette méthode statistique peut être divisée en deux sous catégories : - N-gram basé sur le coefficient de similarité de Dice’s : développée par W.Adamson George et J.Boreham (1974), elle était la première technique de classification qui se base sur la structure des caractères des mots. Le coefficient de Dice’s est calculé par le nombre de correspondance des bi-grams (2-gram) des paires de chaines de caractères. - N-gram basé sur la technique des fréquences statistiques : proposé par L.Khriesat (2006), cette technique utilise une mesure de non similarité appelée « Manhattan distance ». Après une étape de normalisation, du prétraitement qui élimine la ponctuation, les diacritiques, les nombres et les « stopwords », il calcule les N-gram (N=3) de chaque mot et la sauvegarde dans un fichier. Pour chaque mot en compare la fréquence du profile avec l’ensemble des fréquences de profile des autres mots.
  44. 44. Système de recherche d’information arabe 43 Systèmederecherched’informationarabe Malgré que les systèmes de n-grammes aient été utilisés pour de nombreuses langues différentes, on ne s'attendrait pas à de bons résultats lors de lemmatisation dans des langues comme l'arabe. Toutefois, il y a des systèmes développés qui combine le mot et ses 6- grammes et qui a donné des résultats remarquables pour plusieurs langues y compris l’arabe. 3.2.d – 4éme approche « hybrid approche » Comme vous avez remarqué, chaque approche a ses propres avantages et inconvénients, il y a celle qui nécessite la présence d’un ensemble des pré-requis et d’une analyse morphologique et qui dépend totalement à la langue traitée, une autre qui se base sur des règles linguistiques et il y a des techniques de lemmatisation qui ne dépend pas de la langue traité et qui se base sur des formules statistiques et produisant des index de tailles énormes. Donc, chaque technique doit être adaptée individuellement pour être approprié à l’usage et résoudre ses propres problèmes. Pour remédier à ces problèmes et augmenter la performance de l’étape de lemmatisation, plusieurs chercheurs ont essayé de regrouper les différentes techniques de chaque approche, les fusionner et les adapter pour avoir les meilleurs résultats possibles. Plusieurs travaux ont été réalisés concernant ce sujet et ils ont donné des bons résultats par rapport aux autres lemmatiseurs, car dans l’approche « Hybride », on essaie résoudre les problèmes et les lacunes de chaque lemmatiseur en introduisant un autre. 4 – Conclusion La lemmatisation a montré un grand effet sur la recherche d’information en arabe. Mais il y a d’autres facteurs qui peuvent influencer positivement les résultats de la recherche. Dans le chapitre suivant, on va aborder le concept de clustering qui représente une des méthodes pour améliorer la recherche d’informations.
  45. 45. Système de recherche d’information arabe 44 Systèmederecherched’informationarabe Chapitre 4 : Regroupement des documents (Clustering)
  46. 46. Système de recherche d’information arabe 45 Systèmederecherched’informationarabe 1 - Introduction La classification (clustering) est une méthode mathématique d’analyse de données : pour faciliter l’étude d’une population d’effectif important (animaux, plantes, malades, gènes, etc...), on les regroupe en plusieurs classes de telle sorte que les individus d’une même classe soient le plus semblables possible et que les classes soient le plus distinctes possibles. Pour cela il y a diverses façons de procéder (qui peuvent conduire à des résultats différents...). Pour réaliser cette opération de regroupement, on fait fréquemment appel à la notion de similarité entre les objets dans les données. En effet, cette notion de similarité prend tout son sens en clustering car il s’agit d’évaluer à quel point deux éléments sont similaires (ou dissimilaires) pour les regrouper ou les séparer. Le choix de la mesure de similarité permettant de comparer les objets entre eux va induire la façon de les regrouper. En utilisant deux définitions de similarité déférentes, les objets ne seront pas comparés, et de fait regroupés ou non, de la même façon. Cette notion de similarité est une première étape pour définir un algorithme permettant de regrouper les objets, mais n’est pas suffisante. En effet, il est nécessaire de décrire la stratégie utilisant cette similarité et permettant la construction explicite des clusters. Plusieurs stratégies peuvent être mises en place en utilisant une même mesure de similarité. Ces premiers constats sont déjà une explication du nombre important de méthodes de clustering existantes. Figure 4.1 : Exemple d’un jeu de données décrites par deux attributs et contenant trois clusters identifiables visuellement.
  47. 47. Système de recherche d’information arabe 46 Systèmederecherched’informationarabe 2 - Différentes approches en clustering Loin de vouloir faire un état de l’art exhaustif de toutes les méthodes existantes, nous présentons dans cette section les concepts clefs du clustering. Il est ainsi possible de regrouper les approches selon des caractéristiques communes. La première distinction à faire concerne le type de résultat obtenu. Suivant les méthodes, les clusters obtenus peuvent être des ensembles durs ou flous. Certains objets peuvent ne pas être classés, et certains clusters peuvent se recouvrir. De plus, le résultat n’est pas forcément plat, et peut se présenter sous la forme d’une hiérarchie. Les algorithmes de clustering diffèrent également par la stratégie mise en place pour construire les clusters. Comme introduit au début de ce chapitre, la notion de similarité est utilisée par une part importante des approches. Cependant, d’autres méthodes à base de densité ou de modèles probabilistes existent. Ces différentes approches sont présentées dans la section 2.2.a. Les algorithmes de clustering diffèrent également par la stratégie mise en place pour construire les clusters. Comme introduit au début de ce chapitre, la notion de similarité est utilisée par une part importante des approches. Cependant, d’autres méthodes à base de densité ou de modèles probabilistes existent. Ces différentes approches sont présentées dans la section 2.1. Table 4.1 : Exemple des degrés d’appartenance des objets aux clusters pour un résultat dur, dou et flou 2.1 - Structures des résultats de clustering Le résultat d’un algorithme de clustering peut se présenter sous différentes formes selon qu’il est possible ou non que deux clusters se chevauchent, c’est-à-dire qu’un objet puisse appartenir ou non à plusieurs clusters en même temps.
  48. 48. Système de recherche d’information arabe 47 Systèmederecherched’informationarabe Le résultat le plus simple et le plus souvent rencontré est le clustering dur (hard clustering).Dans un clustering dur, chaque élément appartient à un et un seul cluster. L’ensemble des données X est divisé en un ensemble de K clusters, C = {C1 , . . . , CK }, formant une partition de X, c’est-à-dire ∪K Ck = X.(k=1). Ce type de résultat est le plus courant et le plus facilement interprétable par l’expert. Cependant il peut être nécessaire de donner plus de flexibilité aux clusters. En effet, il peut arriver que certains objets se distinguent de manière trop significative des autres objets, et leur affecter un cluster peut perturber le processus de clustering. Il arrive que ces objets soient rejetés et qu’aucun cluster ne leur soit affecté dans le résultat final. On parle alors de clustering dur partiel, c’est-à-dire que chaque objet appartient à un ou aucun cluster. De plus, la frontière entre les clusters peut être difficile à définir, et il arrive que certains objets soient à la frontière de plusieurs clusters. Pour pouvoir refléter ce type d’appartenance, le clustering doux (soft clustering) permet à chaque objet d’appartenir à un ou plusieurs clusters. On peut alors parler de clustering doux partiel si dans le résultat, un élément peut appartenir à aucun, un ou plusieurs clusters. L’appartenance à plusieurs clusters est cependant difficile à interpréter pour l’expert. En effet, plus les objets vont appartenir à de nombreux clusters, plus le résultat va perdre en précision et va rendre difficile son interprétation. La clustering flou apporte alors une solution, en permettant à chaque élément d’appartenir à chacun des clusters selon un certain degré d’appartenance. Il est toujours possible de revenir à un clustering dur en sélectionnant pour chaque objet le cluster dont l’appartenance est maximale. Le tableau 2.1 présente une illustration des degrés d’appartenance d’objets aux clusters pour un résultat dur, doux et flou. Clustering hiérarchique : La majorité des méthodes proposent un résultat sous la forme d’une structure plate, c’est-à-dire sans lien entre les clusters. Il est cependant naturel pour certaines applications de représenter le résultat sous la forme d’une hiérarchie de clusters. On peut facilement imaginer des groupes relativement grossiers situés à un niveau élevé dans la hiérarchie, qui vont se spécialiser plus on descendra dans cette hiérarchie. Plus un cluster sera bas dans la hiérarchie plus il contiendra un faible nombre d’objets mais qui seront plus similaires. Dans un clustering hiérarchique, un cluster peut être divisé en sous clusters, l’ensemble des clusters étant généralement représenté par un arbre. Un objet appartient à une et une seule feuille dans la hiérarchie, mais également à son nœud père, et ainsi de suite jusqu’à la racine. Les méthodes de clustering hiérarchique permettent d’obtenir ce type de
  49. 49. Système de recherche d’information arabe 48 Systèmederecherched’informationarabe résultats. Deux grands types d’approches de clustering hiérarchique existent : les approches par agglomération (ou ascendantes) et les approches par division (ou descendantes). Figure 4.2 : Exemple de résultat hiérarchique. Dans les approches par agglomération, l’algorithme part des objets et ceux-ci sont ensuite regroupés jusqu’à obtenir un cluster unique contenant tous les objets. Les approches divisives partent elles, de l’ensemble des données, et les divisent en clusters qui sont ensuite divisés à leur tour de manière récursive. La figure 4.2 montre un exemple de résultat de clustering hiérarchique à 4 clusters. 2.2 – Les Méthode de clustering Les méthodes de clustering peuvent être divisées comme suit:  Méthodes de Partitionnement, qui permettent de construire plusieurs partitions puis les évaluer selon certains critères  Méthodes hiérarchiques, qui créent une décomposition hiérarchique des objets selon certains critères  Méthodes basés sur la densité : basés sur des notions de densité ou de connectivité  Méthodes de grille : basés sur une structure de granularité à multi-niveaux a plusieurs niveaux. 2.2.a - Méthodes à partitionnement Les Méthodes à partitionnement consistent à : Construire une partition à k clusters d’une base D de n objets, et les k clusters doivent optimiser le critère choisi. On distingue : Le Global optimal: qui considère toutes les k-partitions , Le Heuristic methods: Algorithmes k-means , Fuzy C-means et k-medoids , Pour le k-means (MacQueen’67):
  50. 50. Système de recherche d’information arabe 49 Systèmederecherched’informationarabe Chaque cluster est représenté par son centre Et le k-medoids ou PAM (Partition around medoids) (Kaufman & Rousseeuw’87): Chaque cluster est représenté par un de ses objets. a.1 - La méthode des k-moyennes (K-Means) : L’algorithme k-means est en 4 étapes : 1. Choisir k objets formant ainsi k clusters 2. (Ré) Affecter chaque objet O au cluster Ci de centre Mi tel que distance(O,Mi) (la distance ici ça peut être par exemple la distance euclidienne ou autre mesures que nous allons exposés dans ce chapitre) est minimal 3. Recalculer Mi de chaque cluster (le barycentre) 4. Aller à l’étape 2 si on vient de faire une affectation Figure 4.3 : Représentation graphique d’un exemple de déroulement de l’algorithme K-means. a.2 - La méthode de Fuzzy C-Means (FCM) L’algorithme fuzzy c-means est très similaire à k-means. Dans le fuzzy clustering, basé sur la logique floue, tout point (document) a un degré d’appartenance à un cluster,
  51. 51. Système de recherche d’information arabe 50 Systèmederecherched’informationarabe contrairement à la classification simple où un point appartient uniquement à un seul cluster. A chaque point x, on a un coefficient donnant le degré d’appartenance au cluster i par Couramment, la somme de ces coefficients pour un point donné est égale à 1. Formule 4.1 : Somme des coefficients dans fuzzy c-means Le degré d 

×