Core Techs Et Lucene

1 530 vues

Publié le

Présentation Lucene, recherche sémantique et typologique.

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 530
Sur SlideShare
0
Issues des intégrations
0
Intégrations
6
Actions
Partages
0
Téléchargements
11
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Core Techs Et Lucene

  1. 1. Lucene : Recherche sémantique et typologique 1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
  2. 2. Plan de la présentation : 1. Lucene et la recherche sémantique 2. Typologie documentaire et recherche 3. Trustin : l’application de recherche en ASP 1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
  3. 3. 1. Lucene et la recherche sémantique a. Rappels : Lucene, l’outil de recherche opensource en Java <ul><li>Lucene est né en 2001 au sein de la communauté Apache </li></ul><ul><li>Système de recherche et d’indexation entièrement écrit en Java </li></ul><ul><li>Les points forts de Lucene : </li></ul><ul><ul><li>Performance reconnue de l’index </li></ul></ul><ul><ul><li>Un modèle applicatif ergonomique </li></ul></ul><ul><ul><li>Une capacité d’intégration exemplaire </li></ul></ul>1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
  4. 4. 1. Lucene et la recherche sémantique b. Structure et fonctionnement de Lucene 1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique DB Index File System web Gather Data Index Documents Search Index User Get Users’ Query Present Search Results Lucene Application
  5. 5. 1. Lucene et la recherche sémantique <ul><li>Une phase de structuration : </li></ul><ul><li>Une phase d’indexation : </li></ul><ul><ul><ul><li>Analyzer : fournit la méthode d’indexation </li></ul></ul></ul><ul><ul><ul><li>Indexer : ajoute le contenu à l’index </li></ul></ul></ul>1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique b. Structure et fonctionnement de Lucene Document Field
  6. 6. 1. Lucene et la recherche sémantique c. Application de recherche <ul><li>Query : modélise la requête de l’utilisateur, utilisation de syntaxe booléenne, etc </li></ul><ul><li>Analyzer : méthode de parsing de la requête </li></ul><ul><li>IndexSearcher : effectue la recherche sur l’index </li></ul><ul><li>Hit : Un résultat de recherche </li></ul>1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
  7. 7. 2. Typologie documentaire et recherche a. Référentiel documentaire <ul><li>Un référentiel documentaire est un ensemble de contenus produit par un groupe d’entités sur une thématique commune </li></ul><ul><li>La typologie des documents du référentiel est hétérogène </li></ul><ul><li>Le sens d’un terme est lié à sa position au sein de la structure du document </li></ul><ul><li>Il est nécessaire de trouver un modèle capable de lier la position structurelle d’un terme (typologie) à son sens (sémantique) </li></ul>1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
  8. 8. 2. Typologie documentaire et recherche b. Introduire la notion de typologie dans Lucene 1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique Documents XML Descriptor Content Structure Document Field
  9. 9. 2. Typologie documentaire et recherche c. Pondération de la pertinence des résultats de recherche <ul><li>Introduire un coefficient de pondération supplémentaire dans le taux de pertinence calculé par Lucene </li></ul><ul><li>En identifiant les zones de contenu où la recherche doit être effectuée : descripteur XML </li></ul><ul><li>Produire un « ranking » de termes par zone : statistique </li></ul>1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
  10. 10. 3. Trustin : l’application de recherche en ASP a. Externalisation des application de recherche 1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique Descripteurs XML Crawler Trustin Référentiel documentaire Index Application de recherche Résultats de recherche Trustin SI externe
  11. 11. 3. Trustin : l’application de recherche en ASP b. Les fonctionnalités de Trustin <ul><li>Suggestion automatique de recherche Ex : création ?  création d’entreprise OU création artistique </li></ul><ul><li>Siglaison Ex : CDI ?  Contrat à Durée Indéterminée OU Contrat Développement Innovation </li></ul><ul><li>Stemmatisation : Ex : Commerce ?  Commerce ET Commercial(e) ET Commercialisation, etc </li></ul><ul><li>Correction orthographique </li></ul><ul><li>Indexation multi-format : XML, HTML, PDF, Word, Excel, PowerPoint, Ooo </li></ul>1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
  12. 12. 3. Trustin : l’application de recherche en ASP c. Développement de Trustin <ul><li>Cofinancé par Oséo </li></ul><ul><li>Ouverture prochaine à la communauté </li></ul><ul><li>[email_address] </li></ul>1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique
  13. 13. Merci de votre attention Questions ? 1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

×