Référentiel et Moteur de Recherche

3 216 vues

Publié le

Dans un contexte où la recherche en texte intégral et l’avènement du Web 2.0 remettent en cause l’utilité et donc l’existence même de référentiels, ceux-ci sont obliger d'évoluer pour survivre. Cependant ces référentiels sont très utiles aux bons moteurs de recherche qui savent les exploiter pour réaliser de nombreuses fonctions dont nous donnons dans cette présentation un aperçu.

Publié dans : Technologie
0 commentaire
4 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
3 216
Sur SlideShare
0
Issues des intégrations
0
Intégrations
11
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
4
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Référentiel et Moteur de Recherche

  1. 1. Référentiels et moteurs de recherche<br />www.antidot.net<br />
  2. 2. ANTIDOT<br />
  3. 3. Société ANTIDOT<br />Cœur de métier <br />Solution de recherche et d’accès à l’information<br />Compétences<br />Editeur, hébergeur, conseil et intégrateur<br />Fiche d’identité <br /> Création en 1999<br /> Implantation : Paris, Lyon, Aix en Provence<br />Forte croissance 13ème croissance française au classement<br />Solutions<br />AFS : moteur de recherche<br />CKS : services collaboratifs<br />
  4. 4. Solutions par métier<br />AFS@ENTERPRISE - La solution IntranetAugmente l’efficacité de la recherche et de la diffusion d’information en interne fusionnant moteur de recherche fédéré, veille et outil de partage d’information.<br />AFS@STORE - la solution e-CommerceAugmente significativement le taux de conversion et de rachat en proposant des outils de recherche, de navigation, d’analyse et de référencement avancé.<br />AFS@WEB - la solution portail Augmente le nb de visiteurs et de pages vues ainsi que la notoriété du site.<br />AFS@PUBLISHING - la solution mediaValorise et commercialise davantage les archives en proposant une recherche fédérée et intelligente sur des contenus multimédia.<br />
  5. 5. Parmi nos références<br />Média<br />Entreprises<br />eCommerce<br />Institutions<br />Santé<br />
  6. 6. Les Référentiels<br />Définition<br />Exemples<br />
  7. 7. Définition<br />Référentiel [referãsjεl]. n. m. <br /><ul><li>De référence (Le Petit Robert).
  8. 8. Ensemble auquel doivent appartenir les éléments, les solutions d'un problème posé (Larousse).
  9. 9. Ensemble général dont on étudie les sous-ensembles.</li></li></ul><li>Définition<br />Référentiel [ʁe.fe.ʁɑ̃.sjǝl]. n. m. <br /><ul><li>(Informatique) Ensemble structuré d’informations utilisé pour l’exécution d’un logiciel et constituant un cadre commun àplusieurs applications(Wiktionnaire).
  10. 10. Données dont les applications de l'ensemble du système d'information ont besoin pour fonctionner ; les « données de référence » (Wikipedia).</li></li></ul><li>Types de référentiels : les terminologiques<br />Les référentiels terminologiques<br /><ul><li>Contiennent du vocabulaire
  11. 11. Généralistes :
  12. 12. dictionnaires : Littré (78 423 entrées), Larousse (135 000 entrées), Wiktionnaire …
  13. 13. encyclopédiques : Rameau (Répertoired'autorité-matière de la BNF, 100 000 noms communs)
  14. 14. Spécialisés :
  15. 15. Eurovoc : multilingue,par l’UE
  16. 16. Geonames : 8 millions de noms géographiques
  17. 17. Termsciences : vocabulaire scientifique (190 000 concepts 650 000 termes, par l’INIST)</li></li></ul><li>Types de référentiels : les terminologiques<br />Vocabulaire métier (exemples)<br />Environnement<br />Gemet : General MultilingualEnvironmentalThesaurus, 200 000 descripteurs<br />Tourisme : OMT, Unesco, …<br />Médical<br />MeSH : MedicalSubjectHeadings, par NLM/Inserm, 25 186 concepts<br />SNOMED CT : SystematizedNomenclature of Medicine-ClinicalTerms, 311 000 concepts<br />mais aussi : pathologies (CIM10), actes (CCAM), médicament …<br />« Folksonomie »<br /> les tags des utilisateurs forment aussi un vocabulaire<br />
  18. 18. Types de référentiels : enfouis dans le système d’information<br />Référentiels malgré eux<br />Les SI des entreprises regorgent de référentiels <br /><ul><li>Annuaire(LDAP, AD)</li></ul>Noms, groupes, fonctions, rôles …<br /><ul><li>CRM(Client mgmt)</li></ul>Noms, métiers, secteurs … <br /><ul><li>ERP/PIM(Produit mgmt)</li></ul>AFS, CKS<br /> ACC, RTE<br />Prana QM<br />Catégories, produits, références … <br />
  19. 19. Types de référentiels : enfouis dans le système d’information<br />Référentiels malgré eux<br />Tout ce qui structure et oriente l’usage au quotidien : taxonomies, plans de classement<br /><ul><li>Répartition des données sur les systèmes / serveurs
  20. 20. Arborescences des serveurs de fichiers
  21. 21. Structures des GED, des sites</li></li></ul><li>Référentiels<br />En conclusion<br /><ul><li>Distinguer : les référentiels techniques (MeSH …) des taxonomies orientées usage (taxo de nav’) </li></ul>Mais la multiplicité des référentiels<br />Coûte cher à maintenir<br />Appauvrit leur influence<br />Impliquerait un besoin d’alignement <br />« Qui a réussi un projet de méta annuaire ou de MDM ? »<br />et pourtant il faut décloisonner les silos !<br />
  22. 22. Utilisation par les moteurs<br />Extension sémantique<br />Auto complétion<br />Catégorisation<br />Annotation automatique<br />Recherche à facettes<br />
  23. 23. Utilisation par les moteurs<br />Les moteurs de recherche adorent les référentiels<br />Indexation<br />Annotation<br />Enrichissement…<br />Captation des sources<br />Récupération, générationdes référentiels<br />
  24. 24. Utilisation par les moteurs<br />Extension sémantique = élargir la recherche<br /><ul><li>faciliter la recherche
  25. 25. aligner le vocabulaire métier avec l’usage</li></li></ul><li>Utilisation par les moteurs<br />Auto complétion<br />suggérer des « recherches » provenant des référentiels<br /><ul><li>appliquer l’extension sémantique</li></li></ul><li>Utilisation par les moteurs<br />Suggestions de recherche<br />le moteur extrait automatiquement les concepts lors de l’indexation et illustre les résultats d’une recherche par les concepts les plus fréquents <br /><ul><li>le moteur peut renforcer ces propositions avec des concepts métier normalisés</li></li></ul><li>Utilisation par les moteurs<br />Catégorisation<br />exploiter les plans de classement existants pour assurer une continuité entre le SI et le moteur<br />
  26. 26. Utilisation par les moteurs<br />Catégorisation<br />ventiler les réponsessur des axes nouveauxpour répondre à desusages précis.<br />
  27. 27. Utilisation par les moteurs<br />Annoter automatiquement les documents<br />repérer dans chaque document les concepts des référentiels :identifier les personnes citées, les produits, les clients …<br /><ul><li>exploite pour cela des technologies de text-mining</li></ul>Antidot Finder Suite<br /> ACC<br /> RTE<br /> SEMA<br />CKS<br />Produit<br />moteur de recherche,<br />facettes, lemmatisation,<br />catégorisation, annotation, indexation, text-mining<br />Vocabulaire<br />Fabrice Lacroix<br />Stéphane Loesel<br />Jérôme Mainka<br />Annuaire<br />
  28. 28. Utilisation par les moteurs<br />Génération de nuages de mots<br />Chaque document est résumé automatiquement<br />
  29. 29. Utilisation par les moteurs<br />Recherche à facettes<br />fournir des filtres à l’utilisateur pour comprendre l’information et affiner dynamiquement sa recherche<br />
  30. 30. Cas Client :<br />Annotations sémantiques<br />
  31. 31. Le corpus d’évaluation :<br /> 1000 livres scannés<br /> (277 739 pages)<br />Les référentiels :<br /><ul><li>Personnes : 1 million d’entrées
  32. 32. RAMEAU: 100 000 termes
  33. 33. LCSH: 250 000 termes
  34. 34. … </li></ul>Cas BNF - Les sources brutes<br />
  35. 35. Le processus brut de l’annotation : pour chaque terme du livre présent dans un référentiel, créer une annotation sémantique « la page X référence le concept Y ».<br />Cas BNF - Principe<br />
  36. 36. Le résultat obtenu est très décevant.<br />Pourquoi ?<br />Trop de pages dans les livres et trop de termes dans les référentiels.<br />Exemple : Les Fables de la Fontaine<br /><ul><li>756 pages
  37. 37. 10 000+ annotations générées
  38. 38. 2500 après optimisation</li></ul>Chaque livre contient<br /> tous les concepts<br />Cas BNF - Premier résultat<br />
  39. 39. Les annotations générées et les facettes deviennent inutiles. Tous les livres se ressemblent.<br />Taxonomie Rameau<br />Cas BNF - Inconvénient<br />
  40. 40. Antidot résout le problème avec une innovation :<br /> un moteur de filtrage sémantique post-annotation<br />0 à 5 des<br />concepts les plus significatifs pour les facettes<br />10 000<br />annotations<br />20 à 40 annotations<br />automatiques<br />Cas BNF - La solution<br />Antidot semantic<br />filtering engine<br />
  41. 41. Les facettes deviennent utilisables et permettent maintenant de discriminer les livres<br />Taxonomie Rameau<br />Cas BNF - Résultat obtenu<br />
  42. 42. Chaque livre est automatiquement annoté<br />Cas BNF - Résultat obtenu<br />
  43. 43. Référentiels et Web Sémantique<br />
  44. 44. Du référentiel à l’ontologie<br />Exemple médical<br />Du vocabulaire… encore des motstoujours des mots …<br /><ul><li>Il faut modéliser ce que décrivent ces mots</li></ul>Anatomie<br />(MeSH)<br />Types : os, cartilages, muscles, viscères … <br />Pathologies<br />(CIM10)<br />Parties : tête, bras, main, ventre, jambes … <br />Fonctions : …<br />Médicaments<br />(Afssaps)<br />Familles : antalgiques, antiviraux, sédatifs … <br />Posologie : …<br />Traitements<br />(Snomed)<br />Composition : …<br />
  45. 45. Du référentiel à l’ontologie<br />Et tous ces objets sont liés par des règles<br />Relations internes : appartient à, est composé de, est relié à… <br />Types<br />Anatomie<br />Parties<br />Pathologies<br />…<br />…<br />…<br />est sujet à<br />…<br />…<br />…<br />…<br />est traitable par<br />Types<br />est indiqué pour<br />Traitements<br />Médicaments<br />Posologies<br />Galénique<br />est composé de <br />…<br />Relations internes : est contre indiqué avec, neutralise, amplifie, … <br />
  46. 46. Du référentiel à l’ontologie<br />Le référentiel est la base de l’ontologie<br />Ontologie =<br /> des choses (des objets)<br /> + des mots pour en parler<br /> + des règles qui animent / contraignent les choses<br />L’ontologie décrit donc un domaine particulier.Les règles ne sont plus « codées » mais exprimées et donc modifiables dynamiquement.<br />Les ontologies permettent aux applications de publier, d’échanger des informations.Il faut donc utiliser au maximum des ontologies normalisées.<br />
  47. 47. Ontologie et moteur de recherche<br />L’articulation des référentiels entre eux permet de mailler l’information et de décupler les possibilités d’interrogation sans toucher aux entrepôts sources<br />tous les documents sur les traitements incompatibles avec le médicament X <br />Recherche unifiée<br />« one search to query them all » <br />le moteur de recherche : une approche « pragmantique »pragmatique + sémantique<br />
  48. 48. CONCLUSION<br />
  49. 49. Résumé<br />Plusieurs types de référentiels<br /><ul><li>Terminologiques, taxonomies, données métier</li></ul>Les (bons) moteurs de recherche adorent<br /><ul><li>Extension sémantique
  50. 50. Auto complétion (avec extension)
  51. 51. Catégorisation
  52. 52. Filtrage par facettes
  53. 53. Annotations et résumés</li></li></ul><li>Conclusion<br />A utiliser avec discernement<br /><ul><li>Evitez les référentiels terminologiques trop généralistes
  54. 54. Exploitez les référentiels métier existants
  55. 55. Enrichissez avec votre vocabulaire maison
  56. 56. Tirez partie des composants de votre SI
  57. 57. Modélisez les usages de vos utilisateurs</li></ul>C’est essentiel pour le Web Sémantique<br /><ul><li>Les référentiels se structurent</li></ul> et sont les pivots de l’interaction informationnelle.<br /><ul><li>Les ontologies sont des « référentiels 3.0 »</li></li></ul><li>Des questions ? Des projets ?<br />Retrouvez-nous sur www.antidot.net et sur blog.antidot.net<br />Contactez-nous sur info@antidot.net<br />Fabrice Lacroix<br />

×