Toute organisation subit les limites de son système d’information : entrepôts de données cloisonnés, données hétérogènes, documents non structurés, thésaurus incomplets, taxonomies incohérentes…
Les utilisateurs en souffrent et attendent un véritable « accès unifié à l’information » : trouver l’information par les concepts plutôt que la chercher par les mots, naviguer aisément dans l’information, mieux l’exploiter en collaborant. L’entreprise doit évoluer vers un « espace informationnel enrichi », servant différents usages selon le profil ou la mission de chaque collaborateur.
La vision innovante d'Antidot permet d’aller bien au-delà de ce que permettent les approchent traditionnelles comme la « recherche fédérée » ou encore les « search based applications » car Antidot Information Factory et Antidot Finder Suite permettent de modéliser l’information, de capter, normaliser, décrire et agréger des données puis d’en inférer des informations nouvelles, facilement accessibles.
Intégrant nativement les technologies du web sémantique, Antidot apporte les solutions les plus en pointe dans le domaine et démontre à travers une réalisation emblématique - le projet ISIDORE du CNRS TGE Adonis - comment capter, remodeler et rendre accessible une information à forte valeur ajoutée.
2. Société ANTIDOT Editeur de logiciels depuis 1999 | Paris, Lyon, Aix-en-Provence Solution de recherche et d’accès à l’information e-Commerce | Portails | Média | Entreprises Produits - SaaS ou licence AIF : chaine de captation et de valorisation des données AFS : moteur de recherche sémantique à facettes ACS : services collaboratifs
9. Les difficultés de la recherche fédérée Des silos de données cloisonnés Des données hétérogènes Des référentiels épars et incomplets Une terminologie subjective
11. Les limites de la recherche fédérée Recette de cuisine de la recherche fédérée Indexez Servez Collectez
12. Au mieux, une juxtaposition de docs L’utilisateur n’est pas acteur de sa recherche.
13. La REPONSE ANTIDOT Penser l’accès à l’information dans un espace unifié et enrichi
14. Modéliser, lier et annoter les informations Créer une cohérence et de l’information par la mise en relation des différents silos
15. Modéliser, lier et annoter les informations Utiliser la nature des données sources a pour sujet fait référence à a pour sujet cite inclut CR de réunion Fiche produit page Web Courriel émetteur auteur auteur destinataire fait référence à participant une personne
16. S’appuyer sur les technologies du Web Sémantique Un cadre d’interopérabilité pour mettre à disposition, consulter, lier et partager des données Un mécanisme d’identification Un protocole Un « langage » Un principe HTTP L’hypertexte URL / URI RDF
17. Un espace unifié d’information Agilité ne rime pas avec stabilité Modifier les silos existants n’est pas possible Dupliquer les données est une folie Et pourtant Il faut rendre les données malléables et dynamiques Les données enrichies doivent être accessibles
21. Antidot Information Factory AIF : un outil industriel et évolutif Une chaîne de captation et de traitement Un cadre de développement Un modèle d’Unité Documentaire
22. AIF : une chaîne de traitement Créer des chaînes de traitement de données par assemblage de modules Sources de données Module connecteur Modules de transformation et enrichissement
23. AIF : des briques à assembler Déjà plus de 50 modules prêts à l’emploi en standard Connecteurs Traitements XML Text-mining Traitements RDF
24. AIF : un cadre de développement Un cadre de développement pour construire des modules 50+ filtres prêts à l’emploi Un environnement d’exécution
25. AIF : un modèle d’unité documentaire Le document est composite est dynamique évolue dans le temps est un objet géré de façon unifiée
26. AIF : exposition des données AIF rend accessibles les contenus enrichis via un Content Repository API Web Linked Data
27. AIF : traite des « flux multi-documents » AIF travaille en flux indépendamment du stockage des données Enrichissement SGBDR Sémantisation Captation Entrepôt RDF (Linked Data) Normalisation Classification Annotation Content Repository Moteur de recherche AFS Indexation
33. AFS : regroupement de résultats Clusterisation : regroupement des résultats selon une taxonomie, des propriétés, …
34. AFS : intégration Toutes les API accessibles en REST Formats de sortie SI ou Web : XML, JSON Compatible OpenSearch Adapté aux architectures SOA et aux projets SBA
38. Le très grand équipement Adonis (CNRS) Le Très grand équipement du CNRS pour les Sciences Humaines et Sociales Adonis : accès unifié aux données et documents numériques des sciences humaines et sociales Isidore : point d’accès unifié à des données enrichies
39. Principe du projet Un projet classique en apparence Collecter Traiter Diffuser
40. Les particularités du projet Collecter des données hétérogènes primaires, secondaires annuaires, bases de données, référentiels Exploiter les métadonnéeset le texte intégral Points durs :diversité, volumétrie
41.
42. Les particularités du projet Diffuser dans le Web de données Se préparer auLinked/Open Data Permettre l’émergence de nouveaux outils exploitant les données Rendre accessibleà l’écosystème les données enrichies
43.
44. Sources de données Connecteurs Modules Pipes&Filters spécifiques aux sources Modules Pipes&Filters communs Sites Web (sitemap) Flux RSS … Liens pérennes Entrepôts OAI … Calenda … … Vue générale de la chaîne « PaF » Isidore Annotation … Référentiels SKOS Fichiers XML de configuration des connecteurs AFS et des modules de normalisation
45. Chaîne de collecte et de traitement Une chaîne dédiée à la normalisation : 12 filtres Récupération de chaque ressource listée dans le Sitemap Extraction du RDFa Sérialisation du RDFa Passage dans un format pivot Normalisation de la date Normalisation de l’auteur RécupérationHandle et imagette Ajout des informations sources/document Sérialisation du XML pivot
46. Chaine d’enrichissement Une chaîne dédiée à l’enrichissement : 14 filtres Classification sur la taxonomie HAL Classification sur la taxonomie Sujets Calenda Classification sur la taxonomie Temps Calenda Classification sur la taxonomie Géo Calenda Alignement des types de document Alignement des dates sur Thésaurus W (SIAF) Alignement des langues sur Lexvo Enrichissement des auteurs sur HAL Extraction des sujets sur Rameau, Pactols, Geonames Fusion des annotations
47. Le moteur utilise les documents déjà classés pour apprendre Puis utilise la base d’indicateurs statistiques pour classifier les 900 000 documents du corpus La classification automatique
48. Normalisation sur les référentiels fr Français FR francais français Français Anglais en anglais eng english EN
49. Annotation (tagging) Mots clefs Chaîne de caractères Est exprimé par Est décrit par Le moteur effectue unecomparaison morphologique Pour lier le mot-clé au concept Étiquette Est exprimé par Une ressource documentaire Chaîne de caractères Est décrit par Est décrit par Organise Concept Un thésaurus
50. Les quatre principes du Web de données ou Linked Data http://dbpedia.org/resource/French_National_Centre_for_Scientific_Research Utiliser des URIs Utiliser des URIsaccessibles via HTTP Donner l’accès aux données utiles en utilisant les standards SPARQL et RDF Exprimer l’URI des objets liés Source : http://www.w3.org/2009/Talks/0204-ted-tbl/#%281%29
51. Utiliser des URIs Chaque ressource reçoit dans Isidore un identifiant unique et stabledélivré par le CCSD selon le système Handle http://www.rechercheisidore.fr/resource/ 10670.1/qydusc Résolveur Identifiant Handle
52. Des URIS HTTP Pour chaque URI, Isidore est capable de renvoyer le format le mieux adapté à l’émetteur de la requête : la négociation de contenu http://www.rechercheisidore.fr/resource/10670.1/qydusc http://halshs.archives-ouvertes.fr/halshs-00004902/en/
53. Des URIS HTTP Pour chaque URI, Isidore est capable de renvoyer le format le mieux adapté à l’émetteur de la requête : la négociation de contenu http://www.rechercheisidore.fr/resource/10670.1/qydusc http://www.rechercheisidore.fr/data/10670.1/qydusc.n3
54. Des URIS HTTP Pour chaque URI, Isidore est capable de renvoyer le format le mieux adapté à l’émetteur de la requête : la négociation de contenu http://www.rechercheisidore.fr/resource/10670.1/qydusc http://www.rechercheisidore.fr/data/10670.1/qydusc.n3 http://halshs.archives-ouvertes.fr/halshs-00004902/en/
56. Rendre accessible les enrichissements pour mettre en place une boucle de rétro-action
57. Architecture fonctionnelle globale Sources de données Collecte, traitement, indexation Diffusion Applications Service de recherche AFS Web : sites, flux indexation UI de démo Capter Annoter, filtrer Normaliser, dédoublonner Entrepôts OAI génération du RDF rechercheisidore Applications de gestion de la plateforme Isidore Entrepôts RDF SparQL endpoint Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Applications, Web Services