Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Pour un véritable accès unifié à l’information i-expo 18 mai 2011

Société ANTIDOT Editeur de logiciels depuis 1999 | Paris, Lyon, Aix-en-Provence Solution de recherche et d’accès à l’information e-Commerce | Portails | Média | Entreprises Produits - SaaS ou licence AIF : chaine de captation et de valorisation des données AFS : moteur de recherche sémantique à facettes ACS : services collaboratifs

Parmi nos clients Média Entreprises E-commerce Institutions Santé

Plan Le problème #&! Les limites de la « recherche fédérée » de documents

Plan Le problème La réponse #&! ? Penser l’accès à l’information dans un espace unifié

Plan Le problème La réponse La solution #&! ? Capter, Penser, Valoriser, Exposer l’information

Plan Un exemple Le problème La réponse La solution #&! ? Le projet Isidore (TGE Adonis CNRS)

Le problème Les limites de la recherche fédérée

Les difficultés de la recherche fédérée Des silos de données cloisonnés Des données hétérogènes Des référentiels épars et incomplets Une terminologie subjective

Le moteur de recherche : un outil miracle ?

Les limites de la recherche fédérée Recette de cuisine de la recherche fédérée Indexez Servez Collectez

Au mieux, une juxtaposition de docs L’utilisateur n’est pas acteur de sa recherche.

La REPONSE ANTIDOT Penser l’accès à l’information dans un espace unifié et enrichi

Modéliser, lier et annoter les informations Créer une cohérence et de l’information par la mise en relation des différents silos

Modéliser, lier et annoter les informations Utiliser la nature des données sources a pour sujet fait référence à a pour sujet cite inclut CR de réunion Fiche produit page Web Courriel émetteur auteur auteur destinataire fait référence à participant une personne

S’appuyer sur les technologies du Web Sémantique Un cadre d’interopérabilité pour mettre à disposition, consulter, lier et partager des données Un mécanisme d’identification Un protocole Un « langage » Un principe HTTP L’hypertexte URL / URI RDF

Un espace unifié d’information Agilité ne rime pas avec stabilité Modifier les silos existants n’est pas possible Dupliquer les données est une folie Et pourtant Il faut rendre les données malléables et dynamiques Les données enrichies doivent être accessibles

Créer de la valeur pour les utilisateurs

LA SOLUTION ANTIDOT Capter, penser, valoriser, exposer l’information

Capter, Valoriser, Enrichir et Exposer l’information

Antidot Information Factory AIF : un outil industriel et évolutif Une chaîne de captation et de traitement Un cadre de développement Un modèle d’Unité Documentaire

AIF : une chaîne de traitement Créer des chaînes de traitement de données par assemblage de modules Sources de données Module connecteur Modules de transformation et enrichissement

AIF : des briques à assembler Déjà plus de 50 modules prêts à l’emploi en standard Connecteurs Traitements XML Text-mining Traitements RDF

AIF : un cadre de développement Un cadre de développement pour construire des modules 50+ filtres prêts à l’emploi Un environnement d’exécution

AIF : un modèle d’unité documentaire Le document est composite est dynamique évolue dans le temps est un objet géré de façon unifiée

AIF : exposition des données AIF rend accessibles les contenus enrichis via un Content Repository API Web Linked Data

AIF : traite des « flux multi-documents » AIF travaille en flux indépendamment du stockage des données Enrichissement SGBDR Sémantisation Captation Entrepôt RDF (Linked Data) Normalisation Classification Annotation Content Repository Moteur de recherche AFS Indexation

Trouver rapidement l’information

AFS : recherche sémantique Recherche plein texte avec fonctions linguistiques : extension automatique suggestion orthographique suggestion de concepts expressions contextuelles

AFS : suggestion intelligente Autocomplétion intelligente pendant la saisie de la requête

AFS : recherche avancée Recherche multicritères avancée Recherche géographique

AFS : recherche à facettes Recherche à facettes

AFS : regroupement de résultats Clusterisation : regroupement des résultats selon une taxonomie, des propriétés, …

AFS : intégration Toutes les API accessibles en REST Formats de sortie SI ou Web : XML, JSON Compatible OpenSearch Adapté aux architectures SOA et aux projets SBA

Annoter et Partager l’information pour mieux Collaborer

ACS : la recherche collaborative Capitaliser Enregistrer Requêtes Réponses Organiser Dossiers Tags

Un exemple PROBANT Le projet Isidore

Le très grand équipement Adonis (CNRS) Le Très grand équipement du CNRS pour les Sciences Humaines et Sociales Adonis : accès unifié aux données et documents numériques des sciences humaines et sociales Isidore : point d’accès unifié à des données enrichies

Principe du projet Un projet classique en apparence Collecter Traiter Diffuser

Les particularités du projet Collecter des données hétérogènes primaires, secondaires annuaires, bases de données, référentiels Exploiter les métadonnéeset le texte intégral Points durs :diversité, volumétrie

Les particularités du projet ,[object Object],Normaliser les données(qualité, forme, alignement) Enrichir(classification, URI pérenne, vignettes, extraction…)

Les particularités du projet Diffuser dans le Web de données Se préparer auLinked/Open Data Permettre l’émergence de nouveaux outils exploitant les données Rendre accessibleà l’écosystème les données enrichies

Sources de données Des sources multiples et des traitements ad-hoc ,[object Object],collecte par sitemap extraction des données RDFa ,[object Object],capitalisation « illimitée » ,[object Object],captation structurée : OAI-PMH, OAI-ORE extraction des métadonnées : DC ,[object Object],annuaires de personnes, ressources, sources conférences, séminaires, … Sites Web (sitemap) Flux RSS Entrepôts OAI Calenda Vue générale de la chaîne « PaF » Isidore

Sources de données Connecteurs Modules Pipes&Filters spécifiques aux sources Modules Pipes&Filters communs Sites Web (sitemap) Flux RSS … Liens pérennes Entrepôts OAI … Calenda … … Vue générale de la chaîne « PaF » Isidore Annotation … Référentiels SKOS Fichiers XML de configuration des connecteurs AFS et des modules de normalisation

Chaîne de collecte et de traitement Une chaîne dédiée à la normalisation : 12 filtres Récupération de chaque ressource listée dans le Sitemap Extraction du RDFa Sérialisation du RDFa Passage dans un format pivot Normalisation de la date Normalisation de l’auteur RécupérationHandle et imagette Ajout des informations sources/document Sérialisation du XML pivot

Chaine d’enrichissement Une chaîne dédiée à l’enrichissement : 14 filtres Classification sur la taxonomie HAL Classification sur la taxonomie Sujets Calenda Classification sur la taxonomie Temps Calenda Classification sur la taxonomie Géo Calenda Alignement des types de document Alignement des dates sur Thésaurus W (SIAF) Alignement des langues sur Lexvo Enrichissement des auteurs sur HAL Extraction des sujets sur Rameau, Pactols, Geonames Fusion des annotations

Le moteur utilise les documents déjà classés pour apprendre Puis utilise la base d’indicateurs statistiques pour classifier les 900 000 documents du corpus La classification automatique

Normalisation sur les référentiels fr Français FR francais français Français Anglais en anglais eng english EN

Annotation (tagging) Mots clefs Chaîne de caractères Est exprimé par Est décrit par Le moteur effectue unecomparaison morphologique Pour lier le mot-clé au concept Étiquette Est exprimé par Une ressource documentaire Chaîne de caractères Est décrit par Est décrit par Organise Concept Un thésaurus

Les quatre principes du Web de données ou Linked Data http://dbpedia.org/resource/French_National_Centre_for_Scientific_Research Utiliser des URIs Utiliser des URIsaccessibles via HTTP Donner l’accès aux données utiles en utilisant les standards SPARQL et RDF Exprimer l’URI des objets liés Source : http://www.w3.org/2009/Talks/0204-ted-tbl/#%281%29

Utiliser des URIs Chaque ressource reçoit dans Isidore un identifiant unique et stabledélivré par le CCSD selon le système Handle http://www.rechercheisidore.fr/resource/ 10670.1/qydusc Résolveur Identifiant Handle

Des URIS HTTP Pour chaque URI, Isidore est capable de renvoyer le format le mieux adapté à l’émetteur de la requête : la négociation de contenu http://www.rechercheisidore.fr/resource/10670.1/qydusc http://halshs.archives-ouvertes.fr/halshs-00004902/en/

Des URIS HTTP Pour chaque URI, Isidore est capable de renvoyer le format le mieux adapté à l’émetteur de la requête : la négociation de contenu http://www.rechercheisidore.fr/resource/10670.1/qydusc http://www.rechercheisidore.fr/data/10670.1/qydusc.n3

Des URIS HTTP Pour chaque URI, Isidore est capable de renvoyer le format le mieux adapté à l’émetteur de la requête : la négociation de contenu http://www.rechercheisidore.fr/resource/10670.1/qydusc http://www.rechercheisidore.fr/data/10670.1/qydusc.n3 http://halshs.archives-ouvertes.fr/halshs-00004902/en/

Exprimer l’URI des objets liés RéférentielDisciplinesHAL-SHS RéférentielAuteursHAL-SHS RéférentielOrganisationHAL-SHS RéférentielCatégoriesCalenda RéférentielThésaurus WSIAF RéférentielPactols RéférentielGeonames RéférentielRameau RéférentielLexvo ISIDORE

Rendre accessible les enrichissements pour mettre en place une boucle de rétro-action

Architecture fonctionnelle globale Sources de données Collecte, traitement, indexation Diffusion Applications Service de recherche AFS Web : sites, flux indexation UI de démo Capter Annoter, filtrer Normaliser, dédoublonner Entrepôts OAI génération du RDF rechercheisidore Applications de gestion de la plateforme Isidore Entrepôts RDF SparQL endpoint Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Applications, Web Services

Merci de votre attention ! Des questions ?

Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (18)

En vedette

En vedette (20)

Similaire à Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Similaire à Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information (20)

Plus de Antidot

Plus de Antidot (20)

Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information

Notes de l'éditeur