Le Web sémantique est-il un n-ième standard de représentation des données ou une nouvelle façon d’aborder la recherche d’information ?
L'utilisation du terme « Sémantique » a souvent été porteur de confusions donnant à penser que le Web sémantique visait la compréhension du langage naturel par les machines. Même si les objectifs réels du Web sémantique semblent en réalité éloignées des techniques du traitement automatique de la langue, les technologies du Web sémantique n'en restent pas moins intéressantes pour les solutions d'accès et de recherche d'information. En effet, celles-ci sont déployée dans des contextes de plus en plus complexes mêlant données structurées et données non structurées et, dans ce cadre, les technologies du Web sémantique permettent de résoudre de nombreux problèmes de par le cadre d'interopérabilité et l'écosystème de standards et d'outils qu'elles offrent.
Impliqués depuis plusieurs années dans le domaine, nous montrerons comment les technologies du Web sémantique aide les équipes Antidot à mieux gérer, traiter et valoriser les données de leurs clients. Dans cette présentation, nous parcourrons une palette assez large de manipulations des objets sémantiques pratiquées couramment dans nos réalisations et basées sur les technologies du Web sémantique.
Nous illustrerons notre exposé par des réalisations concrètes et nous montrerons en quoi l’utilisation du Web sémantique nous a épargné des heures de développements spécifiques et nous a permis d’adresser des problématiques de plus en plus complexes.
Nous aborderons notamment l’extension sémantique, la navigation par facette, la mise en relation de silos d’informations hétérogènes, l’alignement des données sur des référentiels, l’utilisation du Web des données et d’autres techniques originales que nous avons développées pour la nouvelle version d’AFS.
14. Vocabulaire SKOS Des concepts : classe skos:Concept Des relations sémantiques : skos:broader, narrower skos:exactMatch, closeMatch Des libellés skos:prefLabel, altLabel, hiddenLabel
15. Sémantique Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. skos:broaderTransitive skos:narrower skos:narrower skos:broader skos:broader skos:prefLabel skos:altLabel skos:prefLabel skos:altLabel skos:prefLabel skos:altLabel Lorem ipsum
16. Inférence Il ne s’agit évidemment pas d’apprendre par cœur les propriétés sémantiques du vocabulaire : rdfs, owl est suffisant pour l’essentiel. Exemple : skos:broader rdfs:subPropertyOf skos:broaderTransitive . skos:broaderTransitive a owl:TransitiveProperty . skos:narrower owl:inverseOf skos:broader .
17. Clés du succès Les libellés peuvent être soumis à des normalisations : "voyages" = "voyage" "Mainka" = "MNK" "Mainka" = "aiinkamank » Indexation / Requête = offline / online Structure de stockage m taille du référentiel n taille du texte à indexer : Indexation en O(n log m)
19. Description des facettes <PériodeHistorique> a skos:OrderedCollection ; skos:memberList ( <ÉpoqueContemporaine> <ÉpoqueModerne> <MoyenÂge> ) . <Discipline> a skos:Collection ; skos:member <AnthropologieBiologique> , <Démographie> , <Droit> . <Facets> a skos:OrderedCollection ; skos:memberList ( <PériodeHistorique> <Discipline> ) .
20. Ontologies du domaineOntologies de navigation Ontologies du domaine pas forcément adaptées à une interface de navigation Nécessité de transformer les ontologies du domaine pour les faire correspondre aux besoins de la navigation. Prise en compte de besoins utilisateurs / besoins métiers. 2 approches : Formules N3 : { ?doc <published> 2001 . } => { ?doc afs:subject <p2001> . } . SPARQL : CONSTRUCT { ?doc afs:subject <p2001> . } WHERE { ?doc <published> 2001 . }
21. Annotations À partir de règles À partir du contenu plein texte (extraction d’entités, classification automatique) Inférence { ?doc afs:subject [ skos:broaderTransitive ?c2 . ] . }=> { ?doc afs:subject ?c2 . } . Une facette est une annotation particulière
22. Affichage Tri OrderedCollection Tri alphabétique Tri par comptage Gestion des données de grandes tailles Paging des valeurs de facettes Support des opérateurs AND, OR, NOT.
23. Un modèle de document unifié ? Pour mettre en place un service de recherche : Structures molles Concepts simples: Annotations, Facettes, Titre, URL, Plein texte, etc. Format pivot RDF Mapping des documents via une chaîne de traitements élémentaires : AFS-PaF (Pipes & Filters)
24.
25.
26. Les triplets générés sont exploitéspour retour vers les sources sous forme normalisée pour traiter des requêtes complexes pour une exposition dans le Web de données Génération Chargement de l’entrepôt Entrepôt RDF Fichiers de triplets Corpus
27.
28. Ils sont enrobés dans une couche métierun Web Service applicatif qui permet la négociation de contenu Description XML Description RDF Document
31. Conclusion Le Web sémantique : ça sert (ça marche, c’est « simple ») Rester modeste : Objectifs Stratégie Mise en œuvre Plein de sujets d’évolution Extraction de concepts Alignement automatique d’ontologies