Semantic web introduction

Introduction au Web Sémantique

L’idée du web sémantique Tim Berners-Lee définie le Web Sémantique comme “un web des données qui peut être directement utilisé par les machines “

L’idée du web sémantique Le web sémantique permet l’intégration de différents contenus, applications et systèmes. Il procure les mécanismes pour la réalisation de systèmes d’information d’entreprises.

CONTINUITÉS ET RUPTURES DE QUOI EST CE COMPOSÉ ? POUR QUOI FAIRE ? Web sémantique

Mise en perspective : continuités et ruptures

Une continuité dans les besoins Les technologies du web sémantique sont d’abord adoptées par les secteurs qui ont une longue tradition de contenus organisés selon des référentiels métiers

Une évolution de l’internet INTERNET (~1970) Réseau de machines identifiées, connectées et adressables Correspond en gros à l’infrastructure des bibliothèques et rayons WEB 1.0 (~1990) Réseau de ressources identifiées, connectées et adressables Correspond en gros au corpus documentaire WEB sémantique (~ 2005) Réseau de concepts et entités identifiés, connectés, adressables Matérialisation du vocabulaire sous forme de ressources

Rupture technologique Besoins: Se faire aider des machines pour organiser, filtrer, relier, présenter, contextualiser…. les contenus Se faire aider des machines pour modéliser, contrôler, publier, sélectionner… des connaissances -> Degré supérieur de formalisme pour pouvoir utiliser les machines dans le domaine de la connaissance

Rupture organisationnelle Rupture des processus de travail sur la connaissance Possibilité de travailler sur l’organisation de la connaissance en mode collaboratif, au niveau mondial, en faisant participer les organisations commerciales, services publiques, ong, particuliers WEB2.0 Wikipedia -> dbpedia, Geonames, Astronomy… Possibilité de rapprocher, aligner, comparer, lier des connaissances distribuées, hétérogènes, complémentaires Europeana

UN CONCEPT DES EXPERTISES ET MÉTIERS DES STANDARDS DES RESSOURCES DES COMPOSANTS LOGICIELS Le web sémantique de quoi est ce composé ?

Un concept Date parution «1874 » Attributs Sujet Relation Livre « Quatrevingt-treize» Sujet livre «la révolution fancaise » Auteur livre Personne « Victor Hugo» Sujet Attributs Titre livre «quatrevingt-treize» Nom personne « Victor Hugo »

Des expertises et métiers Ingénierie des connaissances Linguistique Logique, Raisonnement Base de données Normes du web Ingénierie informatique Documentation Bibliothéques Archives Passionnés, ONG… Wikipedia/dbpedia Geonames …

Des standards identity URI XML alphabet UNICODE data interchange RDF query SPARQL ontology OWL rule RIF

Des standards : URI URI identifiant la langue http://www.lingvoj.org/lang/gd URI identifiant la description RDF http://www.lingvoj.org/lingvo/gd.rdf URI identifiant la description HTML http://www.lingvoj.org/lingvo/gd.html Redirection pour les navigateurs HTML Redirection pour les requêtes RDF

Des standards : URI URI de la classe « Person » dans l’ontologie FOAF http://xmlns.com/foaf/0.1/Person et sa description semi-formelle en RDF

Des standards : RDF sur un exemple Un roman de Victor Hugo et ses métadonnées Titre : Quatrevingt-treize Année de parution : 1874 Auteur : Victor Hugo Sujet : La Révolution Française Ontologie implicite de ces métadonnées Un roman est un type de document L’année de parution est une date L’auteur est une personne Plusieurs niveaux de représentation possibles en RDF Représentation brute des triplets, sans référence à une ontologie Déclaration explicite des classes et types utilisés Définition de ces classes et types dans une ontologie, avec leurs contraintes

Des standards : RDF Description de « Quatrevingt-treize » en RDF URI utilisée pour le référent Définie par la base de données DBpedia http://dbpedia.org/resource/Ninety-Three Notation simplifiée : dbpedia:Ninety-Three Schéma de métadonnées utilisé : Dublin Core Dublin Core “elements” pour les métadonnées de type “donnée” Dublin Core “terms” pour les métadonnées de type “ressource” Triplets traduisant le titre et les métadonnées dbpedia:Ninety-Three dc:title “Quatrevingt-treize” dbpedia:Ninety-Three dc:created “1874” dbpedia:Ninety-Three dcterms:creator dbpedia:Victor_Hugo dbpedia:Ninety-Three dcterms:subject dbpedia:Category:French_Revolution

Des standards Le même exemple en syntaxe RDF-XML <?xml version="1.0" encoding="UTF-8"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/” xmlns:dbpedia="http://dbpedia.org/resource/"> <rdf:Description rdf:about="http://dbpedia.org/resource/Ninety-Three"> <dc:title xml:lang="fr">Quatrevingt-treize</dc:title> <dcterms:created>1874</dcterms:created> <dcterms:creator rdf:resource="http://dbpedia.org/resource/Victor_Hugo"></ dcterms:creator> <dcterms:subject rdf:resource="http://dbpedia.org/resource/Category:French_Revolution"/> </rdf:Description> </rdf:RDF>

Des standards : SPARQL - Requêter RDF SPARQL est un langage de requête adapté à RDF SPARQL est à RDF ce que SQL est aux bases de données relationnelles C’est un langage adapté à la structure en graphe du RDF Exemples de requêtes SPARQL SELECT (ensemble de ressources correspondant à une définition sémantique) Ex 1 : Personnes employées par un organisme affilié au Ministère de l’Industrie? Ex 2 : Documents dont un auteur est expert en sociologie de l’entreprise? CONSTRUCT (nouveau graphe à partir d’informations d’un graphe existant) Ex 1 : Attacher à la rubrique « Enseignement à distance » tous les documents dont l’éditeur est le CNED. Ex 2 : Si un rapport a pour sujet X, créer un lien d’expertise entre l’auteur du rapport et ce sujet X. SPARQL peut être utilisé sur le Web Via des interfaces de type « Web Service » appelés « SPARQL end points » Voir http://esw.w3.org/topic/SparqlEndpoints

Des standards : OWL Vocabulaires de niveau 2 : langages d’ontologie RDF seul ne permet pas de raisonnement Un ensemble de triplets est un ensemble de données brutes Les langages d’ontologie sont basés sur une logique formelle Ils introduisent la notion de cohérence logique Ils permettent de définir et contrôler des contraintes d’intégrité Est-ce que tous les triplets de ma base RDF sont cohérents entre eux ? Est-ce que telle description est conforme à mon ontologie? Ils supportent des règles d’inférence Permettant de déduire de nouveaux triplets des triplets déclarés

Des standards : OWL Vocabulaires de niveau 2 : langages d’ontologie Réutiliser des ontologies génériques Dublin Core : métadonnées sur un document FOAF : description des personnes, organisations et de leurs relations SKOS : description de thésaurus, taxonomies, référentiels, listes contrôlées … .. Enrichir des ontologies génériques Ajouter une métadonnée supplémentaire à Dublin Core Ajouter un attribut supplémentaire pour décrire les personnes dans FOAF Développer pour un métier, seul ou en collaboration avec d’autres utilisateurs potentiels, une ontologie spécialisée

Des ontologies réutilisables et réutilisées (cf voaf Linked open vocabulary) http://labs.mondeca.com/dataset/lov/index.html

Des composants logiciels Base de données RDF Triple Store Raisonnement Inférence Editeur d’ontologie Editeur de taxonomies, thésaurus référentiels, représentation des connaissances Editeur de règles Chaine d’annotation sémantique des contenus - Text mining Chaine de standardisation des données End point Sparql

GÉRER, PUBLIER DES DONNÉES DE RÉFÉRENCE GÉRER, PUBLIER DES BASES DE CONNAISSANCE GÉRER, PUBLIER DES CONTENUS INTELLIGENTS (SMART CONTENT) PUBLIER DES DONNÉES OUVERTES ET RELIÉES (LINKED OPEN DATA) BIG DATA Le web sémantique pour quoi faire?

Gérer et Publier des données de référence Gérer et/ou publier des référentiels, taxonomies, thésaurus, représentation de connaissances Liste des langues Gemet Eurovoc FAO Geonames Référentiel géographique INSEE Rameau CIM10 Gene ontology … . Une ontologie générique : SKOS Une sérialisation RDF pour distribuer des fichiers Des services à base de sparql et web services Répondre aux besoins d’alignement avec d’autres référentiels (ex Geonames-Insee)

http://client2.mondeca.com/semanticportalRDF/

Gérer publier des bases de connaissances Des standards permettant de représenter des « connaissances » Des standards bien insérés dans les environnements web et intranet utilisés par les entreprises (xml, browser internet…) Base de pharmacovigilance Inventaire du patrimoine artistique de la province du Limbourg Inventaire des ressources touristiques de la Nièvre Base de renseignement Modélisation des composants d’une voiture et de leurs fonctions … .

Media, édition, publicité, e-commerce, marketing, recherche… Des contenus finement annotés, réutilisables, connectés pour Contextualisation Connexion Protection des droits Automatisation de la publication Automatisation des chaînes de production de contenus Augmenter la valeur des services rendus en fusionnant contenus, connaissances, réseaux sociaux… Gérer et publier du contenu intelligent « smart content »

Gérer et publier du contenu intelligent « smart content »

Publier des données ouvertes et reliées (LOD Linked Open Data) Linked Open Data : des méthodes de publication de données structurées, reliées, accessibles via le web et d’abord destinées aux machines Linked Open Data : l’ ensemble des données structurées accessible sur le web et répondant aux standards minimaux du LOD (http, URI, RDF)

Publier des données ouvertes et reliées (LOD Linked Open Data)

2010 : 25 milliards de triplets RDF, 395 millions de liens RDF 2007 : 2 milliards de triplets RDF, 2 millions de liens RDF Publier des données ouvertes et reliées (LOD Linked Open Data)

2010 : 25 milliards de triplets RDF, 395 millions de liens RDF 2007 : 2 milliards de triplets RDF, 2 millions de liens RDF BIG DATA

Semantic web introduction

Contenu connexe

Tendances

En vedette

Similaire à Semantic web introduction

Semantic web introduction

Notes de l'éditeur