Introduction au Web Sémantique
L’idée du web sémantique
L’idée du web sémantique   Tim Berners-Lee définie le  Web Sémantique  comme “un  web des données  qui peut être directement  utilisé par les machines “
L’idée du web sémantique Le web sémantique permet l’intégration de différents contenus, applications et systèmes.  Il procure les mécanismes pour la réalisation de systèmes d’information d’entreprises.
CONTINUITÉS ET RUPTURES DE QUOI EST CE COMPOSÉ ? POUR QUOI FAIRE ? Web sémantique
Continuités et ruptures
Mise en perspective : continuités et ruptures
 
 
Organisation des contenus
Une continuité dans les besoins Les technologies du web sémantique sont d’abord adoptées par  les secteurs qui ont une longue tradition de contenus organisés selon des référentiels métiers
Une évolution de l’internet INTERNET (~1970) Réseau de  machines   identifiées, connectées et adressables Correspond en gros à l’infrastructure des bibliothèques et rayons WEB 1.0 (~1990) Réseau de  ressources   identifiées, connectées et adressables Correspond en gros au corpus documentaire WEB sémantique (~ 2005) Réseau de  concepts   et entités   identifiés, connectés, adressables Matérialisation du vocabulaire sous forme de ressources
Rupture technologique Besoins: Se faire aider des machines pour organiser, filtrer, relier, présenter, contextualiser…. les contenus  Se faire aider des machines pour modéliser, contrôler, publier, sélectionner… des connaissances -> Degré supérieur de formalisme pour pouvoir utiliser les machines dans le domaine de la connaissance
Rupture organisationnelle Rupture des processus de travail sur la connaissance Possibilité de travailler sur l’organisation de la connaissance en mode collaboratif, au niveau mondial, en faisant participer les organisations commerciales, services publiques, ong, particuliers WEB2.0 Wikipedia -> dbpedia, Geonames, Astronomy… Possibilité de rapprocher, aligner, comparer, lier des connaissances distribuées, hétérogènes, complémentaires Europeana
UN CONCEPT DES EXPERTISES ET MÉTIERS DES STANDARDS DES RESSOURCES  DES COMPOSANTS LOGICIELS Le web sémantique de quoi est ce composé ?
Un concept Date parution  «1874 »  Attributs Sujet Relation Livre « Quatrevingt-treize» Sujet livre  «la révolution fancaise »  Auteur livre Personne « Victor Hugo» Sujet Attributs Titre livre «quatrevingt-treize»  Nom personne « Victor Hugo »
Des expertises et métiers Ingénierie des connaissances Linguistique Logique, Raisonnement Base de données Normes du web Ingénierie informatique Documentation Bibliothéques Archives Passionnés, ONG… Wikipedia/dbpedia Geonames …
Des standards identity URI XML alphabet UNICODE data interchange RDF query SPARQL ontology OWL rule RIF
Des standards : URI URI identifiant la langue http://www.lingvoj.org/lang/gd URI identifiant la description RDF http://www.lingvoj.org/lingvo/gd.rdf URI identifiant la description HTML http://www.lingvoj.org/lingvo/gd.html Redirection pour les navigateurs HTML Redirection pour les requêtes RDF
Des standards : URI URI de la classe « Person » dans l’ontologie FOAF http://xmlns.com/foaf/0.1/Person et sa description semi-formelle en RDF
Des standards : RDF sur un exemple Un roman de Victor Hugo et ses métadonnées Titre :  Quatrevingt-treize Année de parution :  1874  Auteur : Victor Hugo Sujet :  La Révolution Française Ontologie implicite de ces métadonnées Un roman est un type de document L’année de parution est une date L’auteur est une personne Plusieurs niveaux de représentation possibles en RDF Représentation brute des triplets, sans référence à une ontologie Déclaration explicite des classes et types utilisés Définition de ces classes et types dans une ontologie, avec leurs contraintes
Des standards : RDF Description de « Quatrevingt-treize » en RDF URI utilisée pour le référent Définie par la base de données DBpedia http://dbpedia.org/resource/Ninety-Three Notation simplifiée : dbpedia:Ninety-Three Schéma de métadonnées utilisé : Dublin Core  Dublin Core “elements” pour les métadonnées de type “donnée” Dublin Core “terms” pour les métadonnées de type “ressource” Triplets traduisant le titre et les métadonnées dbpedia:Ninety-Three    dc:title “Quatrevingt-treize” dbpedia:Ninety-Three    dc:created  “1874” dbpedia:Ninety-Three    dcterms:creator  dbpedia:Victor_Hugo dbpedia:Ninety-Three    dcterms:subject  dbpedia:Category:French_Revolution
Des standards  Le même exemple en syntaxe RDF-XML <?xml version=&quot;1.0&quot; encoding=&quot;UTF-8&quot;?> <rdf:RDF  xmlns:rdf=&quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#&quot; xmlns:dc=&quot;http://purl.org/dc/elements/1.1/&quot;  xmlns:dcterms=&quot;http://purl.org/dc/terms/” xmlns:dbpedia=&quot;http://dbpedia.org/resource/&quot;> <rdf:Description rdf:about=&quot;http://dbpedia.org/resource/Ninety-Three&quot;> <dc:title xml:lang=&quot;fr&quot;>Quatrevingt-treize</dc:title> <dcterms:created>1874</dcterms:created> <dcterms:creator rdf:resource=&quot;http://dbpedia.org/resource/Victor_Hugo&quot;></ dcterms:creator> <dcterms:subject rdf:resource=&quot;http://dbpedia.org/resource/Category:French_Revolution&quot;/> </rdf:Description> </rdf:RDF>
Des standards : SPARQL - Requêter RDF  SPARQL est un langage de requête adapté à RDF SPARQL est à RDF ce que SQL est aux bases de données relationnelles C’est un langage adapté à la structure en graphe du RDF Exemples de requêtes SPARQL SELECT (ensemble de ressources correspondant à une définition sémantique) Ex 1 : Personnes employées par un organisme affilié au Ministère de l’Industrie? Ex 2 : Documents dont un auteur est expert en sociologie de l’entreprise? CONSTRUCT (nouveau graphe à partir d’informations d’un graphe existant) Ex 1 : Attacher à la rubrique « Enseignement à distance »  tous les documents dont l’éditeur est le CNED. Ex 2 : Si un rapport a pour sujet X,  créer un lien d’expertise entre l’auteur du rapport et ce sujet X. SPARQL peut être utilisé sur le Web Via des interfaces de type « Web Service » appelés « SPARQL end points » Voir http://esw.w3.org/topic/SparqlEndpoints
Des standards : OWL Vocabulaires de niveau 2 : langages d’ontologie RDF seul ne permet pas de raisonnement Un ensemble de triplets est un ensemble de données brutes Les langages d’ontologie sont basés sur une logique formelle  Ils introduisent la notion de cohérence logique Ils permettent de définir et contrôler des contraintes d’intégrité Est-ce que tous les triplets de ma base RDF sont cohérents entre eux ? Est-ce que telle description est conforme à mon ontologie? Ils supportent des règles d’inférence Permettant de déduire de nouveaux triplets des triplets déclarés
Des standards : OWL  Vocabulaires de niveau 2 : langages d’ontologie Réutiliser des ontologies génériques  Dublin Core : métadonnées sur un document FOAF : description des personnes, organisations et de leurs relations SKOS : description de thésaurus, taxonomies, référentiels, listes contrôlées … .. Enrichir des ontologies génériques Ajouter une métadonnée supplémentaire à Dublin Core Ajouter un attribut supplémentaire pour décrire les personnes dans FOAF Développer pour un métier, seul ou en collaboration avec d’autres utilisateurs potentiels, une ontologie spécialisée
Des ontologies réutilisables et réutilisées (cf voaf Linked open vocabulary)  http://labs.mondeca.com/dataset/lov/index.html
Des composants logiciels Base de données RDF Triple Store Raisonnement Inférence Editeur d’ontologie Editeur de taxonomies, thésaurus référentiels, représentation des connaissances Editeur de règles Chaine d’annotation sémantique des contenus - Text mining Chaine de standardisation des données End point Sparql
GÉRER, PUBLIER DES DONNÉES DE RÉFÉRENCE GÉRER, PUBLIER DES BASES DE CONNAISSANCE GÉRER, PUBLIER DES CONTENUS INTELLIGENTS  (SMART CONTENT) PUBLIER DES DONNÉES OUVERTES ET RELIÉES  (LINKED OPEN DATA) BIG DATA Le web sémantique pour quoi faire?
Gérer et Publier des données de référence Gérer et/ou publier des référentiels, taxonomies, thésaurus, représentation de connaissances Liste des langues Gemet Eurovoc FAO Geonames Référentiel géographique INSEE Rameau CIM10 Gene ontology … . Une ontologie générique : SKOS Une sérialisation RDF pour distribuer des fichiers Des services à base de sparql et web services Répondre aux besoins d’alignement avec d’autres référentiels (ex Geonames-Insee)
http://client2.mondeca.com/semanticportalRDF/
Gérer publier des bases de connaissances Des standards permettant de représenter des « connaissances »  Des standards bien insérés dans les environnements web et intranet utilisés par les entreprises (xml, browser internet…) Base de pharmacovigilance Inventaire du patrimoine artistique de la province du Limbourg Inventaire des ressources touristiques de la Nièvre Base de renseignement  Modélisation des composants d’une voiture et de leurs fonctions … .
 
Media, édition,  publicité,  e-commerce, marketing, recherche… Des contenus finement annotés, réutilisables, connectés pour  Contextualisation Connexion Protection des droits Automatisation de la publication Automatisation des chaînes de production de contenus Augmenter la valeur des services rendus en fusionnant contenus,  connaissances, réseaux sociaux… Gérer et publier du contenu intelligent  « smart content »
Gérer et publier du contenu intelligent  « smart content »
Publier des données ouvertes et reliées (LOD Linked Open Data)  Linked Open Data : des  méthodes  de publication de données structurées, reliées, accessibles via le web et d’abord destinées aux machines Linked Open Data : l’ ensemble des données  structurées accessible sur le web et répondant aux standards minimaux du LOD (http, URI, RDF)
Linked open data
Publier des données ouvertes et reliées (LOD Linked Open Data)
 
2010 : 25 milliards de triplets RDF, 395 millions de liens RDF  2007 : 2 milliards de triplets RDF, 2 millions de liens RDF Publier des données ouvertes et reliées (LOD Linked Open Data)
2010 : 25 milliards de triplets RDF, 395 millions de liens RDF  2007 : 2 milliards de triplets RDF, 2 millions de liens RDF BIG DATA
Questions ? [email_address]

Semantic web introduction

  • 1.
  • 2.
    L’idée du websémantique
  • 3.
    L’idée du websémantique   Tim Berners-Lee définie le Web Sémantique comme “un web des données qui peut être directement utilisé par les machines “
  • 4.
    L’idée du websémantique Le web sémantique permet l’intégration de différents contenus, applications et systèmes. Il procure les mécanismes pour la réalisation de systèmes d’information d’entreprises.
  • 5.
    CONTINUITÉS ET RUPTURESDE QUOI EST CE COMPOSÉ ? POUR QUOI FAIRE ? Web sémantique
  • 6.
  • 7.
    Mise en perspective :continuités et ruptures
  • 8.
  • 9.
  • 10.
  • 11.
    Une continuité dansles besoins Les technologies du web sémantique sont d’abord adoptées par les secteurs qui ont une longue tradition de contenus organisés selon des référentiels métiers
  • 12.
    Une évolution del’internet INTERNET (~1970) Réseau de machines identifiées, connectées et adressables Correspond en gros à l’infrastructure des bibliothèques et rayons WEB 1.0 (~1990) Réseau de ressources identifiées, connectées et adressables Correspond en gros au corpus documentaire WEB sémantique (~ 2005) Réseau de concepts et entités identifiés, connectés, adressables Matérialisation du vocabulaire sous forme de ressources
  • 13.
    Rupture technologique Besoins:Se faire aider des machines pour organiser, filtrer, relier, présenter, contextualiser…. les contenus Se faire aider des machines pour modéliser, contrôler, publier, sélectionner… des connaissances -> Degré supérieur de formalisme pour pouvoir utiliser les machines dans le domaine de la connaissance
  • 14.
    Rupture organisationnelle Rupturedes processus de travail sur la connaissance Possibilité de travailler sur l’organisation de la connaissance en mode collaboratif, au niveau mondial, en faisant participer les organisations commerciales, services publiques, ong, particuliers WEB2.0 Wikipedia -> dbpedia, Geonames, Astronomy… Possibilité de rapprocher, aligner, comparer, lier des connaissances distribuées, hétérogènes, complémentaires Europeana
  • 15.
    UN CONCEPT DESEXPERTISES ET MÉTIERS DES STANDARDS DES RESSOURCES DES COMPOSANTS LOGICIELS Le web sémantique de quoi est ce composé ?
  • 16.
    Un concept Dateparution «1874 »  Attributs Sujet Relation Livre « Quatrevingt-treize» Sujet livre «la révolution fancaise »  Auteur livre Personne « Victor Hugo» Sujet Attributs Titre livre «quatrevingt-treize»  Nom personne « Victor Hugo »
  • 17.
    Des expertises etmétiers Ingénierie des connaissances Linguistique Logique, Raisonnement Base de données Normes du web Ingénierie informatique Documentation Bibliothéques Archives Passionnés, ONG… Wikipedia/dbpedia Geonames …
  • 18.
    Des standards identityURI XML alphabet UNICODE data interchange RDF query SPARQL ontology OWL rule RIF
  • 19.
    Des standards :URI URI identifiant la langue http://www.lingvoj.org/lang/gd URI identifiant la description RDF http://www.lingvoj.org/lingvo/gd.rdf URI identifiant la description HTML http://www.lingvoj.org/lingvo/gd.html Redirection pour les navigateurs HTML Redirection pour les requêtes RDF
  • 20.
    Des standards :URI URI de la classe « Person » dans l’ontologie FOAF http://xmlns.com/foaf/0.1/Person et sa description semi-formelle en RDF
  • 21.
    Des standards :RDF sur un exemple Un roman de Victor Hugo et ses métadonnées Titre : Quatrevingt-treize Année de parution : 1874 Auteur : Victor Hugo Sujet : La Révolution Française Ontologie implicite de ces métadonnées Un roman est un type de document L’année de parution est une date L’auteur est une personne Plusieurs niveaux de représentation possibles en RDF Représentation brute des triplets, sans référence à une ontologie Déclaration explicite des classes et types utilisés Définition de ces classes et types dans une ontologie, avec leurs contraintes
  • 22.
    Des standards :RDF Description de « Quatrevingt-treize » en RDF URI utilisée pour le référent Définie par la base de données DBpedia http://dbpedia.org/resource/Ninety-Three Notation simplifiée : dbpedia:Ninety-Three Schéma de métadonnées utilisé : Dublin Core Dublin Core “elements” pour les métadonnées de type “donnée” Dublin Core “terms” pour les métadonnées de type “ressource” Triplets traduisant le titre et les métadonnées dbpedia:Ninety-Three dc:title “Quatrevingt-treize” dbpedia:Ninety-Three dc:created “1874” dbpedia:Ninety-Three dcterms:creator dbpedia:Victor_Hugo dbpedia:Ninety-Three dcterms:subject dbpedia:Category:French_Revolution
  • 23.
    Des standards Le même exemple en syntaxe RDF-XML <?xml version=&quot;1.0&quot; encoding=&quot;UTF-8&quot;?> <rdf:RDF xmlns:rdf=&quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#&quot; xmlns:dc=&quot;http://purl.org/dc/elements/1.1/&quot; xmlns:dcterms=&quot;http://purl.org/dc/terms/” xmlns:dbpedia=&quot;http://dbpedia.org/resource/&quot;> <rdf:Description rdf:about=&quot;http://dbpedia.org/resource/Ninety-Three&quot;> <dc:title xml:lang=&quot;fr&quot;>Quatrevingt-treize</dc:title> <dcterms:created>1874</dcterms:created> <dcterms:creator rdf:resource=&quot;http://dbpedia.org/resource/Victor_Hugo&quot;></ dcterms:creator> <dcterms:subject rdf:resource=&quot;http://dbpedia.org/resource/Category:French_Revolution&quot;/> </rdf:Description> </rdf:RDF>
  • 24.
    Des standards :SPARQL - Requêter RDF SPARQL est un langage de requête adapté à RDF SPARQL est à RDF ce que SQL est aux bases de données relationnelles C’est un langage adapté à la structure en graphe du RDF Exemples de requêtes SPARQL SELECT (ensemble de ressources correspondant à une définition sémantique) Ex 1 : Personnes employées par un organisme affilié au Ministère de l’Industrie? Ex 2 : Documents dont un auteur est expert en sociologie de l’entreprise? CONSTRUCT (nouveau graphe à partir d’informations d’un graphe existant) Ex 1 : Attacher à la rubrique « Enseignement à distance » tous les documents dont l’éditeur est le CNED. Ex 2 : Si un rapport a pour sujet X, créer un lien d’expertise entre l’auteur du rapport et ce sujet X. SPARQL peut être utilisé sur le Web Via des interfaces de type « Web Service » appelés « SPARQL end points » Voir http://esw.w3.org/topic/SparqlEndpoints
  • 25.
    Des standards :OWL Vocabulaires de niveau 2 : langages d’ontologie RDF seul ne permet pas de raisonnement Un ensemble de triplets est un ensemble de données brutes Les langages d’ontologie sont basés sur une logique formelle Ils introduisent la notion de cohérence logique Ils permettent de définir et contrôler des contraintes d’intégrité Est-ce que tous les triplets de ma base RDF sont cohérents entre eux ? Est-ce que telle description est conforme à mon ontologie? Ils supportent des règles d’inférence Permettant de déduire de nouveaux triplets des triplets déclarés
  • 26.
    Des standards :OWL Vocabulaires de niveau 2 : langages d’ontologie Réutiliser des ontologies génériques Dublin Core : métadonnées sur un document FOAF : description des personnes, organisations et de leurs relations SKOS : description de thésaurus, taxonomies, référentiels, listes contrôlées … .. Enrichir des ontologies génériques Ajouter une métadonnée supplémentaire à Dublin Core Ajouter un attribut supplémentaire pour décrire les personnes dans FOAF Développer pour un métier, seul ou en collaboration avec d’autres utilisateurs potentiels, une ontologie spécialisée
  • 27.
    Des ontologies réutilisableset réutilisées (cf voaf Linked open vocabulary) http://labs.mondeca.com/dataset/lov/index.html
  • 28.
    Des composants logicielsBase de données RDF Triple Store Raisonnement Inférence Editeur d’ontologie Editeur de taxonomies, thésaurus référentiels, représentation des connaissances Editeur de règles Chaine d’annotation sémantique des contenus - Text mining Chaine de standardisation des données End point Sparql
  • 29.
    GÉRER, PUBLIER DESDONNÉES DE RÉFÉRENCE GÉRER, PUBLIER DES BASES DE CONNAISSANCE GÉRER, PUBLIER DES CONTENUS INTELLIGENTS (SMART CONTENT) PUBLIER DES DONNÉES OUVERTES ET RELIÉES (LINKED OPEN DATA) BIG DATA Le web sémantique pour quoi faire?
  • 30.
    Gérer et Publierdes données de référence Gérer et/ou publier des référentiels, taxonomies, thésaurus, représentation de connaissances Liste des langues Gemet Eurovoc FAO Geonames Référentiel géographique INSEE Rameau CIM10 Gene ontology … . Une ontologie générique : SKOS Une sérialisation RDF pour distribuer des fichiers Des services à base de sparql et web services Répondre aux besoins d’alignement avec d’autres référentiels (ex Geonames-Insee)
  • 31.
  • 32.
    Gérer publier desbases de connaissances Des standards permettant de représenter des « connaissances » Des standards bien insérés dans les environnements web et intranet utilisés par les entreprises (xml, browser internet…) Base de pharmacovigilance Inventaire du patrimoine artistique de la province du Limbourg Inventaire des ressources touristiques de la Nièvre Base de renseignement Modélisation des composants d’une voiture et de leurs fonctions … .
  • 33.
  • 34.
    Media, édition, publicité, e-commerce, marketing, recherche… Des contenus finement annotés, réutilisables, connectés pour Contextualisation Connexion Protection des droits Automatisation de la publication Automatisation des chaînes de production de contenus Augmenter la valeur des services rendus en fusionnant contenus, connaissances, réseaux sociaux… Gérer et publier du contenu intelligent « smart content »
  • 35.
    Gérer et publierdu contenu intelligent « smart content »
  • 36.
    Publier des donnéesouvertes et reliées (LOD Linked Open Data) Linked Open Data : des méthodes de publication de données structurées, reliées, accessibles via le web et d’abord destinées aux machines Linked Open Data : l’ ensemble des données structurées accessible sur le web et répondant aux standards minimaux du LOD (http, URI, RDF)
  • 37.
  • 38.
    Publier des donnéesouvertes et reliées (LOD Linked Open Data)
  • 39.
  • 40.
    2010 : 25milliards de triplets RDF, 395 millions de liens RDF 2007 : 2 milliards de triplets RDF, 2 millions de liens RDF Publier des données ouvertes et reliées (LOD Linked Open Data)
  • 41.
    2010 : 25milliards de triplets RDF, 395 millions de liens RDF 2007 : 2 milliards de triplets RDF, 2 millions de liens RDF BIG DATA
  • 42.

Notes de l'éditeur

  • #2 Content managers in most market sectors exploit semantic technologies to derive more value from content. While initially these technologies were mainly used to improve integration, search, and interlinking, they are now increasingly leveraged in other aspects of content management and delivery, such as content contextualization, personalization, and discovery. This talk will explain why and how organizations should implement: semantic content annotation workflows automatic re-classification of content for a given context ontology based reasoning for user-centric content presentation semantics-driven faceted content navigation The talk will use real client examples for illustrations and will discuss cutting-edge technologies such as Microsoft Pivot.