Phase 2 EDA :
      Exploration
Web Sémantique, ou comment donner du sens
Enjeux

‣ Construire un corpus compréhensible par celles
  qui suppléées vos explorations : les machines
‣ Faire du web une base de données
  décentralisée : passer d’un web de documents à
  un web de données
‣ Fournir des résultats les plus pertinents possibles
Exemple
Pourquoi est-ce utile
Voyage à Mumbai

Avec une compagnie connu ?
Avec une compagnie locale ?
Avec une compagnie Low-cost ?
Voyage à Mumbai


Trouvons un hôtel pas cher
Trouvons un hôtel luxueux
Trouvons un hôtel classique
Voyage à Mumbai


Partons avec des amis de linkdn
Ou des amis de facebook
Ou de gtalk
Voyage à Mumbai


Et mettons nos photos sur flickr
Ou picasa
Ou encore realtravel
Le problème

‣ Quantité de sites à consulter de styles, languages,
  objectifs différents
‣ Faire une intégration de toutes ces informations
‣ Où se trouvent les données ?
La solution web
            sémantique
Utiliser les données du web de la même façon qu’on
le fait avec les documents :
‣ Lien aux données (off presentation)
‣ Utiliser les données pour soi
‣ Permettre à des agents, applications d’interpréter
  les données
Comment atteindre cet
     objectif ?
‣ Réduire la distance entre les deux webs (data &
  documents) avec des objets typés et des relations
  typés
‣ Ajouter des meta-data lisible par une machine au
  contenu existant pour permettre une information
  parsable, interrogeable, réutilisable
‣ Définir des sémantiques partagées pour ces
  méta-data pour l’interopérabilité entre
  applications et le raisonnement
La sémantique c’est quoi ?

‣ Étude du sens des mots
‣ Trois acceptations suivant 3 sciences : linguistique,
  logique, psychologie
‣ Définir des sémantiques partagées pour ces
  méta-data pour l’interopérabilité entre
  applications et le raisonnement
Le web sémantique
         aujourd’hui
‣ Gros travail de standardisation du w3.org
‣ Activité du web sémantique : w3.org/2001/sw
‣ Beaucoup d’activité d’incubateurs, groupes de
  travail et groupement d’intérêt
 ‣ SPARQL
 ‣ RDB2RDF
 ‣ Etc.
Le web sémantique
    aujourd’hui
Web Sématique
 Comment ça marche en vrai
URI
Une Uniform Resource Identifier (URI) est une
séquence de caractère qui identifie une resource
Les URI identifient tout (pas que des pages) de
manière unique
Exemple :
   http://ic05.net/fabien - moi

   http://ic05.net - la page de l’uv
Content-negociation
URI pour des humains, URI pour des documents
Négociation de contenu : rediriger une ressource
URI vers une description de cette ressource
suivant l’accesseur
Exemple :
   http://dbpedia.org/resource/compiègne

   http://dbpedia.org/page/compiègne

   http://dbpedia.org/data/compiègne
RDF
L’URI représente des ressources mais comment
définir des choses à propos de ces ressources ?
RDF - Resource Description Framework - est une
syntaxe abstraite, un modèle de donnée qui
représente un graphe orienté et labelisé basé sur
les URIs
Le RDF est basé sur des triplets
   <subjet> <prédicat> <objet>
RDF                              RDF
Digital Enterprise Research Institute                       www.deri.ie



   @prefix dct: <http://purl.org/dc/terms/> . !

   <http://example.org/dm110-semweb>!
    dct:title “Introduction to the Semantic Web” ; !
    dct:author <http://apassant.net/alex> ;!
    dct:subject <http://dbpedia.org/resource/Semantic_Web> .!
Les ontologies
Le RDF fait des assertions à propos des URIs mais
comment qualifier ces assertions comment savoir
que :knows on FOAF identifie une relation de
connaissance entre humains ?
Rôle des ontologies
Languages d’ontologies : RDFS ou OWL
ntologies
rprise Research Institute   Les ontologies   www.deri.ie




Classes and properties
  "!   :Person a rdfs:Class .
  "!   :father a rdfs:Property .
  "!   :father rdfs:domain :Person .
  "!   :father rdfs:range :Person .
Les ontologies - RDFS
RDFS définie des classes, des propriétés et des
relations
ex:Person rdfs:subClassOf ex:humanLiving

ex:workWith rdfs:subPropertyOf ex:knows

Ces relations permettent d’inférencer de nouvelles
connaissances
:fabien rdf:type ex:Person

:fabien ex:worksWith :dominique

Fabien est un humain et connait dominique
Les ontologies - OWL
OWL va plus loin avec de nouveaux axiomes
Disjonction

Transitivité

symétrie

Contraintes de cardinalité

OWL2 introduit de nouvelles fonctionnalité pour le
raisonnement
Chaines de propriétés

Parent + brother => uncle
FOAF
<rdf:RDF
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
    xmlns:foaf="http://xmlns.com/foaf/0.1/"
    xmlns:admin="http://webns.net/mvcb/">
<foaf:PersonalProfileDocument rdf:about="">
 <foaf:maker rdf:resource="#me"/>
 <foaf:primaryTopic rdf:resource="#me"/>
 <admin:generatorAgent rdf:resource="http://www.ldodds.com/foaf/foaf-a-matic"/>
 <admin:errorReportsTo rdf:resource="mailto:leigh@ldodds.com"/>
</foaf:PersonalProfileDocument>
<foaf:Person rdf:ID="me">
<foaf:name>Fabien Pfaender</foaf:name>
<foaf:title>M.</foaf:title>
<foaf:givenname>Fabien</foaf:givenname>
<foaf:family_name>Pfaender</foaf:family_name>
<foaf:nick>Monkey D Lueffy</foaf:nick>
<foaf:mbox_sha1sum>f7d9ca9d95f0caf93b8e216fb591d010f9ec3a8a</foaf:mbox_sha1sum>
<foaf:homepage rdf:resource="www.lueffyworld.net"/>
<foaf:phone rdf:resource="tel:+33-6-76-96-87-56"/>
<foaf:workplaceHomepage rdf:resource="www.intertact.net"/>
<foaf:workInfoHomepage rdf:resource="www.utc.fr/cred/"/>
<foaf:schoolHomepage rdf:resource="www.utc.fr"/>
<foaf:knows>
<foaf:Person>
<foaf:name>Jérôme Olive</foaf:name>
<foaf:mbox_sha1sum>73d3602f065fbb4b456755685a77df38a99fdb8f</foaf:mbox_sha1sum></foaf:Person></foaf:knows>
<foaf:knows>
<foaf:Person>
<foaf:name>Dominique Aubert</foaf:name>
<foaf:mbox_sha1sum>1f9ffbe0d24888e37a5ba29cb7c93a64ebe9a20d</foaf:mbox_sha1sum></foaf:Person></foaf:knows></foaf:Person>
</rdf:RDF>

Web sémantique

  • 1.
    Phase 2 EDA: Exploration Web Sémantique, ou comment donner du sens
  • 2.
    Enjeux ‣ Construire uncorpus compréhensible par celles qui suppléées vos explorations : les machines ‣ Faire du web une base de données décentralisée : passer d’un web de documents à un web de données ‣ Fournir des résultats les plus pertinents possibles
  • 3.
  • 4.
    Voyage à Mumbai Avecune compagnie connu ? Avec une compagnie locale ? Avec une compagnie Low-cost ?
  • 5.
    Voyage à Mumbai Trouvonsun hôtel pas cher Trouvons un hôtel luxueux Trouvons un hôtel classique
  • 6.
    Voyage à Mumbai Partonsavec des amis de linkdn Ou des amis de facebook Ou de gtalk
  • 7.
    Voyage à Mumbai Etmettons nos photos sur flickr Ou picasa Ou encore realtravel
  • 8.
    Le problème ‣ Quantitéde sites à consulter de styles, languages, objectifs différents ‣ Faire une intégration de toutes ces informations ‣ Où se trouvent les données ?
  • 9.
    La solution web sémantique Utiliser les données du web de la même façon qu’on le fait avec les documents : ‣ Lien aux données (off presentation) ‣ Utiliser les données pour soi ‣ Permettre à des agents, applications d’interpréter les données
  • 10.
    Comment atteindre cet objectif ? ‣ Réduire la distance entre les deux webs (data & documents) avec des objets typés et des relations typés ‣ Ajouter des meta-data lisible par une machine au contenu existant pour permettre une information parsable, interrogeable, réutilisable ‣ Définir des sémantiques partagées pour ces méta-data pour l’interopérabilité entre applications et le raisonnement
  • 11.
    La sémantique c’estquoi ? ‣ Étude du sens des mots ‣ Trois acceptations suivant 3 sciences : linguistique, logique, psychologie ‣ Définir des sémantiques partagées pour ces méta-data pour l’interopérabilité entre applications et le raisonnement
  • 12.
    Le web sémantique aujourd’hui ‣ Gros travail de standardisation du w3.org ‣ Activité du web sémantique : w3.org/2001/sw ‣ Beaucoup d’activité d’incubateurs, groupes de travail et groupement d’intérêt ‣ SPARQL ‣ RDB2RDF ‣ Etc.
  • 13.
    Le web sémantique aujourd’hui
  • 14.
    Web Sématique Commentça marche en vrai
  • 15.
    URI Une Uniform ResourceIdentifier (URI) est une séquence de caractère qui identifie une resource Les URI identifient tout (pas que des pages) de manière unique Exemple : http://ic05.net/fabien - moi http://ic05.net - la page de l’uv
  • 16.
    Content-negociation URI pour deshumains, URI pour des documents Négociation de contenu : rediriger une ressource URI vers une description de cette ressource suivant l’accesseur Exemple : http://dbpedia.org/resource/compiègne http://dbpedia.org/page/compiègne http://dbpedia.org/data/compiègne
  • 17.
    RDF L’URI représente desressources mais comment définir des choses à propos de ces ressources ? RDF - Resource Description Framework - est une syntaxe abstraite, un modèle de donnée qui représente un graphe orienté et labelisé basé sur les URIs Le RDF est basé sur des triplets <subjet> <prédicat> <objet>
  • 18.
    RDF RDF Digital Enterprise Research Institute www.deri.ie @prefix dct: <http://purl.org/dc/terms/> . ! <http://example.org/dm110-semweb>! dct:title “Introduction to the Semantic Web” ; ! dct:author <http://apassant.net/alex> ;! dct:subject <http://dbpedia.org/resource/Semantic_Web> .!
  • 19.
    Les ontologies Le RDFfait des assertions à propos des URIs mais comment qualifier ces assertions comment savoir que :knows on FOAF identifie une relation de connaissance entre humains ? Rôle des ontologies Languages d’ontologies : RDFS ou OWL
  • 20.
    ntologies rprise Research Institute Les ontologies www.deri.ie Classes and properties "! :Person a rdfs:Class . "! :father a rdfs:Property . "! :father rdfs:domain :Person . "! :father rdfs:range :Person .
  • 21.
    Les ontologies -RDFS RDFS définie des classes, des propriétés et des relations ex:Person rdfs:subClassOf ex:humanLiving ex:workWith rdfs:subPropertyOf ex:knows Ces relations permettent d’inférencer de nouvelles connaissances :fabien rdf:type ex:Person :fabien ex:worksWith :dominique Fabien est un humain et connait dominique
  • 22.
    Les ontologies -OWL OWL va plus loin avec de nouveaux axiomes Disjonction Transitivité symétrie Contraintes de cardinalité OWL2 introduit de nouvelles fonctionnalité pour le raisonnement Chaines de propriétés Parent + brother => uncle
  • 23.
    FOAF <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:admin="http://webns.net/mvcb/"> <foaf:PersonalProfileDocument rdf:about=""> <foaf:maker rdf:resource="#me"/> <foaf:primaryTopic rdf:resource="#me"/> <admin:generatorAgent rdf:resource="http://www.ldodds.com/foaf/foaf-a-matic"/> <admin:errorReportsTo rdf:resource="mailto:leigh@ldodds.com"/> </foaf:PersonalProfileDocument> <foaf:Person rdf:ID="me"> <foaf:name>Fabien Pfaender</foaf:name> <foaf:title>M.</foaf:title> <foaf:givenname>Fabien</foaf:givenname> <foaf:family_name>Pfaender</foaf:family_name> <foaf:nick>Monkey D Lueffy</foaf:nick> <foaf:mbox_sha1sum>f7d9ca9d95f0caf93b8e216fb591d010f9ec3a8a</foaf:mbox_sha1sum> <foaf:homepage rdf:resource="www.lueffyworld.net"/> <foaf:phone rdf:resource="tel:+33-6-76-96-87-56"/> <foaf:workplaceHomepage rdf:resource="www.intertact.net"/> <foaf:workInfoHomepage rdf:resource="www.utc.fr/cred/"/> <foaf:schoolHomepage rdf:resource="www.utc.fr"/> <foaf:knows> <foaf:Person> <foaf:name>Jérôme Olive</foaf:name> <foaf:mbox_sha1sum>73d3602f065fbb4b456755685a77df38a99fdb8f</foaf:mbox_sha1sum></foaf:Person></foaf:knows> <foaf:knows> <foaf:Person> <foaf:name>Dominique Aubert</foaf:name> <foaf:mbox_sha1sum>1f9ffbe0d24888e37a5ba29cb7c93a64ebe9a20d</foaf:mbox_sha1sum></foaf:Person></foaf:knows></foaf:Person> </rdf:RDF>

Notes de l'éditeur

  • #3 Les liens sont de simples liens, pas qualifier, ils ne repr&amp;#xE9;sentent rien
  • #5 KLM / air india / easyjet
  • #6 Hilton, b&amp;b, youth hostel
  • #9 Long et douloureux Divers db, xml, excel, designer. Mashup possible mais sp&amp;#xE9;cifique On finit par faire son propre site...
  • #10 Ce n&amp;#x2019;est pas un mashup !
  • #11 Notion URI
  • #12 S&amp;#xE9;mantique linguistique : &amp;#xE9;tude des changements de sens, th&amp;#xE9;orie du signe, fonction psychosociale du langage, structure lexicologique Sens statique, signification dynamique Signification : proc&amp;#xE8;s qui associe un objet &amp;#xE0; un signe (naturel) ou symbole (artificiel) (saussure signe uni concept et image) Saussure le mot en 4 : la chose (arbre), image de l&amp;#x2019;arbre (signifi&amp;#xE9;), image de la forme phonique (signifiant), forme phonique elle m&amp;#xEA;me (le mot arbre) En logique, traduction de signifiant formels issues de l&amp;#x2019;IA (signifiant car repr&amp;#xE9;sentent des connaissances)
  • #13 Constellation, page rank, random surfer Les annuaires dmoz, yahoo Augmentation progressive avec les bonnes pratiques de construction de l&amp;#x2019;index mais aussi de compr&amp;#xE9;hension des recherches utilisateurs
  • #16 Et encore moi dans le contexte de l&amp;#x2019;uv mais on peut identifier des gens, des objets, etc.
  • #17 Resource -&gt; page si depuis le navigateur
  • #18 Attention le RDF n&amp;#x2019;est pas du XML RDF/XML oui mais il y en a d&amp;#x2019;autre (N3, RDFa)
  • #19 Bas&amp;#xE9; sur le dublin core utilis&amp;#xE9; dans les grandes instances gouvernementales
  • #20 Sp&amp;#xE9;cification d&amp;#x2019;une conceptualisation : megathesaurus OWL ontology web language
  • #21 Sp&amp;#xE9;cification d&amp;#x2019;une conceptualisation : megathesaurus OWL ontology web language
  • #22 Sp&amp;#xE9;cification d&amp;#x2019;une conceptualisation : megathesaurus OWL ontology web language
  • #23 Sp&amp;#xE9;cification d&amp;#x2019;une conceptualisation : megathesaurus OWL ontology web language
  • #24 Si le nombre de liens sur une page augmente plus vite que pour une page plus ancienne, cela donnera un meilleur score, mais cela peut aussi signaler un spamming.Si un document est plus r&amp;#xE9;cent que la moyenne des pages dans un r&amp;#xE9;sultat, on peut lui attribuer un meilleur score pour am&amp;#xE9;liorer sa position afin de tenir compte de sa nouveaut&amp;#xE9;. Le score peut &amp;#xEA;tre positif ou n&amp;#xE9;gatif selon ces changements. Si un document appara&amp;#xEE;t dans des requ&amp;#xEA;tes sans rapports entre elles, cela signale un spam et le score est r&amp;#xE9;duit. Apparition de backlink Si rangs haut malgr&amp;#xE9; actualit&amp;#xE9; et changement des autres, proba spam augmente