Une introduction au web de données

5 489 vues

Publié le

Publié dans : Formation
8 commentaires
6 j’aime
Statistiques
Remarques
  • Merci, vidéo très utile puisqu'on a le discours et les animations des slides qui ont été mangé par slideshare (notamment pour le camembert qui présente le web de données :-) !

    Pour être pédant, le lien de la vidéo pourrait se traduire en Média Fragment par: http://php.bm-lyon.fr/video_conf/upload/video_07_04_10_coll_num_4.ram#t=1:06:00,1:34:30 pour l'exposé + les questions ensuite ...
       Répondre 
    Voulez-vous vraiment ?  Oui  Non
    Votre message apparaîtra ici
  • Vidéo de la présentation : http://php.bm-lyon.fr/video_conf/detail.php?id=445 (début vers 1h06)
       Répondre 
    Voulez-vous vraiment ?  Oui  Non
    Votre message apparaîtra ici
  • Gautier, manifestement, nous avons des visions différentes du Web Sémantique, du Web de données, et de la manière de les présenter. Il nous semble réducteur et franchement binaire de prêter cela à nos bagages respectifs en informatique et en sciences humaines. Ce n’est pas la première fois que nous nous adressons à des non-informaticiens sur le sujet, et notre auditoire n’a pas semblé particulièrement gêné par notre approche - même si nous ne pouvons évidemment pas prétendre savoir au juste ce qu’il en a retiré.

    Cette présentation n’est sûrement pas parfaite, ou universelle. Elle témoigne d’un point de vue sur le Web de données.
       Répondre 
    Voulez-vous vraiment ?  Oui  Non
    Votre message apparaîtra ici
  • 1- 'du moment qu’on sait de quoi on parle' C'est justement bien cela le problème. Que vous sachiez de quoi on parle, vous, informaticiens, c'est possible, mais c'est loin d'être le cas de l'ensemble des communautés qui peuvent être intéressé par les technos du Web sémantique (et c'était le cas de la salle à laquelle vous vous adressiez dans cette présentation), entre autres raisons, car les représentations mentales et les concepts ne sont pas perçus de la même façon entre les disciplines et les personnes (Expliquez votre vision du mot 'ontologie' à un parterre de chercheurs en sciences humaines, histoire de voir leur tête voire vous faire massacrer). D'ailleurs, il n'y a qu'à voir le fait que vous ne soyez pas d'accord avec mes définitions ou votre focalisation sur le mot grammaire (alors que je parlais bien de la communication humaine). Ce n'est guère étonnant, puisque je suis issu des sciences humaines. Bref, tout cela pour dire que je ne souhaite pas être absolutiste, après tout, chacun fait ce qu'il veut, mais il faudrait parfois que les chercheurs en informatique aient bien en tête que les personnes avec lesquelles elles sont amenées à parler/travailler/communiquer ne 'savent pas de quoi ils parlent'.

    2- OK, pour le contre-sens sur l'engagement ontologique croissant, je me suis laissé emporter. Pour l'autre point, je reste ferme et pour la même raison que précédemment. Que les informaticiens soient capables de voir la gradation dans l'organisation des connaissances et comprendre les implications de ces différentes modes d'organisation dans l'utilisation des technos du Web sémantique, je n'en doute absolument pas. Maintenant, mettez-vous 5 minutes à la place de professionnels de l'information qui ne connaissent pas l'ontology spectrum, ni les technos du Web sémantique, vous n'aidez pas à leur compréhension de ces dernières en assimilant OWL-RDFS-SKOS qui n'ont pas le même rôle dans les technos du Web sémantique (les deux premiers ayant même un rôle essentiel). Bref, si je puis me permettre, tout cela pour dire que votre présentation aurait gagné en clarté si d'un côté vous aviez l'ontology spectrum théorique et de l'autre une explication des différentes technos du Web sémantique en montrant le rôle particulier joué par OWL et RDFS.
       Répondre 
    Voulez-vous vraiment ?  Oui  Non
    Votre message apparaîtra ici
  • 1- Gautier, je ne suis pas spécialement d'accord avec vos définitions de syntaxe, grammaire et modèle, mais ce n'est pas le point. Nous sommes d'accord sur le fait qu'un graphe RDF n'est pas sa sérialisation en XML ou N3. Mais à tous les niveaux on peut considérer syntaxe et sémantique, et je ne vois pas vraiment de raison - autre qu'absolutiste - de bloquer le terme, du moment qu'on sait de quoi on parle. Étant donné que nous nous sommes contentés de représenter RDF par des figures représentant des graphes, il nous semble que les risques de confusions sont minimes ici, ce qui répond aussi à la remarque de Raphaël.

    2- Sur la question de l'argument de 'l’engagement ontologique croissant', je vous propose de relire ce qu'écrit PA au commentaire 1, qui n'a rien à voir avec une éventuelle transformation de thésaurus en ontologie. Cela concerne simplement trois types de vocabulaires différents, correspondant - pour qui les met en place - à des engagements ontologiques différents.
       Répondre 
    Voulez-vous vraiment ?  Oui  Non
    Votre message apparaîtra ici
Aucun téléchargement
Vues
Nombre de vues
5 489
Sur SlideShare
0
Issues des intégrations
0
Intégrations
371
Actions
Partages
0
Téléchargements
354
Commentaires
8
J’aime
6
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • NB: ce ne sont pas des coutants de pensée opposés, mais deux tendances parallèles et complémentaires, qui utilisent les mêmes technologies, mais ont des focus différents. Nous avons employé le terme Web de données, parce que c’est un pré-requis au Web Sémantique, mais on va en fait parler un peu des deux…
  • On peut rendre les informations « contenues » dans les documents en y ajoutant des annotations destinées aux machines PA: Je suis toujours pas convaincu par la précédence historique les 2 moitiés du Web de données  Mais au moins pédagogiquement, je suis d’accord qu’il est préférable d’amener les choses progressivement.
  • Pour les données natives, elles sont déjà manipulables par des machines, on pourrait donc en principe les exposer directement. Comme il faut s’appuyer sur des standards communs (tout comme les documents sont basés sur HTML), il peut être nécessaire de les adapter.
  • Variations sur le thème précédent : On peut générer des documents annotés plutôt que d’exposer les données en les adaptant : exemple d’une page d’un produit sur un site commercial On peut également stocker des données nativement dans les formats standards, et les exposer directement
  • En italique, les technos utilisées. Entre parenthèse, on retrouve les ingrédients qui constituent le Web de documents. On voit donc bien que le Web de données est une extension assez directe des principes du Web.
  • Expliquer que URL er URI sont synonymes, mais avec un focus différent (identification et accès) Déjà sur le Web de documents, la distinction entre ressource et représentation, identification et accès existe ! (redirections, URLs abstraites pour les documents versionéns, etc…)
  • PA: Attention avec le terme « relation » qui peut désigner tantôt l’arc, tantôt le prédicat. Je l’utilise pour « prédicat » dans le texte. Je pense qu’il ne faut pas entrer explicitement dans ce débat, sauf si on a la questions; l’exemple est à mon avis assez clair. Il faut juste faire attention à l’oral de se tenir à ce sens de « relation » (et parler de l’information, du triplet ou de l’arc pour l’autre).
  • Ici on est passé des URIs aux CURIEs. Pas sûr qu’il faille rendrer dans le détail, à moins qu’il n’y ait une question.
  • Lyon et Stanford university retrouve Jacquard,et qqn d’autre, mais le graphe reste petit. Lyon et Switzerland donne des résultats plus touffus et rigolos… mais pas d’Albert Jacquard  Bizarrement, de nombreuses infos sur lui ne sont pas retrouvées par Relfinder…) Pour pas avoir l’air trop bête : John Harsanyi était un économiste Jonathan Gagnoud est un footballeur suisse
  • J’ai mis le SQL à la fin.
  • Faire remarquer que « auteur » et « contributeur » sont des relations
  • On peut maintenant expliquer brièvement que les bulles sont des sources de données, que les liens représentent les liens vers les ressources « appartenant » à d’autres sources, permettant donc de naviguer d’une source à l’autre, et de requêter le graphe global
  • Exemple Europeana : affichage des propriétés, navigation par propriété, puis exploration d’une propriété elle-même pour voir le SKOS/rdf-schema. La propriété Creator, par exemple, « remonte » jusqu’à dc:creator .
  • Causer à la fin du logiciel libre ? Vous pouvez préparer une présentation ppt. La BM est dotée d’une connexion Internet qui fonctionne parfaitement et d’un PC. En revanche la BM préconise : - de ne pas utiliser de logiciels libres (préférer les logicielsMicrosoft, version ppt 2003) - d'apporter la présentation sur une clé USB et non sur un ordinateur - de veiller à ce que la taille du fichier ppt n'excède pas 20 Mo
  • Une introduction au web de données

    1. 1. Une  introduc,on     au  web  de  données   Vers  une  infrastructure  pour     la  valorisa,on  des  archives  ?       Pierre-­‐Antoine  Champin   Yannick  Prié   LIRIS  –  UMR  5205  CNRS     Université  Claude  Bernard  Lyon  1  
    2. 2. Plan   •  Principes   •  Mise  en  œuvre   •  Applica,ons  
    3. 3. Plan   •  Principes   •  Mise  en  œuvre   •  Applica,ons  
    4. 4. La  vision  du  web  séman,que   •  Passer  d’un  web…   – Lisible  par  les  humains   – Affichable  par  les   machines   – «  Devinable  »   par  les  machines   hUp://www.w3.org/2004/Talks/0120-­‐semweb-­‐umich/  
    5. 5. La  vision  du  web  séman,que   •  …  à  d’un  web   – Lisible  par  les  humains   – Affichable  par  les   machines   – Manipulable   par  les  machines   hUp://www.w3.org/2004/Talks/0120-­‐semweb-­‐umich/  
    6. 6. Manipulable  par  les  machines  ?   •  Calculs,  requêtes   – Schémas,  vocabulaires   →  Web  de  données   •  Inférences,  raisonnement   – Ontologies,  règles…   →  Web  Séman-que  
    7. 7. Vers  le  Web  de  données    
    8. 8. Vers  le  Web  de  données    
    9. 9. Vers  le  Web  de  données    
    10. 10. Vers  le  Web  de  données    
    11. 11. Vers  le  Web  de  données    
    12. 12. Vers  le  Web  de  données    
    13. 13. Plan   •  Principes   •  Mise  en  œuvre   •  Applica,ons  
    14. 14. Principes  du  Web  de  données  liées   •  Iden,fica,on  uniforme  des  objets  d’intérêt   – URL  /  URI   •  Récupéra,on  uniforme  de  données   – HTTP   – RDF   •  Hyperliens  entre  objets  d’intérêt  
    15. 15. No,on  d’URL/URI   •  Un  URL/URI  iden-fie  une  ressource   – mon  CV,  la  ville  de  Lyon,  Albert  Jacquard…   •  Le  Web  de  documents  donne  accès  à  des   représenta,ons  de  ces  ressources   – Mon  CV  au  format  PDF   – La  page  web  de  la  ville  de  Lyon   – L’ar,cle  Wikipedia  sur  Albert  Jacquard  
    16. 16. No,on  de  triplet   •  Expression  d’une  rela,on  entre  deux  ressources   –  Lyon  est  le  lieu  de  naissance  d’Albert  Jacquard   •  Représentable  graphiquement  :   LieuDeNaissanceDe   Lyon   AlbertJacquard   •  Les deux ressources et la relation (tous les objets d’intérêt) sont identifiés par un URI •  On exprime donc cette information par un triplet d’URIs •  http://dbpedia.org/resource/Lyon •  http://dbpedia.org/ontology/birthPlace •  http://dbpedia.org/resource/AlbertJacquard
    17. 17. Graphe  de  triplets   •  On  fusionne  les  nœuds  portant  le  même  URI   puisqu’ils  iden,fient  le  même  objet   skos:subject   dbpedia:Albert_Jacquard   category:French_gene,cists   dbpedia-­‐owl:birthPlaceOf     dbpedia:Lyon   dbpedia:Albert_Jacquard   rdfs:label   dbpedia:Lyon   «  Lyon  »  
    18. 18. Graphe  de  triplets   •  On  fusionne  les  nœuds  portant  le  même  URI   puisqu’ils  iden,fient  le  même  objet   skos:subject   category:French_gene,cists   dbpedia-­‐owl:birthPlaceOf     dbpedia:Lyon   dbpedia:Albert_Jacquard   rdfs:label   «  Lyon  »  
    19. 19. Graphe  de  triplets   hUp://relfinder.dbpedia.org/relfinder.html  
    20. 20. SPARQL   •  Langage  de  requête  pour  trouver  des  informa,ons   dans  un  graphe   •  Exemple  :  «  Trouver  les  personnes  nées  à  Lyon   pendant  les  années  20  ?  ,  avec  le  cas  échéant  leur   date  de  décès.  »   dbpedia-­‐owl:birthPlace     Lyon   dbpedia-­‐owl:birthDate   ?  p   1920  <=  ?bd  <  1930   ?  dd   dbpedia-­‐owl:deathDate     hUp://,nyurl.com/2dcsokd  
    21. 21. Source  d’informa,on,     provenance,  confiance   •  Agréger  des  données  provenant  de  plusieurs  sources   nécessite  de  pouvoir   –  tracer  la  provenance  des  informa,ons   –  exclure  /  favoriser  certaines  sources   –  qualifier  la  qualité  du  résultat  final   •  Exemple  d’applica,on  u,lisant  la  no,on  de   provenance  :   –  hUp://sig.ma/  
    22. 22. Schémas  et  ontologies   •  RDF  définit  une  syntaxe  permeUant  de  décrire  des   graphes  de  données   •  Il  faut  également  pouvoir  définir  le(s)  lexique(s)  qui   vont  servir  à  peupler  ces  graphes  de  données   •  Plusieurs  standards  complémentaires   –  SKOS  (thesaurii)   –  RDF-­‐Schema  (schémas,  ontologies  simples)   –  OWL  (ontologies  riches)  
    23. 23. SKOS   •  Simple  Knowledge  Organiza,on  System   •  hUp://www.w3.org/2004/02/skos/   •  Descrip,on  de  thesaurii   –  Concepts,  rela,ons  séman,ques  et  associa,ves   –  Documenta,on  (libellé,  notes)   –  Interopérabilité  (alignement  de  thesaurii)   •  Pas  de  séman,que  formelle  associée  aux  concepts   eux  mêmes  
    24. 24. RDF-­‐Schema   •  hUp://www.w3.org/TR/rdf-­‐schema/   •  Hiérarchie  de  classes  et  de  rela,ons   – tout  CV  est  un  Document,  toute  Personne  est  un   Agent   – tout  auteur  est  un  contributeur   •  Domaine  et  portée  des  rela,ons   – «  contributeur  »  relie  un  Document  à  un  Agent   •  Permet  quelques  inférences   – l’auteur  d’un  CV  est  forcément  un  Agent  
    25. 25. Exemple  RDF  Schema   domain   range   Niveau  des     Document   contributeur   Agent   schémas   subclass   subproperty   contraignent   CV   auteur   type   type   Niveau     métadonnées   hUp://…/ auteur   hUp://  ….  /   cv.html   pageperso.html   décrivent   Niveau  des     ressources  web  
    26. 26. OWL   •  Web  Ontology  Language   •  hUp://www.w3.org/2004/OWL/   •  Séman,que  plus  riche  pour  permeUre  plus   d’inférence   –  tout  Document  ayant  plusieurs  auteurs  est  un   DocumentCollec,f   –  deux  Personnes  auteurs  d’un  même  Document  sont  en   rela,on  «  co-­‐auteur  »   •  Héritage  IA,  logique  formelle  
    27. 27. Quelques  schémas  et  ontologies   •  DC  (Dublin  core)     –  méta-­‐données  de  documents   –  hUp://dublincore.org/   •  FOAF  (Friend  of  a  friend)     –  personnes  et  réseaux  sociaux   –  hUp://www.foaf-­‐project.org/   •  SIOC  (Seman,cally  Interlinked  Online  Communi,es)     –  sites  web  collabora,fs   –  hUp://sioc-­‐project.org/   •  Plus  de  vocabulaires  :   –  hUp://www.schemaweb.info/  
    28. 28. Plan   •  Principes   •  Mise  en  œuvre   •  Applica,ons  
    29. 29. Le  Web  de  données  en  mars  2009   hUp://linkeddata.org/  
    30. 30. Europeana   •  Exemple  avec  naviga,on  dans  le  thésaurus  SKOS   de  europeana.   – hUp://eculture.cs.vu.nl/europeana/session/search  
    31. 31. Le  Web  de  données  en  2010   •  Es,ma,on  de  Chris  Bizer  à  LDOW  2010  :   – 13  milliards  de  triplets  (informa,on  élémentaire)   – 150  million  de  liens   •  Facebook  lance  OpenGraph   – hUp://opengraphprotocol.org/   – Annota,on  séman,que  de  n’importe  quelle  page,   pour  offrir  les  mêmes  fonc,onalités  qu’une  “page   Facebook”   – U,lisant  les  standards  du  Web  de  données  (RDFa)  
    32. 32. Conclusion  (1)   •  Le  web  de  données  est  en  croissance  (très)   forte  depuis  quelques  mois    
    33. 33. Conclusion  (2)   •  Que  doit  faire  une  ins,tu,on  pour  aller  sur  le   web  de  données  ?   – Exposer  ses  données  en  RDF   •  Annota,on  des  documents   •  Adapta,on  des  données  brutes   – U,liser  les  données  des  autres     •  Lier   •  Croiser  les  informa,ons   •  Construire  des  mashups  
    34. 34. Ques,ons  ?  
    35. 35. Pointeurs   •  Standards  :   – hUp://www.w3.org/standards/seman,cweb/   •  Sources  de  données  :   – hUp://dbpedia.org/   •  Ou,ls  de  visualisa,on,  requêtage  :     – hUp://sindice.com/   – hUp://sameas.org/  
    36. 36. Exemple  de  requête  SPARQL   SELECT  ?p,  ?dd   WHERE  {      ?p              dbpedia-­‐owl:birthPlace    :Lyon  ;              dbpedia-­‐owl:birthDate  ?bd  .      OPTIONAL  {  ?p  dbpedia-­‐owl:deathDate  ?dd    }      FILTER  (?bd  >=  "1920"^^xsd:date                &&  ?bd  <    "1930"^^xsd:date)   }   hUp://,nyurl.com/2dcsokd  

    ×