Juin 2010muriel.foulonneau@tudor.lu1Modélisation, environnements sémantiques et Web de donnéesMuriel FoulonneauCentre de Recherche Public Henri TudorLuxembourg					séminaire ISKO 					juin 2010
Sémantique?2
ObjectifLa représentation des donnéesDe la forme traditionnelle à une publication avec les technologies sémantiquesPartagerLes descriptions mais aussi leur sens et les associations3
Juin 2010muriel.foulonneau@tudor.luLes métadonnées assurent l’interopérabilité sémantiqueL’interopérabilitéest la capacité pour 2 systèmes de dialoguer entre eux
J’aibesoin
D’un langagecommun
D’un interpréteur01-04-04“01-04-04”
 c’est un mois
 01=“Jan”muriel.foulonneau@tudor.lu
Knowledge Organization Systems5
Les terminologiesLes vocabulaires contrôlésRéduire l’ambiguité du langage naturel lorsque l’on décrit et recherche des informations.Composé de termes utilisés pour représenter un conceptProblèmesDes particularités du langage naturel posent des problèmes (synonymes et ambiguité) Différents termes (synonymes) peuvent représenter le même concept. Le même terme (homographes) peut représenter différents concepts. 6
Différents types de terminologiesListe contrôlée non hiérarchiséeTaxonomie et système de classification (avec organisation hiérarchique)ThésaurusÉquivalenceHiérarchique (termes génériques/spécifiques)Association (voir aussi)=> Pour intégrer des synonymes dans des recherches, élargir des recherches, naviguer, représenter, … 7
Listes de termes Pour permettre de gérer les ambiguités. Des fichiers d’autorité comportent des variantes d’un nom.Les glossaires sont des listes de termes avec leurs définitions dans un domaine spécifiqueDictionnaires, ils incluent différentes acceptions d’un terme, ils sont présentés de manière alphabétique, avec éventuellement des informations sur l’origine du terme“Gazetteers” avec des noms de lieux, leur position etc“Synonym Rings”  pour étendre des requêtes de manière transparente8
TaxonomiesOrganisation hiérarchique de catégoriesGénéralement utilisées pour classifier9http://biodiversite.wallonie.be/cgi/sibw.esp.list2.pl?VAR=Mammiferes
Autorités sujetListes contrôlées de sujetEx Rameau, LCSH, MeSHPermettent souvent des compositionsPeuvent inclure des sous-catégories10
ThésaurusPour de la rechercheEnsemble limité de relations entre les termesEquivalence (synonymes) Hiérarchique (termes génériques / spécifiques) générique (sous-classe/super-classe), instance (classe/instance) et partitive (tout-partie) Association (voir aussi).11
Systèmes de classificationSimilaires à des taxonomiesVisent à l’exhaustivité et en principe les concepts ne se recouvrent pas (appartenance exclusive).Systèmes énumératifs (tous les concepts sont explicites) ou synthétiques (des règles permettent des combinaisons de concepts)Les facettesprésentes desclassifications selon des dimensions qui s’excluent mutuellement12
Les bases lexicalesDes relations plus riches que celles des thésaurus, éventuellement spécifiques à chaque baseEx. WordNet inclut homonymie, antonymie, synonymie13http://wordnetweb.princeton.edu/perl/webwn?s=mill&sub=Search+WordNet&o2=&o0=1&o7=&o5=&o1=1&o6=&o4=&o3=&h=
Les ontologiesModélisation d’un domaine avec des classes, des instances, des attributs, des sous-classes, … et de nombreuses relations spécifiques.Ex. CIDOC-CRM (Martin Doerr, Stephen Stead  http://cidoc.ics.forth.gr/docs/crm_for_imperial_2009.ppt)E52 Time-SpanE53 PlaceE39 Actor7012124E38 ImageE31 Document“Yalta Agreement”E52 Time-SpanE39 ActorE39 Actor1945-02-11February 1945P82 at some     time withinP7 took place atP11 participated inE7 Activity“Crimea Conference”P86 falls  withinP67 is referred to byE65 Creation Event*14P81 ongoing throughoutP14 performedP94 has created
FolksonomiesPour indexation par une communauté d’utilisateurscinema people vs movie people (C. Shirky)15http://www.flickr.com/photos/tags/
RDF Crash course16
Technologies sémantiquesRDFClasses et instances17http://moi/est_employee_parAliceCNRSfoaf:nameAliceDupontFoaf:organizationFoaf:personrdfs:subclass_ofMoi:research_organizationrdf:typerdf:typehttp://moi/est_employee_parAliceCNRS
Les règlesJe peux par exemple définir que Si foaf:person http://moi/est_employee_parFoaf:organizationEt Foaf:organization http://moi/localisation x => Alors foaf:person http://moi/localisation x18Foaf:organizationFoaf:personMoi:research_organizationrdf:typerdf:typehttp://moi/est_employee_parhttp://moi/localisationAliceCNRSParis
La transitivité19foaf:knowsfoaf:knowsAliceCharlesHuguesfoaf:knowshttp://moi/a_le_meme_age_quehttp://moi/a_le_meme_age_queAliceCharlesHugues
SyntaxesRDF/XMLTurtleetc20<rdf:RDFxmlns:rdf=‘http://www.w3.org/1999/02/22-rdf-syntax-ns# ’xmlns:dc=‘http://purl.org/dc/elements/1.1/’>    <rdf:Descriptionrdf:about=‘urn:isbn:0596002637’>    <dc:title>Practical RDF</dc:title>  </rdf:Description></rdf:RDF>@prefix dc: <http://purl.org/dc/elements/1.1> .<urn:isbn:0596002637> dc:title ‘Practical RDF’ .Source Alistair Miles, SKOS Core Tutorial, DC-2005 Madrid
W3C SKOSSimple Knowledge Organization System21
SKOSStructure de baseskos:ConceptEtiquetage lexicalskos:prefLabel, skos:altLabel, skos:hiddenLabelEtiquetage symboliqueskos:prefSymbol, skos:altSymbolDocumentationskos:definition, skos:note, skos:example, skos:scopeNote, skos:historyNote, skos:editorialNote, skos:changeNoteRelations sémantiquesskos:broader, skos:narrower, skos:related22
Structure de baseConcept scheme permet de décrire tous les systèmes de terminologiesThesaurus, système de  classification, autorités, vocabulaires contrôlés ...Il est défini comme un ensemble de concepts, éventuellement avec des propriétés et des relations avec d’autres conceptsConcept23
Concept Scheme24
Skos:Concept25Source Alistair Miles
Labels lexicaux26Source Alistair Miles
Multilingues27Source Alistair Miles
Labels symboliques28Source Alistair Miles
Les relationsBroader, Narrower, Relatedhttp://www.w3.org/2004/02/skos/
Questions liées à la transitivitéProblème si skos:related était transitifex:renaissance skos:related ex:humanism. ex:humanism skos:related ex:philosophicalAnthropologyex:philosophicalAnthropology skos:related ex:philosophyOfMindex:philosophyOfMind skos:related ex:cognitiveScience.30http://www.w3.org/2004/02/skos/
Propriétés de mappingskos:mappingRelation skos:closeMatch skos:exactMatch skos:broadMatchskos:narrowMatch skos:relatedMatch31
Exemple de Skosification Rameauhttp://rameau.bnf.fr/informations/pdf/journee2008/rameau_skos.pdf
Exemple SKOSIssu de LCSHhttp://id.loc.gov/authorities/sj96005060.rdf33
Linked Data34
Construire le Web de donnéesDes données sous forme de RDF statementsIdentification des ressources via des HTTP URIs « dé-référençables »Il doit être possible de cliquer et obtenir de l’informationDistinction « information resources » (lien vers la ressource) and « non information resources » (redirection vers une ressource d’intérêt)Représentations multiples des ressourcesAu moins RDF/XMLNégociation de contenu35Dublin Core
Une source de donnéesIl est préférable d’utiliser des relations vers des sources de données externes (ex: dbpedia)36http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/
Fusion de graphes37http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/
Lier des graphes a posterioriSi une ressource est désignée avec 2 URIs différentes dans 2 sources de données différentesIl est possible d’ajouter une équivalence entre les URIs grâce à owl:sameAs38<http://dbpedia.org/resource/Berlin> 		owl:sameAs <http://sws.geonames.org/2950159/>
Publier des données sur des terminologies39
Une publication orientée service40http://www.viaf.org/
Des points d’accès alternatifsHeader de la page LCSHContient des relations alternate et searchhttp://id.loc.gov/authorities/41
SKOS en RDFaLes données sont encodées dans la page HTMLhttp://id.loc.gov/authorities/42
SKOS deChristianity – History http://id.loc.gov/authorities/sj96005060.rdfSemantic Web http://id.loc.gov/authorities/sh2002000569#concept43
SKOS-XML de Christianity – HistoryIssu de LCSHhttp://id.loc.gov/authorities/sj96005060.rdf44
Des métadonnées classiques au monde sémantique45
Dublin Core: différentes èresDes métadonnées simples pour les ressources WebOrientées « discovery »Faire mieux que l’anarchie15 élémentsDes « qualifiers »DctermsQualifiers (ex hasVersion) ou de premier niveau (ex. audience)Des profils d’applicationsDC Collection, DC Education, DC Library etcDes terminologiesDes termes pour indiquer les terminologies46
Vers une structure sémantiqueUne structure différenteEx avec les qualifiers de DC:RelationReplaces, requireshasVersion, isPartOfLe DCAM et la Singapour FrameworkUn modèle de donnéesDes propriétésobjectif: rendre le modèle compatible avec le Web sémantique, avec un modèle modulaire
dcterms:title47
Un registry48http://dcmi.kc.tsukuba.ac.jp/dcregistry/
Représentations multiples d’une ressource49

Modélisation, environnements sémantiques et Web de données

  • 1.
    Juin 2010muriel.foulonneau@tudor.lu1Modélisation, environnementssémantiques et Web de donnéesMuriel FoulonneauCentre de Recherche Public Henri TudorLuxembourg séminaire ISKO juin 2010
  • 2.
  • 3.
    ObjectifLa représentation desdonnéesDe la forme traditionnelle à une publication avec les technologies sémantiquesPartagerLes descriptions mais aussi leur sens et les associations3
  • 4.
    Juin 2010muriel.foulonneau@tudor.luLes métadonnéesassurent l’interopérabilité sémantiqueL’interopérabilitéest la capacité pour 2 systèmes de dialoguer entre eux
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
    Les terminologiesLes vocabulairescontrôlésRéduire l’ambiguité du langage naturel lorsque l’on décrit et recherche des informations.Composé de termes utilisés pour représenter un conceptProblèmesDes particularités du langage naturel posent des problèmes (synonymes et ambiguité) Différents termes (synonymes) peuvent représenter le même concept. Le même terme (homographes) peut représenter différents concepts. 6
  • 12.
    Différents types determinologiesListe contrôlée non hiérarchiséeTaxonomie et système de classification (avec organisation hiérarchique)ThésaurusÉquivalenceHiérarchique (termes génériques/spécifiques)Association (voir aussi)=> Pour intégrer des synonymes dans des recherches, élargir des recherches, naviguer, représenter, … 7
  • 13.
    Listes de termesPour permettre de gérer les ambiguités. Des fichiers d’autorité comportent des variantes d’un nom.Les glossaires sont des listes de termes avec leurs définitions dans un domaine spécifiqueDictionnaires, ils incluent différentes acceptions d’un terme, ils sont présentés de manière alphabétique, avec éventuellement des informations sur l’origine du terme“Gazetteers” avec des noms de lieux, leur position etc“Synonym Rings” pour étendre des requêtes de manière transparente8
  • 14.
    TaxonomiesOrganisation hiérarchique decatégoriesGénéralement utilisées pour classifier9http://biodiversite.wallonie.be/cgi/sibw.esp.list2.pl?VAR=Mammiferes
  • 15.
    Autorités sujetListes contrôléesde sujetEx Rameau, LCSH, MeSHPermettent souvent des compositionsPeuvent inclure des sous-catégories10
  • 16.
    ThésaurusPour de larechercheEnsemble limité de relations entre les termesEquivalence (synonymes) Hiérarchique (termes génériques / spécifiques) générique (sous-classe/super-classe), instance (classe/instance) et partitive (tout-partie) Association (voir aussi).11
  • 17.
    Systèmes de classificationSimilairesà des taxonomiesVisent à l’exhaustivité et en principe les concepts ne se recouvrent pas (appartenance exclusive).Systèmes énumératifs (tous les concepts sont explicites) ou synthétiques (des règles permettent des combinaisons de concepts)Les facettesprésentes desclassifications selon des dimensions qui s’excluent mutuellement12
  • 18.
    Les bases lexicalesDesrelations plus riches que celles des thésaurus, éventuellement spécifiques à chaque baseEx. WordNet inclut homonymie, antonymie, synonymie13http://wordnetweb.princeton.edu/perl/webwn?s=mill&sub=Search+WordNet&o2=&o0=1&o7=&o5=&o1=1&o6=&o4=&o3=&h=
  • 19.
    Les ontologiesModélisation d’undomaine avec des classes, des instances, des attributs, des sous-classes, … et de nombreuses relations spécifiques.Ex. CIDOC-CRM (Martin Doerr, Stephen Stead http://cidoc.ics.forth.gr/docs/crm_for_imperial_2009.ppt)E52 Time-SpanE53 PlaceE39 Actor7012124E38 ImageE31 Document“Yalta Agreement”E52 Time-SpanE39 ActorE39 Actor1945-02-11February 1945P82 at some time withinP7 took place atP11 participated inE7 Activity“Crimea Conference”P86 falls withinP67 is referred to byE65 Creation Event*14P81 ongoing throughoutP14 performedP94 has created
  • 20.
    FolksonomiesPour indexation parune communauté d’utilisateurscinema people vs movie people (C. Shirky)15http://www.flickr.com/photos/tags/
  • 21.
  • 22.
    Technologies sémantiquesRDFClasses etinstances17http://moi/est_employee_parAliceCNRSfoaf:nameAliceDupontFoaf:organizationFoaf:personrdfs:subclass_ofMoi:research_organizationrdf:typerdf:typehttp://moi/est_employee_parAliceCNRS
  • 23.
    Les règlesJe peuxpar exemple définir que Si foaf:person http://moi/est_employee_parFoaf:organizationEt Foaf:organization http://moi/localisation x => Alors foaf:person http://moi/localisation x18Foaf:organizationFoaf:personMoi:research_organizationrdf:typerdf:typehttp://moi/est_employee_parhttp://moi/localisationAliceCNRSParis
  • 24.
  • 25.
    SyntaxesRDF/XMLTurtleetc20<rdf:RDFxmlns:rdf=‘http://www.w3.org/1999/02/22-rdf-syntax-ns# ’xmlns:dc=‘http://purl.org/dc/elements/1.1/’> <rdf:Descriptionrdf:about=‘urn:isbn:0596002637’> <dc:title>Practical RDF</dc:title> </rdf:Description></rdf:RDF>@prefix dc: <http://purl.org/dc/elements/1.1> .<urn:isbn:0596002637> dc:title ‘Practical RDF’ .Source Alistair Miles, SKOS Core Tutorial, DC-2005 Madrid
  • 26.
    W3C SKOSSimple KnowledgeOrganization System21
  • 27.
    SKOSStructure de baseskos:ConceptEtiquetagelexicalskos:prefLabel, skos:altLabel, skos:hiddenLabelEtiquetage symboliqueskos:prefSymbol, skos:altSymbolDocumentationskos:definition, skos:note, skos:example, skos:scopeNote, skos:historyNote, skos:editorialNote, skos:changeNoteRelations sémantiquesskos:broader, skos:narrower, skos:related22
  • 28.
    Structure de baseConceptscheme permet de décrire tous les systèmes de terminologiesThesaurus, système de classification, autorités, vocabulaires contrôlés ...Il est défini comme un ensemble de concepts, éventuellement avec des propriétés et des relations avec d’autres conceptsConcept23
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.
  • 34.
    Les relationsBroader, Narrower,Relatedhttp://www.w3.org/2004/02/skos/
  • 35.
    Questions liées àla transitivitéProblème si skos:related était transitifex:renaissance skos:related ex:humanism. ex:humanism skos:related ex:philosophicalAnthropologyex:philosophicalAnthropology skos:related ex:philosophyOfMindex:philosophyOfMind skos:related ex:cognitiveScience.30http://www.w3.org/2004/02/skos/
  • 36.
    Propriétés de mappingskos:mappingRelationskos:closeMatch skos:exactMatch skos:broadMatchskos:narrowMatch skos:relatedMatch31
  • 37.
    Exemple de SkosificationRameauhttp://rameau.bnf.fr/informations/pdf/journee2008/rameau_skos.pdf
  • 38.
    Exemple SKOSIssu deLCSHhttp://id.loc.gov/authorities/sj96005060.rdf33
  • 39.
  • 40.
    Construire le Webde donnéesDes données sous forme de RDF statementsIdentification des ressources via des HTTP URIs « dé-référençables »Il doit être possible de cliquer et obtenir de l’informationDistinction « information resources » (lien vers la ressource) and « non information resources » (redirection vers une ressource d’intérêt)Représentations multiples des ressourcesAu moins RDF/XMLNégociation de contenu35Dublin Core
  • 41.
    Une source dedonnéesIl est préférable d’utiliser des relations vers des sources de données externes (ex: dbpedia)36http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/
  • 42.
  • 43.
    Lier des graphesa posterioriSi une ressource est désignée avec 2 URIs différentes dans 2 sources de données différentesIl est possible d’ajouter une équivalence entre les URIs grâce à owl:sameAs38<http://dbpedia.org/resource/Berlin> owl:sameAs <http://sws.geonames.org/2950159/>
  • 44.
    Publier des donnéessur des terminologies39
  • 45.
    Une publication orientéeservice40http://www.viaf.org/
  • 46.
    Des points d’accèsalternatifsHeader de la page LCSHContient des relations alternate et searchhttp://id.loc.gov/authorities/41
  • 47.
    SKOS en RDFaLesdonnées sont encodées dans la page HTMLhttp://id.loc.gov/authorities/42
  • 48.
    SKOS deChristianity –History http://id.loc.gov/authorities/sj96005060.rdfSemantic Web http://id.loc.gov/authorities/sh2002000569#concept43
  • 49.
    SKOS-XML de Christianity– HistoryIssu de LCSHhttp://id.loc.gov/authorities/sj96005060.rdf44
  • 50.
    Des métadonnées classiquesau monde sémantique45
  • 51.
    Dublin Core: différentesèresDes métadonnées simples pour les ressources WebOrientées « discovery »Faire mieux que l’anarchie15 élémentsDes « qualifiers »DctermsQualifiers (ex hasVersion) ou de premier niveau (ex. audience)Des profils d’applicationsDC Collection, DC Education, DC Library etcDes terminologiesDes termes pour indiquer les terminologies46
  • 52.
    Vers une structuresémantiqueUne structure différenteEx avec les qualifiers de DC:RelationReplaces, requireshasVersion, isPartOfLe DCAM et la Singapour FrameworkUn modèle de donnéesDes propriétésobjectif: rendre le modèle compatible avec le Web sémantique, avec un modèle modulaire
  • 53.
  • 54.
  • 55.