Pour mieux 
affirmer 
ses missions, 
le Cemagref 
devient Irstea 
www.irstea.fr 
Ontologies, Web de Données 
et SKOS Trans...
2 
Plan 
• Définitions de base: de l’Ontologie aux ontologies 
• Données Information Connaissances 
• Interopérabilité et ...
3 
Définitions: 
DONNÉES, INFORMATIONS, CONNAISSANCES 
Donnée: un élément d’information, 
percevable, 
manipulable 
Inform...
4 
Schéma général 
DONNÉES, INFORMATIONS, CONNAISSANCES 
Connaissances 
Information 
Données 
Résultat d’un processus d’ap...
5 
Définition 
ONTOLOGIE 
Ontologie avec un O majuscule (philosophie): 
Une science: une branche de la métaphysique qui a ...
6 
Ontologies … 
Gruber 1993 : « une ontologie est une spécification explicite d’une 
conceptualisation » 
• Conceptualisa...
7 
Différent niveau d’Intéropérabilité 
Increasing Knowledge 
Logical 
Theory 
Conceptual Model 
Taxonomy 
Thesaurus 
List...
8 
Web sémantique, ontologies, web de données 
World Wide Web Consortium 
(W3C) 
Credit Benjamin Nowak
9 
Syntaxe de base du web sémantique 
RDF: RESOURCE DESCRIPTION FRAMEWORK 
is a triple model i.e. every 
piece of knowledg...
10 http://inria.fr/~fabien#me 
http://inria.fr/schema#author 
http://inria.fr/rr/doc.html 
http://inria.fr/schema#theme 
"...
11 <rdf:RDF 
xmlns:rdf="http://www.w3.org/1999/02/22- 
rdf-syntax-ns#" 
xmlns:inria="http://inria.fr/schema#" > 
<rdf:Desc...
12 
Les composants des ontologies 
Concept / 
Class 
hasArgument 
* * 
hasName hasArgument 
Term 
Object/Instance 
Relatio...
13 
Ontologie linguistique/terminologique 
Concept/ 
Class 
hasArgument 
* 
hasName hasArgument 
Term 
Object/Instance 
Re...
14 
Problème de l’interopérabilité lexicale 
Le même terme est utilisé pour représenter différents objets 
Le même objet e...
15 
A relatively large 
natural stream of 
A relatively large 
natural stream of 
water 
water 
15 
rivière 
fleuve 
river...
16 
A relatively large 
natural stream of 
A relatively large 
natural stream of 
water 
water 
16 
rivière 
fleuve 
river...
17 
17
18 
Système de Recherche d’Information 
Matchin 
g 
Docum 
ent 
index 
and 
user 
query 
1 
2 
3 
Multilingual Corpora 
Qu...
19 
Système de Recherche sur le web 
mapping 
annotation 
Query annotation 
Results 
annotation
20 
Format des ontologies terminologiques 
SKOS: SIMPLE KNOWLEDGE ORGANIZATION SYSTEM 
Credit http://www.w3.org/2004/02/sk...
21 
Ontologie de données 
* 
Concept / 
Class 
hasArgument 
* * 
hasName hasArgument 
Term 
Object/Instance 
Relation 
has...
22 
Exemple d’ontologie de données 
LE DICTIONNAIRE AGRICOLE GIEEA
23 
Intéropérabilité de données 
LES FORMATS D’ÉCHANGE DE DONNÉES (SCHÉMA XML) 
Blue 
system 
Blue 
data 
Green 
system 
G...
24 
Intéropérabilité de données 
LE WEB DE DONNÉES OU LINKED DATA 
An extension of the 
current Web… 
… where data are giv...
25 
Les ontologies dans le web de données 
Une ontologie contient un vocabulaire et un schéma de données: 
• consensuels, ...
26 
The Linking Open Data cloud 
2 
6 
Credit Linking Open Data cloud diagram, by Richard Cyganiak and Anja 
Jentzsch. htt...
27 
Format des ontologies de données 
RDF SCHEMA 
define classes and relations of resources and organize their hierarchy 
...
28
29 
Format des ontologies de données 
OWL WEB ONTOLOGY LANGUAGE 
OWL is based on Description Logics 
The logical theory (m...
30 
Ou trouver des ontologies ? 
SWOOGLE 
http://swoogle.umbc.edu/ 
Watson 
http://watson.kmi.open.ac.uk/WatsonWUI/ 
LOV L...
Pour mieux 
affirmer 
ses missions, 
le Cemagref 
devient Irstea 
www.irstea.fr 
Thèse de Fabien Amarger 
construction d’o...
32 
Plan 
Motivation 
Cas d’étude : projet sur les BSV 
Interrogation avec SWIP 
Thème de la thèse 
Comment construire des...
33 
Motivations 
• Volonté d’aider les agriculteurs à diminuer l’usage des produits 
phytosanitaires 
• Augmentation du no...
34 
Credit Fabien Amarger
35 
Cas d'étude: 
Bulletin de Sante du Végétal (BSV) 
Bulletin d’alerte français contient des observations sur le 
dévelop...
36 
Processus d'Interrogation SWIP de l'IRIT 
SEMANTIC WEB INTERFACE USING PATTERN 
Interrogation en français d’une base d...
37 
Le Système d'Interrogation 
SWIP 
pdf Internet 
Archive 
url 
Annotation Triple store RDF 
pdf 
Stockage 
Interrogatio...
38 
Cas d'étude: Annotations des BSV 
PROCESSUS ITÉRATIFS D'ANNOTATION 
Ontologies 
agricoles 
1) Reformater les BSV 
2) T...
39 
Etat de l’art: méthodologie Néon
40 
Etat de l’Art 
• Processus incrémentale: Utilisation que d’une seule source 
• Possibilité d’extraction : 
• Classes 
...
41 
Transformation automatique d’un SKOS 
EXAMPLE AGROVOC
42 
Transformation automatique d’un SKOS 
RÉSULTAT SUR AGROVOC
43 
Proposition 
Hypothèses générales 
• Chaque source est modelisée en fonction de son usage 
•  Besoin de remodeliser 
...
44 
Proposition 
ADAPTATION DE DEUX SCÉNARII DE NÉON
45 
Irstea Agronomic Taxon 
DESIGN PATTERN ONTOLOGIQUES (ODP) 
Il existe déjà des ODP en lien 
avec l'agriculture 
• FAO (...
46 
Irstea Agronomic Taxon 
DESIGN PATTERN ONTOLOGIQUES (ODP)
47 
Proposition 
Schéma générale de la méthode
48 
Proposition 
TRANSFORMATION AUTOMATIQUE DIRIGÉE PAR LE MODULE
49 
Transformation du thésaurus Agrovoc 
SKOS original
50 
Example Agrovoc
51 
Proposition 
KB MERGING
52 
Expérimentation 
3 sources de bonne qualité: 
Thésaurus Agrovoc 
Classification TaxRef 
Classification NCBI 
Construct...
53 
Conclusion et Perspectives 
Extraction de classes, de labels, de relation d'instanciation 
Besoin de définir un modèle...
54 
Réutilisation de sources agricoles 
Sources agricoles: Thésaurus (Agrovoc) ou classification TaxRef, NCBI 
Extraire de...
Prochain SlideShare
Chargement dans…5
×

Skos transformation

719 vues

Publié le

Présentation faite lors d'une réunion du projet animitex à montpellier en aôut 2014. Cette présentation introduit certains formats du web sémantique en particulier ceux accessible sur le web de données . Ensuite les travaux de Fabien Amarger sur la transformation de SKOS en ontologies OWL sont survollés.

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
719
Sur SlideShare
0
Issues des intégrations
0
Intégrations
5
Actions
Partages
0
Téléchargements
14
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • IA des formules logiques qui peuvent etre evaluées à vrai, faux ou je ne sais pas….
    Il existe differents modeles informatiques
    Chacun utilise des principes de modelisation differents
    On ne modelise pas une BD relationnnelle comme un programme object (partage de données versus partage de méthode)
  • Les ontologies ont plusieurs usages informatiques
  • Je ne vais parler que des ontologies qui sont utilisées sur le web

    Conceptualisation: on fait le choix de ce qui existe dans le domaine
    Specification = formalisation
  • Mes compétences sont les ontologies en générales et les technologies du web sémantique

    Le W3C a proposé plusieurs standards pour développer le web
    Je ne vais parler que d’une petite partie des standards proposés par le W3C pour la publication de données que le web

    RDF permet de présenter les données avec une syntaxe sous forme de triplet
    RDF S et OWL permettent de définir les schéma associés à ces données.
    Lorsque le schéma est plutôt complexe on parle d’ontologies sinon on parle de vocabulaire de métadonnées.

    Par exemple OWL-DL permet de poser des contraintes sur l’appartenance d’un individu à une classe.

    Le web de données aussi appelée Linked Open Data
    Est une initiative pour publier des données ouvertes et leurs schémas sur le web.
  • So how do terminological ontology resolve ambiguity.

    Let take for example a thesaurus in hydrology
    We have 5 terms :
    - two English term “river” and “water course” that are defined by the same definition …
    - A Spanish term “rio”
    - And two french terms « riviere » and « fleuve » that are defined by two different definitions.

  • Normaliser le vocabulaire: construire un language documentaire.

    Différence entre water et “water course”

    Comment retrouver les expressions les termes composés
  • So how do terminological ontology resolve ambiguity.

    Let take for example a thesaurus in hydrology
    We have 5 terms :
    - two English term “river” and “water course” that are defined by the same definition …
    - A Spanish term “rio”
    - And two french terms « riviere » and « fleuve » that are defined by two different definitions.

  • Reconstruire une BD d’observation des cultures et de leur agresseurs
    Pas de la RI sémantique….ce n’est pas des textes que l’on traite mais des données sctructurées.
  • Mettrre en avant que nous réutilisons et enrichissons
  • Mettrre en avant que nous réutilisons et enrichissons
  • Skos transformation

    1. 1. Pour mieux affirmer ses missions, le Cemagref devient Irstea www.irstea.fr Ontologies, Web de Données et SKOS Transformation Catherine ROUSSEY Projet Animitex 28 aout 2014, Montpellier Merci à Fabien Amarger Fabien Gandon
    2. 2. 2 Plan • Définitions de base: de l’Ontologie aux ontologies • Données Information Connaissances • Interopérabilité et ontologies • Format et standard du web sémantique • Ontologie linguistique  système de recherche d’information • Exemple SKOS • Ontologie de données  web de données • Exemple RDFS, OWL • Ontologie Logique…
    3. 3. 3 Définitions: DONNÉES, INFORMATIONS, CONNAISSANCES Donnée: un élément d’information, percevable, manipulable Information: donnée + sens + contexte type Connaissance: information + stabilité + croyance abstraction + traitement généralisation d’un ensemble d’information = modèle toujours propre à une personne partagée avec d’autres personnes
    4. 4. 4 Schéma général DONNÉES, INFORMATIONS, CONNAISSANCES Connaissances Information Données Résultat d’un processus d’apprentissage: une généralisation d’un ensemble d’information que l’on va mémoriser Sens dans un contexte Perception Classes en POO BD Relationnelle Données fortement structurées optimisées pour le Données typées Données Description sous forme d’attribut (description quantitative & qualitative ) + méthodes (traitements) Connaissances en IA Des traitement particuliers sur les données qualitatives stockage Différent niveau de granularité : information structurée  non structurées
    5. 5. 5 Définition ONTOLOGIE Ontologie avec un O majuscule (philosophie): Une science: une branche de la métaphysique qui a pour objectif l’étude de l’être, c'est-à-dire l'étude des propriétés générales de tout ce qui est… Ontologies au pluriel avec un o minuscule (informatique): Outils informatiques résultat d’une modélisation d’un domaine d’étude défini pour un objectif donné acceptée par une communauté d’utilisateurs …
    6. 6. 6 Ontologies … Gruber 1993 : « une ontologie est une spécification explicite d’une conceptualisation » • Conceptualisation: modèle abstrait du domaine: quelles entités? • Spécification explicite: les types et leurs contraintes d’usage sont définis dans un langage… Exemples: • Un thésaurus : vocabulaire normalisé • Un schéma de BD : un modèle structuré d'un domaine • Un système expert : un modèle du domaine formalisé pour les inférences, des conditions exprimées à l'aide de formules logiques Ontologie linguistique, ressource termino-ontologique, ontologie de domaine, ontologie de haut niveau, vocabulaire de métadonnées… Thomas R. Gruber. “A translation approach to portable ontology specifications”, Knowledge Acquisition, Volume 5, Issue 2, June 1993, Pages 199–220
    7. 7. 7 Différent niveau d’Intéropérabilité Increasing Knowledge Logical Theory Conceptual Model Taxonomy Thesaurus List ER Model DB Schema XML Schema SKOS RDF Lexical Database Controlled Vocabulary Glossary Lexical Interoperability UML Data Interoperability OWL Description Logic Object Interoperability 7 Increasing Interoperability Capability
    8. 8. 8 Web sémantique, ontologies, web de données World Wide Web Consortium (W3C) Credit Benjamin Nowak
    9. 9. 9 Syntaxe de base du web sémantique RDF: RESOURCE DESCRIPTION FRAMEWORK is a triple model i.e. every piece of knowledge is broken down into ( subject , predicate , object ) RDF Credit Fabien GANDON
    10. 10. 10 http://inria.fr/~fabien#me http://inria.fr/schema#author http://inria.fr/rr/doc.html http://inria.fr/schema#theme "Music" 10 Credit Fabien GANDON
    11. 11. 11 <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22- rdf-syntax-ns#" xmlns:inria="http://inria.fr/schema#" > <rdf:Description rdf:about="http://inria.fr/rr/doc.html"> <inria:author rdf:resource= "http://inria.fr/~fabien#me" /> <inria:theme>Music</inria:theme> </rdf:Description> </rdf:RDF> 11 Credit Fabien GANDON
    12. 12. 12 Les composants des ontologies Concept / Class hasArgument * * hasName hasArgument Term Object/Instance Relation Property hasLabel Semantic Relation Object Relation Linguistic Relation Logical Definition Textual Definition isInstanceOf hasArgument hasName hasName * * * 1 * 1 * 1 * * 1 *
    13. 13. 13 Ontologie linguistique/terminologique Concept/ Class hasArgument * hasName hasArgument Term Object/Instance Relation hasLabel Property Semantic Relation Object Relation Linguistic Relation Logical Definition Textual Definition isInstanceOf hasArgument hasName hasName * * * 1 * 1 * 1 * * * 1 *
    14. 14. 14 Problème de l’interopérabilité lexicale Le même terme est utilisé pour représenter différents objets Le même objet est référencé par des termes différents Credit Fabien GANDON
    15. 15. 15 A relatively large natural stream of A relatively large natural stream of water water 15 rivière fleuve river rio Water course Una corriente relativamente larga corriente de agua natural Cours d’eau naturel de moyenne ou de faible importance, qui en principe n’aboutit pas directement à la mer Cours d’eau naturel généralement important (plus spécialement lorsque ce cours d’eau se jette dans la mer)
    16. 16. 16 A relatively large natural stream of A relatively large natural stream of water water 16 rivière fleuve river rio Water course Una corriente relativamente larga corriente de agua natural Cours d’eau naturel de moyenne ou de faible importance, qui en principe n’aboutit pas directement à la mer Cours d’eau naturel généralement important (plus spécialement lorsque ce cours d’eau se jette dans la mer)
    17. 17. 17 17
    18. 18. 18 Système de Recherche d’Information Matchin g Docum ent index and user query 1 2 3 Multilingual Corpora Query Ordered list of documents Terminological Ontology Information Retrieval System indexing
    19. 19. 19 Système de Recherche sur le web mapping annotation Query annotation Results annotation
    20. 20. 20 Format des ontologies terminologiques SKOS: SIMPLE KNOWLEDGE ORGANIZATION SYSTEM Credit http://www.w3.org/2004/02/skos/intro
    21. 21. 21 Ontologie de données * Concept / Class hasArgument * * hasName hasArgument Term Object/Instance Relation hasLabel Property Semantic Relation Object Relation Linguistic Relation Logical Definition Textual Definition isInstanceOf hasArgument hasName hasName * * 1 * 1 * 1 * * 1 *
    22. 22. 22 Exemple d’ontologie de données LE DICTIONNAIRE AGRICOLE GIEEA
    23. 23. 23 Intéropérabilité de données LES FORMATS D’ÉCHANGE DE DONNÉES (SCHÉMA XML) Blue system Blue data Green system Green data Red system Red data
    24. 24. 24 Intéropérabilité de données LE WEB DE DONNÉES OU LINKED DATA An extension of the current Web… … where data are given well-defined and explicitly represented meaning, … … so that it can be shared and used by humans and machines, ... ... better enabling them to work in cooperation And clear principles on how to publish data
    25. 25. 25 Les ontologies dans le web de données Une ontologie contient un vocabulaire et un schéma de données: • consensuels, • publiés sur le web et documentés • formalisés avec des standards du web (RDF, OWL, SPARQL) • Avec des contraintes en DL (conditions nécessaires et/ou suffisantes) = un schéma de données pour le web de données
    26. 26. 26 The Linking Open Data cloud 2 6 Credit Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/ Credit Bill ROBERTS
    27. 27. 27 Format des ontologies de données RDF SCHEMA define classes and relations of resources and organize their hierarchy define signatures of relations (domain, range) document them with labels and comments define associated inference rules Credit Fabien Gandon #12 #21 "document" "book" #47 #48 "livre" "novel" "roman" "short story" "nouvelle"
    28. 28. 28
    29. 29. 29 Format des ontologies de données OWL WEB ONTOLOGY LANGUAGE OWL is based on Description Logics The logical theory (model) can be define using different knowledge representation Languages: Description Logics, Frames, Conceptual Graphs OWL Profiles EL: large numbers of properties and/or classes and polynomial time. QL: large volumes of instance data, and conjunctive query answering using conventional relational database in LOGSPACE RL: scalable reasoning without sacrificing too much expressive power using rule-based reasoning in polynomial time Credit Fabien Gandon
    30. 30. 30 Ou trouver des ontologies ? SWOOGLE http://swoogle.umbc.edu/ Watson http://watson.kmi.open.ac.uk/WatsonWUI/ LOV Linked Open Vocabulary http://lov.okfn.org/dataset/lov/ W3C groups http://www.w3.org/Consortium/activities Credit Fabien Gandon
    31. 31. Pour mieux affirmer ses missions, le Cemagref devient Irstea www.irstea.fr Thèse de Fabien Amarger construction d’ontologies agricoles … C. Roussey J.P. Chanet (Irstea) N. Hernandez O. Haemmerlé (IRIT)
    32. 32. 32 Plan Motivation Cas d’étude : projet sur les BSV Interrogation avec SWIP Thème de la thèse Comment construire des ontologies à partir de sources non ontologiques Etat de l’art: Méthodologie Néon Transformation SKOS Notre proposition Ontology Design Pattern Multiplier les Sources Calculer la confiance des éléments + filtrage
    33. 33. 33 Motivations • Volonté d’aider les agriculteurs à diminuer l’usage des produits phytosanitaires • Augmentation du nombre de données dans le domaine de l’agriculture • Bulletins de Santé du Végétal • thésaurus AGROVOC • base de données publique e-phy • etc. • Volonté de contribuer au Linked Open Data (LOD) • Interrogation de l’ontologie par requête en langage naturel (projet SWIP) • Méthodologie de construction d’ontologies à partir de divers sources • Interrogation intelligente des informations collectées
    34. 34. 34 Credit Fabien Amarger
    35. 35. 35 Cas d'étude: Bulletin de Sante du Végétal (BSV) Bulletin d’alerte français contient des observations sur le développement des cultures et les risques d’attaques de leurs agresseurs BSV distribués sur le web au format pdf BSV hétérogènes: Différents auteurs, Différents style de présentation, Différents contenus (texte structuré, tableau, image) Aider la recherche d'information dans ces BSV + reconstruire des données d'observation des cultures documentées par les BSV Comment faciliter la recherche des BSV ? Trouver les BSV qui correspondent à un besoin Identifier la partie des BSV intéressante Un système de Recherche d’Information ?
    36. 36. 36 Processus d'Interrogation SWIP de l'IRIT SEMANTIC WEB INTERFACE USING PATTERN Interrogation en français d’une base de triplets RDF Interprétation de la requête en langage naturel Ontologie + triplets RDF Requête exprimée en langage naturel Requête exprimée en langage pivot Liste de requêtes formelles classées Patrons Formalisation de la requête en langage pivot phrases explicatives Credit Camille Pradel
    37. 37. 37 Le Système d'Interrogation SWIP pdf Internet Archive url Annotation Triple store RDF pdf Stockage Interrogation Modélisation Ontologies annotations
    38. 38. 38 Cas d'étude: Annotations des BSV PROCESSUS ITÉRATIFS D'ANNOTATION Ontologies agricoles 1) Reformater les BSV 2) Tenir compte de la structure des textes pour déduire des données utiles Annotation complexes= •Attaque d'un type de culture •Par un bio-agresseur •Quand •Où •A quel niveau de risque outil d'extraction d'information BD d'annotations = ontologie peuplée d'observations des Annotations cultures RDF
    39. 39. 39 Etat de l’art: méthodologie Néon
    40. 40. 40 Etat de l’Art • Processus incrémentale: Utilisation que d’une seule source • Possibilité d’extraction : • Classes • Relations non nommées • Intuition de relation de subsomption (rdfs:subClassOf) • Techniques de désambiguïsation • Contraignantes ou pas suffisantes • Validation peu existante • Validation de la conceptualisation manuelle • Validation structurelle automatique Méthodologie de construction d’ontologie exploitant la multiplication des sources d’informations disponibles et dirigée par des patrons de conceptions (Ontology Design Pattern)
    41. 41. 41 Transformation automatique d’un SKOS EXAMPLE AGROVOC
    42. 42. 42 Transformation automatique d’un SKOS RÉSULTAT SUR AGROVOC
    43. 43. 43 Proposition Hypothèses générales • Chaque source est modelisée en fonction de son usage •  Besoin de remodeliser • Toutes les sources n’ont pas la même qualité • La présence de la même information dans plusieurs sources implique une augmentation de la confiance attribuée à cette information Motivations • Construire des ontologies modulaires, Ontologie de domaine de haut niveau centrée sur une fonctionnalité • Premier cas d’étude module sur la taxonomie agricole • Enrichissement de module AgronomicTaxon
    44. 44. 44 Proposition ADAPTATION DE DEUX SCÉNARII DE NÉON
    45. 45. 45 Irstea Agronomic Taxon DESIGN PATTERN ONTOLOGIQUES (ODP) Il existe déjà des ODP en lien avec l'agriculture • FAO (projet Neon): isPestOf, LinneanTaxonomy • Données observations des espèces disponibles sur le Web de données :Geospecies ontology, TaxonConcept, … Fusion, intégration et enrichissement de ces ODP Pour répondre à nos besoins. • Méthode de développement d’ ontologies à partir d’ODP
    46. 46. 46 Irstea Agronomic Taxon DESIGN PATTERN ONTOLOGIQUES (ODP)
    47. 47. 47 Proposition Schéma générale de la méthode
    48. 48. 48 Proposition TRANSFORMATION AUTOMATIQUE DIRIGÉE PAR LE MODULE
    49. 49. 49 Transformation du thésaurus Agrovoc SKOS original
    50. 50. 50 Example Agrovoc
    51. 51. 51 Proposition KB MERGING
    52. 52. 52 Expérimentation 3 sources de bonne qualité: Thésaurus Agrovoc Classification TaxRef Classification NCBI Construction d’un gold standard à partir de la validation de 3 agronomes INRA et Irstea. Extraction des instances F measure > 0.74 très bonne précision Extraction des relations à améliorer F measure < 0,45
    53. 53. 53 Conclusion et Perspectives Extraction de classes, de labels, de relation d'instanciation Besoin de définir un modèle d’annotations spatio-temporelles des observations Construction d’une ontologie modulaire : 1 module créé / 5 Des spécifications du workflow d’annotation en devenir more on googlesite agriontology
    54. 54. 54 Réutilisation de sources agricoles Sources agricoles: Thésaurus (Agrovoc) ou classification TaxRef, NCBI Extraire des données de chaque source et les agréger en suivant les ODP Construction d'ontologies modulaires

    ×