thesis

UNIVERSITÉ NATIONALE DU VIETNAM À HANO¨I
INSTITUT FRANCOPHONE INTERNATIONAL
UNIVERSITÉ DE LA ROCHELLE
Mémoire de fin d’études
MASTER DE RECHERCHE EN INFORMATIQUE
OPTION : SYSTÈMES INTELLIGENTS ET MULTIMÉDIA
DÉVELOPPEMENT D’UN SYSTÈME
CONNAISANCES POUR BIG DATA
APPLICATION AUX DONNÉES DE
PHÉNOTYPAGE CHEZ LE RIZ
(O. SATIVA)
Rédigé par : LE Ngoc Luyen
Promotion: XVIII
Sous l’encadrement de:
Dr Pierre LARMANDE, Ingénieur IRD, Responsable de l’axe intégration de données de l’IBC
Anne TIREAU, Ingénieur INRA à Montpellier SupAgro
Montpellier, septembre 2015

Remerciements
Je tiens à remercier dans un premier temps, toute l’équipe pédagogique de l’Institut Francophone
International (IFI) de Hano¨ı et les intervenants professionnels responsable de la formation en master de
recherche en informatique, pour avoir assuré la partie théorique de celle-ci.
Je tiens à exprimer toute ma reconnaissance à M. Pierre LARMANDE qui est chercheur à l’IRD et
Reponsbale de l’axe de données de l’Institut de Biologie Computationnelle, Mme. Anne TIREAU qui est
ingénieur à l’INRA Montpellier SupAgro dans l’UMR MISTEA, pour leur encardrement sans faille, le
suivi qu’ils ont apporté à mon stage, leurs conseils, les nombreuses discussions que nous avons pu avoir
tout au long de la réalisation de ce stage, aussi pour l’inspiration et pour le temps qui’ils ont bien voulu
me consacrer.
Je souhaite remercie la famille de Pierre LARMANDE et la famille Fran¸cois PHAN pour leurs aides
chaleureuses pendant mon séjour de six mois en France.
Je tiens à remercie également Mlle Caroline BENOIST secrétaire du LIRMM, et Mlle NGUYEN Thi
Van Tu, secrétaire de l’IFI pour ses aides à plusieurs reprises.
Depuis mes premiers jours dans cet institut, j’ai re¸cu beaucoup d’aides, de conseils et d’encourage-
ments de mes amis, en particulier ceux de la promotion 18. Tout cela m’a permis de murir chaque jour.
Je les remercie et je ne pourrais jamais oublier les souvenirs gais et tristes que j’ai passé avec eux durant
ces deux ans à l’IFI.
Je voudrais aussi remercier aussi les confrères de l’Université de Da Lat où je suis en train de travailler,
qui m’ont donné les meilleures conditions pour que je puisse bien passer ma scolarité à l’IFI.
Enfin, j’adresse mes plus sincères remerciements à mes parents, mes frères qui m’a toujours soutenue
et encouragée dans les moments les plus difficiles de ma scolarité à l’IFI.
Merci à tous et à toutes
LE Ngoc Luyen
Da Lat - Viet Nam, automne 2015
i

Résumé
Depuis quelques années, le déluge de données dans plusieurs domaines de la recherche scientifique
soulève des défis dans le traitement et l’exploitation des données. La recherche dans le domaine bioinforma-
tique n’est pas épargnée par ce phénomène. Ce mémoire présente des approches pour résoudre le problème
de données volumineuses stockées dans des entrepôts NoSQL en y associant la capacité de recherche
sémantique sur les données dans un contexte de recherche agronomique. Ces approches sémantiques
permettent d’aider à enrichir les données issues d’expériences grâce aux moteurs d’inférence générant
de nouvelles connaissances. Nous pouvons résumer ces deux approches d’une part avec la réécriture de
requêtes et d’autre part avec la matérialisation de données en triplets RDF. Un état de l’art nous a
permis d’identifier et d’évaluer les différentes méthodes se rapportant aux approches mentionnées. En
pratique, seule l’approche de matérialisation de données a été choisie pour continuer à travailler. Les
données triplets obtenues étant volumineuses, nous avons réalisé un benchmark sur différents systèmes
de gestion de base de données de triplets afin de pouvoir comparer les avantages et les inconvénients de
chacun et de choisir le meilleur système pour notre étude de cas.
Mot-clés : Base de connaissance, Ontologie, Raisonnement, Inférence, SPARQL, xR2RML, Bench-
mark, NoSql, BigData, TripleStore
ii

Abstract
In the recent years, the data deluge in many areas of scientific research brings challenges in the treat-
ment and improvement of farm data. Research in bioinformatics field does not outside this trend. This
thesis presents some approaches aiming to solve the big Data problem by combining the increase in se-
mantic search capacity on existing data in the plant research laboratories. This helps us to strengthen user
experiments on the data obtained in this research by the engine automatic inference of new knowledge.
To achieve this, each approach has different characteristics and using different platforms. Nevertheless,
we can summarize it in two main directions : the transformation of query or Re-write requests and data
transformation to triples. In reality, we can solve the problem from origin of increasing capacity on seman-
tic data with triplets. Thus, the triplets to data transformation direction is chosen to continue working
in the practical part. However, the synchronization data in the same format is required before processing
the triplets because our current data are heterogeneous. The data obtained for triplets are larger that
regular triplestore could manage. So we evaluate some of them thus we can compare the benefits and
drawbacks of each and choose the best system for our problem.
Keyworks : Knowledge base, Ontology, Reasoning, Inference, SPARQL, xR2RML, Benchmark, NoSQL,
Big Data, Triplestore
iii

Table des matières
Remerciements i
Résumé ii
Abstract iii
Table des matières iv
Liste d’abréviations vi
Table des figures vii
Liste des tableaux ix
INTRODUCTION 1
Chapitre 1 Présentation Générale 2
1.1 Présentation de l’établissement d’accueil . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Présentation de l’Institut de Biologie Computationelle (IBC) . . . . . . . . . . . . 2
1.1.2 Présentation de l’Institut National de la Recherche Agronomique (INRA) . . . . . 3
1.2 Description du stage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Problématiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Contexte du sujet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Contexte de données massives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.2 Contexte de recherche sémantique . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Chapitre 2 État de l’art 11
2.1 Existants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Analyse et évaluation des solutions courantes . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 MongoGraph - une association du Mongodb et AllegroGraph . . . . . . . . . . . . 11
2.2.2 Base de données orientée graphe Neo4j . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.3 JSON for Linking Data (JSON-LD) et MongoDB . . . . . . . . . . . . . . . . . . . 16
2.2.4 Ontology-Based Data Access (ODBA) et frameworks Ontop . . . . . . . . . . . . . 18
2.2.5 Matérialisation de données en triplets RDF . . . . . . . . . . . . . . . . . . . . . . 20
2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Chapitre 3 Solution proposée 23
iv

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Modèle général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3 Transformation et synchronisation de données dans MongoDB . . . . . . . . . . . . . . . . 24
3.4 Ontologies et domaine applicatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.5 xR2RML et Transformation de données en triplets . . . . . . . . . . . . . . . . . . . . . . 27
3.5.1 Le langage de mapping de données xR2RML . . . . . . . . . . . . . . . . . . . . . 27
3.5.2 Transformation de données en triplets . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Chapitre 4 Stockage et Indexation de données RDF 31
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2 Approche native et non-native . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3 Vue générale des systèmes de gestion de triplets . . . . . . . . . . . . . . . . . . . . . . . . 33
4.3.1 TripleStore Sesame . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.3.2 TripleStore 4Store . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.3.3 TripleStore Virtuoso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3.4 TripleStore Jena Fuseki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.3.5 TripleStore Stardog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3.6 TripleStore GraphDB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.4 Implémentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Chapitre 5 Expérimentation, Comparaison et Analyse 42
5.1 Préparation des données et du Serveur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2 Benchmarking des platformes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2.1 Chargement de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2.2 Recherche de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.2.3 Inférence sur les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.3 Evaluation et Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
CONCLUSION 53
RÉFÉRENCES 55
Annexe A Modèle de document JSON A.1
Annexe B Mappage de données JSON aux triplets par xR2RML B.5
Annexe C Point d’accès C.8

Liste d’abr´eviations
API Application Programming Interface
CRUD Create, Read, Update, Delete
D2R Database To RDF
DFS Distributed ﬁles system
DL Logiques de Description
IBC Institut de Biologie Computationelle
INRA Institut National de la Recherche Agronomique
JSON Javascript Object Notation
JSON-LD JSON for Linking Data
NoSQL Not Only SQL
ODBA Ontology-Based Data Access
OWL Web Ontology Language
OWL 2 RL Web Ontology Rule Language
R2RML Relational Databases to RDF Mapping Language
RDF Resource Description Framework
RDFS Resource Description Framework Schema
RML RDF Mapping Language
SPARQL Protocol and RDF Query Langage
SQL Structured Query Language
W3C World Wide Web Consortium
xR2RML Relational and Non-Relational Databases to RDF Mapping Language
vi

Liste des figures
1.1 L’architecture du web sémantique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 L’exemple d’un triplet Resource Description Framework (RDF). . . . . . . . . . . . . . . . 8
1.3 L’exemple d’une requête Protocol and RDF Query Langage (SPARQL). . . . . . . . . . . 8
2.1 Le modèle de composants dans un système MongoGraph . . . . . . . . . . . . . . . . . . . 12
2.2 Les données présentées dans cet exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Une requête SPARQL associée à une requête de MongoDB . . . . . . . . . . . . . . . . . . 14
2.4 La graphe de données dans Neo4j . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.5 Les commandes pour créer un graphe simple . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.6 Les triplets sont stockées dans MongoDB sous la forme de JSON-LD . . . . . . . . . . . . 17
2.7 Le modèle de composants dans un système d’association de MongoDB et JSON-LD –
Create, Read, Update, Delete (CRUD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.8 Le processus de requête dans le système d’ODBA . . . . . . . . . . . . . . . . . . . . . . . 19
2.9 La comparaison des approches des raisonnements dans une application . . . . . . . . . . . 19
2.10 L’architecture du système avec l’association de MongoDB et le modèle d’ODBA . . . . . . 20
2.11 Les deux tables et sa relation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.12 Les informations définies pour le mapping . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.13 Les données RDF après de la transformation . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1 Le modèle général du système . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 Le modèle JSON créé à partir des bases d’imageries . . . . . . . . . . . . . . . . . . . . . 25
3.3 L’ontologie de l’annotation d’images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.4 Un exemple de données dans MongoDB . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.5 Le triplet généré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.6 Le mapping de xR2RML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.7 Le Mapping de données JSON en triplets . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.1 La classificaiton des types de système de stockage RDF . . . . . . . . . . . . . . . . . . . 32
4.2 Les composants dans l’architecture de Sesame . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.3 L’architecture principale de 4Store . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.4 L’architecture générale de Virtuoso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.5 Les composants dans l’architecture de Jena . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.6 Les composants dans l’architecture de GraphDB . . . . . . . . . . . . . . . . . . . . . . . 38
4.7 L’interface du système d’interaction avec les données RDF . . . . . . . . . . . . . . . . . . 39
vii

5.1 La comparaison du temps de chargement sur différents TripleStores . . . . . . . . . . . . . 43
5.2 L’exemple de requête numéro 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.3 L’evaluation de la requête numéro 1 sous forme de courbe graphique . . . . . . . . . . . . 44
5.4 L’exemple de requêtes numéro 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.6 L’exemple de requête numéro 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.8 L’exemple de troisième requêtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.10 Les relations inférées sur l’ontologie dans le premier exemple . . . . . . . . . . . . . . . . . 48
5.11 La requête du première exemple d’inférence . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.12 Le temps d’exécution de la première inférence sous forme de graphique . . . . . . . . . . . 49
5.13 Les relations inférées sur l’ontologie dans le deuxième exemple d’inférence . . . . . . . . . 49
5.14 L’exemple de la deuxième inférence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.15 Le temps d’exécution de la deuxième inférence sous forme de graphique . . . . . . . . . . 50

Liste des tableaux
1.1 La liste des types et des système de gestion de base de données dans Not Only SQL (NoSQL) 7
4.1 Les TripleStores et le type de stockage supporté . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2 Les encodages spéciaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.3 Les comparaison de certaines fonctionnalités des différents TripleStores . . . . . . . . . . . 40
5.1 La configuration du serveur expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2 La comparaison du temps de chargement sur différents TripleStores en millisecondes . . . 43
5.3 L’evaluation de la requête numéro 1 (temps en millisecondes) . . . . . . . . . . . . . . . . 44
5.7 L’evaluation de la première inférence (temps en millisecondes) . . . . . . . . . . . . . . . 49
5.8 L’evaluation de la deuxième inférence (temps en millisecondes) . . . . . . . . . . . . . . . 50
C.1 Les exemples de point d’accès de TripleStore . . . . . . . . . . . . . . . . . . . . . . . . . C.8
ix

Introduction
Les études sur les plantes ont toujours pris un rôle important pour améliorer la productivité, la capacité
de résistance des plantes aux maladies, la réduction d’influence des changements de l’environnement et le
climat. Aujourd’hui, de plus en plus de laboratoires ont effectué des études sur les plantes et ont obtenus
des résultats importants. Les données de ces études sont des ressources utiles pour que les scientifiques
puissent les exploiter et les partager avec les autres. Aujourd’hui, il y existe une diversité d’outils qui sont
développés pour gérer ces données. Mais chaque étude possède des caractéristiques différentes qui sont
difficiles à capturer dans des applications génériques. De plus, ces données ne cessent d’augmenter dans
chaque jour. Les tâches de gestion de données demandent des méthodes d’organisation optimisées.
Dans la carde du sujet de stage, deux projets d’études sur les plantes sont réalisés dans deux labora-
toires differents. L’un fait la recherche sur le phénotypage et le génotypage du riz asiatique. L’autre fait
la recherche sur le phénotypage et le génotypage du ma¨ıs en France. La caractéristique commune entre
ces deux projets concerne la gestion et l’exploitation de gros volumes de données de manière plus efficace.
Les travaux dans ce stage se focaliseront sur la recherche de solutions associant les domaines du web
sémantique et celui des données massives. Ils nous permettront de chercher la meilleure solution possible
pour tout d’abord organiser le stockage des données massives et volumineuses dans un système de gestion
de base données spécialisé et ensuite renforcer la capacité de recherche sémantique des données afin de
générer de nouvelles connaissances. Les connaissances dans le domaine de web sémantique fournissent des
modèles pour structurer les données sous la forme de bases de reconnaissance et permettent la recherche
de données grâce a des mécanismes de d’inférence et de raisonnement. Aujourd’hui, le problème de gestion
de données massives a besoin de traiter avec l’optimisation du temps d’exécution et le temps de recherche.
Ce présent rapport se divise en cinq grandes parties. La première partie présente les deux laboratoires
IBC et INRA, leurs projets de recherche actuels, les problématiques du stage et les concepts existants
dans le domaine du web sémantique et des données massives. La deuxième partie fait un état de l’art
sur les solutions actuelles et leurs applications dans le cas de nos données. La troisième partie consiste à
présenter la solution proposée et les travaux mis en oeuvre pour la réaliser. La quatrième partie présente les
systèmes de gestion de base de données de triplets actuels. La cinquième partie concerne l’expérimentation,
la comparaison et l’analyse des résultats dans un benchmark de ces systèmes selon trois critères : le
chargement de données, la recherche de données et l’inférence de données.
1

Chapitre 1
Présentation Générale
1.1 Présentation de l’établissement d’accueil
1.1.1 Présentation de l’IBC
L’Institut de Biologie Computationnelle a été créée dans le but de développer des méthodes inno-
vantes et des logiciels pour analyser, intégrer et contextualiser les données biologiques massives dans les
domaines de la santé, de l’agronomie et de l’environnement. Plusieurs branches de recherche y sont com-
binées : l’algorithmique (combinatoire, numérique, massivement parallèle, stochastique), la modélisation
(discrète, qualitative, quantitative, probabiliste), et la gestion des données (intégration, workflows, cloud).
Les concepts et les outils seront validés à l’aide des applications clés en biologie fondamentale (transcrip-
tomique, la structure et la fonction des protéines, le développement et la morphogenèse), la santé (agents
pathogènes, le cancer, les cellules souches), l’agronomie (génomique des plantes, de l’agriculture tropicale),
et de l’environnement (dynamique des populations, biodiversité). L’IBC est divisé en cinq work-packages
qui comprennent les aspects principaux du traitement des données biologiques massives :
ˆ WP1-HTS : Méthodes d’analyse de séquen¸cage à haut débit
ˆ WP2-Evolution : Passage à l’échelle des analyses évolutives
ˆ WP3-Annotation :Annotation fonctionnelle et structurelle des protéomes
ˆ WP4-Imaging : Intégration de l’imagerie cellulaire et tissulaire avec des données omiques
ˆ WP5-Databases : Données biologiques et intégration des connaissances
L’IBC est un projet multidisciplinaire soutenu pendant cinq ans (2012-2017) par l’état Fran¸cais à tra-
vers le projet “Investissements d’Avenir”. L’IBC implique actuellement 56 chercheurs multidisciplinaires
permanents, issus de quatorze laboratoires de Montpellier. l’IBC a pour objectif de devenir un lieu de
rencontre privilégié pour les chercheurs en biologie et en bio-informatique, mais aussi une importante
communauté de chercheurs, universitaires et industriel au niveau régional, national et international. Les
activités de l’IBC amnitionnent de collaborer avec des chercheurs de renommee mondiale, d’organiser des
manifestations scientifiques, de former de jeunes chercheurs, et de promouvoir les résultats et échanger
des informations avec des partenaires industriels.
2

La recherche sur le riz est un des modèles d’étude abordé par les chercheurs de l’IBC notamment à
travers le projet BIOeSAI (Biological electronic System Assistant Index). Ce projet a pour objectif de
gérer des études de diversité génotypique et phénotypique de variétés traditionnelles de riz vietnamien
(Oryza sativa). L’objectif de ces études est d’identifier des gènes d’intérêt pour qu’on puisse comprendre
les processus biologiques, par exemple : le développement et la plasticité de la plante, la résistance aux
maladies. Ces études requièrent la manipulation d’un volume important de données hétérogènes. Ces
données peuvent être stockées sous des formes différentes : fichier Excel, fichier texte structuré, images
ou bases de données relationnelles.
1.1.2 Présentation de l’INRA
L’INRA est un organisme de recherche fran¸cais pour l’agronomie fondé en 1946. Les recherches menées
par l’INRA sont guidées par les questionnements scientifiques en lien aux défis planétaires posés par l’ali-
mentation, l’environnement et la valorisation des territoires. Changement climatique, nutrition humaine,
compétition entre cultures alimentaires et non alimentaires, épuisement des ressources fossiles, équilibre
dans la gestion des territoires sont autant d’enjeux qui positionnent l’agronomie comme fondatrice d’un
développement harmonieux sur les plans économique, social et environnemental.
L’INRA produit des connaissances fondamentales et construit, grâce à elles, des innovations et des
savoir-faire pour la société. Il met son expertise au service de la décision publique. Les grandes missions
confiées à l’INRA sont les suivantes :
ˆ Produire et diffuser des connaissances scientifiques.
ˆ Concevoir des innovations et des savoir-faire pour la société.
ˆ Éclairer, par son expertise, les décisions des acteurs publics et privés.
ˆ Développer la culture scientifique et technique et participer au débat science-société.
ˆ Former à la recherche et par la recherche.
Le centre INRA de Montpellier coordonne Phénome, un projet de plate-formes de phénotypage haut-
débit de plantes cultivées. Son objectif est de mesurer des caractères agronomiques de plantes soumises à
différents scénarios environnementaux et en particulier les conditions de stress hydrique. C’est un projet
sur huit ans regroupant neuf plates-formes réparties sur sept sites d’études en France.
Les études couvrent à la fois des problématiques de recherche fondamentale en génétique et de re-
cherche appliquée pour la sélection de plantes adaptées à des contextes climatiques particuliers.
Sur la plate-forme de Montpellier se trouve trois plateaux techniques différents permettant de mesurer
la croissance de plantes en fonction de l’environnement :
ˆ PhénoPsis qui permet de peser et photographier plus de cinq cent plantes (Arabidopsis thaliana,
une plante modèle pour l’agronomie)
ˆ PhénoArch où plus de mille six cent plantes (ma¨ıs et autres céréales, vigne, pommiers) sont déplacées
grâce à un automate afin de procéder à différentes mesures, portant notamment sur l’architecture
de la plante, et d’être photographiées dans des cabines d’imageries 3D.
3

ˆ PhénoDyn où l’on mesure en particulier la transpiration et la croissance des feuilles des plantes.
D’autres plate-formes, comme celles de Toulouse, Dijon ou Mauguio, présentent des environnements
non contrôlés, avec des expérimentations en champ. Les données phénotypiques sont alors acquises grâce
à une Phénomobile (robot mobile autonome équipé de capteurs embarqués) ou à des drones.
Ces plate-formes sont spécialisées en écophysiologie, c’est-à-dire dans l’étude de l’influence de l’en-
vironnement sur la plante. Par conséquent, pour l’ensemble des expérimentations réalisées, les données
issues des capteurs environnementaux sont primordiales. Ces données sont à la fois hétérogènes en termes
de formats, de sémantique, etc. et volumineuses (plusieurs téraoctets par mois). Elles sont de plus reliées
entre elles au sein d’une experience et doivent pouvoir être tracées dans le temps.
Dans le contexte de Phenome, ces très nombreuses données doivent être conservées, partagées et ana-
lysées. Il faudra en effet être capable de les retrouver dans plusieurs années. De même, elles doivent pou-
voir être consultées et utilisées indifféremment par l’ensemble des neuf plates-formes. Enfin, les résultats
d’analyse et de calculs doivent également être reliés aux données.
1.2 Description du stage
Dans le cadre du projet de l’équipe Génome et Développement des Riz, du LMI RICE (Hano¨ı), des
études de la diversité génotypique et phénotypique de variétés traditionnelles de riz vietnamien sont
conduites dans le but d’identifier des gènes d’intérêt pour la compréhension de processus biologiques.
De la même manière, les recherches du laboratoire INRA à Montpellier évaluent les influences de l’envi-
ronnement sur les plantes. La caractéristique commune entre ces deux projets est la manipulation d’un
important volume de données hétérogènes. Ces données sont organisées dans des systèmes de gestion de
base de données relationnelles ou des systèmes de gestion de base de données NoSQL (MongoDB). Dans
ce contexte, les équipes souhaitent réorganiser leurs propres jeux de données afin de pouvoir naviguer,
partager, annoter et rechercher ces dernières afin de les exploiter au mieux.
Un système d’information a été implémenté lors d’un stage de Master 1 en 2014[1] pour le projet
du LMI RICE (BIOeSAI). Ce système est basé sur un système de gestion base de données MongoDB
incluant également la gestion des métadonnées et des tags. Toutefois, la méthode mise en place ne permet
pas de détecter des relations explicites/implicites entre les données gérées par le système.
L’objectif du stage proposé sera d’évaluer la faisabilité de gestion des BIG DATA couplé au techno-
logies du Web Sémantique en s’appuyant sur les articles de synthèse du domaine [2]. Par ailleurs, nous
réaliserons un état de l’art sur les problèmes d’organisation des données massives et de l’augmentation de
la capacité de recherche sur les données. Plus particulièrement, sur la capacité d’inférence et de raisonne-
ment sur les données. Un des objectifs du travail dans ce sujet sera de construire un base de connaissance
sur les données existantes.
1.3 Problématiques
Les données biologiques existantes sont volumineuses et elles ne cessent d’augmenter chaque jour.
L’utilisation des systèmes de gestion de base données relationnelles est aujourd’hui mal adapté pour gérer
ces données[1]. L’émergence des systèmes de gestion de base de données NoSQL orienté-document (e.g.
4

MongoDB) semble mieux adapté [3] toutefois ces systemes sont depourvus d’une capacité de recherche
sémantique sur les données ce qui existent seulement sur les données RDF par utiliser par le language
SPARQL.
Les bases de données de type “triplestore” sont mieux adaptées pour faire des inférences ou des
raisonnements sur les données. Toutefois, elles passent moins bien à l’échelle sur des gros volumes de
données. En effet, la recherche ou l’inférence sur un grand volume de données RDF peuvent prendre
beaucoup de temps. L’enjeu dans la gestion de ce type de données est d’utiliser les capacités d’inférence
sémantique avec de gros volumes de données.
L’association entre un système de données massives et les capacités de recherche sémantique est
l’objectif principal du sujet.
1.4 Contexte du sujet
1.4.1 Contexte de données massives
Aujourd’hui, nous entrons dans l’ère des Big Data. Des ensembles de données tellement gigantesques
qu’ils nécessitent de nouveaux outils techniques et scientifiques pour les comprendre et en tirer du sens.
Un déluge de données qui pose des questions profondes sur leur collecte, leur interprétation, leur analyse
etc. Les prochains enjeux de ce siècle sont d’extraire du sens de ces masses d’information qui circulent sur
les réseaux. Dans ce domaine, c’est avec la génomique et le phénotypage que la biologie est déjà entrée
dans le monde des big data. Certes, l’imagerie ou la modélisation métabolisme produisaient des données
numériques, mais la question de leur gestion et de leur exploitation ne se posait pas de la même fa¸con.
En termes d’exploitation des données, beaucoup reste à faire en biologie. C’est même là que se situe le
grand défi des big data en sciences de la vie : rattraper le fossé grandissant entre production massive de
données et la capacité à en extraire une information, voir une connaissance.
Le Big Data s’accompagne du développement d’applications à visée analytique, qui traitent les données
pour en tirer du sens. Ces analyses sont appelées Big Analytics ou “broyage de données”. Elles portent
sur des données quantitatives complexes avec des méthodes de calcul distribué.
En effet, les données massives désignent des ensembles de données tellement volumineux qu’il en
devient difficile de travailler avec des outils classiques des gestion de base de données ou de gestion de
l’information. Les Big Data sont souvent définis en utilisant l’acronyme 3V pour Volume, Vélocité et
Variété [4].
La volume se réfère à des quantités massives de données qui sont disponibles, le volume des données
stockées est en pleine expansion : les données numériques créées dans le monde seraient passées de 1,2
zettaoctets par an en 2010 à 1,8 zettaoctets en 2011, puis 2,8 zettaoctets en 2012 et s’élèveront à 40
zettaoctets en 2020[5]. À titre d’exemple, Twitter générait en janvier 2013, 7 teraoctets de données
chaque jour et Facebook 10 teraoctets[6].
La vélocité représente à la fois la fréquence à laquelle les données sont générées, capturées et partagées
et mises à jour. Quelquefois, la vélocité se réfère à la vélocité nécessaire pour traiter, analyser et utiliser
les données.
Le volume des Big Data met les data centers devant un réel défi : la variété des données. Il ne s’agit pas
5

de données relationnelles traditionnelles, ces données sont brutes, semi-structurées voire non structurées
(cependant, les données non-structurées devront, pour utilisation, être structurées). Ce sont des données
complexes provenant du web, au format texte et images. Elles peuvent être publiques (Open Data, Web
des données), géo-démographiques par ˆılot (adresses IP), ou relever de la propriété des consommateurs.
Ce qui les rend difficilement utilisables avec les outils traditionnels.
Pour répondre aux problématiques Big Data l’architecture de stockage des systèmes doit être repensée
et les modèles de stockage se multiplient en conséquence :
ˆ Cloud computing : l’accès se fait via le réseau, les services sont accessibles à la demande et en libre
service sur des ressources informatiques partagées et configurables. Les services les plus connus sont
ceux de Google BigQuery, Big Data on Amazon Web Services, Microsoft Windows Azure.
ˆ Super calculateurs hybrides : Les HPC pour High Performance Computing, qu’on retrouve en France
dans les centres nationaux de calculs universitaire tels quel’IDRIS, le CINES, mais aussi au CEA
ou encore le HPC-LR
ˆ Systèmes de fichiers distribuées Distributed files system (DFS) : les données ne sont plus stockées sur
une seule machine car la quantité à stocker est beaucoup trop importante. Les données, les fichiers
sont “découpés” en morceaux d’une taille définie et chaque morceau est envoyé sur une machine
bien précise utilisant du stockage local. Le stockage local est préféré au stockage SAN (Storage Area
Network)/NAS (Network attached storage) pour des raisons de goulots d’étranglement au niveau
du réseau et des interfaces réseaux des SAN. De plus, utiliser un stockage de type SAN coûte bien
plus cher pour des performances bien moindres. Dans les systèmes de stockage distribué pour le
Big Data, l’on introduit le principe de “Data locality”. Les données sont sauvegardées là où elles
peuvent être traitées.
Les bases de données relationnelles classiques ne permettent pas de gérer les volumes de données
du Big Data. De nouveaux modèles de représentation permettent de garantir les performances sur les
volumétries en jeu. Ces technologies, dites de Business Analytics, Optimization permettent de gérer des
bases massivement parallèles. Des patrons d’architecture “Big Data Architecture framework” sont pro-
posés par les acteurs de ce marché comme MapReduce développé par Google et utilisé dans le framework
Hadoop. Avec ce système les requêtes sont séparées et distribuées à des nœuds parallélisés, puis exécutées
en parallèles . Les résultats sont ensuite rassemblés et récuperés. Teradata, Oracle ou EMC proposent
également de telles structures, basées sur des serveurs standards dont les configurations sont optimisées.
Ils sont concurrencés par des éditeurs comme SAP (Systems, Applications, et Products) et plus récemment
Microsoft. Les acteurs du marché s’appuient sur des systèmes à forte scalabilité horizontale et sur des
solutions basées sur du NoSQL plutôt que sur des bases de données relationnelles classiques.
Avec les données dans nos laboratoires, le problème de gestion des données massives ne peut pas être
résolu avec les systèmes de gestion de base de données relationnelles. Ces systèmes deviennent lourds et
lents sur ces types de données. Ces dernières années, ont vu l’émergence d’une diversité de systèmes de
gestion de base de données que l’on appelle NoSQL. Ces systèmes NoSQL, proposent plusieurs modeles
pour organiser et stocker les données (la table 1.1).
6

Type de base de données1
Liste des systèmes utilisés
Clé - valeur CouchDB, Oracle NoSQL Database, Dynamo, FoundationDB, Hy-
perDex, MemcacheDB, Redis, Riak, FairCom c-treeACE, Aerospike,
OrientDB, MUMPS
Orienté colonne Accumulo, Cassandra, Druid, HBase, Vertica
Orienté document MongoDB, Clusterpoint, Apache CouchDB, Couchbase, Docu-
mentDB, HyperDex, Lotus Notes, MarkLogic, OrientDB, Qizx
Orienté Graphe Allegro, Neo4J, InfiniteGraph, OrientDB, Virtuoso, Stardog
Multi-modèle OrientDB, FoundationDB, ArangoDB, Alchemy Database, CortexDB
Tableau 1.1: La liste des types et des système de gestion de base de données dans NoSQL
Dans le domaine des données scientifique, il existe également de réels besoins d’exploitation de ces
données, en raison notamment de la forte augmentation de leur volume des dernières années. Le big data
et les technologies associées permettent de répondre à différents enjeux tels que l’accélération des temps
d’analyse des données, la capacité à analyser l’ensemble des données et non seulement un échantillon de
celles-ci ou la récupération et la centralisation de nouvelles sources de données à analyser afin d’identifier
des sources de valeur. Alors, sur la base des caractéristiques des données, on va décider quel système de
gestion de données utiliser. Par exemple avec les données qui ont plusieurs relations, nous pouvons choisir
le type de base de donnée orienté graphe. Il s’appuie sur la notion de noeuds, de relations et de propriétés
qui leur sont rattachées. Ce modèle facilite la représentation du monde réel, ce qui le rend adapté au
traitement des données des réseaux sociaux etc.
1.4.2 Contexte de recherche sémantique
Figure 1.1: L’architecture du web sémantique
Organiser les données afin de
mieux les comprendre, les utiliser et
les partager, est un objectif de longue
date. Mais le développement de l’ère
digitale a provoque une avalanche de
données dont le traitement requiert
de nouvelles méthodes. L’enjeu de
la recherche informatique est d’ex-
traire du sens dans cette masse d’in-
formation notamment à travers des
méthodes de fouilles de données ou
des algorithmes d’apprentissage auto-
matique scannant le web. Toutefois,
les problèmes ne sont pas résolu pour
autant. Pourtant, a partir de l’idée de
Tim Berners-Lee : “J’ai fait un rêve
pour le Web [dans lequel les ordinateurs] deviennent capables d’analyser toutes les données sur le Web
- le contenu, les liens, et les transactions entre les personnes et les ordinateurs. Un “Web Sémantique”,
7

qui devrait rendre cela possible, n’a pas encore émergé, mais quand ce jour sera atteint, les mécanismes
de dialogue entre les machines sera facilite. Les “agents intelligents” qu’on nous promet depuis longtemps
vont enfin se concrétiser”[7] [8], le web sémantique émerge comme la meilleure solution pour traiter
des données directes ou indirectes par des machines, partager et réutiliser des données entre plusieurs
applications et aider les utilisateurs à créer de nouvelles connaissances.
Dans le contexte d’application orienté web sémantique et la gestion de données biologiques, nous allons
focaliser sur les trois parties principales suivantes : Le représentation de données en RDF, les requêtes
avec SPARQL et les inférences, les raisonnements pour trouver de nouvelles connaissances.
La description de ressources (RDF)
Figure 1.2: L’exemple d’un triplet RDF.
La RDF est un modèle de graphe destiné à décrire la donnée de fa¸con à permettre son traitement
automatique par des machines. RDF donne une description par triplet <Sujet, Prédicat, Objet>. Le sujet
représente la ressource à décrire, le prédicat représente un type de propriété applicable à cette ressource,
et l’objet représente une donnée ou une autre ressource. Les documents RDF peuvent être écrits en
différents syntaxes ainsi, il peuvent exister sous plusieurs formats : RDF/XML, N3, N-Triples, TURTLE,
JSON-LD etc
La RDF est donc simplement une structure de données constituée de nœuds et organisée en graphe. Un
document RDF ainsi formé correspond à un multi-graphe orienté étiqueté. Ici, chaque triplet correspond
alors à un arc orienté dont le label est le prédicat, le nœud source est le sujet et le nœud cible est l’objet.
L’Interrogation de graphes RDF
Figure 1.3: L’exemple d’une requête SPARQL.
Le SPARQL est un langage de requêtes pour interroger des données qui sont stockées en respectant
le modèle RDF. Les requêtes SPARQL sont adaptées à la structure spécifique des graphes RDF, et
s’appuient sur structure sous la forme de triplets. En cela, il est différent du classique SQL, mais s’en
inspire clairement dans sa syntaxe et ses fonctionnalités. Le SPARQL permet d’exprimer des requêtes
interrogatives ou constructives : une requête SELECT, de type interrogative, permet d’extraire du graphe
RDF un sous-graphe correspondant à un ensemble de ressources vérifiant les conditions définies dans une
8

clause WHERE ; une requête CONSTRUCT, de type constructive, engendre un nouveau graphe qui
complète le graphe interrogé.
L’Ontologie
L’Ontologie est un ensemble structuré de termes et concepts représentant le sens d’un champ d’in-
formations, que ce soit par les métadonnées d’un espace de noms, ou les éléments d’un domaine de
connaissances. L’ontologie constitue en soi un modèle de données représentatif d’un ensemble de concepts
dans un domaine, ainsi que des relations entre ces concepts. Elle est employée pour raisonner à propos des
objets du domaine concerné. Plus simplement, nous pouvons aussi dire que l’ “ontologie est aux données
ce que la grammaire est au langage”.
Les conceptions utilisent pour décrire d’une ontologies générales :
ˆ Individus : les objets de base
ˆ Classes : ensembles, collections, ou types d’objets
ˆ Attributs : propriétés, fonctionnalités, caractéristiques ou paramètres que les objets peuvent posséder
et partager
ˆ Relations : les liens que les objets peuvent avoir entre eux
ˆ Evénements : changements subits par des attributs ou des relations
ˆ Méta-classes : des collections de classes qui partagent certaines caractéristiques
L’inférence, le raisonnement
L’inférence sur le Web sémantique est l’un des outils de choix pour améliorer la qualité de l’intégration
de données sur le web, en découvrant de nouvelles relations, analyse automatiquement le contenu des
données, ou la gestion des connaissances sur le web en général. Les Techniques à base d’inférence sont
aussi importante dans la découverte d’éventuelles incohérences dans les données intégrées.
Un exemple simple peut aider à bien comprendre à la conception de l’inférence. Les données fixées
pour être considérées peuvent inclure la relation (HaiPhong isPartOf the North Vietnam). Une ontologie
peut déclarer que “The North of VietNam isPartof Vietnam”. Cela signifie que d’un programme de Web
sémantique comprendre la notion de “X ispartOf Y” peut ajouter la déclaration “HaiPhong isPartOf
Vietnam” à l’ensemble des relations, bien que cela ne faisait pas partie des données originales. On peut
dire aussi que la nouvelle relation a été “découverte”.
D’une manière générale, Les inférences sur le web sémantique peut être caractérisée par la découverte
de nouvelles relations. Sur le Web sémantique, les données sont modélisées comme un ensemble de relations
entre les ressources. “l’Inférence” signifie que les procédures automatiques peuvent générer de nouvelles
relations fondées sur les données et sur la base des informations supplémentaires sous la forme d’un
vocabulaire, un ensemble de règles. Que les nouvelles relations sont explicitement ajoutées à l’ensemble
des données, ou sont retournées au moment de la requête, est une question de mise en oeuvre.
Sur le Web sémantique, la source de telles informations supplémentaires peut être définie par l’in-
termédiaire de vocabulaires ou ensembles de règles. Ces deux approches font appel aux techniques de
représentation des connaissances. En général, les ontologies se concentrent sur les méthodes de classifica-
tion, en mettant l’accent sur la définition de de “classes”, “sous-classes”, sur la fa¸con dont les ressources
9

individuelles peuvent être associes à ces classes, et de caractériser les relations entre les classes et leurs ins-
tances. D’autre part, les règles se concentrent sur la définition d’un mécanisme général sur la découverte
et la génération de nouvelles relations fondées sur celles qui existent déjà tout comme les programmes
logiques, tel Prolog. Dans la famille du Web sémantique lié aux recommandations de World Wide Web
Consortium (W3C) : Resource Description Framework Schema (RDFS), Web Ontology Language (OWL),
Simple Knowledge Organization System (SKOS) sont des outils de choix pour définir des ontologies, alors
que Rule Interchange Format (RIF) a été développé pour couvrir les approches basées sur des règles.
10

Chapitre 2
État de l’art
2.1 Existants
Depuis plusieurs années des études en phénotypage haut-débit des plantes sont réalisées à l’INRA.
Il existe donc un grand nombre de données de phénotypage et de génotype des plantes. Ces données
sont acquises chaque jour, par exemple sur le plateau technique PhenoArch, environ 1600 plantes sont
suivies pendant deux à trois mois. Chaque jours elles sont photographiées sous trois à treize angles,
ce cycle journalier d’imagerie produit donc environ 20800 images stockées. Celles-ci sont associées à
des configuration et des résultats d’analyse d’image sous la forme de JSON. Chaque document JSON
est environ 40 champs. Pour les gérer, les informaticiens ont déjà construits un système d’information
appelé Phenotyping Hybrid Information System (PHIS)1
. Les données permettant l’exploitation de la
plateforme sont stockées dans une base de données relationnelles. Avec les limitations de base de données
relationnelles, ces données doivent être migrées dans une base MongoDB pour améliorer le temps de
performance du système.
La même fa¸con, le projet BIOeSAI est entrée dans une deuxième phase à partir de 2015 à 2018.
Les études de la première phase ont été réalisées sur riz (O.SATIVA). Ce sont des données hétérogènes
et volumineuses sur le phénotypages et génotypes du riz. Le laboratoire a aussi construit un système
d’information pour gérer les données Syspherice2
[1]. Ces données sont organisées et stockées sous la forme
de document JSON. Elles sont gérées par le système de gestion de base de données orienté document
MongoDB.
2.2 Analyse et évaluation des solutions courantes
2.2.1 MongoGraph - une association du Mongodb et AllegroGraph
AllegroGraph est une base de données de graphe RDF persistante. Il utilise le stockage sur sur disque,
ce qui lui permet de passer à l’échelle des milliards de triplets, tout en maintenant une performance
supérieure. AllegroGraph est un framework de base de données et d’outils pour construire des applications
Web sémantique. Il peut stocker des données et des méta-données, il permet aussi d’interroger ces triplets à
1http ://lps-phis.supagro.inra.fr/phis/index.php
2http ://vmbioesai-dev.ird.fr :8080/Syspherice
11

travers différentes APIs comme SPARQL et Prolog. De plus, il fourni des fonctionnalités de raisonnement
RDFS++ avec son raisonneur intégré. AllegroGraph inclut également une librairie d’analyse de réseaux
sociaux (SNA) et il permet de stocker et raisonner sur des données temporelles et géospatiales.
Actuellement, il existe différentes éditions d’AllegroGraph : une édition gratuite où stockage RDF est
limitée à moins de 5 millions de triplets, une édition développeur capable de stocker un maximum de
50 millions de triplets et une édition d’entreprise avec une capacité de stockage qui n’est limitées que
par l’infrastructure de serveur. Des clients sont disponibles pour Java, Python, Lisp, Clojure, Ruby, Perl,
Csharp et Scala.
En plus des fonctions liées à l’application de Web sémantique, AllegroGraph implémente une interface
avec MongoDB, que l’on appelle MongoGraph. Celle-ci permet d’offrir aux programmeurs MongoDB les
capacité du Web sémantique. En utilisant cette approche, les objets Javascript Object Notation (JSON)
sont automatiquement convertis en triplets et ils peuvent être interrogés à la fois par le langage de requête
MongoDB et par SPARQL.
Figure 2.1: Le modèle de composants dans un système MongoGraph
MongoDB est une base de données
orientées documents NoSQL de haute
performance et Open Source. MongoDB
fournit un stockage basé sur des docu-
ments en forme de JSON avec comme
fonctionnalités l’indexation en texte
intégral, la réplication, la répartition des
de données (sharding), le calcul Map/Re-
duce et un langage de requête riche à base
de documents. Toutefois, il ne fournit pas
un bon support pour les jointures com-
plexes, le liage de données (linked data),
l’analyse de graphe et l’inférence ou le
raisonnement.
En connectant AllegroGraph à Mon-
goDB, il est possible d’interroger des
données liées en graphe et dans une
base de données orientées documents en
une seule requêtes. Avec MongoDB, les
données sont organisées en forme des do-
cuments JSON, ils sont gérées par un
système de gestion de base de données
orientées documents des plus efficace [9]. Avec AllgroGraph, les données sont organisées en graphe, sur
lesquelles nous pouvons réaliser facilement des requêtes SPARQL, et aussi effectuer des inférences sur ces
données.
Avec les caractéristiques des deux systèmes de gestion de base de données, il est possible de construire
un système qui a des capacités de requêtes du Web sémantique et qui peut traiter des données volumi-
neuses. Le modèle du système général de MongoDB et de AllegroGraph est mis en oeuvre Figure 2.1.
12

Ici, les données d’origines restent stockées dans MongoDB sous le format documents dans des collections.
Les nouveaux triplets mis en relation avec les documents MongoDB sont importés dans AllegroGraph.
Pour créer manuellement des triplets ou utiliser l’outil Relational and Non-Relational Databases to RDF
Mapping Language (xR2RML) pour les convertir automatiquement. On utilise les seulement les attributs
importants dans les documents. D’ailleurs, une ontologie est utilisée pour l’organisation sémantique des
triplets créés. Cette ontologie permet l’inférence en exploitant les relations entre les triplets. Ainsi le
moteur d’inférence peut créer de nouvelles relations sur la base de l’ontologie définie.
(a) Les données JSON dans MongoDB (b) Les données RDF dans AllegroGraph
(c) L’ontologie de lieu origine de plante
Figure 2.2: Les données présentées dans cet exemple
Pour mieux comprendre la solution d’association de MongoDB et de AllegroGraph et illustrer les
requêtes et l’inférence, nous avons pris un exemple sur les données existantes du projet BIOeSAI. Ce projet
contient une ontologie sur les relations entre le lieu d’origine des plantes et les images expérimentales sur
les plantes. Les triplets sont créés à partir des documents MongoDB, dans ce cas, en utilisant les attributs
de l’identification du document, les informations sur l’origine des plante et du nom des plantes. On peut
voir les détails des données JSON dans MongodDB, des données RDF qui ont été liés aux documents
MongoDB et l’ontologie de références dans Figure 2.2.
13

Nous pouvons faciliter l’importation des données RDF dans AllegroGraph en utilisant la forme d’un
dépôt, “Repository”. La création d’une connexion avec MongoDB est effectué dans l’interface de Allegro-
Graph. Ici, les informations de la base de données MongoDB doivent être rempli, par exemple : le nom
et port du serveur, le nom de la base de données et la collection choisie.
AllegroGraph possède deux types différents de moteur d’inférence : l’un supporte un sur-ensemble de
règles d’inférence RDFS et l’autre supporte Web Ontology Rule Language (OWL 2 RL). Le premier est
appelé le raisonneur RDFS++ dynamique car il génère les triplets inférés à l’exécution de l’inférence et
n’enregistre pas les triples nouveaux créés. Le second moteur d’inférence fait de la matérialisation OWL
2 RL. Il utilise de règles d’inférence pour générer de nouveaux triplets et les ajoute à la base de triplets
courante. Pour notre exemple, le second moteur d’inférence est choisi pour toutes les données. Après
avoir exécuté, nous avons les nouveaux triplets sont stockés de manière pérenne sur le disque comme les
triplets d’origine. Cela est le mieux pour les systèmes qui ont plusieurs requêtes.
Les requêtes sont réalisées grâce au langage SPARQL intégrant des requêtes MongoDB (Figure 2.3).
Cette association est effectuée par l’utilisation d’une approche que l’on appelle “Magic Predicat”. C’est
un prédicat d’une requête SPARQL qui permet une liaison, différente d’un simple appariement de sous-
graphe. AllegroGraph a longtemps soutenu l’utilisation de “Magic Predicat” pour permettre les requêtes
en texte libre et pour interfacer Solr et MongoDB. Dans la requête Figure 2.3, le système va effectuer
deux requêtes dans deux systèmes différents pour obtenir les résultats. Les requêtes seront exécutées dans
MongoDB pour trouver les résultats sous le format de JSON, et les résultats finaux (les triplets) seront
trouvés dans AllegroGraph.
Figure 2.3: Une requête SPARQL associée à une requête de MongoDB
Avantages
ˆ AllegroGraph permet de réaliser des inférences sur des données massives
ˆ Selection possible des propriétés importantes et donc réduction du nombre de triplets dans la base
de données.
ˆ Gestion de base de données massives avec MongoDB
Inconvenients
ˆ Un système plus complexe avec plusieurs étapes de requêtes
ˆ Mapping manuel des données entre les deux systèmes MongoDB et AllegroGraph
14

ˆ Pas de synchronisation entre les deux, quand nous mettons à jour au MongoDB, nous devons le
faire aussi sur Allegograph
2.2.2 Base de données orientée graphe Neo4j
Neo4j est un système de gestion de base de données orienté graphe, ce qui permet de représenter les
données en tant qu’objet relié par un ensemble de relations, chaque objet possédant ses propres propriétés.
La base de données de graphes, permet au développeur de commencer directement le codage, les données
stockées dans la base assurant un parallélisme direct avec les données elles-mêmes. En d’autres termes, à
mesure que l’organisation des données se peaufineront, les programmes suivront.
Une base Neo4j est censée être plusieurs milliers de fois plus rapide pour traiter les données associa-
tives, car elle en évite de coûteuses jointures Structured Query Language (SQL). Les requêtes peuvent
gérer de ce fait plus facilement un large ensemble de données. Les parcours utilisent un langage simple
de parcours des connections. L’absence de modélisation rigide, rend Neo4j bien adapté à la gestion de
données changeantes et de schémas évoluant fréquemment.
Les caractéristiques typiques de données pour Neo4j sont la structuration des données optionnelles
qui sont peuvent absenter, une facilité de changement du schéma et des migrations de données sans
contraintes, la modélisation facile de jeux de données de domaines complexes et cas d’utilisation typique
dans des domaines tels que le Web sémantique et RDF, le Web de données, l’analyse du génome, la
modélisation de données de réseaux sociaux etc.
Neo4j a des composants optionnels qui viennent en complément du noyau. On peut ainsi structurer le
graphe via un méta-modèle, obtenir une implémentation de RDF TripleStore compatible SPARQL. Par
exemple, avec deux plugins Neo-rdf-sail 3
et Neo4j-sparql-extension4
.
Figure 2.4: La graphe de données dans Neo4j
Les graphes de données dans Neo4j sont illustrés par les concepts de ”Nodes” et de ”Relations”
3https ://github.com/neo4j-contrib/neo4j-rdf-sail
4https ://github.com/niclashoyer/neo4j-sparql-extension
15

Figure 2.4. D’ailleurs, le langage de requête Cypher est utilisé pour manipuler les données. C’est un
langage déclaratif de requête graphique qui permet de réaliser efficacement et rapidement des requêtes
et des mis à jour sur les données. En détail, le langage Cypher se concentre sur la clarté d’expression de
ce que l’on veut récupérer à partir d’un graphique et pas sur la fa¸con de le récupérer. Cette approche
permet l’optimisation des requêtes.
Figure 2.5: Les commandes pour créer un graphe simple
Avantages
ˆ Gestion de base de données pour le Big Data sous la forme de graphes, donc amelioration de la
performance du système par des requêtes basées sur des relations entre les objets.
ˆ L’organisation de données sous forme de graphe est presque similaire à l’organisation des données
dans les ontologies et les instances données RDF.
Inconvénients
ˆ Les données doivent être re-organiser sous la forme d’un graphe, cela prendre plus de temps en
fonction de la complexité et de la taille de données.
ˆ Les données ne sont pas en RDF directement, donc pour faire des requêtes SPARQL nous utilisons
un plugin intégré qui ne supporte pas entièrement le language SPARQL.
2.2.3 JSON-LD et MongoDB
Les données liées se réfèrent à un ensemble de bonnes pratiques à mettre en oeuvre pour publier et lier
des données structurées sur le web. Elles s’appuient sur les standards du Web, tels que HTTP et URI -
mais plutôt qu’utiliser ces standards uniquement pour faciliter la navigation par les êtres humains, le Web
des données les étend pour partager également l’information entre machines. Cela permet d’interroger
automatiquement les données, quels que soient leurs lieux de stockage et sans avoir à les dupliquer.
JSON-LD est une syntaxe légère pour sérialiser des données liées de la forme de JSON. Son utilisation
permet à des données JSON d’être interprétées comme des données liées avec des changements minimes.
JSON-LD est principalement destiné à être un moyen d’utiliser les données liées dans des environnements
de programmation basés sur le Web, pour construire des services Web interopérables, et pour stocker des
données liées dans les moteurs de stockage à base de JSON. Actuellement, JSON-LD est compatible avec
JSON, un grand nombre de parseurs JSON et de bibliothèques sont disponibles aujourd’hui et peuvent
être réutilisés. En plus de toutes les fonctionnalités JSON, JSON-LD introduit :
ˆ Un mécanisme d’identifiant universel pour les objets JSON via l’utilisation d’IRIs
16

ˆ Un moyen de lever l’ambigu¨ıté de clés partagées entre des documents différents par des mappings
en IRI via un contexte
ˆ Un mécanisme dans lequel une valeur dans un objet JSON peut se référer à un objet JSON sur un
autre site sur le web
ˆ La possibilité d’annotation des chaˆınes de caractères avec la langue et d’associer les types de données
avec des valeurs telles que la date et l’heure
ˆ La facilité d’exprimer un ou plusieurs graphes orientés comme un réseau social en un seul document.
JSON-LD est destiné à être utilisable directement comme JSON qui ne contient pas des connaissances
de RDF. Il est également con¸cu pour être utilisable comme RDF. On peut l’utiliser avec d’autres tech-
nologies de données liées comme SPARQL. Les projets qui ont besoin de traiter les données comme des
graphes RDF vont trouver une solution avec la forme de JSON-LD. En détail, le document JSON-LD est
Figure 2.6: Les triplets sont stockées dans MongoDB sous la forme de JSON-LD
à la fois un document RDF et un document de JSON et représente une instance d’un modèle de données
RDF. Cependant, JSON-LD étend le modèle de données RDF pour sérialiser des ensembles de données
RDF.
Figure 2.7: Le modèle de composants
dans un système d’association de Mon-
goDB et JSON-LD – CRUD
Le format de données RDF est organisé en JSON-LD, ce qui
convient au format JSON utilisé dans MongoDB. Alors, nous
pouvons profiter de la puissance de MongoDB pour résoudre
le problème de grandes données. D’ailleurs, nous facilitons la
sérialisation des données de graphes RDF dans MongoDB.
La graphe de données RDF peut être organisé et stocké dans
la mémoire temporelle avec le support d’Application Programming
Interface (API) disponibles tels que Sesame ou Jena. Ces APIs
permettent d’utiliser le langage de SPARQL pour faire des requêtes
et appliquer des règles et faire des inférences sur les données. Les
recherches vont directement se faire sur les graphes RDF qui sont
sérialisés (chargés) à partir des données dans MongoDB, cette étape
va prendre du temps. Nous avons alors besoin d’une méthode pour
organiser les données importantes. Cette étape est importante pour
optimiser le temps exécution du système. En effet, nous avons les deux bases de données dans le système,
17

le base de données orientée documents et la base de triplets dans mémoire temporelle. Ici, les opérations
CRUD vont s’exécuter dans MongoDB et les recherches sont réalisées dans le graphe RDF. Alors, une
couche médiane est nécessaire pour synchroniser les deux bases de données.
Avantages
ˆ Le stockage des données dans MongoDB sous la forme de JSON-LD est aussi la forme de données
RDF. Nous pouvons donc profiter de la puissance de MongoDB dans le traitement de problème de
données volumineuses.
ˆ Les opérations de CRUD vont être rapidement réalisées sur les données dans MongoDB.
ˆ Les requêtes en langage SPARQL sont utilisées pour faire des recherches de données dans le système.
Inconvénients
ˆ L’existence de deux base de données va augmenter la complexité du système.
ˆ L’étape de chargement des données de graphes RDF dans la mémoire temporelle va prendre beau-
coup de temps. Les mises à jour sur les données de graphes RDFs sont dépendantes de la base de
données dans MongoDB.
ˆ Le problème de mémoire temporelle avec les grands graphes RDFs, la puissance matérielle est
importante pour ce système avec un besoin fort de mémoires temporelles.
2.2.4 ODBA et frameworks Ontop
L’ODBA est considérée comme un élément clé pour la nouvelle génération de systèmes d’information,
en particulier pour les applications du Web sémantique qui impliquent une grandes quantités de données.
L’ODBA est un paradigme d’accès à des données par une couche conceptuelle. Généralement, la couche
conceptuelle est exprimée sous la forme d’une ontologie qui définit un schéma global de haut niveau et
fournit des vocabulaires pour des requêtes d’utilisateurs. Les données sont stockées dans des bases de
données relationnelles, des bases de triplets etc [10].
Les termes de la couche conceptuelle sont mappées sur la couche de données en utilisant les mappings
qui associent à chaque élément de la couche conceptuelle, une requête sur les sources de données. Main-
tenant, les mappings ont été formalisées dans la récente norme Relational Databases to RDF Mapping
Language (R2RML) 5
de l’organisation W3C. Cette graphe virtuelle peut être interrogée à l’aide d’un
langage de requête sur les données RDF tels que SPARQL.
Un système ODBA est un triple : O = <T , S, M>, où[11] :
ˆ T est considéré comme les ontologies formalisées dans les Logiques de Description (DL), où T est
un DL TBOX.
ˆ S est un schéma des sources.
ˆ M est un ensemble d’assertions des mappings, chacun de la forme : Φ(x) ← Ψ(x)
Φ(x) est une requête sur S, retourner des tuples de valeurs pour x
Ψ(x) est une requête sur T dont les variables libres sont de x
18

Figure 2.8: Le processus de requête dans le système d’ODBA
Les systèmes d’ODBA sont orienté pour répondre aux requêtes. Une description schématique du
processus de transformation de requête illustre dans la figure 2.8. Ici, les requêtes posées au niveau de
la couche conceptuelle sont traduites dans un langage de requête qui peut être traité par la couche de
données. La traduction est indépendante des données réelles dans la couche de données. De cette fa¸con,
l’évaluation de requête peut être déléguée au système de gestion des sources de données.
Sur la base de la conception d’ODBA, les chercheurs de l’Universtié Bozen-Bolzano en Italie ont
développé un Framework ODBA du nom d’Ontop. Il est utilisé actuellement sur l’application Optique6
résoudre les problèmes de Big Data.
Le noyau de Ontop est le moteur de requête SPARQL QUEST qui implémente RDFS et OWL 2 QL
en ré-écrivant les requêtes SPARQL sur le graphe RDF virtuelle en des requêtes SQL (sur la base de
données relationnelles). Ontop est capable de générer efficacement et de manière optimisé des requêtes
SQL [12]. Le Framwork Ontop peut être utilisé comme :
ˆ Un plugin pour Protégé 4 qui fournit une interface pour la rédaction de mappings et l’exécution de
requêtes SPARQL.
ˆ Une bibliothèque Java qui implémente OWL API et les interfaces API de Sesame.
ˆ Un point d’accès SPARQL sur Sesame.
(a) L’approche classique des raisonnements (b) L’approche de QUEST des raisonnements
Figure 2.9: La comparaison des approches des raisonnements dans une application
5http ://www.w3.org/TR/r2rml/
6http ://optique-project.eu/
19

L’approche classique converti les bases de données en triplets. Ensuite, les requêtes, les inférences
seront réalisées sur ces données. Avec l’approche de QUEST, un nouveau paradigme sur les données est
créé, ici, les structures de base de données ne sont pas brisées. Les données sont stockées dans un seul
système.
Figure 2.10: L’architecture du système avec l’association de MongoDB et le
modèle d’ODBA
Avec les limitations des
bases de données relationnelles
pour ls données massives, une
solution proposée est l’associa-
tion du modèle ODBA avec
le système de gestion de base
données MongoDB. Avec cette
approche, nous allons profiter
des avantages des MongoDB
pour la gestion de grands jeux
de données et du modèle ODBA
pour créer des mappings entre
les données et l’ontologie. Ainsi
nous pourrons faire des requêtes
et utiliser du raisonnement.
Avantages
ˆ La structure de données est gardée dans le système de gestion de base de données. Il n’y a pas de
duplication de données sous forme de triplet pour faire des raisonnements.
ˆ Les interrogations sur les données sont réalisées dans langage de requête SPARQL
ˆ La capacité de compatibilité avec plusieurs systèmes de gestion base de données relationnelles
Inconvénients
ˆ La complexité du système va augmentent avec l’organisation des modèles d’ODBA
ˆ L’augmentation du temps et de l’argent pour construire le système.
2.2.5 Matérialisation de données en triplets RDF
Dans toutes les approches ci-dessus, les données sont organisées et stockées dans des systèmes de
gestion de base de données orientés graphe Neo4j ou des systèmes bases de données orientés documents
MongoDB ou des systèmes hybrides d’association de MongoDB et des systèmes de gestion de base de
données de triplets RDF. Toutefois, l’implémentation de requêtes sur les données avec le langage SPARQL
a plusieurs limitations. Dans cette partie, nous allons découvrir une autre approche sur les données. C’est
la matérialisation de données en triplets. Les données seront converties en triplets RDF. Cette approche
est maintenant la meilleure solution pour l’organisation des données avec des capacités de raisonnements.
Le plus souvent, lorsque l’on commence à vouloir publier des données sur des bases de connaissances
comme RDF il existe déjà une base de données. Pour que l’on puisse utiliser les données en RDF, il faut
20

les traduire en triplets. Il existe plusieurs méthodes mais la plus utilisée est la suivante : Database To
RDF (D2R)7
a pour but de traduire toutes les données contenues dans une base de données en triplets
RDF. D2R fonctionne avec un fichier de mapping et une ou plusieurs ontologies. Le fichier de mapping
sert à faire la liaison entre les tables et les champs contenus dans ces tables et les classes et les propriétés
dont sont composées ou les ontologies que l’on utilise. Ainsi, après le mapping, les données correspondront
à la ou les ontologies spécifiées et, ensuite seront disponibles sur une application Web sémantique par
l’intermédiaire d’une interface Web et d’un point d’accès SPARQL
Figure 2.11: Les deux tables et sa relation
Figure 2.12: Les informations définies pour le mapping
Figure 2.13: Les données RDF après de la transformation
Il existe maintenant deux méthodes pour map-
per une base de données : R2RML8
et Direct
Mapping9
. Ainsi avec ces deux méthodes il est
possible d’intégrer toutes les données d’une base
SQL au Web de données, de les manipuler avec
SPARQL et de les interconnecter avec d’autres
jeux de données présents sur le Web de données.
Le Direct Mapping définit une transfor-
mation simple, fournissant une base pour la
définition et la comparaison des transformations
plus complexes. Il peut également être utilisé
pour matérialiser des graphes RDF ou définir des
graphes virtuels. Ces graphes peuvent être in-
terrogés en SPARQL ou grâce à une API RDF.
En ce qui concerne R2RML [13], c’est un lan-
gage pour exprimer des mappings à partir d’une
base de données relationnelles et des ensembles de
données RDF. Ces mappings fournissent des ca-
pacité de visualisation des données relationnelles
existantes en représentation RDF. Avec les trois
figures dans cette section, nous pouvons voir un
exemple de ces mappings de données relation-
nelles et de triplets. Ici, sur la base des relations
entre les tables (Figure 2.11), nous allons définir
un fichier pour mapper des informations dans et
entre les tables (Figure 2.12) aux sujet, prédicat
et objet de triplets (Figure 2.13).
Toutefois, ces deux approches existe seulement
pour des bases données relationnelles. Donc, il y
a la nécessité d’utiliser la même idée pour mapper
des triplets RDF avec des bases de données orientées documents. Franck Michel et ses collèges [14] se
7http ://d2rq.org/
8http ://www.w3.org/TR/r2rml/
9http ://www.w3.org/TR/rdb-direct-mapping/
21

sont basés sur le langage de mapping R2RML et Morph-RDB10
qui est une implémentation du langage
de mapping R2RML pour les données relationnelles, pour développer xR2RML qui est s’applique aux
bases de données orientées documents comme MongoDB.
En particulier, xR2RML est une extension de la langage de mapping R2RML et s’appuie sur certaines
propriétés du langage de mapping RDF Mapping Language (RML) [15] et. R2RML porte sur les mappings
de base de données relationnelles aux triplets RDF. RML étend R2RML pour aborder les mappings sur des
données hétérogènes (XML, JSON, CSV) avec des triplets RDF. xR2RML étend ce champ d’application
à un plus large éventail de base de données non-relationnelles.
Avantages
ˆ Les données sont converties en triplets. Nous pouvons donc utiliser les systèmes de gestion de base
de données RDF spécifiques.
ˆ Les interrogations sur les données sont réalisées par langage de requête SPARQL
ˆ Les capacités de raisonnement sont parfaitement soutenues par ces systèmes de gestion de base de
données RDF.
Inconvénients
ˆ L’étape de transformation de données est coûteuse en temps : ré-organisation des données en graphe
ˆ Le nouveau système avec ses données a besoin d’une nouvelle architecture pour être mis en œuvre.
Le système est indépendant de l’existant.
ˆ On rencontre des problèmes de performance avec les données volumineuses
2.3 Conclusion
Dans cette partie, nous avons fait l’état de l’art des approches pour résoudre le problème de données
massives et des recherches au niveau Web sémantique. Pour résumer il y a deux approches principales :
la transformation de données en triplets RDF avec l’association de AllegroGraph et de MongoDB, de
Neo4J, de JSOn-LD et de MongoDB. Il y a aussi l’utilisation d’un langage de mapping comme xR2RML
et la transformation de requêtes ou la ré-écriture des requêtes avec ODBA et Ontop Framework. On peut
voir que pour chaque approche il existe des avantages et des inconvénients. Il faudra donc, sur la base des
caractéristiques de l’organisation des données et de l’objectif d’utilisation de données, choisir la meilleure
solution pour les données.
10https ://github.com/oeg-upm/morph-rdb
22

Chapitre 3
Solution proposée
3.1 Introduction
La partie précédente donne une vue générale de différentes solutions pour aider à traiter un gros
volume de données et renforcer la capacité d’association en structurant les données aux triplets RDF
pour que le but final soit l’amélioration de capacité de partage, d’intégration et de recherche des données.
Dans cette partie, nous allons présenter la solution sur la base d’une matérialisation de données sous
forme de triplets.
Dans ce chapitre, nous aborderons dans la première section le choix de la représentation du modèle
données et la manière de le générer. Ensuite, dans la section suivante sera abordée une démarche entreprise
pour transformer des données du modèle relationnel aux format JSON. De plus, une ontologie sera
présentée pour décrire les vocabulaires nécessaires dans la la conception du modele RDFs. En fin, le
langage de transformation de données en RDF sera introduit avec les syntaxes pour créer les mapping et
convertir des documents JSON en triplets RDF.
3.2 Modèle général
L’approche de matérialisation de données en triplets RDF a été choisie afin de tester l’organisation et la
performance des triplestores sur de gros volume données. Les systèmes actuels stockant de gros volumes
sont en majorité partagés entre des systèmes NoSQL (e.g : Mongodb), relationnels et divers format.
L’un des objectifs de ce travail était l’organisation et la synchronisation des données en conservant leur
provenance et les systèmes existants en ayant MongoDB comme stockage intermédiaire.
Par la suite, les données seront converties en triplets RDF grace a l’utilisation du langage de mapping
xR2RML et l’outil développé par les auteurs [14]. Les vocabulaires et les règles de transformation de
triplets sont fournis par une ontologie. Cette ontologie est importante pour réaliser des recherches avancées
sur les relations et les hiérarchies existantes .
Aujourd’hui, il existe différents systèmes qui permettent de gérer les données RDF. Nous allons focali-
ser notre etude sur cinq systèmes : 4Store, Sesame, Virtuoso, Stardog, GraphDB(OWLIM) et Jena Fuseki.
Leurs mécanismes d’action et d’indexation de données étant différents, nous allons tester ces systèmes
avec des données volumineuses. Ainsi, réaliserons les tests de ces systèmes sur la capacité de gestion de
23

données RDF afin d’optimiser le stockage et pour la récupération de ces triplets à l’aide du langage de
requête SPARQL.
Le moteur de recherche va consister à utiliser la capacité d’inférence sur la base contenant l’ontologie et
les données RDF. Une interface est fournie pour effectuer les requêtes sur ces données. Les interrogations
sous la forme de langage SPARQL sont utilisées pour chercher les données nécessaires dans la base de
données. L’illustration détaillée du modèle est présenté dans la figure 3.1 suivante :
Figure 3.1: Le modèle général du système
3.3 Transformation et synchronisation de données dans Mon-
goDB
Dans le projet Phenome (INRA), plusieurs systèmes de capteurs alimentent des bases de données
relationnelles en permanence. Il y a une fort besoin de synchronisation de ces données avec le système
courant. L’étape de transformation de données en documents JSON est réalisées afin d’intégrer plusieurs
ressources dans un meme entrepôt. Dans la suite du memoire nous nous concentrons seulement sur les
données obtenues dans sur les processus d’imageries, d’arrosage, de pesées ceux que les chercheur ont
réalisés quotidiennement.
Afin de garantir la cohérence des données entre les ressources et les processus qui les génèrent, des
modèles ont été définis. La définition des modèles JSON est réalisée pour mapper les propriétés de
plusieurs tables de base de données relationnelles avec les clés - valeurs dans les documents JSON. Seules
les propriétés importantes et les relations entre les tables ont été conservées. La figure 3.2, représente
un exemple de modèle défini en JSON pour les données imageries construits à partir les trois tables
différentes : Images, Imgacqcameraprofiles et Imagacstationprofiles. Ces tables correspondent comme leur
nom l’indique aux données images (horodatage, format, etc), aux profils caméra (balance des blancs,
saturation, etc,) ainsi qu’aux profils des cabines d’imageries (lumières, etc ..). Dans ce nouveau document
JSON sont représentés des données fixées par les systèmes existants et des nouvelles données calculées a
24

partir de traitements resultant de leur intégration.
1 Image{
2 "plant" : URI,
3 "plantAlias" : string,
4 "genotype" : URI,
5 " genotypeAlias " : string,
6 "experiment" : URI,
7 " experimentAlias " : string,
8 "study" : URI,
9 "studyAlias" : string,
10 "platform" : "http:// www.phenome -fppn.fr/m3p/",
11 " technicalPlateau " : "http:// www.phenome -fppn.fr/m3p/",
12 "timestamp" : int,
13 "date" : date,
14 " configuration " : {
15 "provider" : " phenowaredb",
16 "imgid" : int,
17 "plantid" : int,
18 "studyname" : string,
19 "taskid" : int,
20 "stationid" : int,
21 " imgacqprofileid " : int,
22 " nextLocation " : {
23 "lane" : int,
24 "rank" : int,
25 "level" : int,
26 }
27 },
28 " userValidation " : boolean,
29 " isReferenceImage " : boolean,
30 "viewType" : string,
31 " cameraAngle " : int,
32 "fileName" : string,
33 "serverPath" : "http://stck -lespe.supagro.inra.fr/",
34 " imageServerPath " : URI,
35 " imageWebPath " : URI,
36 " thumbServerPath " : URI,
37 " thumbWebPath " : URI,
38 " binaryServerPath " : " unspecified ",
39 " binaryWebPath " : "unspecified",
40 }
Figure 3.2: Le modèle JSON créé à partir des bases d’imageries
Dans quelques semaines à l’issus de ce stage, une application1
sera mise en œuvre pour convertir
automatique toutes les données dans la base de données relationnelles aux document de JSON sur la
base d’un modèle défini comme la figure 3.2. Les données, qui seront concernées par les processus de
mesures des plantes selon trois aspects d’imageries, d’arrosages, de pesées, seront converties sous forme
de documents de JSON. On peut voir les autres modèles qui sont complètement définies dans l’Annexe
A.
Aujourd’hui, toutes les données obtenues après la transformation seront synchronisées et stockées
dans le système MongoDB. La centralisation de données dans un seul système nous aide commodément
à définir les modèles généraux pour la transformation de données en RDF.
1https ://github.com/lengocluyen/phenowaredb-to-mongodb-convertor
25

3.4 Ontologies et domaine applicatif
Figure 3.3: L’ontologie de l’annotation d’images
Les différences entre des processus d’imageries, d’arrosage et de pesées demandent un diversité de
vocabulaires pour les décrire. Dans cette section, nous nous focalisons sur des vocabulaires de description
des données, des méta-données du processus d’imageries. Dans ce processus, de très nombreuses images
de plantes sont créées et doivent être stockées et être partagées. Une annotation d’images est nécessaire
pour fournir les méta-données afin d’aider compréhension et l’interprétation de l’image.
En général, plusieurs vocabulaires sont déjà disponibles pour faire de l’annotation d’images [16]. par
exemple, EXIF 2
est le format d’images de la plupart des appareils photo numériques. Il contient des
2https ://fr.wikipedia.org/wiki/Exchangeable imag file format
26

méta-données pour la date, l’heure, la localisation etc . Dublin Core3
fournit des vocabulaire de taille
réduite pour la description de ressources multimédia. Il recouvre ainsi les concepts de titre, créateur,
date, format etc. Ces vocabulaires fournissent les éléments nécessaires pour définir un modèle, mais ne
conviennent pas complètement pour les images traitées dans ce projet.
Afin de prendre en compte ces spécificités l’équipe INRA a construit une ontologie d’annotation
d’images [17]. On peut voir en détail le schéma de cette ontologie dans la figure 3.3.
3.5 xR2RML et Transformation de données en triplets
3.5.1 Le langage de mapping de données xR2RML
Après l’étape de transformation de données en JSON et leur importation dans MongoDB, il est
nécessaire de les transformer en triplets RDF. Pour cela, nous allons utiliser le langage de mapping
xR2RML pour transformer ces données en triplets RDF. Dans la partie de ”Matérialisation de données
aux triplets” du chapitre précédant, nous avons introduit ce langage. Nous verrons plus en detail dans
cette section la syntaxes pour créer le mapping entre un document JSON et la declaration des triplets
RDF.
Un mapping de triplet de xR2RML utilise une référence sur la source logique au lieu d’une table
logique dans R2RML. En particulier, le mapping xR2RML consist à :
ˆ Une propriété xrr :logicalSource. Son objet est une source logique qui spécifie une table ou un
résultat de requête pour être mappé avec un triplet.
ˆ Un mapping de sujet qui précise comment générer un sujet pour chaque élément de données de la
source logique (par exemple : une ligne de table, un document de collection, un ensemble d’éléments
XML etc). Ce mapping peut être spécifié dans deux fa¸cons suivantes :
En utilisant la propriété rr :SubjectMap, dont la valeur doit être le mapping de sujet
En utilisant la propriété constante rr :subject
ˆ Sans, une ou plusieurs propriétés rr :predicateObjectMap, dont les valeurs doivent être le mapping
de prédicate - objet. Ces mapping précisent les paires prédicat et objet qui, avec les sujets générés
par le mapping de sujet, peuvent former un ou plusieurs triplets RDF pour chaque élément de
données.
1 { "studyid": 10,
2 "acronym": "CAC2010",
3 "centres": [ {
4 "centreid": 4,
5 "name": "Hopital Lapeyronie"
6 },{
7 "centreid": 6,
8 "name": " Pontchaillou " }
9 ]
10 }
Figure 3.4: Un exemple de données dans MongoDB
3https ://fr.wikipedia.org/wiki/Dublin Core
27

1 <http:// example.org/study#10> st:involves
2 [ a rdf:Seq;
3 rdf:_1 "Hopital Lapeyronie ";
4 rdf:_2 " Pontchaillou ";
5 ].
Figure 3.5: Le triplet généré
43 <#Study >
44 xrr: logicalSource [
45 xrr:query ’’’db.studies.find(
46 { studyid:{ $exists:true } }) ’’’;
47 xrr:format xrr:JSON;
48 ];
49 rr:subjectMap [
50 rr:class st:study;
51 rr:template "http:// example.org/study#{$.studyid}";
52 ];
53 rr: predicateObjectMap [
54 rr:predicate st:involves;
55 rr:objectMap [
56 xrr:reference "$.centres .*. name" ];
57 rr:termType xrr:RdfSeq;
58 ];
Figure 3.6: Le mapping de xR2RML
Les figures 3.4, 3.5, 3.6 illustrent un exemple simple sur les données JSON stockées dans MongoDB,
la définition du mapping des propriétés et les résultats obtenus. Dans le mapping de données, il y a des
termes qui sont définies dans R2RML ou xR2RML que l’on peut l’identifier par le préfixe : rr :, rrx : etc.
Dans xR2RML, le mapping de terme (Term maps) est défini comme une fonction qui génère des
termes RDF à partir d’une ligne de la table logique. Il est soit un mapping de sujet, de prédicat, d’objet
ou de graphe. En particulier, un mapping de terme peuvent être exactement l’un des suivants : une valeur
constante (la propriété rr :constant), une valeur de colonne (la propriété rr :column elle peut se remplacer
par rml :reference ) et une valeur du template (la propriété rr :template). Il existe plusieurs mappings
de termes que l’on peut entièrement voir dans [14].
Avec les caractéristiques de ce langage, un outil4
est développé pour transformer automatiquement des
données relationnelles en triplets sur la meme base de mapping entre les deux. Cet outil est un système
qui, étant donnée un mapping xR2RML et une base de données d’entrée, fournit un accès à la sortie
d’ensemble de données RDF. Il a l’accès à un environnement d’exécution comprenant : une connexion à
la base de données d’entrée. Une formulation de référence applicable aux résultats des requêtes exécutées
sur la connexion.
3.5.2 Transformation de données en triplets
Sur la base du langage de mapping xR2RML et l’outil développé, La définition du mapping est créé
pour mapper les propriétés d’un document JSON avec des triplets. les vocabulaires de ces triplets sont
4https ://github.com/frmichel/morph-xr2rml/releases
28

fournis par l’ontologies ci-dessus. Dans la figure 3.7, les propriétés du document JSON d’images (les autres
sont définis dans l’Annexe B) vont être mappées aux sujets, prédicat et objet du triplet.
Après cette étape, nous avons obtenu 45 de millions de triplets pour l’annotation d’images à partir
d’environ 3.5 millions d’images contenues dans le système MongoDB. Cette transformation à nécessité
beaucoup de temps d’execution coté serveur à l’INRA (environ 20 heures). Ces données existent sous la
forme d’un graphe avec plusieurs instances.
1 @prefix xrr: <http://i3s.unice.fr/xr2rml#> .
2 @prefix rr: <http://www.w3.org/ns/r2rml#> .
3 @prefix ex: <http:// example.com/> .
4 @prefix rml: <http:// semweb.mmlab.be/ns/rml#> .
5 @prefix xsd: <http:// www.w3.org/2001/XMLSchema
#> .
6 @prefix rdfs: <http://www.w3.org/2000/01/rdf -
schema#> .
7 @prefix rdf: <http:// www.w3.org/1999/02/22-rdf -
syntax -ns#> .
8 @prefix f: <http://www.franz.com/> .
9 @prefix ia: <http:// www.mistea.supagro.inra.fr/
ontologies/2015/03/ imageAnnotation #> .
10 <#Image > a rr:TriplesMap;
12 xrr:query """db.image.find({ ’configuration .
imgid ’ : {$exists: true} } )""";
13 ];
14 rr:subjectMap [
15 rr:template "{$.uri}";
16 rr:class ia:Image;
17 ];
19 rr:predicate ia:aboutEntity ;
20 rr:objectMap [ xrr:reference "$.context.plant
"; ];
21 rr:class ia:Plant;
22 ];
24 rr:predicate ia:timeStamp;
25 rr:objectMap [ xrr:reference "$.date "; ];
26 rr:datatype xsd:date;
27 ];
29 rr:predicate ia:hasFileName ;
30 rr:objectMap [ xrr:reference "$.fileName "; ];
31 rr:datatype xsd:string;
32 ];
34 rr:predicate ia:hasPlateau;
35 rr:objectMap [ xrr:reference "$.context.
technicalPlateau "; ];
36 rr:class ia: TechnicalPlateau ;
37 ];
39 rr:predicate ia: inImagingCycle ;
40 rr:objectMap [ xrr:reference "$. configuration .
taskid "; ];
41 rr:datatype xsd:integer;
42 ];
44 rr:predicate ia:hasPlateau;
technicalPlateau "; ];
46 rr:class ia: TechnicalPlateau ;
47 ];
49 rr:predicate ia: inImagingCycle ;
taskid "; ];
52 ];
54 rr:predicate ia: inAutomatonStudy ;
studyname "; ];
56 ];
58 rr:predicate ia: inExperiment ;
experiment "; ];
60 rr:class ia:Experiment;
61 ];
63 rr:predicate ia: hasCameraAngle ;
64 rr:objectMap [xrr:reference "$. cameraAngle ";];
66 ];
68 rr:predicate ia:hasViewType;
69 rr:objectMap [ xrr:reference "$.viewType "; ];
70 ];
72 rr:predicate ia: isReferenceImage ;
73 rr:objectMap [ xrr:reference "$.
isReferenceImage "; ];
74 rr:datatype xsd:boolean;
75 ];
77 rr:predicate ia: hasCameraProfile ;
imageCameraProfile "; ];
79 rr:class ia: CameraProfile ;
80 ];
82 rr:predicate ia: hasAcquisitionStationProfile ;
imageStationProfile "; ];
84 rr:class ia: AcquisitionStationProfile ;
85 ].
Figure 3.7: Le Mapping de données JSON en triplets
29

3.6 Conclusion
Dans cette partie, la définition du modèle de solution proposée est présentée avec les étapes que
nous allons réaliser pour la construction d’un système de connaissance. En développant l’outil de trans-
formations de données relationnelles en document JSON stockées dans MongoDB et en utilisant l’outil
xR2RML pour la transformation de données JSON en triplets, nous avons obtenu des graphes RDF très
volumineuses. Avec ces graphes, nous avons besoin d’un système de gestion de base de données pour le
gérer de manière efficace. Ceci sera présenté dans la partie prochaine.
30

Chapitre 4
Stockage et Indexation de données
RDF
4.1 Introduction
Avec les données obtenues dans la chapitre précédent, on a besoin d’avoir un meilleur système pour les
organiser et les stocker. Il existe actuellement plusieurs systèmes développés pour les données RDF mais
chaque système a des caractéristiques spécialisées concernant l’organisation et l’indexation des données.
Alors, on a besoin d’effectuer des tests sur la capacité de stockage, sur l’indexation, sur la performance,
sur l’optimisation du processus de chargement, des requêtes et des raisonnements de ces systèmes.
Ce chapitre introduit des méthodes d’organisation pour stocker et indexer les données RDF et
l’implémentation de ces données dans quelques systèmes courants. Plus précisément, la première sec-
tion présentera les deux approches d’organisation de données : sous la forme native qui construit un
nouveau système pour gérer les données par soi-même et sous la forme non-native qui utilise un système
de gestion de données existant pour stocker les données. Dans la deuxième partie, il y aura une intro-
duction à des entrepôts de données RDF ou “TripleStore” récents : l’architecture, les caractéristiques de
chaque système et aussi l’implémentation du stockage des données ces systèmes. Enfin, la représentation
d’une application pour accéder à des données issues de plusieurs sources sur la base d’un point d’accès.
4.2 Approche native et non-native
L’approche native fournit un moyen pour stocker des données RDF plus proche du modèle de données.
Il utilise la nature des triplets RDF et permet d’aborder les spécificités de son approche en graphe, tels
que la capacité à gérer la parcimonie des données et l’aspect dynamique de son schéma. Ces systèmes
peuvent être classés en deux types de stockage (la figure 4.1) : à base de disque qui est persistant ou à base
de mémoire qui est volatile. Le stockage persistant sur le disque est un moyen de stocker en permanence
des données RDF sur un système de fichiers. Ces implémentations peuvent utiliser des structures d’index
comme des arbres B+ par exemple.
Néanmoins, l’écriture et la lecture sur les disques peuvent provoquer un phénomène de goulot d’étranglement
31

dans le système. Alors, la solution de stockage des données en mémoire est à considérer pour éviter ce
phénomène. Le stockage des données RDF en mémoire alloue une certaine quantité de la mémoire prin-
cipale disponible pour stocker l’ensemble de la structure de graphe RDF. Comme le stockage persistant
sur le disque, ce stockage repose sur des techniques d’indexation. Avec les données stockées dans la
mémoire, certaines opérations seront coûteuses en temps : le chargement, l’analyse ou ”parsing” de fi-
chier de données RDF et aussi la création d’index. Par conséquent, un Triplestore RDF doit avoir une
représentation de données en mémoire efficace qui laisse suffisamment d’espace pour les opérations de
requêtes et de gestion de données.
Figure 4.1: La classificaiton des types de système de stockage RDF
L’approche non-native utilise un système de gestion de base de données pour stocker des données RDF
de fa¸con permanente. On profite du développement de plusieurs années de ces systèmes, par exemple, la
capacité de transactions ou de sécurité. Avec les systèmes de gestion de base de données relationnelles, on
peut distinguer la base de données avec schéma et la base de données sans schéma. Avec la base de données
avec schéma, les caractéristiques du schéma sont utilisées pour séparer des triplets en différentes tables.
Cette séparation peut être organisée sur la base de structure intrinsèque de triplets : le sujet, le prédicat
et l’objet, ou fondée sur les propriétés, les classes RDFS ou OWL. On a les trois fa¸cons d’organisation
de schéma : partitionnement vertical, table de propriétés et table de propriétés hiérarchiques. Avec la
base de données sans schéma, on utilise seulement des tables qui sont responsables du stockage de tous
les triplets, c’est ce que l’on appelle une table de triplet. Ces dernières années, les systèmes de gestion
de base de données émergent comme une bonne approche pour les données massives avec plusieurs
manières d’organisation de données : clé-valeur, orienté document, orienté colonne, orienté graphe, etc.
La motivation principale est de répondre à la distribution de grands ensembles de données sur un cluster
de matériel.
Dans l’approche non-native, les triplets sont parfaitement stockées avec l’implémentation d’indexa-
tion, le support des propriétés ACID (Atomicité, Cohérence, Isolation et Durabilité) et les optimisations
de requêtes de chaque système (SQL pour les base de données relationnelles, Cypher pour Neo4J etc).
Néanmoins, l’association de deux modèles de données (par exemple modèle en graphe et modèle relation-
nelle) a besoin de manipulations, de la synchronisation entre eux, on par exemple de transformation de
données, des requêtes SPARQL en SQL. Cela est coûteux en temps d’exécution et de transformation de
requêtes. On a encore des limitations sur la capacité d’inférence sur les données. Dans l’approche native,
on utilise des systèmes de gestion de base de données spécialisés pour les données RDF. Les données sont
32

indexées selon l’organisation origine des données (en graphe). A coté, il fournit des capacités d’inférence,
et bien sûre le langage de requête SPARQL. Alors, avec ces désavantages de l’approche non-native et les
avantages de l’approche native, on va focaliser sur l’approche native pour stocker et indexer les données.
Pour tester les systèmes de gestion de données de triplets, on va considérer les six TripleStores suivants :
Sesame, 4Store, Virtuoso, Stardog, GraphDB Ontotext et Jena Fuseki.
TripleStore
Native Non-native
Mémoire Disque GBDR NoSQL
Sesame X X MySQL, PostgreSQL
4Store X
Virtuoso X X
Stardog X
Graphdb Ontotext X
Jena Fuseki X X
Tableau 4.1: Les TripleStores et le type de stockage supporté
4.3 Vue générale des systèmes de gestion de triplets
4.3.1 TripleStore Sesame
Sesame est un framework Open Source écrit en Java pour le stockage et l’interrogation des données
RDF. Il est extensible et configurable en ce qui concerne les mécanismes de stockage, les inférences, les
formats de fichiers RDF, les formats de résultats obtenus et les langages de requête. Sesame propose une
API comme JDBC, une interface de service de web RESTful qui permet les requêtes SPARQL.
Figure 4.2: Les composants dans l’architecture de Sesame
Sur la figure 4.2, l’architecture de Sesame, la partie au fond est un modèle RDF, c’est le fondement
du framework Sesame. Toutes les autres parties de Sesame sont extensives et dépendantes à ce modèle.
Dans le modèle RDF, nous avons définir les interfaces et l’implémentation de toutes les entités RDF de
base par exemple : des URIs, des nœuds anonymes, des littéraux et des triplets ou ”statements”.
Ensuite, la partie RIO, qui signifie “RDF I/O”, est constitué d’un ensemble d’analyseur et de writers
pour la diversité des formats de fichiers RDF. Les analyseurs peuvent être utilisés pour traduire des
fichiers RDF en ensembles de statements et les writers pour l’opération inverse. RIO peut également
être utilisé indépendamment du reste de Sesame. L’autre coté, l’API SAIL (the Stockage And Inference
Layer) est une API pour les RDF stores et les inférences. Son but est de faire abstraction du stockage
33

et de l’inférence. Plus précisément, il permet d’utiliser différents types de stockage et d’inférences. L’API
SAIL est le principal intérêt pour ceux qui développent des implémentation de SAIL (les développeur
de TripleStore) ; pour les autres, il suffit de savoir comment on peut les créer et les configurer. Il existe
plusieurs implémentation de l’API SAIL, par exemple le stockage en mémoire (MemoryStore) ou le
stockage sur le disque (NativeStore).
L’API Repository est une API de niveau supérieur qui offre un grand nombre de méthodes de
développements orientés pour le traitement des données RDF. L’objectif principal de cette API est d’ai-
der des développeurs d’applications. Il propose diverses méthodes pour le téléchargement de fichiers de
données, l’interrogation et l’extraction et la manipulation des données. Il existe plusieurs implémentations
de cette API par exemple SailRepository, HTTPRepository.
Enfin, la partie supérieure de cette figure correspond au serveur HTTP. Il est constitué d’un certain
nombre de Servlets Java qui implémentent un protocole d’accès aux référentiels de Sesame sur HTTP. Le
HTTPClient qui est utilisé par le HTTPRepository.
Le stockage de Sesame utilise l’arbre B pour l’indexation des triplets, où la clé d’index se compose
de quatre champs : sujet (s), prédicat (p), objet (o), contexte (c). L’ordre dans lequel chacun de ces
domaines est utilisé dans la clé détermine l’utilisation d’un index sur un patron de requêtes de triplet
précisé : rechercher les triplets avec un sujet spécifique dans un index qui a le sujet comme premier champ
est plus rapide que de rechercher ces mêmes triplets dans un index où le champ de l’objet est deuxième
ou troisième. Dans le pire des cas, le patron de triplet ”mauvais” se traduira par un modèle séquentiel
sur l’ensemble des triplets. Les indexes peuvent être spécifiés en créant des mots de quatre caractères.
Plusieurs indices peuvent être spécifiées en séparant ces mots par des virgules, des espaces et/ou des
tabulations. Par exemple, la chaˆıne ”spoc, posc” spécifie deux indices ; un index sujet-prédicat-objet-
contexte et un index prédicat-objet-sujet-contexte.
4.3.2 TripleStore 4Store
Le projet DataPatrol est une application en ligne pour vérifier la fuite dans le domaine public des
informations personnelles par la société Garlik1
. 4Store a été con¸cu principalement pour fournir le stockage
backend de ce projet. Puis dernièrement, 4Store a été mis en œuvre sur un cluster en réseau à faible coût
avec des dizaines de serveurs supportant un fonctionnement 24x7.
Dans ce projet, nous avons des besoins en performance et efficacité des matériaux courants. Alors,
l’approche de segmentation de données dans plusieurs cluster est utilisés [18]. Ici, les données sont divisés
entre un certain nombre de segments avec un ou plusieurs segments sur chaque nœud de stockage comme
le montre la figure 4.3. Ces nœuds consistent en nœuds de traitements et en nœuds de stockages. Il
est également possible d’exécuter 4Store sur un nœud unique, exécutant le traitement frontal et un ou
plusieurs nœuds de stockage pour le backend sur une seule machine.
Le modèle de segmentation dans 4Store utilise un entier RID (Identifiant de Ressources) qui est
utilisé comme un codage de symbole pour des valeurs de ressources. Les RIDs sont le entiers 64 bits qui
représentent les URIs, les littéraux, les nœuds vides en utlisant un espace de valeur disjointes. Les une
ou deux bits significatifs MSB2
de la valeur RID déterminent si l’encodage RID concerne une URI, un
1http ://www.garlik.com/
2MSB : Most Significant Bit
34

littéral ou un nœud vide. Le numéro de segment est ensuite calculée de telle sorte que :
segment = RID(subjet) mod segments
MSB1 MSB2 Encodages
0 Littéral
1 0 Nœud vide
1 1 URI
Tableau 4.2: Les encodages
spéciaux
Dans 4Store, les triplets RDF sont représentés en forme de quads :
Modèle, Sujet, Prédicat, Objet où le modèle est un peu analogue à un graphe
SPARQL. Les principales différences entre un graphe de SPARQL et un
modèle sont dans le traitement des graphes vides et dans le comportement du
graphe par défaut. Les triplets assignés au graphe par défaut sont placés dans
un modèle particulier, qui est utilisé pour l’exécution des requêtes lorsque le
comportement de graphe par défaut SPARQL est activée.
Figure 4.3: L’architecture principale de 4Store
Dans l’indexation de données dans 4Store, chaque quad dans un segment particulier est stocké dans
trois indexes. Nous pouvons les voir dans la figure 4.5 avec les noms : P index, R index et M index.
En détail, l’index R est utilisé pour les stockages de valeur lexicale des ressources RDF comme URI, les
littéraux et les nœuds vides. Ceux-ci sont présentés comme des 3-tuples de (rid, attr, valeur lexical) avec
comme rid et attr des entiers calculés comme RID. La valeur lexicale est une chaˆıne de texte. Ensuite, les
graphes sont indexés avec l’index M en utilisant une table de hachage qui pointe vers une liste de lignes
de triplets. Son but principal est de permettre des requêtes de la forme suivante :
SELECT * WHERE { GRAPH some-graph { ? s ?p ?o } }
Un effet secondaire de cet index est qu’il permet d’enlever d’un graphe des triplets pour être effectué
plus efficacement. Le dernière index dans 4Store s’appelle l’index P. Les indexes P sont constitués d’un
ensemble d’arbre radix [19], les deux pour chaque prédicat, en utilisant les quatre bits pour le radix.
La clé pour l’arbre radix est le sujet ou l’objet des quads pour être indexé. Le graphe et le sujet, objet
sont stockés dans une liste des lignes, pointés par l’entrée de la feuille dans l’arbre radix. Avec l’arbre
radix dans le pire cas, la performance est O(k) où k est la taille de clé, par rapport à O(logn) d’arbre
35

B. Cependant, les clés dans ce cas ont été mappé avec un entier 64 bits. Donc, ils sont fini et de courte
longueur.
4.3.3 TripleStore Virtuoso
En général, Virtuoso est un middleware et un moteur hybride de base de données qui combine dans
un seul système les fonctionnalités d’un système de gestion base de données relationnelles et d’un système
de base de données objet-relationnels, d’un base de données virtuelles, RDF, XML, texte libre et une
application web serveur, une fonctionnalité de serveur de fichiers. Plutôt que d’avoir des serveurs dédiés
pour chacun des domaines de fonctionnalités susmentionnées, Virtuoso est un ”Seveur universel”. Il
implémente un seul processus de serveur multithread d’utiliser des protocoles multiples. L’édition Open
Source de Virtuoso Universal Server a été développé par OpenLink Software.
Figure 4.4: L’architecture générale de Virtuoso
Dans notre cas, on utilise l’édition Open Source et les données RDF. Alors, des éléments qui concernent
les triplets sont considérés. En détail, un triplet est stocké dans une table comme une ligne avec des
colonnes de G pour graphe, P pour prédicat, S pour sujet et O pour Objet. Les colonnes P, G, S sont les
l’ID IRI, ce sont des entiers 32 ou 64 bits. La colonne O a le type de données ANY dans SQL, ce peut
être de type scalaire, tableau ou défini par l’utilisateur de l’instance de ce type. L’indexation soutient un
ordre lexicographique de type ANY, ce qui signifie, qu’avec deux éléments de type compatible, l’ordre est
celui du type de données dans la question avec classement par défaut.
Sur les données RDF, on peut faire des requêtes avec le langage SPARQL mais les données sont
organisées dans les tables, Alors, les transformations de requêtes SPARQL au SQL devront être exécutées
dans le temps d’analyse de la requête. Un point d’accès est fourni pour accéder aux données RDF sur le
protocole HTTP. Sur les inférences, Virtuso supporte les inférences TBox en base comme les sous-classes
et sous-propriétés.
36

4.3.4 TripleStore Jena Fuseki
Jena est l’un des premiers frameworks qui sont mis en œuvre pour web sémantique en général et
pour les données RDF en particulier. Il est développé en JAVA pour fournir une collection d’outils et
de la documentation pour développer avec le web sémantique, les données liées, etc. Jena Fuseki est un
composant dans l’architecture général de Jena. Alors on va considérer tous les composants de Jena pour
avoir une vue générale sur ce système.
Figure 4.5: Les composants dans l’architecture de Jena
Jena stocke les données RDF comme
des graphes orientés, et permet de modi-
fier, supprimer, manipuler, stocker et pu-
blier ces données. Dans Jena, les données
RDF peuvent être stocké dans plusieurs
formes par exemple dans la mémoire,
dans les systèmes de gestion de base de
données relationnelles (SDB), ou dans
la forme native de données (TDB). Il
y a quelques différences sur le nom des
concepts qui sont utilisés dans Jena :
instance le “Modèle” pour représenter
un graphe RDF, “Statement” pour mon-
trer un triplet RDF, etc. Avec les APIs
RDF, on peut facilement exécuter des
opérations d’ajout, de suppression des tri-
plets sur des graphes ou faire des re-
cherches des triplets qui correspondent à
des modèles particuliers. Ici, les sources RDF externes peuvent être utilisées si les fichiers ou les URL
sérialisent une forme de graphe.
Une caractéristique d’une application du web sémantique est que les règles sémantiques de RDF, RDFS
et OWL peuvent être utilisées pour inférer des informations qui ne sont pas explicitement indiquées dans
le graphe. L’API d’inférence de Jena fournit des moyens pour le faire. En effet, Il y a certains moteurs
de règles pour effecteur ces inférences, soit en utilisant les ensembles de règles intégrées pour OWL et
RDFS, ou en utilisant de règles optionnels. Ces APIs peuvent être connecté à un raisonneur externe,
telles que la moteur de description logique, pour effectuer le même travail avec différents algorithmes de
raisonnement.
Avec les requêtes SPARQL, Jena se conforme à tous les standards publiés de ce langage. La manipu-
lation SPARQL, à la fois pour la requête et la mise à jour, est de la responsabilité de l’API SPARQL.
D’ailleurs, l’API Ontologie fournit des méthodes commodes qui connaissent les formes de représentation
disponibles pour des applications à travers deux langages d’ontologie pour le RDF : OWL et RDFS.
Les applications peuvent directement accéder aux fonctionnalités Jena API par des API Java. Actuel-
lement, la publication de données sur Internet est une exigence commune dans les applications modernes.
Alors, Jena Fuseki est un serveur de publication de données, qui peut présenter, et mettre à jour, les
37

modèles RDF sur le Web en utilisant SPARQL et HTTP.
4.3.5 TripleStore Stardog
Stardog est un TripleStore commerciale, avec trois éditions pour les groupes d’utilisateurs différents :
Communautés, Développeurs, Entreprises. Stardog supporte les base de données de graphe sémantique, et
est disponible pour du client-serveur, du middleware et des modes intégrés. Ce TripleStore est directement
construit pour les données RDF. Alors, il implémente parfaitement le langage SPARQL, OWL, les règles
définies par l’utilisateur pour l’inférence et l’analyse de données et un point d’accès pour que l’on peut
accéder via HTTP.
Comme les autres TripleStore, Stardog supporte l’indexation de données sur des quads avec le graphe,
le sujet, le prédicat et l’objet. L’utilisateur peut configurer pour choisir ces indexes. Si la configuration
demande le moins de champs pour indexations, elle nous permet d’améliorer le temps de création de base
de données et aussi le temps de mise à jour sur les graphes de données. Par défaut Stardog crée un index
supplémentaire pour les graphes nommés. Ces indexes supplémentaires sont utilisés lorsque les requêtes
SPARQL précisent les ensembles de données pour utiliser “FROM” et “FROM NAMED”.
Stardog effectue un raisonnement d’une fa¸con paresseuse et late-binding. Il ne fait pas les matérialisations
des inférences basées sur l’avant-chaˆınage. Ici, le raisonnement est effectué au moment de la requête selon
un type de raisonnement spécifié par l’utilisateur. Cette approche permet une flexibilité maximale, tout
en maintenant une performance optimisée.
4.3.6 TripleStore GraphDB
GraphDB ontotext est un TripleStore commerciale comme Stardog et il existe dans plusieurs éditions
pour les utilisateurs. Dans notre cas, nous considérons l’édition de standard. Dans la théorie, GraphDB
Standard permet d’organiser les nombres de triplets RDF jusqu’à 10 billions de triplets dans un seul
serveur. Les triplets RDF peuvent être chargé et interrogés à une échelle simultanément.
Figure 4.6: Les composants dans l’architecture de GraphDB
GraphDB ontotext est développé sur la base
de la platforme d’Ontotext avec quelques fonc-
tions supplémentaires. Cependant le moteur
principale de ces platformes est OWLIM avec son
nom “OWLMemSchemaRepository SAIL em-
ballé for Sesame”. En général, l’OWLIM est
un dépôt sémantique de haute performance,
développé en Java et encapsulé comme une
couche de stockage et d’inférence (SAIL) pour
les base de données RDF dans Sesame. Il hérite
et utilise plusieurs fonctionnalités et l’infrastruc-
ture de Sesame, par exemple le modèle RDF, les
analyseurs RDF et les moteurs de requêtes. Les
inférences sont effectuées dans le moteur TRREE (Triple Reasoning and Rule Entailment Engine). En
détail, le TRREE fait les raisonnements basés sur l’avant-chaˆınage des règles d’implication via les patrons
38

de triplets RDF avec les variables, où les triplets explicités et inférés sont stockés dans des structures
de données hautement optimisées qui sont conservées dans la mémoire pour les inférences prochaines. A
côté, l’ORDI est un framework neutre de langage d’ontologie pour aider le développement d’application
d’ontologie. Ses principaux objectifs sont l’intégration de base de données et d’autres sources de données
structurées et le support aux raisonneurs hétérogènes.
L’OWLIM implémente l’interface de Sesame SAIL de sorte qu’il peut être intégré avec le reste du
framework Sesame, par exemple les moteurs de requêtes et de l’interface d’utilisateur web. Une application
utilisateur peut être désignée pour utiliser directement l’OWLIM à travers l’API Sesame SAIL ou via
les interfaces fonctionnelles niveau supérieur. Quand un dépôt OWLIM est exposé en utilisant le serveur
Sesame, l’utilisateur peut gérer le dépôt via l’application Sesame Workbench ou avec d’autres outils
intégrés à Sesame, par exemple l’éditeur d’ontologies Protégé.
4.4 Implémentation
Actuellement, des applications dans des systèmes distribués ou centralisés fournissent l’accès à des
fonctionnalités en générale et des données en particulier via le protocole HTTP. Cette méthode de commu-
nication est de plus en plus importante et devient une demande obligatoire dans l’architecture développée
de ces applications.
Figure 4.7: L’interface du système d’interaction avec les données RDF
Comme nous avons présenté au-dessus, toutes les bases de données RDF des platformes sont fournis
39

avec un point d’accès sur la base du protocole HTTP. Alors, une application est développée pour aider
à centraliser les interactions avec les bases de données dans des Platformes. Avec cette application, nous
pouvons faciliter des lancements de requêtes en langage SPARQL sur les bases de données RDF en
choisissant un lien qui fournit est par les TripleStores. Et bien sur, les utilisateur peuvent ajouter les
nouvelles liens pour connecter au point d’accès des bases de données RDF. Sur les exemples de point
d’accès de données, nous pouvons les voir dans l’Annexe C
4.5 Conclusion
La compréhension des structures des composantes de ces TripleStores nous permet de réaliser complètement
les opérations testées sur nos données RDF. En résumé, une comparaison des caractéristiques principales
de ces outils est citée dans la table 4.3. Il y a plusieurs différences entre les capacités de ces TripleS-
tores. Mais nous n’avons pas encore les bases stables pour confirmer quel TripleStrore convient avec nos
données.
Exigence Sesame 4Store Virtuoso Fuseki Stardog GraphDB
Open Source Oui Oui Oui/Non Oui Non Non
Édition gratuit Oui Oui Oui Oui Oui Oui
10 billion triplets Non Oui Oui Non Oui Oui
Clustering Non Oui Oui Non Oui Oui
SPARQL 1.0 Oui Oui Oui Oui Oui Oui
SPARQL 1.1 Partiel Partiel Partiel Oui Oui Oui
SPARQL update Oui Oui Non Oui Oui Oui
Support Oui Non Oui Oui Oui Oui
Événements Oui Non Oui Oui Non Oui
Raisonnement Faible Add-on Règles Règles OWL + Règles Règles
Contraintes Non Non Non Non Oui Non
Sécurité au niveau triplet Non Non Arrivant Non Non Non
Point d’acès Oui Oui Oui Oui Oui Oui
Live Backup Oui Oui Oui Oui Oui Oui
Embeddable Oui Oui Oui Oui Oui Oui
Tableau 4.3: Les comparaison de certaines fonctionnalités des différents TripleStores
Dans ce chapitre, les travaux pratiques pour installer ces outils sont effectués sur un serveur de l’INRA.
Des développements d’importation de données sont effectués pour avoir des premières expérimentations.
En détail, nous avons importé les données par les deux moyens : par utilisation de l’interface qui est
40

fourni de ces outils, et par l’utilisation des APIs disponibles pour créer, accéder, importer les données
dans ces platformes. Et bien sur, nous avons lancé les requêtes en langage SPARQL.
41

Chapitre 5
Expérimentation, Comparaison et
Analyse
5.1 Préparation des données et du Serveur
Avec environs 45 millions de triplets obtenus dans l’étape de transformation de données RDF decrite
dans le chapitre 3, nous avons divises cet ensemble de données en 5 groupes de 100.000 triplets, de 1
millions, de 10 millions, de 20 millions et de 40 millions de triplets. Les données des 4 premiers groupes
sont distinctes, tandis que le dernier groupe est une collection de toutes des données. Ces groupes vont
nous permettre d’expérimenter les performance des TripleStores présentés dans le chapitre précédent. Ici,
nous nous focalisons sur trois critères de performance : le chargement, les requêtes, les raisonnements.
Ces expérimentations ont été effectuées sur un Serveur de l’INRA avec comme système d’exploitation
Ubuntu Server. Ci-dessous, nous pouvons voir la configuration détaillée de ce système :
Processeur Intel(R) Xeon(R) CPU L5420 @ 2.50GHz
Front side bus 1333 MHz
Cache L2 12M
Mémoire vivre 32GB
Stockage 160GB
Tableau 5.1: La configuration du serveur expérimental
5.2 Benchmarking des platformes
5.2.1 Chargement de données
Avec les fichiers RDF volumineux générés, le test d’importation de données dans les TripleStore va
nous donner une vue particulière sur la performance de chargement de données. Chaque système a une
fa¸con particulière d’organiser l’indexation des données ce qui impacte le mécanisme de chargement des
42

données. Certains TripleStores permettent aux utilisateurs de paramétrer différentes configurations par
exemple les champs des index, l’ordre de priorité pour faire l’index, les mémoires maximales utilisé etc ..
Par ailleurs, il y a des systèmes qui ne peuvent pas charger directement de grands fichiers (par exemple
avec Sesame, Virtuoso). Dans ces cas, un système a été mis en place spécifiquement pour découper les
fichiers en taille plus réduite. D’autres systèmes comme Fuseki, Stardog et GraphDB fournissent des outils
facilitant le chargement de grands fichiers.
Figure 5.1: La comparaison du temps de chargement sur différents TripleStores
Nombre de triplets
TripleStore
Sesame 4Store Virtuoso Fuseki Stardog GraphDB
100,000 3,291 13 5,029 1,990 2,648 4,752
1,000,000 26,674 7,724 45,699 10,210 7,674 85,919
10,000,000 361,188 87,347 584,430 104,700 64,163 898,014
20,000,000 1,045,045 236,572 2,407,238 417,650 155,122 1,984,853
40,000,000 2,943,355 648,780 4,359,881 1,205,740 695,549 3,876,903
Tableau 5.2: La comparaison du temps de chargement sur différents TripleStores en millisecondes
Les résultats de benchmark sur le temps de chargement de données sont obtenus avec le meilleur
temps pour 4Store, tandis que le système Virtuoso est le plus lent. Nous pouvons l’expliquer grâce à
leurs différences sur la structure des index et le stockage de données. Chez Virtuoso, l’import de triplets
est réalisé dans des tables de RDBMS en utilisant le protocole ODBC, alors que dans le cas de 4Store
l’import ne nécessite pas de transformation car la structure de stockage est un arbre.
5.2.2 Recherche de données
La partie la plus importante dans un système de gestion de données est la performance des requêtes.
L’expérimentation des requêtes permet d’évaluer en détail un système. C’est pourquoi, nous avons mis
en place le deuxième benchmark pour tester la capacité de recherche des données dans ces systèmes.
Afin de s’assurer d’une égalité entre des systèmes interrogés, toutes des requêtes sont lancées via des
points d’accès disponibles dans tous les triplets. Nous avons définis plusieurs types de recherche pour
tester les cas possible.
43

L’exemple de requête numéro 1
Dans cette requête, on veut trouver les informations de l’image avec la date créée, le type de prise de
vue (à côté et en haut), et l’angle de la caméra. Pour limiter les résultats obtenus, nous avons utilisé un
filtrage sur l’angle de la caméra avec des valeurs supérieures à 300° ou inférieures à 100°.
1 PREFIX rdf: <http:// www.w3.org/1999/02/22-rdf -syntax -ns#>
2 PREFIX ia: <http://www.mistea.supagro.inra.fr/ontologies/2015/03/ imageAnnotation #>
3 SELECT ?Image ?Date ?ViewType ? hasCameraAngle WHERE {
4 ?Image rdf:type ia:Image .
5 ?Image ia:timeStamp ?Date .
6 ?Image ia: hasViewType ?ViewType.
7 ?Image ia: hasCameraAngle ? hasCameraAngle .
8 FILTER (? hasCameraAngle < 100 || ? hasCameraAngle >300)
9 }
Figure 5.2: L’exemple de requête numéro 1
Figure 5.3: L’evaluation de la requête numéro 1 sous forme de courbe graphique
Nombre de triplets
TripleStore
100,000 1,215 930 1,267 1,334 1,165 1,141
1,000,000 2,046 1,019 5,552 3,830 2,306 1,962
10,000,000 22,392 2,109 50,230 37,905 25,316 2,324
20,000,000 83,001 3,356 151,629 57,839 22,715 69,776
40,000,000 104,444 5,836 153,385 126,860 60,968 154,858
Tableau 5.3: L’evaluation de la requête numéro 1 (temps en millisecondes)
Pour cette requête, le meilleur résultat est obtenu avec 4Store alors que le moins performant est
Virtuoso. La différente du temps d’exécution entre les systèmes est très grande. En général, les systèmes
ont un temps d’augmentation linéaire sur l’ensemble des jeux de données. En particulier, pour des jeux
de données de petites tailles (100.000 triplets et 1 millions de triplets), le temps d’exécution des systèmes
n’est pas très différent mais il est significatif avec des jeux de données très grands.
44

La deuxième requête est construite sur la base de la première avec une partie additionnelle sur l’ar-
rangement des données obtenues sur le champ de l’angle du caméra et la date créée de l’image. Cette
requête nous permet de tester la capacité de recherche de données et l’arrangement de données avec la
commande ORDER BY.
3 SELECT ?Image ?Date ?ViewType ? hasCameraAngle WHERE {
5 ?Image ia:timeStamp ?Date .
6 ?Image ia: hasViewType ?ViewType.
8 FILTER (? hasCameraAngle < 100 || ? hasCameraAngle >300)
9 }
10 ORDER BY ? hasCameraAngle ?Date
Figure 5.4: L’exemple de requêtes numéro 2
Nombre de triplets
TripleStore
100,000 1,433 1,018 1,381 1,557 1,228 1,497
1,000,000 3,549 3,733 4,621 5,961 2,676 2,967
10,000,000 46,563 45,622 7,6373 62,134 34,671 41,087
20,000,000 108,824 68,844 252,532 69,103 27,913 86,922
40,000,000 127,654 109,274 312,421 171,694 79,169 191,211
Dans ce cas, il n’y a pas de changement dans le classement pour Virtuoso qui a encore pris beaucoup
de temps pour réaliser cette requête. Néanmoins, l’outil qui a donné le meilleur résultat dans ce cas
est Stardog. Comme la requête précédente, les systèmes répondent tous très bien sur des petits jeux de
45

données. Avec des outils 4Store, Sesame, Fuseki et GraphDB, le temps d’exécution est assez proche. Cela
peut s’expliquer car ils ont tous une organisation de données sous forme d’arbre alors que Virtuoso les
stockent dans des tables relationnelles.
Cette requête teste la capacité de recherche des données d’image avec la date créés et l’angle de la
caméra en associant plusieurs patterns différents grâce à la commande UNION. Cela permet d’élargir les
résultats obtenus a d’autres graphes ou des valeurs différentes.
2 SELECT ?Image ?Date ? hasCameraAngle WHERE {
3 {
4 ?Image rdf:type ia:Image . ?Image ia: hasCameraAngle ? hasCameraAngle .
5 FILTER (? hasCameraAngle < 100)
6 } UNION {
7 ?Image rdf:type ia:Image . ?Image ia: hasCameraAngle ? hasCameraAngle .
8 FILTER (? hasCameraAngle > 200)
9 }
10 }
Figure 5.6: L’exemple de requête numéro 3
Nombre de triplets
TripleStore
100,000 1,472 946 1,279 1,398 1,184 1,261
1,000,000 3,376 1,187 3,472 4,297 2,400 3,141
10,000,000 34,376 3,512 55,702 42,020 33,374 36,169
20,000,000 72,014 5,548 15,113 65,627 26,765 81,045
40,000,000 149,574 11,407 77,747 148,608 71,726 186,391
Dans cette requête, 4Store est le meilleur outil car le plus rapide dans l’exécution des requêtes. Au
46

contraire, GraphDB est l’outil qui sera le plus long dans l’exécution suivie de peu par Sesame et Fuseki.
Nous pouvons voir également qu’il y une irrégularité dans la vitesse d’exécution sur les deux ensembles
de données 10 et 20 millions de triplets clairement illustré avec Virtuoso et Stardog. Cette différence
s’explique par le fait qu’il y a deux ensembles de données distincts dans l’évaluation.
Dans le dernière requête, nous avons compté le nombre de triplets dans les systèmes par utiliser la
commande COUNT. Nous avons utilisé un filtrage sur le type de vue et l’angle du caméra pour limiter
des nombres triplets dans le résultat.
3 SELECT (count (? Image) as ?ima) WHERE{
5 ?Image ia: hasViewType ? hasViewType .
7 FILTER (? hasViewType = "side" || ?hasViewType = "Side" && ? hasCameraAngle > 200 )
8 }
Figure 5.8: L’exemple de troisième requêtes
Nombre de triplets
TripleStore
100,000 1,114 951 994 1,068 970 1,065
1,000,000 2,273 1,307 1,550 2,186 1,115 1,224
10,000,000 18,558 -1,0 7,765 10,633 21,994 12,419
20,000,000 36,237 -1,0 18,281 43,402 4,003 24,986
40,000,000 73,750 -1,0 32,413 82,783 8,479 58,806
Il y a une erreur sur l’exécution de l’outil 4Store avec les jeux de données supérieurs à 10 millions
47

de triplets. Nous avons indiqué la valeur -1.0 pour signaler cette erreur. Le meilleur outil dans cette
évaluation est Stardog au contraire de Virtuoso qui obtient le plus long temps d’exécution.
5.2.3 Inférence sur les données
Dans cette section nous souhaitons évaluer la capacité d’inférence et de raisonnement des différents
Triplestores. Nous utilisons une ontologie développée spécifiquement par l’équipe INRA pour gérer les
données d’image.
Les inférences sont définies au niveau général pour que nous puissions les lancer dans tous les TripleS-
tores. En effet, il y a des différences dans le support de la capacité des outils (Le tableau 4.3). Par exemple,
4Store n’integre pas de moteur d’inférence par défaut mais nécessite d’installer un module étendu 4sr1
.
Certains TripleStores soutiennent seulement les inférences au niveau RDFS comme 4Store et Sesame. Les
autres soutiennent les inférences au niveau RDFS et OWL comme Stardog, GraphDB, et Virtuoso. Dans
notre benchmark, nous utiliserons deux types de raisonnement pour distinguer la capacité d’inférence des
TripleStore.
Première exemple d’inférence
Cet exemple a été réalisé pour évaluer le raisonnement sur les relations des propriétés qui sont définies
dans RDFS. Ici, la relation “rdfs :subPropertyOf ” est utilisée pour montrer les deux propriétés “comes-
FromPlateau” et “hasSource”. Ainsi, la requête sur l’object “Data” peut inférer des nouvelles données
dans “Image” et aussi les données “TechicalPlateau” peuvent être trouvées par l’objet “Source”.
Figure 5.10: Les relations inférées sur l’ontologie dans le premier exemple
1 PREFIX : <http://www.mistea.supagro.inra.fr/ontologies/2015/03/ imageAnnotation #>
2 SELECT ?data ?source ?hasViewType WHERE {
3 ?data :hasSource ?source .
4 ?data :hasViewType ?hasViewType .
5 FILTER regex (? hasViewType , "side","i")
6 }
Figure 5.11: La requête du première exemple d’inférence
Puisque les résultats obtenus dans ces exemples d’inférences sont très différents entre les TripleStores,
nous avons utilisé une fonction logarithmique pour illustrer les valeurs du temps d’exécution. En général,
nous avons de bons résultats avec des ensembles de données de petites tailles dans tous les TripleStores
1https ://github.com/msalvadores/4sr/wiki
48

Figure 5.12: Le temps d’exécution de la première inférence sous forme de graphique
Nombre de triplets
TripleStore
100,000 2,137 3,510 2,467 5,914 1,017 1,967
1,000,000 7,171 38,569 2,960 56,845 14,701 4,735
10,000,000 71,985 10,384,120 27,109 657,830 134,716 35,378
20,000,000 126,246 17,160,243 62,054 1,100,466 379,949 52,208
40,000,000 229,328 53,684,948 81,083 33,644,938 611,286 73,099
Tableau 5.7: L’evaluation de la première inférence (temps en millisecondes)
mais les différences sur la performance se creusent avec les ensembles de triplets volumineux. Dans ce
cas, les résultats en détail montrent que 4Store et Jena Fuseki sont les plus lents pour réaliser l’inférence.
Au contraire, les TripleStores GraphDB et Virutoso donnent les meilleurs temps d’exécution.
Figure 5.13: Les relations inférées sur l’ontologie dans le deuxième
exemple d’inférence
Requête du deuxième exemple
Dans cet exemple, nous avons continué
à tester la capacité d’inférence au
niveau RDFS sur le domaine et le
range des valeurs des objets. En fait,
cette inférence utilise la relation que
nous définissons comme dans le pre-
mier exemple. Néanmoins, le point im-
portant de cette inférence est basé sur
des données particulières. Nous pouvons
le voir en détail dans la figure 5.13
49

2 PREFIX : <http://www.mistea.supagro.inra.fr/ontologies/2015/03/ imageAnnotation #>
3 SELECT ?image ?Source ?hasViewType WHERE {
4 ?image :hasSource ?Source .
5 ?image rdf:type :Image .
6 ?image :hasViewType ? hasViewType .
7 FILTER (? Source =" http://www.phenome -fppn.fr/m3p/phenoarch ") .
8 FILTER REGEX (? hasViewType , "top","i")
9 }
Figure 5.14: L’exemple de la deuxième inférence
Figure 5.15: Le temps d’exécution de la deuxième inférence sous forme de graphique
Nombre de triplets
TripleStore
100,000 2,479 3,193 17,713 5,619 989 2,497
1,000,000 8,215 11,483 18,178 56,960 1,923 3,308
10,000,000 71,829 4,578,915 15,632 648,863 13,198 23,359
20,000,000 123,991 15,195,516 37,506 1,044,958 20,723 38,792
40,000,000 216,465 39,261,745 43,957 29,045,934 51,223 63,312
Tableau 5.8: L’evaluation de la deuxième inférence (temps en millisecondes)
50

Cet exemple nous permet de confirmer que les deux TripleStore 4Store et Jena Fuseki sont très lents
pour executer les inférences sur des données volumineuses. Les trois TripleStore Stardog, GraphDB et
Virtuoso obtiennent de bons temps d’exécution. Sesame dans les deux inférences obtient des résultats
moins bon mais très correct pour un système de gestions de base de données de triplets OpenSource.
Dans certains cas, il donne des résultats meilleurs que les TripleStores commerciaux.
5.3 Evaluation et Analyse
L’évaluation des TripleStores donne une vue générale sur la capacité d’exécution et la performance de
ces systèmes. Chaque système a des différences dans l’organisation et dans l’indexation des triplets, par
exemple Virtuoso utilise des tables relationnelles, 4Store utilise la structure de l’arbre radix, tandis que
Sesame, Jena Fuseki et GraphDB appliquent la structure de l’arbre B ou B+ [20] [21]. Ces différences sont
des éléments importants qui impactent sur leurs performances. Néanmoins, nous devons aussi considérer
les fonctionnalités supports nécessaires pour un système de gestion de base de données de triplets. La
fonctionnalité la plus importante est la capacité de raisonnement sur les données au niveau RDFS ou
OWL. De plus, avec les bases de données sur de gros volumes, la distribution des processus sur plusieurs
machines, peut faciliter le raisonnement sur de grands graphes de données RDF. Dans ce contexte, les
TripleStores ont besoin de soutenir le regroupement les bases de données reparties sur un réseau de
plusieurs machines pour communiquer et échanger les données [22] [23] [24] [25]. Ci-dessus, nous évaluons
les trois critères les plus importants pour un système de gestion de base de données triplets : Chargement
de données, Recherche de données et Inférence de données.
Avec 4Store, les avantages de l’indexation de données, selon l’arbre radix nous fournissent un bon outil
pour les opérations de chargement et recherche de données. Il est toujours un des meilleurs outils avec le
temps d’exécution le plus rapide. De plus, l’architecture de 4Store permet de faire le regroupement les
données distribuée et d’utiliser dans plusieurs machines dans un même temps. Toutefois, la fonction de
recherche dans 4Store est encore perfectible, nous pouvons constater qu’il a des erreurs dans quelques cas
(dans l’exemple de recherche numéro 4). De plus, l’interface d’interaction a plusieurs limitations. Mais
plus grand inconvénient est le support de la fonctionnalité de raisonnement. En réalité, le moteur de
raisonnement est un module étendu nommé 4sr qui est une branche du projet 4Store mise en œuvre pour
faire le raisonnement arrière pour 4Store. Ce module supporte une capacité d’inférence très faible avec
les relations : rdfs :subClassOf, rdfs :subPropertyOf, rdfs :domain et rdfs :range dans RDFS. Le choix de
4Store pour construire le système avec de gros volume de données dépendra du besoin en raisonnement.
S’il n’y a pas besoin d’inférer sur les données, 4Store est peut-être le bon choix.
Sesame est l’un des deux premiers outils qui est mis en œuvre pour gérer les données RDF. Avec
cet outil, les résultats restent moyens dans les benchmarks sur le chargement, la recherche et l’inférence
de données. Ces résultats sont acceptables pour un outil Opensource. Toutefois, Sesame possède des
inconvénients dans la gestion de données volumineuses. Tout d’abord, il ne peux pas être déployé en
cluster de machines avec un grand graphe reparti, mais plutôt permet que de créer un base de données
fédéré avec des graphes qui sont complètement séparées. Ensuite, la modele de données en RDF natif dans
Sesame est optimise pour les jeux de données de taille moyenne. Ses limites en termes d’utilisabilité sont
51

autour de 100 à 150 millions de triplets2
(Cela dépend beaucoup du matériel ainsi que des caractéristiques
de l’ensemble de données). Enfin, le mécanisme d’inférence de Sesame crée beaucoup de nouveaux triplets
et cela augmente la taille de la base de données. Ceci est gérable pour des graphes de taille moyenne mais
atteint ses limites pour des grands graphes.
Le Virtuoso est uniquement construit sur la base de l’architecture du système de gestion bases de
données relationnelles. Ceci peut expliquer ses mauvais de résultats sur les temps d’exécution de charge-
ment de données et quelques exemples de recherches. Par contre, Virtuoso a des avantages dans la capacité
d’inférence de données. Il peut effectuer des raisonnements avec les données définies par le RDFS ou OWL.
Dans les Triplestores évalués, Virtuoso est le meilleur outil Opensource qui soutient complètement des
composants essentiels d’un système de gestion de base de données, comme les transactions de l’ACID, la
sécurité ou l’interface d’interaction pour l’utilisateur etc. De plus, il nous permet de mettre en œuvre un
système avec un fort support de raisonnement. Enfin Virtuoso permet de déployer les bases de données
sur plusieurs clusters de machines. Toutefois, cette fonctionnalité n’est supportée que dans la version
commerciale.
L’outil Jena Fuseki est développé sur la base du framework Jena. Il apporte les caractéristiques du
premier framework qui est construit pour les données RDF. Notre benchmark est effectué avec le stockage
selon l’architecture de Jena TDB et l’indexation utilise la structure de l’arbre B+. Dans les évaluations,
Jena montre de bons résultats dans le chargement de données. Toutefois, la recherche de données et les
inférences avec Jena Fuseki ont toujours pris beaucoup de temps d’exécution. Aujourd’hui, Jena peut
fonctionner sur un cluster de plusieurs machines selon différentes architectures. Voir quelques exemples
définis dans cet article [20]. D’ailleurs, Jena fournit des APIs (Apache Jena Elephas) qui permettent
d’écrire des applications intégré dans Apache Hadoop. D’après les résultats nous pouvons dire que Jena
Fuseki convient pour des bases de données RDF de taille moyenne.
Le GraphDB Ontotext est construit à partir du framework Sesame dans le but de fournir des ca-
ractéristiques manquantes à ce dernier. Les améliorations de GraphDB se focalisent sur la capacité de
raisonnement, l’interface utilisateur et l’architecture cluster de données. Dans presque tous les cas des
évaluations, nous pouvons voir que GraphDB donne un temps d’exécution plus performant que Sesame no-
tamment dans la recherche de données et les inférences. En fait, il y a moins différence dans le mécanisme
d’indexation de GraphDB et Sesame ce qui explique la faible différence dans le temps d’exécution. Avec
son moteur d’inference, GraphDB soutient des raisonnements au niveau RDFS et OWL. Grace à la ver-
sion entreprise de GraphDB (que nous avons testé pour un mois), il est possible de gérer de gros volumes
données RDF.
Le dernier outil dans notre évaluation est Stardog. Cet outil donne des résultats impressionnants sur
les trois critères comparées : Chargement de données, Recherche de données et Inférence de données. Il
est toujours dans les meilleurs outils qui sont les plus performants. Pour le raisonnement, il supporte
des inférences dans RDFS et OWL. De plus il est permet de créer des clusters de au niveau haut de
performance. Nous pouvons dire que Stardog est le meilleur outil dans la liste de tous les outils de notre
Benchmark.
2http ://www.rivuli-development.com/further-reading/sesame-cookbook/loading-large-file-in-sesame-native/
52

Conclusion
L’organisation et la gestion de données scientifiques sont de plus en plus importantes dans le processus
de réalisation des études biologiques. La recherche d’une méthode de gestion de données peut aider à les
utiliser et à les exploiter de la meilleure fa¸con dans le but d’économiser du temps et aussi d’augmenter
la performance des systèmes de gestion. Le problème que nous avons rencontré au cours de ce stage est
la taille de ces données. Les méthodes ordinaires ne permettent pas de gérer ces données correctement.
De plus, le besoin d’utiliser la sémantique dans la recherche et l’utilisation des données nous oblige à
trouver une méthode d’organisation adaptée. Compte tenu de ces deux problématiques, l’état de l’art,
dans le chapitre 2 de ce rapport, nous fournit une vue générale des solutions possibles. En fait, chaque
solution décrite est l’association d’une ou de plusieurs méthodes différentes. En général, nous pouvons
résumer ces solutions en deux directions : la transformation des requêtes (ou ré-écriture ), la transfor-
mation des données en triplets RDF (ou matérialisation). Chaque direction contient des avantages et des
inconvénients particuliers. Au cours de ce stage, nous avons fait le choix de la matérialisation de données
en RDF. Ce choix nous a permis de faciliter la recherche sémantique sur les données. Accompagnant
ce choix, nous avons dû définir de nouveaux modèles des données dans une forme unifiée pour trans-
former des données expérimentales en RDF. Pour ce faire, un programme a été écrit pour transformer
des données sous la forme de documents JSON stockés dans MongoDB en triplets RDF. Afin de gérer
ces grands graphes de triplets de manière optimale, nous avons évalué plusieurs systèmes de gestion de
bases de données de triplets RDF. Les TripleStores 4Store, Sesame, Virtuoso, Jena Fuseki, GraphDB et
Stardog ont été choisis pour réaliser un benchmark sur différents critères : les capacités de chargement de
données, de recherche de données et d’inférence de données. Ce benchmark n’est pas exhaustif, il manque
en effet quelques systèmes comme AllegroGraph, BlazeGraph etc. Néanmoins, dans les résultats obtenus,
nous pouvons voir une différence entre deux groupes : Open source (4Store, Sesame, Jena Fuseki) et Com-
mercial (GraphDB, Stardog, Virtuoso). En général, la performance du groupe commercial est meilleure.
Particulièrement Stardog qui obtient de bons résultats dans presque touts les critères comparés. Cela est
bien-sur du au fait que ces systèmes sont développés par des sociétés spécialisés au lieu d’un communauté
académique dans les système Open Source.
L’approche de matérialisation de données en triplets RDF convient pour augmenter la capacité de re-
cherche sémantique sur les données. Plus précisément, au niveau des inférences de nouvelles connaissances
basés sur des ontologies qui sont automatiquement réalisées dans triplestores. Toutefois, cette approche
possède encore des inconvénients notamment sur la gestion de données volumineuses, car jusqu’à présent
seuls certains triplestores peuvent supporter de gros volumes de données de manière équivalente aux
systèmes NoSQL. Nous pensons que dans le futur, les travaux sur les approches de transformation de
53

requêtes (NoSQL-SPARQL) pourront nous aider à comparer des avantages et des désavantages de ces
deux approches.
54

Références
[1] L. LE Ngoc, “Développement d’un système de gestion de données de phénotypage chez le riz
(o.sativa),” Cours : Travail Personnel Encardré, Institut de la Francophonie pour l’Informatique,
2014.
[2] A. Shiri, “Linked data meets big data : A knowledge organization systems perspective,” pp. 16–20,
2014.
[3] L. LE Ngoc, S. JOUNANIC, P. GANTET, and P. LARMANDE, “Développement d’un ou-
til génétique d’indexation pour optimiser l’exploitation des données biologiques,” JOBIM 2015,
Journées Ouvertes en Biologie, Informatique et Mathématiques, 2015.
[4] Laney, “3d data management : Controlling data volume, velocity, and variety,”
http ://blogs.gartner.com/doug-laney/files/2012/01/ad949- 3D-Data-Management-Controlling-
Data-Volume-Velocity-and- Variety.pdf, 2011.
[5] V. Rometty, “Extracting value from chaos,” IDC Analyze the Future, no. 42, p. P.4, 2013.
[6] CNRS, “The big data révolution,” Le Journal, no. 28, 2013.
[7] T. Berners-Lee, ““the semantic web”, scientific american magazine,” 2001.
[8] T. Berners-Lee, Fischetti, and Mark, “Weaving the web,” 1999.
[9] C. End Point, “Benchmarking top nosql databases : Apache cassandra, couchbase, hbase, and mon-
godb,” 2015.
[10] M. Rodriguez-Muro, R. Kontchakov, and M. Zakharyaschev, “Ontology-based data access ontop of
database,” The Semantic Web - ISWC 2013, vol. 8218 of the series Lecture Notes in Computer
Science, pp. 558–573, 2013.
[11] T. Bagosi, D. Calvanese, J. Hardi, and S. Komla-Ebri, “The ontop framework for ontology based data
access,” The Semantic Web and Web Science - ISWC 2014, vol. 480 of the series Communications
in Computer and Information Science, pp. 67–77, 2014.
[12] M. Rodriguez-muro, D. Rezk, M. Slusnys, T. Bagosi, and D. Calvanese, “Evaluating sparql-to-sql
translation in ontop,” CEUR Workshop Proceedings, vol. 1015, p. 94–100, 2013.
[13] S. Das, S. Sundara, and R. Cyganiak, “R2rml : Rdb to rdf mapping language,” 2012.
55

[14] F. Michel, L. Djimenou, C. Faron-Zucker, and J. Montagnat, “R2rml : Relational and non-relational
databases to rdf mapping language,” https ://hal.archives-ouvertes.fr/hal-01066663v3, 2014.
[15] A. Dimou, M. Vander Sande, P. Colpaert, R. Verborgh, E. Mannens, and R. Van de Walle, “Rml : A
generic language for integrated rdf mappings of heterogeneous data,” Proceedings of the 7th Workshop
on Linked Data on the Web (LDOW2014), 2014.
[16] J. Van Ossenbruggen, R. Troncy, G. Stamou, and J. Pan, “Image : Annotation on the semantic web,”
W3C Incubator Group Report, 2007.
[17] M. SIVERA, “Rapport de stage : Annotation s´emantique d’images,” 2015.
[18] S. Harris, N. Lamb, and N. Shadbolt, “4store : The design and implementation of a clustered
rdf store,” The 5th International Workshop onScalable Semantic Web Knowledge BaseSystems
(SSWS2009), 2009.
[19] D. Morrison, “Practical algorithm to retrieve information coded in alphanumeric,” Journal of the
ACM (JACM), vol. 15, pp. 514–534, 1968.
[20] A. Owens, A. Seaborne, and N. Gibbins, “Clustered tdb : A clustered triple store for jena,” 2009.
[21] M. Hepp, P. De Leenheer, A. De Moor, and Y. Sure, Ontology Management : Semantic Web, Semantic
Web Services and Business Applications, ch. 4 : Ontology Reasoning with large data repositories,
p. 92. Springer, 2008.
[22] I. Filali, F. Bongiovanni, F. Huet, and F. Baude, “A survey of structured p2p system for rdf data sto-
rage and retrieval,” Transactions on Large-Scale Data and Knowledge Centered Systems III, pp. 20–
55, 2011.
[23] N. Papailiou, I. Konstantinou, D. Tsoumakos, P. Karras, and N. Kowiris, “H2rdf+ : High-
performance distributed joins over large-scale rdf graphs,” Big Data, 2013 IEEE International Confe-
rence on, pp. 255–263, 2013.
[24] R. Punnoose, A. Crainiceanu, and D. Rapp, “Rya : A scalable rdf triple store for the clouds,”
Proceedings of the 1st International Workshop on Cloud Intelligence, pp. 4 :1–4 :8, 2012.
[25] B. Wu, Y. Zhou, P. Yuan, H. Jin, and L. Liu, “Semstore : A semantic-preserving distributed rdf
triple store,” Proceedings of the 23rd ACM International Conference on Conference on Information
and Knowledge Management, pp. 509–518, 2014.
56

Annexe A
Modèle de document JSON
Dans la liste ci-dessous, ce sont des documents du modèle JSON qui sont définis pour servir le but
de transformation de base de données relationnelles aux des documents JSON qui vont être stockés dans
MongoDB.
Le Modèle JSON pour le profil du Caméra qui va être stocké des informations de configurations, de
descriptions et de réglages du caméra :
1 ImageCameraProfile {
5 " imgacqcameraprofileid " : int,
6 " imgacqcameraprofilename " : string,
7 " validatedProfile " : boolean,
8 " deletedProfile " : boolean,
9 " interfaceacqtype " : int
10 },
11 " description " : string,
12 "settings" :{
13 "viewType" : string,
14 "viewCount" : int,
15 "width" : int,
16 "height" : int,
17 "triggerMode " : int,
18 "shutter" : int,
19 "gain" : int,
20 "brightness" : int,
21 "hue" : int,
22 "gamma" : int,
23 "saturation" : int,
24 "sharpness" : int,
25 " whiteBalance " : int,
26 "pixelFormat " : string
27 }
28 }
Le document JSON pour le profil de la cabine qui va être stocké des informations de configurations, de
descriptions et de réglages de la cabine :
1 ImageStationProfile
2 {
A.1

6 " imgacqstationprofileid " : int,
7 " imgacqstationprofilename " : string,
8 " validatedProfile " : boolean,
9 " deletedProfile " : boolean,
10 " interfaceacqtype " : int
11 },
12 " description " : string,
13 "settings" :{
14 " verticalPosition " : int,
15 "topLight" : int,
16 "sideLight" : int,
17 "zoom" : int,
18 "focus" : int,
19 "aperture" : int,
20 " rotationSpeed " : long,
21 " topViewCount " : int,
22 " sideViewCount " : int
23 }
24
25 }
Le document JSON de donn´ees du processus d’arrosage.
1 Watering{
2 "plant" : URI,
3 "plantAlias" : string,
4 "genotype" : URI,
5 " genotypeAlias " : string,
6 "experiment" : URI,
7 " experimentAlias " : string,
8 "study" : URI,
9 "studyAlias" : string,
10 "platform" : "http:// www.phenome -fppn.fr/m3p/",
11 " technicalPlateau " : "http:// www.phenome -fppn.fr/m3p/",
12 "timestamp" : int,
13 "date" : date,
16 "wateringid" : int,
17 "plantid" : int,
18 "studyname" : string,
19 "taskid" : int,
20 "calibration " : int,
22 "usedscaleid " : int,
23 "usedpumpid" : int,
24 " nextLocation " : {
25 "lane" : int,
26 "rank" : int,
27 "level" : int,
28 }
29 },
30 " automatonSuccess " : boolean,
31 " userValidation " : boolean,
32 "setpoints" : {
33 "product" : string,
34 "scaleType" : string,
35 "pumpType" : string,
36 " targetWeight " : int,
A.2

37 " targetQuantity " : int,
38 "pumpSpeed" : int,
39 "maxQuantity " : int,
40 "minWeight" : int,
41 "movePerch" : boolean,
42 },
43 "product" : string,
44 "scaleType" : string,
45 "pumpType" : string,
46 "pumpSpeed" : int,
47 "measures" : {
48 " weightBefore " : {
49 "value" : int,
50 "unity" : string,
51 "type" : "automatic",
52 "confidence" : "unspecified "
53 },
54 "weightAfter " : {
55 "value" : int,
57 "type" : "automatic",
59 },
60 " weightAmount " : {
61 "value" : int, -- weightAfter - weightBefore
63 "type" : "computed",
65 }
66 }
67 }
Le document JSON de donn´ees du processus de pess´ees
1 Weighing{
2 platform: string URI,
3 technicalPlateau : URI,
4 experiment: URI,
5 experimentAlias : string,
6 study: string,
7 studyAlias: string,
8 plant: URI,
9 plantAlias: string,
10 genotype: URI,
11 genotypeAlias : string,
12 date: date,
13 timestamp: int, --seconds
14 configurations :{
15 provider: " phenowaredb "
16 weighingid: objectid,
17 studyname: string,
18 taskid: objecid,
19 plantid: integer,
20 usedstationid : int,
21 usedscaleid: int,
22 nextLocation :{
23 lane: integer,
24 rank: integer,
25 level: integer
26 }
27 }
A.3

28 automatonSuccess : boolean,
29 userValidation : boolean,
30 setpoints:{
31 scaleType: string,
32 }
33 scaleType: string,
34 weighingType : string,
35 measures:{
36 weightBefore :{
37 value: int,
38 unity: string,
39 type: "automatic",
40 confidence: string
41 }
42 weightAfter:{
43 value: int,
44 unity: string,
45 type: "automatic",
47 }
48 weight:{
49 value: int, --absolute (weightafter - weightbefore )
50 unity: string,
51 type: "computed",
53 }
54 }
55 }
A.4

Annexe B
Mappage de données JSON aux
triplets par xR2RML
Le mappage de document JSON aux triplets de la collection de profil du caméra
5 @prefix xsd: <http:// www.w3.org/2001/XMLSchema#> .
6 @prefix rdfs: <http://www.w3.org/2000/01/rdf -schema#> .
7 @prefix rdf: <http:// www.w3.org/1999/02/22-rdf -syntax -ns#> .
9 @prefix ia: <http:// www.mistea.supagro.inra.fr/ontologies/2015/03/ imageAnnotation #> .
10 <#StationProfile >
11 a rr:TriplesMap;
13 xrr:query """db. stationprofile .find( { ’_id ’ : {$exists:true} } )""";
14 ];
15 rr:subjectMap [
17 rr:class ia: AcquisitionStationProfile ;
18 ];
20 rr:predicate ia: acquisitionStationProfileName ;
21 rr:objectMap [ xrr:reference "$. configuration . imgacqstationprofilename "; ];
22 ];
24 rr:predicate ia: acquisitionStationProfileDescription ;
25 rr:objectMap [ xrr:reference "$.description "; ];
26 ];
28 rr:predicate ia: isProfileOfStation ;
29 rr:objectMap [ xrr:reference "$. configuration .stationid "; ];
30 ];
32 rr:predicate ia:indexer;
33 rr:objectMap [ xrr:reference "$.settings. verticalPosition "; ];
34 ];
36 rr:predicate ia:topLight;
37 rr:objectMap [ xrr:reference "$.settings.topLight "; ];
38 ];
B.5

40 rr:predicate ia:sideLight;
41 rr:objectMap [ xrr:reference "$.settings.sideLight "; ];
42 ];
44 rr:predicate ia:focus;
45 rr:objectMap [ xrr:reference "$.settings.focus "; ];
46 ];
48 rr:predicate ia:zoom;
49 rr:objectMap [ xrr:reference "$.settings.zoom "; ];
50 ];
52 rr:predicate ia:aperture;
53 rr:objectMap [ xrr:reference "$.settings.aperture "; ];
54 ];
56 rr:predicate ia: rotationSpeed ;
57 rr:objectMap [ xrr:reference "$.settings. rotationSpeed "; ];
58 ];
60 rr:predicate ia: topViewCount ;
61 rr:objectMap [ xrr:reference "$.settings. topViewCount "; ];
62 ];
64 rr:predicate ia: sideViewCount ;
65 rr:objectMap [ xrr:reference "$.settings. sideViewCount "; ];
66 ].
Le mappage de document JSON aux triplets de la collection de proﬁl de la cabine
5 @prefix xsd: <http:// www.w3.org/2001/XMLSchema#> .
6 @prefix rdfs: <http://www.w3.org/2000/01/rdf -schema#> .
7 @prefix rdf: <http:// www.w3.org/1999/02/22-rdf -syntax -ns#> .
9 @prefix ia: <http:// www.mistea.supagro.inra.fr/ontologies/2015/03/ imageAnnotation #> .
10 <#CameraProfile >
11 a rr:TriplesMap;
13 xrr:query """db. cameraprofile .find( { ’_id ’ : {$exists:true} } )""";
14 ];
15 rr:subjectMap [
17 rr:class ia: CameraProfile ;
18 ];
20 rr:predicate ia: whiteBalance ;
21 rr:objectMap [ xrr:reference "$.settings. whiteBalance "; ];
22 ];
24 rr:predicate ia:brightness;
25 rr:objectMap [ xrr:reference "$.settings.brightness "; ];
26 ];
28 rr:predicate ia: cameraProfileDescription ;
29 rr:objectMap [ xrr:reference "$.description "; ];
30 ];
B.6

32 rr:predicate ia:gain;
33 rr:objectMap [ xrr:reference "$.settings.gain "; ];
34 ];
36 rr:predicate ia:gamma;
37 rr:objectMap [ xrr:reference "$.settings.gamma "; ];
38 ];
40 rr:predicate ia:hue;
41 rr:objectMap [ xrr:reference "$.settings.hue"; ];
42 ];
44 rr:predicate ia:pixelFormat ;
45 rr:objectMap [ xrr:reference "$.settings.pixelFormat "; ];
46 ];
48 rr:predicate ia:saturation;
49 rr:objectMap [ xrr:reference "$.settings.saturation "; ];
50 ];
52 rr:predicate ia:sharpness;
53 rr:objectMap [ xrr:reference "$.settings.sharpness "; ];
54 ];
56 rr:predicate ia:shutter;
57 rr:objectMap [ xrr:reference "$.settings.shutter "; ];
58 ];
60 rr:predicate ia:triggerMode ;
61 rr:objectMap [ xrr:reference "$.settings.triggerMode "; ];
62 ];
64 rr:predicate ia:viewCount;
65 rr:objectMap [ xrr:reference "$.settings.viewCount "; ];
66 ];
68 rr:predicate ia:viewType;
69 rr:objectMap [ xrr:reference "$.settings.viewType "; ];
70 ];
72 rr:predicate ia:width;
73 rr:objectMap [ xrr:reference "$.settings.width "; ];
74 ];
76 rr:predicate ia:height;
77 rr:objectMap [ xrr:reference "$.settings.height "; ];
78 ].
B.7

Annexe C
Point d’accès
La table suivante cite des point d’accès via protocole HTTP pour accéder des données RDF
TripleStore Point d’accès
Sesame http ://147.99.7.154 :8080/openrdf-sesame/repositories/phis40mnative
4Store http ://147.99.7.154 :9000/sparql/ ?soft-limit=-1
Virtuoso http ://147.99.7.154 :8890/sparql
Fuseki http ://147.99.7.154 :3030/phis40m/query
Stardog http ://147.99.7.154 :5820/phis40m/query
GraphDB http ://147.99.7.154 :8080/graphdb-workbench-se/repositories/ontotextphis40m
Tableau C.1: Les exemples de point d’accès de TripleStore
C.8

thesis

Contenu connexe

Similaire à thesis

Plus de LE Ngoc Luyen

thesis