Acfas 2013 - Comment publier sur le web sémantique : la méthode de Bio2RDF
1. Contexte
Avec la prolifération des bases de données publiques disponibles dans le domaine de la biologie moléculaire et de la
génétique, l’intégration des données en bio-informatique est un problème fondamental. Malgré de nombreuses initiatives
visant la création de bases de données intégrées des instituts internationaux tel que le NCBI américain, l’EBI européen et
l’institut KEGG au Japon, l’espace de données actuels reste composé de silos indépendants.
Depuis 2006 le projet Bio2RDF [http://bio2rdf.org] hébergé au Centre de recherche du CHUQ, a pour mission de rendre
disponible à la communauté des chercheurs en sciences de la vie, un sous-ensemble des données publiques des
domaines de la biologie moléculaire, de la génétique et de la médecin selon les principes du web sémantique énoncés par
le W3C. Cette contribution au web de données (Linked Data) a obtenu une reconnaissance internationale est s’est avérée
être un modèle qui a inspiré de nombreux autres projets de diffusion des connaissances en bio-informatique.
Comment produire, publier et consommer des données sémantiques ? Comment profiter de ce vaste ensemble de
données pour répondre à une question complexe ? Le potentiel de cette approche est illustré en répondant à la question
Quel est le domaine de recherche du projet Bio2RDF ?
Comment publier sur le web
sémantique : la méthode de Bio2RDF
François Belleau, Arnaud Droit
Centre de Biologie Computationnelle
Centre de recherche du CHUQ
Renseignements
● Le projet Bio2RDF est disponible à l’adresse http://bio2rdf.org
● Les personnes intéressées peuvent joindre le groupe de discussion à l’adresse suivante :
https://groups.google.com/forum/?fromgroups#!forum/bio2rdf
● Ce projet est sous la supervision du Dr Arnaud Droit, Directeur du Centre de Biologie Computationnelle du
CRCHUQ à l’Université Laval.
● Mes remerciements aux membres de la communauté Bio2RDF et plus particulièrement à Marc-Alexandre Nolin and
Peter Ansell, deux des développeurs initiaux.
Figure 1) Le réseau des bases de données sémantiques en 2011, la section rose représente les
données des sciences de la vie principalement constituée des ressources de Bio2RDF.
[http://lod-cloud.net/]
Figure 2.1) La page HTML présentant l’article sur Bio2RDF
publié en 2008, dont le numéro de référence
pubmed est le 18472304.
Figure 2.2) Le processus Talend de transformation du document
XML provenant du NCBI utilisé pour effectuer la
conversion au format RDF.
Produire du RDF en utilisant un ETL
Les données du web sémantique sont diffusées sous la forme de triplets (sujet-
prédicat-objet). Convertir des sources de données existantes aux formats
variés (HTML, XML, SQL) en format RDF est une fonction clé du projet
Bio2RDF. Pour accomplir cette tâche et après avoir exploré différents scénarios
de conversion basés sur l’utilisation de plusieurs cadres de développement
(JSP, Perl et PHP), le logiciel libre d’ETL, le logiciel Talend Integration Studio
[http://www.talend.com], est désormais utilisé. Cette approche accélère le
processus de programmation et améliore grandement le contrôle de qualité.
Le processus de conversion d’un document Pubmed de format XML obtenu via
le service REST eFetch au format RDF est illustré ici.
Publier dans le web de données via REST
Le projet Bio2RDF a appliqué dès ses débuts les quatre règles
[http://www.w3.org/DesignIssues/LinkedData.html] du web sémantique énoncé par Tim Berner Lee pour
mettre à la disposition des chercheurs 40 points de services SPARQL proposant les bases de données
en bio-informatique les plus utilisées (Kegg, PDB, UniProt, etc.). À ces services SPARQL, s’ajoute les
services REST d’accès qui reposent sur trois services essentiels utilisés dans la construction de
processus de création d’un mashup :
1. Le service DESCRIBE retourne la définition d’une ressource en triplets;
2. Le service LINK permet d’obtenir la liste des références externes vers la ressource;
3. Le service SEARCH permet d’effectuer une recherche dans les littéraux du graphe.
En utilisant le logiciel Talend ESB, une nouvelle version des services REST initiaux a été développée
avec un minimum d’efforts de réalisation en consommant les services REST ou SOAP des fournisseurs
de données. Il s’agit d’un modèle de programmation efficace et économique prometteur.Consommer du RDF pour construire un mashup
Pour illustrer la capacité du modèle du web sémantique à répondre à une question
complexe, on applique la stratégie suivante : construire une base de données spécialisée
pour répondre à chaque question.
Voici comment créer un mashup pour découvrir le domaine de recherche du projet
Bio2RDF. Le processus de construction est le suivant : 1) rechercher sur Pubmed à l’aide
du service SEARCH, les articles associés au mot clé ‘bio2rdf’ (6 résultats) 2) obtenir la liste
des articles qui les ont cités à l’aide du service LINK (85 résultats); 3) obtenir la version
RDF des métadonnées des 91 articles trouvés à l’aide du service DESCRIBE; 4) obtenir la
définition des termes MeSH employés via le point de service SPARQL de Bio2RDF. Une
fois les données obtenues, les charger dans un triplestore et exécuter la requête SPARQL
qui répond à la question en exploitant le réseau sémantique composé des citations par les
auteurs. Ce processus est entièrement automatisé avec un workflow Talend.
La réponse à la question: Bio2RDF est un projet de ‘Factual Database and Semantics’ ce
qui correspond bien à la réalité et ce qui n’avait pas été perçu par les annotateurs du NCBI
lors de sa publication initiale en 2008.
Conclusion
Il a été démontré qu’en utilisant le logiciel d’ETL Talend, il est possible de publier efficacement et à faible coût
des données scientifiques afin de contribuer à la construction du web sémantique scientifique. En consommant
les triplets, nous avons illustré comment construire un mashup capable de répondre à des questions
nécessitant l’intégration des données provenant de différentes sources. Le potentiel du web sémantique et des
données ouvertes en science est prometteur, il ne s’agit que du début.
Figure 2.3) La version RDF en format XML de la
description de l’article où chaque élément
d’information significatif a été transformé
en triplet.
Figure 3.1) La description du service REST pour Pubmed
développé à l’aide de la suite Talend ESB.
Figure 3.2) Le service REST de conversion au format RDF basés sur les
services eFetch, eSearch et eLink du NCBI
[http://www.ncbi.nlm.nih.gov/books/NBK25499].
Figure 4.3) La définition des termes MeSH qui
répondent à la question.
Figure 4.1) Le workflow Talend utilisé pour construire le mashup en
consommant les services REST de Bio2RDF.
Figure 4.2) La requête SPARQL pour obtenir la définition des mots clés les
plus utilisés pour décrire le domaine de recherche de Bio2RDF.