SlideShare une entreprise Scribd logo
1  sur  1
Télécharger pour lire hors ligne
Contexte
Avec la prolifération des bases de données publiques disponibles dans le domaine de la biologie moléculaire et de la
génétique, l’intégration des données en bio-informatique est un problème fondamental. Malgré de nombreuses initiatives
visant la création de bases de données intégrées des instituts internationaux tel que le NCBI américain, l’EBI européen et
l’institut KEGG au Japon, l’espace de données actuels reste composé de silos indépendants.
Depuis 2006 le projet Bio2RDF [http://bio2rdf.org] hébergé au Centre de recherche du CHUQ, a pour mission de rendre
disponible à la communauté des chercheurs en sciences de la vie, un sous-ensemble des données publiques des
domaines de la biologie moléculaire, de la génétique et de la médecin selon les principes du web sémantique énoncés par
le W3C. Cette contribution au web de données (Linked Data) a obtenu une reconnaissance internationale est s’est avérée
être un modèle qui a inspiré de nombreux autres projets de diffusion des connaissances en bio-informatique.
Comment produire, publier et consommer des données sémantiques ? Comment profiter de ce vaste ensemble de
données pour répondre à une question complexe ? Le potentiel de cette approche est illustré en répondant à la question
Quel est le domaine de recherche du projet Bio2RDF ?
Comment publier sur le web
sémantique : la méthode de Bio2RDF
François Belleau, Arnaud Droit
Centre de Biologie Computationnelle
Centre de recherche du CHUQ
Renseignements
● Le projet Bio2RDF est disponible à l’adresse http://bio2rdf.org
● Les personnes intéressées peuvent joindre le groupe de discussion à l’adresse suivante :
https://groups.google.com/forum/?fromgroups#!forum/bio2rdf
● Ce projet est sous la supervision du Dr Arnaud Droit, Directeur du Centre de Biologie Computationnelle du
CRCHUQ à l’Université Laval.
● Mes remerciements aux membres de la communauté Bio2RDF et plus particulièrement à Marc-Alexandre Nolin and
Peter Ansell, deux des développeurs initiaux.
Figure 1) Le réseau des bases de données sémantiques en 2011, la section rose représente les
données des sciences de la vie principalement constituée des ressources de Bio2RDF.
[http://lod-cloud.net/]
Figure 2.1) La page HTML présentant l’article sur Bio2RDF
publié en 2008, dont le numéro de référence
pubmed est le 18472304.
Figure 2.2) Le processus Talend de transformation du document
XML provenant du NCBI utilisé pour effectuer la
conversion au format RDF.
Produire du RDF en utilisant un ETL
Les données du web sémantique sont diffusées sous la forme de triplets (sujet-
prédicat-objet). Convertir des sources de données existantes aux formats
variés (HTML, XML, SQL) en format RDF est une fonction clé du projet
Bio2RDF. Pour accomplir cette tâche et après avoir exploré différents scénarios
de conversion basés sur l’utilisation de plusieurs cadres de développement
(JSP, Perl et PHP), le logiciel libre d’ETL, le logiciel Talend Integration Studio
[http://www.talend.com], est désormais utilisé. Cette approche accélère le
processus de programmation et améliore grandement le contrôle de qualité.
Le processus de conversion d’un document Pubmed de format XML obtenu via
le service REST eFetch au format RDF est illustré ici.
Publier dans le web de données via REST
Le projet Bio2RDF a appliqué dès ses débuts les quatre règles
[http://www.w3.org/DesignIssues/LinkedData.html] du web sémantique énoncé par Tim Berner Lee pour
mettre à la disposition des chercheurs 40 points de services SPARQL proposant les bases de données
en bio-informatique les plus utilisées (Kegg, PDB, UniProt, etc.). À ces services SPARQL, s’ajoute les
services REST d’accès qui reposent sur trois services essentiels utilisés dans la construction de
processus de création d’un mashup :
1. Le service DESCRIBE retourne la définition d’une ressource en triplets;
2. Le service LINK permet d’obtenir la liste des références externes vers la ressource;
3. Le service SEARCH permet d’effectuer une recherche dans les littéraux du graphe.
En utilisant le logiciel Talend ESB, une nouvelle version des services REST initiaux a été développée
avec un minimum d’efforts de réalisation en consommant les services REST ou SOAP des fournisseurs
de données. Il s’agit d’un modèle de programmation efficace et économique prometteur.Consommer du RDF pour construire un mashup
Pour illustrer la capacité du modèle du web sémantique à répondre à une question
complexe, on applique la stratégie suivante : construire une base de données spécialisée
pour répondre à chaque question.
Voici comment créer un mashup pour découvrir le domaine de recherche du projet
Bio2RDF. Le processus de construction est le suivant : 1) rechercher sur Pubmed à l’aide
du service SEARCH, les articles associés au mot clé ‘bio2rdf’ (6 résultats) 2) obtenir la liste
des articles qui les ont cités à l’aide du service LINK (85 résultats); 3) obtenir la version
RDF des métadonnées des 91 articles trouvés à l’aide du service DESCRIBE; 4) obtenir la
définition des termes MeSH employés via le point de service SPARQL de Bio2RDF. Une
fois les données obtenues, les charger dans un triplestore et exécuter la requête SPARQL
qui répond à la question en exploitant le réseau sémantique composé des citations par les
auteurs. Ce processus est entièrement automatisé avec un workflow Talend.
La réponse à la question: Bio2RDF est un projet de ‘Factual Database and Semantics’ ce
qui correspond bien à la réalité et ce qui n’avait pas été perçu par les annotateurs du NCBI
lors de sa publication initiale en 2008.
Conclusion
Il a été démontré qu’en utilisant le logiciel d’ETL Talend, il est possible de publier efficacement et à faible coût
des données scientifiques afin de contribuer à la construction du web sémantique scientifique. En consommant
les triplets, nous avons illustré comment construire un mashup capable de répondre à des questions
nécessitant l’intégration des données provenant de différentes sources. Le potentiel du web sémantique et des
données ouvertes en science est prometteur, il ne s’agit que du début.
Figure 2.3) La version RDF en format XML de la
description de l’article où chaque élément
d’information significatif a été transformé
en triplet.
Figure 3.1) La description du service REST pour Pubmed
développé à l’aide de la suite Talend ESB.
Figure 3.2) Le service REST de conversion au format RDF basés sur les
services eFetch, eSearch et eLink du NCBI
[http://www.ncbi.nlm.nih.gov/books/NBK25499].
Figure 4.3) La définition des termes MeSH qui
répondent à la question.
Figure 4.1) Le workflow Talend utilisé pour construire le mashup en
consommant les services REST de Bio2RDF.
Figure 4.2) La requête SPARQL pour obtenir la définition des mots clés les
plus utilisés pour décrire le domaine de recherche de Bio2RDF.

Contenu connexe

En vedette

DBpedia - Un hub de liens dans le web des données
DBpedia - Un hub de liens dans le web des donnéesDBpedia - Un hub de liens dans le web des données
DBpedia - Un hub de liens dans le web des donnéeschristianhbecker
 
Jena – A Semantic Web Framework for Java
Jena – A Semantic Web Framework for JavaJena – A Semantic Web Framework for Java
Jena – A Semantic Web Framework for JavaAleksander Pohl
 
Integrating Drupal with a Triple Store
Integrating Drupal with a Triple StoreIntegrating Drupal with a Triple Store
Integrating Drupal with a Triple StoreBarry Norton
 
DBpedia Tutorial - Feb 2015, Dublin
DBpedia Tutorial - Feb 2015, DublinDBpedia Tutorial - Feb 2015, Dublin
DBpedia Tutorial - Feb 2015, Dublinm_ackermann
 
Concevoir et développer des vocabulaires RDF
Concevoir et développer des vocabulaires RDFConcevoir et développer des vocabulaires RDF
Concevoir et développer des vocabulaires RDFOpen Data Support
 
Cahier de charges Site web DRUPAL
Cahier de charges Site web DRUPALCahier de charges Site web DRUPAL
Cahier de charges Site web DRUPALLaribi Aicha
 
How to Make Awesome SlideShares: Tips & Tricks
How to Make Awesome SlideShares: Tips & TricksHow to Make Awesome SlideShares: Tips & Tricks
How to Make Awesome SlideShares: Tips & TricksSlideShare
 
Getting Started With SlideShare
Getting Started With SlideShareGetting Started With SlideShare
Getting Started With SlideShareSlideShare
 

En vedette (9)

DBpedia - Un hub de liens dans le web des données
DBpedia - Un hub de liens dans le web des donnéesDBpedia - Un hub de liens dans le web des données
DBpedia - Un hub de liens dans le web des données
 
Jena – A Semantic Web Framework for Java
Jena – A Semantic Web Framework for JavaJena – A Semantic Web Framework for Java
Jena – A Semantic Web Framework for Java
 
Jena
JenaJena
Jena
 
Integrating Drupal with a Triple Store
Integrating Drupal with a Triple StoreIntegrating Drupal with a Triple Store
Integrating Drupal with a Triple Store
 
DBpedia Tutorial - Feb 2015, Dublin
DBpedia Tutorial - Feb 2015, DublinDBpedia Tutorial - Feb 2015, Dublin
DBpedia Tutorial - Feb 2015, Dublin
 
Concevoir et développer des vocabulaires RDF
Concevoir et développer des vocabulaires RDFConcevoir et développer des vocabulaires RDF
Concevoir et développer des vocabulaires RDF
 
Cahier de charges Site web DRUPAL
Cahier de charges Site web DRUPALCahier de charges Site web DRUPAL
Cahier de charges Site web DRUPAL
 
How to Make Awesome SlideShares: Tips & Tricks
How to Make Awesome SlideShares: Tips & TricksHow to Make Awesome SlideShares: Tips & Tricks
How to Make Awesome SlideShares: Tips & Tricks
 
Getting Started With SlideShare
Getting Started With SlideShareGetting Started With SlideShare
Getting Started With SlideShare
 

Similaire à Acfas 2013 - Comment publier sur le web sémantique : la méthode de Bio2RDF

Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)BorderCloud
 
Le Web de données et les bibliothèques
Le Web de données et les bibliothèquesLe Web de données et les bibliothèques
Le Web de données et les bibliothèquesGautier Poupeau
 
Concevoir un outil d'analyse de réseau en ligne
Concevoir un outil d'analyse de réseau en ligneConcevoir un outil d'analyse de réseau en ligne
Concevoir un outil d'analyse de réseau en ligneNahid Oulmi
 
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Gautier Poupeau
 
Les nouvelles normes de catalogage en bibliothèque : l'alimentation future de...
Les nouvelles normes de catalogage en bibliothèque : l'alimentation future de...Les nouvelles normes de catalogage en bibliothèque : l'alimentation future de...
Les nouvelles normes de catalogage en bibliothèque : l'alimentation future de...Anne-Gaëlle Gaudion
 
États des lieux du Web sémantique
États des lieux du Web sémantiqueÉtats des lieux du Web sémantique
États des lieux du Web sémantiqueIvan Herman
 
Initiation à SPARQL avec Wikidata
Initiation à SPARQL avec WikidataInitiation à SPARQL avec Wikidata
Initiation à SPARQL avec WikidataBorderCloud
 
Panorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesPanorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesURFIST de Paris
 
JABES 2015 - Vers un nouveau Sudoc / Stéphane Rey, François Mistral (ABES)
JABES 2015 -  Vers un nouveau Sudoc / Stéphane Rey, François Mistral (ABES)JABES 2015 -  Vers un nouveau Sudoc / Stéphane Rey, François Mistral (ABES)
JABES 2015 - Vers un nouveau Sudoc / Stéphane Rey, François Mistral (ABES)ABES
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusCHAKER ALLAOUI
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesGautier Poupeau
 
Découvrir le web sémantique en 15 minutes (Decideo 2014)
Découvrir le web sémantique en 15 minutes (Decideo 2014)Découvrir le web sémantique en 15 minutes (Decideo 2014)
Découvrir le web sémantique en 15 minutes (Decideo 2014)François Belleau
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceBorderCloud
 
Datalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériencesDatalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériencesSemWebPro
 
ABES - intervention congrès Semweb pro (5-11-2014)
ABES - intervention congrès Semweb pro (5-11-2014)ABES - intervention congrès Semweb pro (5-11-2014)
ABES - intervention congrès Semweb pro (5-11-2014)ABES
 
Du web sémantique à tous les étages
Du web sémantique à tous les étagesDu web sémantique à tous les étages
Du web sémantique à tous les étagesSemWebPro
 
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTBenchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTCHAKER ALLAOUI
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQLAntoine Augusti
 
Serveur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développementServeur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développementLudovic REUS
 

Similaire à Acfas 2013 - Comment publier sur le web sémantique : la méthode de Bio2RDF (20)

Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)
 
Le Web de données et les bibliothèques
Le Web de données et les bibliothèquesLe Web de données et les bibliothèques
Le Web de données et les bibliothèques
 
Concevoir un outil d'analyse de réseau en ligne
Concevoir un outil d'analyse de réseau en ligneConcevoir un outil d'analyse de réseau en ligne
Concevoir un outil d'analyse de réseau en ligne
 
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
 
Les nouvelles normes de catalogage en bibliothèque : l'alimentation future de...
Les nouvelles normes de catalogage en bibliothèque : l'alimentation future de...Les nouvelles normes de catalogage en bibliothèque : l'alimentation future de...
Les nouvelles normes de catalogage en bibliothèque : l'alimentation future de...
 
États des lieux du Web sémantique
États des lieux du Web sémantiqueÉtats des lieux du Web sémantique
États des lieux du Web sémantique
 
Initiation à SPARQL avec Wikidata
Initiation à SPARQL avec WikidataInitiation à SPARQL avec Wikidata
Initiation à SPARQL avec Wikidata
 
Panorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesPanorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiques
 
JABES 2015 - Vers un nouveau Sudoc / Stéphane Rey, François Mistral (ABES)
JABES 2015 -  Vers un nouveau Sudoc / Stéphane Rey, François Mistral (ABES)JABES 2015 -  Vers un nouveau Sudoc / Stéphane Rey, François Mistral (ABES)
JABES 2015 - Vers un nouveau Sudoc / Stéphane Rey, François Mistral (ABES)
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processus
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de données
 
Découvrir le web sémantique en 15 minutes (Decideo 2014)
Découvrir le web sémantique en 15 minutes (Decideo 2014)Découvrir le web sémantique en 15 minutes (Decideo 2014)
Découvrir le web sémantique en 15 minutes (Decideo 2014)
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data Science
 
Datalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériencesDatalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériences
 
ABES - intervention congrès Semweb pro (5-11-2014)
ABES - intervention congrès Semweb pro (5-11-2014)ABES - intervention congrès Semweb pro (5-11-2014)
ABES - intervention congrès Semweb pro (5-11-2014)
 
Du web sémantique à tous les étages
Du web sémantique à tous les étagesDu web sémantique à tous les étages
Du web sémantique à tous les étages
 
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTBenchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQL
 
Serveur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développementServeur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développement
 
Le projet NEEO
Le projet NEEOLe projet NEEO
Le projet NEEO
 

Plus de François Belleau

Pitch Reactome2json_ld @ swat4hcls 2020
Pitch Reactome2json_ld @ swat4hcls 2020Pitch Reactome2json_ld @ swat4hcls 2020
Pitch Reactome2json_ld @ swat4hcls 2020François Belleau
 
Pitch Qliic coopérathon 2017
Pitch Qliic coopérathon 2017Pitch Qliic coopérathon 2017
Pitch Qliic coopérathon 2017François Belleau
 
2015-11-17 Présentation SEAO et ES
2015-11-17 Présentation SEAO et ES2015-11-17 Présentation SEAO et ES
2015-11-17 Présentation SEAO et ESFrançois Belleau
 
BD2K hackathon - Bio2RDF submission
BD2K hackathon - Bio2RDF submissionBD2K hackathon - Bio2RDF submission
BD2K hackathon - Bio2RDF submissionFrançois Belleau
 
Bio2RDF poster for Biocurator 2014 conference
Bio2RDF poster for Biocurator 2014 conferenceBio2RDF poster for Biocurator 2014 conference
Bio2RDF poster for Biocurator 2014 conferenceFrançois Belleau
 
Producing, publishing and consuming linked data - CSHALS 2013
Producing, publishing and consuming linked data - CSHALS 2013Producing, publishing and consuming linked data - CSHALS 2013
Producing, publishing and consuming linked data - CSHALS 2013François Belleau
 
Bio2RDF presentation at Combine 2012
Bio2RDF presentation at Combine 2012Bio2RDF presentation at Combine 2012
Bio2RDF presentation at Combine 2012François Belleau
 
Producing, Publishing and Consuming Linked Data Three lessons from the Bio2RD...
Producing, Publishing and Consuming Linked Data Three lessons from the Bio2RD...Producing, Publishing and Consuming Linked Data Three lessons from the Bio2RD...
Producing, Publishing and Consuming Linked Data Three lessons from the Bio2RD...François Belleau
 
Bio2RDF : A Semantic Web Atlas of post genomic knowledge about Human and Mouse
Bio2RDF : A Semantic Web Atlas of post genomic knowledge about Human and MouseBio2RDF : A Semantic Web Atlas of post genomic knowledge about Human and Mouse
Bio2RDF : A Semantic Web Atlas of post genomic knowledge about Human and MouseFrançois Belleau
 
Bio2RDF: Towards A Mashup To Build Bioinformatics Knowledge System
Bio2RDF: Towards A Mashup To Build Bioinformatics Knowledge SystemBio2RDF: Towards A Mashup To Build Bioinformatics Knowledge System
Bio2RDF: Towards A Mashup To Build Bioinformatics Knowledge SystemFrançois Belleau
 

Plus de François Belleau (19)

Bio2RDF @ DILS 2008
Bio2RDF @ DILS 2008Bio2RDF @ DILS 2008
Bio2RDF @ DILS 2008
 
Pitch Reactome2json_ld @ swat4hcls 2020
Pitch Reactome2json_ld @ swat4hcls 2020Pitch Reactome2json_ld @ swat4hcls 2020
Pitch Reactome2json_ld @ swat4hcls 2020
 
Show de boucane pour ELK
Show de boucane pour ELKShow de boucane pour ELK
Show de boucane pour ELK
 
Pitch Qliic coopérathon 2017
Pitch Qliic coopérathon 2017Pitch Qliic coopérathon 2017
Pitch Qliic coopérathon 2017
 
2015-11-17 Présentation SEAO et ES
2015-11-17 Présentation SEAO et ES2015-11-17 Présentation SEAO et ES
2015-11-17 Présentation SEAO et ES
 
Linuq 20160130
Linuq 20160130Linuq 20160130
Linuq 20160130
 
textOdossier
textOdossiertextOdossier
textOdossier
 
BD2K hackathon - Bio2RDF submission
BD2K hackathon - Bio2RDF submissionBD2K hackathon - Bio2RDF submission
BD2K hackathon - Bio2RDF submission
 
Bio2RDF poster for Biocurator 2014 conference
Bio2RDF poster for Biocurator 2014 conferenceBio2RDF poster for Biocurator 2014 conference
Bio2RDF poster for Biocurator 2014 conference
 
Producing, publishing and consuming linked data - CSHALS 2013
Producing, publishing and consuming linked data - CSHALS 2013Producing, publishing and consuming linked data - CSHALS 2013
Producing, publishing and consuming linked data - CSHALS 2013
 
Bio2RDF presentation at Combine 2012
Bio2RDF presentation at Combine 2012Bio2RDF presentation at Combine 2012
Bio2RDF presentation at Combine 2012
 
Producing, Publishing and Consuming Linked Data Three lessons from the Bio2RD...
Producing, Publishing and Consuming Linked Data Three lessons from the Bio2RD...Producing, Publishing and Consuming Linked Data Three lessons from the Bio2RD...
Producing, Publishing and Consuming Linked Data Three lessons from the Bio2RD...
 
Bio2RDF@BH2010
Bio2RDF@BH2010Bio2RDF@BH2010
Bio2RDF@BH2010
 
Bio2RDF @ W3C HCLS2009
Bio2RDF @ W3C HCLS2009Bio2RDF @ W3C HCLS2009
Bio2RDF @ W3C HCLS2009
 
Bio2RDF-ISMB2008
Bio2RDF-ISMB2008Bio2RDF-ISMB2008
Bio2RDF-ISMB2008
 
Bio2RDF : A Semantic Web Atlas of post genomic knowledge about Human and Mouse
Bio2RDF : A Semantic Web Atlas of post genomic knowledge about Human and MouseBio2RDF : A Semantic Web Atlas of post genomic knowledge about Human and Mouse
Bio2RDF : A Semantic Web Atlas of post genomic knowledge about Human and Mouse
 
Bio2RDF should we do it
Bio2RDF should we do itBio2RDF should we do it
Bio2RDF should we do it
 
Bio2RDF: Towards A Mashup To Build Bioinformatics Knowledge System
Bio2RDF: Towards A Mashup To Build Bioinformatics Knowledge SystemBio2RDF: Towards A Mashup To Build Bioinformatics Knowledge System
Bio2RDF: Towards A Mashup To Build Bioinformatics Knowledge System
 
Bio2RDF/Virtuoso
Bio2RDF/VirtuosoBio2RDF/Virtuoso
Bio2RDF/Virtuoso
 

Acfas 2013 - Comment publier sur le web sémantique : la méthode de Bio2RDF

  • 1. Contexte Avec la prolifération des bases de données publiques disponibles dans le domaine de la biologie moléculaire et de la génétique, l’intégration des données en bio-informatique est un problème fondamental. Malgré de nombreuses initiatives visant la création de bases de données intégrées des instituts internationaux tel que le NCBI américain, l’EBI européen et l’institut KEGG au Japon, l’espace de données actuels reste composé de silos indépendants. Depuis 2006 le projet Bio2RDF [http://bio2rdf.org] hébergé au Centre de recherche du CHUQ, a pour mission de rendre disponible à la communauté des chercheurs en sciences de la vie, un sous-ensemble des données publiques des domaines de la biologie moléculaire, de la génétique et de la médecin selon les principes du web sémantique énoncés par le W3C. Cette contribution au web de données (Linked Data) a obtenu une reconnaissance internationale est s’est avérée être un modèle qui a inspiré de nombreux autres projets de diffusion des connaissances en bio-informatique. Comment produire, publier et consommer des données sémantiques ? Comment profiter de ce vaste ensemble de données pour répondre à une question complexe ? Le potentiel de cette approche est illustré en répondant à la question Quel est le domaine de recherche du projet Bio2RDF ? Comment publier sur le web sémantique : la méthode de Bio2RDF François Belleau, Arnaud Droit Centre de Biologie Computationnelle Centre de recherche du CHUQ Renseignements ● Le projet Bio2RDF est disponible à l’adresse http://bio2rdf.org ● Les personnes intéressées peuvent joindre le groupe de discussion à l’adresse suivante : https://groups.google.com/forum/?fromgroups#!forum/bio2rdf ● Ce projet est sous la supervision du Dr Arnaud Droit, Directeur du Centre de Biologie Computationnelle du CRCHUQ à l’Université Laval. ● Mes remerciements aux membres de la communauté Bio2RDF et plus particulièrement à Marc-Alexandre Nolin and Peter Ansell, deux des développeurs initiaux. Figure 1) Le réseau des bases de données sémantiques en 2011, la section rose représente les données des sciences de la vie principalement constituée des ressources de Bio2RDF. [http://lod-cloud.net/] Figure 2.1) La page HTML présentant l’article sur Bio2RDF publié en 2008, dont le numéro de référence pubmed est le 18472304. Figure 2.2) Le processus Talend de transformation du document XML provenant du NCBI utilisé pour effectuer la conversion au format RDF. Produire du RDF en utilisant un ETL Les données du web sémantique sont diffusées sous la forme de triplets (sujet- prédicat-objet). Convertir des sources de données existantes aux formats variés (HTML, XML, SQL) en format RDF est une fonction clé du projet Bio2RDF. Pour accomplir cette tâche et après avoir exploré différents scénarios de conversion basés sur l’utilisation de plusieurs cadres de développement (JSP, Perl et PHP), le logiciel libre d’ETL, le logiciel Talend Integration Studio [http://www.talend.com], est désormais utilisé. Cette approche accélère le processus de programmation et améliore grandement le contrôle de qualité. Le processus de conversion d’un document Pubmed de format XML obtenu via le service REST eFetch au format RDF est illustré ici. Publier dans le web de données via REST Le projet Bio2RDF a appliqué dès ses débuts les quatre règles [http://www.w3.org/DesignIssues/LinkedData.html] du web sémantique énoncé par Tim Berner Lee pour mettre à la disposition des chercheurs 40 points de services SPARQL proposant les bases de données en bio-informatique les plus utilisées (Kegg, PDB, UniProt, etc.). À ces services SPARQL, s’ajoute les services REST d’accès qui reposent sur trois services essentiels utilisés dans la construction de processus de création d’un mashup : 1. Le service DESCRIBE retourne la définition d’une ressource en triplets; 2. Le service LINK permet d’obtenir la liste des références externes vers la ressource; 3. Le service SEARCH permet d’effectuer une recherche dans les littéraux du graphe. En utilisant le logiciel Talend ESB, une nouvelle version des services REST initiaux a été développée avec un minimum d’efforts de réalisation en consommant les services REST ou SOAP des fournisseurs de données. Il s’agit d’un modèle de programmation efficace et économique prometteur.Consommer du RDF pour construire un mashup Pour illustrer la capacité du modèle du web sémantique à répondre à une question complexe, on applique la stratégie suivante : construire une base de données spécialisée pour répondre à chaque question. Voici comment créer un mashup pour découvrir le domaine de recherche du projet Bio2RDF. Le processus de construction est le suivant : 1) rechercher sur Pubmed à l’aide du service SEARCH, les articles associés au mot clé ‘bio2rdf’ (6 résultats) 2) obtenir la liste des articles qui les ont cités à l’aide du service LINK (85 résultats); 3) obtenir la version RDF des métadonnées des 91 articles trouvés à l’aide du service DESCRIBE; 4) obtenir la définition des termes MeSH employés via le point de service SPARQL de Bio2RDF. Une fois les données obtenues, les charger dans un triplestore et exécuter la requête SPARQL qui répond à la question en exploitant le réseau sémantique composé des citations par les auteurs. Ce processus est entièrement automatisé avec un workflow Talend. La réponse à la question: Bio2RDF est un projet de ‘Factual Database and Semantics’ ce qui correspond bien à la réalité et ce qui n’avait pas été perçu par les annotateurs du NCBI lors de sa publication initiale en 2008. Conclusion Il a été démontré qu’en utilisant le logiciel d’ETL Talend, il est possible de publier efficacement et à faible coût des données scientifiques afin de contribuer à la construction du web sémantique scientifique. En consommant les triplets, nous avons illustré comment construire un mashup capable de répondre à des questions nécessitant l’intégration des données provenant de différentes sources. Le potentiel du web sémantique et des données ouvertes en science est prometteur, il ne s’agit que du début. Figure 2.3) La version RDF en format XML de la description de l’article où chaque élément d’information significatif a été transformé en triplet. Figure 3.1) La description du service REST pour Pubmed développé à l’aide de la suite Talend ESB. Figure 3.2) Le service REST de conversion au format RDF basés sur les services eFetch, eSearch et eLink du NCBI [http://www.ncbi.nlm.nih.gov/books/NBK25499]. Figure 4.3) La définition des termes MeSH qui répondent à la question. Figure 4.1) Le workflow Talend utilisé pour construire le mashup en consommant les services REST de Bio2RDF. Figure 4.2) La requête SPARQL pour obtenir la définition des mots clés les plus utilisés pour décrire le domaine de recherche de Bio2RDF.