SlideShare une entreprise Scribd logo
1  sur  1
Télécharger pour lire hors ligne
RDFによるデータ統合と
相互運用性のための技術開発
片山 俊明 (ライフサイエンス統合データベースセンター)
三島 博之 (長崎大学原爆後障害医療研究所)
岡本 忍 (ライフサイエンス統合データベースセンター)
CC-BY © 2014 片山俊明 licensed under Creative Commons Attribution 2.1 Japan (CC表示2.1日本)
西澤 達也 (情報数理バイオ)
川島 秀一 (ライフサイエンス統合データベースセンター)
藤澤 貴智 (国立遺伝学研究所)
基盤的データ・公共データ・小規模データを、セマンティック・ウェブ技術で統合するための最近の技術開発について報告する。生命科学のDBに共通する基盤的なデータに
ついては、統合化推進プログラムの参画機関と月1回開催のSPARQLthonなどの会議を通じて、必要なオントロジーの開発、URIやRDFモデルの整備、データのRDF化につ
いて技術的な支援を行っている。特に、ゲノム情報においては、これまで微生物を対象にTogoGenomeを開発してきたが、今年度DDBJ, SIB, EBIなどのグループとともに、
INSDCの塩基配列DBとEnsemblゲノムDBで共通のデータモデルを開発し真核生物も対象として相互運用性の向上を図った。一方で、まだRDF化が進んでいない公共DBにつ
いては、TogoWSサービスを通じて、データ取得とRDF化をオンデマンドで提供している。昨年度からUCSCのゲノムDBにも対応し、REST APIを用いて容易にデータアクセ
スが可能になった。さらに、研究者のもつ小規模データについてはTogoDBサービスを提供しており、表形式のデータを容易に高機能なDBとして公開できるだけでなく、
RDF生成やSPARQLエンドポイントの公開、オントロジー編集機能の追加、D2RQの採用によるタイムラグのないデータ管理への対応などを進めている。
基盤的データ
 現在の生命科学はゲノム情報が基盤となっているが、ヒトやモデル
生物のゲノムデータベースで集積されている情報は、必ずしも再利用
性の高い形で統合化されていない。ライフサイエンス統合データベー
スセンター (DBCLS) のTogoGenomeでは、生物種、 環境情報、 培
養条件、ゲノム配列、遺伝子アノテーション、タンパク質の機能と立
体構造、糖鎖やメチル化などの修飾、進化系統など、多様なデータの
セマンティック・ウェブ技術での統合を進めている。
公共データ 小規模データ
 多くの公共データベースは独自のウェブページやREST APIによって
データ提供されていることが多い。それぞれ利用方法が異なるこれら
のデータベースを統一的な方法で検索し、エントリを取得するため、
DBCLSではTogoWSを開発してきた。TogoWSではデータ形式の変換
機能を提供しているが、ここでRDF化への対応も進めている。
 研究者や研究室の持つデータは、これまで論文のサプリメントとし
て公開されることが多く、データベースとして永続化されることは少
なかった。DBCLSで提供しているTogoDBを利用すると、小規模なデ
ータベースであっても容易に構築しインターネットで公開することが
できる。TogoDBでは画面デザインを含め様々なカスタマイズが可能
だが、既存または独自のオントロジーを利用したRDF化にも対応して
おり、再利用性の高いデータベースを容易に提供することができる。
RDF summit
 2014年5月にDBCLSにおいてRDFサミットを開催し、DBCLS/DDBJ
共同でTogoGenomeのために開発してきたゲノム情報のRDF化モデル
と、欧州バイオインフォマティクス研究所 (EBI) で開発されているゲ
ノムデータベースEnsemblのRDFモデルの共通化について合意した。
BioHackathon / SPARQLthon
 ライフサイエンスのデータベースをセマンティック・ウェブ技術を
用いて統合化するため、国際標準化の促進と相互運用性向上に必要な
技術開発を行う国際会議BioHackathonを年に1回 (今年で7回目)、国
内の統合化推進プログラムのデータをRDF化し再利用性を向上するた
め技術開発合宿SPARQLthonを毎月1回 (先月で24回目)、それぞれ継
続的に開催し、オントロジー・RDFデータ・アプリケーションの開発
などを行ってきている。
Genome
Regulatory region Protein coding gene rRNA gene
↑ ↑ ↑ ↑
<exon>
<gene> rdf:type obo:SO_0000704 ;
faldo:location [ ... ] ;
rdfs:label "geneA" ;
rdfs:seeAlso <UniProt> .
rdf:type obo:SO_0000147 .
← FALDO locations
← Sequence ontology types
← Label of annotations
← Link to external resources
↑ ↑ ↑ ↑
INSDC/RefSeq/Ensembl RDF:
D2RQ
 すでにデータベースが関係データベース (RDB) で構築されている場
合には、D2RQを使うことによってSPARQL検索可能なRDFのデータ
ベースにすることができる。DBCLSでは現在、D2RQの設定を容易に
するためのアプリケーションを開発中である。
検索API
 TogoWSでは http://togows.org/search/ のあとに、データベー
ス名とキーワードを指定することでエントリのリストを取得できる。
取得API
 エントリのリストを検索したら、/entry のあとに、データベース名
とエントリIDを指定するだけで、該当するエントリを取得できる。こ
の際、エントリをJSONやRDFなど様々な形式に変換したり、指定し
た部分だけを取得することが可能となっており、解析ワークフローに
組み込むといった相互運用性の高いデータの利用が実現している。
変換API
 オープンバイオ (BioPerlやBioRubyなど) のライブラリやツールを
活用し、生命科学で使われる様々なデータ形式を相互に変換する機能
を提供しており、手持ちのデータをRDFに変換することもできる。
外部API
 MySQLで公開されているUCSCゲノムデータベースなど、ウェブサ
ービスのない外部データベースにも統一的なAPIを提供している。
http://togogenome.org/ http://togows.org/ http://togodb.org/
 また、バイオサイエンスデータベースセンター (NBDC) の生命科学
系データベースアーカイブでもTogoDBが活用されている。
http://togows.org/api/ucsc/db/table/column[!]=value[/offset,limit][.format]
http://togows.org/convert/data_source.format
http://togows.org/entry/database/entry_id[,entry_id2,...][/field][.format]
http://togows.org/search/database/query+string[/offset,limit][.format]
例:
% curl http://togows.org/api/ucsc/hg38/refGene/name2=UVSSA
% curl http://togows.org/api/ucsc/hg38/chr1:12,345-12,500.fasta

Contenu connexe

Similaire à RDFによるデータ統合と相互運用性のための技術開発

20140612 ddbjing_minowa_NBDChumanDB&JGA
20140612 ddbjing_minowa_NBDChumanDB&JGA20140612 ddbjing_minowa_NBDChumanDB&JGA
20140612 ddbjing_minowa_NBDChumanDB&JGAMTMinowa
 
研究データ利活用に関する国内活動及び国際動向について
研究データ利活用に関する国内活動及び国際動向について研究データ利活用に関する国内活動及び国際動向について
研究データ利活用に関する国内活動及び国際動向についてNational Institute of Informatics (NII)
 
MojiHimoji(20110218)
MojiHimoji(20110218)MojiHimoji(20110218)
MojiHimoji(20110218)真 岡本
 
セマンティック・ウェブと学術情報サービス@国立国会図書館講演会(2010.07.27)
セマンティック・ウェブと学術情報サービス@国立国会図書館講演会(2010.07.27)セマンティック・ウェブと学術情報サービス@国立国会図書館講演会(2010.07.27)
セマンティック・ウェブと学術情報サービス@国立国会図書館講演会(2010.07.27)Ikki Ohmukai
 
ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状Takeru Nakazato
 
Ipsj kansai(20100922)
Ipsj kansai(20100922)Ipsj kansai(20100922)
Ipsj kansai(20100922)真 岡本
 
研究支援に係るアカデミッククラウド システムの調査検討
研究支援に係るアカデミッククラウド システムの調査検討研究支援に係るアカデミッククラウド システムの調査検討
研究支援に係るアカデミッククラウド システムの調査検討Masaharu Munetomo
 
[All-in-one2015] データベース統合化の取り組みとNBDCで提供するサービス
[All-in-one2015] データベース統合化の取り組みとNBDCで提供するサービス[All-in-one2015] データベース統合化の取り組みとNBDCで提供するサービス
[All-in-one2015] データベース統合化の取り組みとNBDCで提供するサービスDNA Data Bank of Japan center
 
Wikimedia conference japan_2010_outreach(20101114)
Wikimedia conference japan_2010_outreach(20101114)Wikimedia conference japan_2010_outreach(20101114)
Wikimedia conference japan_2010_outreach(20101114)真 岡本
 
NTCIR-16 Real-MedNLP タスク紹介(2021年7月1日版)
NTCIR-16 Real-MedNLP タスク紹介(2021年7月1日版)NTCIR-16 Real-MedNLP タスク紹介(2021年7月1日版)
NTCIR-16 Real-MedNLP タスク紹介(2021年7月1日版)Shoko Wakamiya
 
2013 summercamp 05
2013 summercamp 052013 summercamp 05
2013 summercamp 05openrtm
 
NBDCヒトデータベースのルールと仕組み
NBDCヒトデータベースのルールと仕組みNBDCヒトデータベースのルールと仕組み
NBDCヒトデータベースのルールと仕組みMTMinowa
 
Otemon(20101220)
Otemon(20101220)Otemon(20101220)
Otemon(20101220)真 岡本
 
LODチャレンジ応募作品からみえた日本のLODの可能性と今後の課題
LODチャレンジ応募作品からみえた日本のLODの可能性と今後の課題LODチャレンジ応募作品からみえた日本のLODの可能性と今後の課題
LODチャレンジ応募作品からみえた日本のLODの可能性と今後の課題Hiroyuki Sato
 
Orcid学協会コンソーシアム
Orcid学協会コンソーシアムOrcid学協会コンソーシアム
Orcid学協会コンソーシアムYuko Nagai
 
Cytoscapeの現状とCyberinfrastructure
Cytoscapeの現状とCyberinfrastructureCytoscapeの現状とCyberinfrastructure
Cytoscapeの現状とCyberinfrastructureKeiichiro Ono
 

Similaire à RDFによるデータ統合と相互運用性のための技術開発 (20)

20140612 ddbjing_minowa_NBDChumanDB&JGA
20140612 ddbjing_minowa_NBDChumanDB&JGA20140612 ddbjing_minowa_NBDChumanDB&JGA
20140612 ddbjing_minowa_NBDChumanDB&JGA
 
研究データ利活用に関する国内活動及び国際動向について
研究データ利活用に関する国内活動及び国際動向について研究データ利活用に関する国内活動及び国際動向について
研究データ利活用に関する国内活動及び国際動向について
 
BioHackathon 2015 report
BioHackathon 2015 reportBioHackathon 2015 report
BioHackathon 2015 report
 
MojiHimoji(20110218)
MojiHimoji(20110218)MojiHimoji(20110218)
MojiHimoji(20110218)
 
セマンティック・ウェブと学術情報サービス@国立国会図書館講演会(2010.07.27)
セマンティック・ウェブと学術情報サービス@国立国会図書館講演会(2010.07.27)セマンティック・ウェブと学術情報サービス@国立国会図書館講演会(2010.07.27)
セマンティック・ウェブと学術情報サービス@国立国会図書館講演会(2010.07.27)
 
ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状
 
Ipsj kansai(20100922)
Ipsj kansai(20100922)Ipsj kansai(20100922)
Ipsj kansai(20100922)
 
研究支援に係るアカデミッククラウド システムの調査検討
研究支援に係るアカデミッククラウド システムの調査検討研究支援に係るアカデミッククラウド システムの調査検討
研究支援に係るアカデミッククラウド システムの調査検討
 
[All-in-one2015] データベース統合化の取り組みとNBDCで提供するサービス
[All-in-one2015] データベース統合化の取り組みとNBDCで提供するサービス[All-in-one2015] データベース統合化の取り組みとNBDCで提供するサービス
[All-in-one2015] データベース統合化の取り組みとNBDCで提供するサービス
 
Wikimedia conference japan_2010_outreach(20101114)
Wikimedia conference japan_2010_outreach(20101114)Wikimedia conference japan_2010_outreach(20101114)
Wikimedia conference japan_2010_outreach(20101114)
 
NTCIR-16 Real-MedNLP タスク紹介(2021年7月1日版)
NTCIR-16 Real-MedNLP タスク紹介(2021年7月1日版)NTCIR-16 Real-MedNLP タスク紹介(2021年7月1日版)
NTCIR-16 Real-MedNLP タスク紹介(2021年7月1日版)
 
2013 summercamp 05
2013 summercamp 052013 summercamp 05
2013 summercamp 05
 
研究データ流通を支える情報基盤とは
研究データ流通を支える情報基盤とは研究データ流通を支える情報基盤とは
研究データ流通を支える情報基盤とは
 
NBDCヒトデータベースのルールと仕組み
NBDCヒトデータベースのルールと仕組みNBDCヒトデータベースのルールと仕組み
NBDCヒトデータベースのルールと仕組み
 
Otemon(20101220)
Otemon(20101220)Otemon(20101220)
Otemon(20101220)
 
LODチャレンジ応募作品からみえた日本のLODの可能性と今後の課題
LODチャレンジ応募作品からみえた日本のLODの可能性と今後の課題LODチャレンジ応募作品からみえた日本のLODの可能性と今後の課題
LODチャレンジ応募作品からみえた日本のLODの可能性と今後の課題
 
Orcid学協会コンソーシアム
Orcid学協会コンソーシアムOrcid学協会コンソーシアム
Orcid学協会コンソーシアム
 
D2RQ Mapper
D2RQ MapperD2RQ Mapper
D2RQ Mapper
 
Cytoscapeの現状とCyberinfrastructure
Cytoscapeの現状とCyberinfrastructureCytoscapeの現状とCyberinfrastructure
Cytoscapeの現状とCyberinfrastructure
 
Nii(20100722)
Nii(20100722)Nii(20100722)
Nii(20100722)
 

RDFによるデータ統合と相互運用性のための技術開発

  • 1. RDFによるデータ統合と 相互運用性のための技術開発 片山 俊明 (ライフサイエンス統合データベースセンター) 三島 博之 (長崎大学原爆後障害医療研究所) 岡本 忍 (ライフサイエンス統合データベースセンター) CC-BY © 2014 片山俊明 licensed under Creative Commons Attribution 2.1 Japan (CC表示2.1日本) 西澤 達也 (情報数理バイオ) 川島 秀一 (ライフサイエンス統合データベースセンター) 藤澤 貴智 (国立遺伝学研究所) 基盤的データ・公共データ・小規模データを、セマンティック・ウェブ技術で統合するための最近の技術開発について報告する。生命科学のDBに共通する基盤的なデータに ついては、統合化推進プログラムの参画機関と月1回開催のSPARQLthonなどの会議を通じて、必要なオントロジーの開発、URIやRDFモデルの整備、データのRDF化につ いて技術的な支援を行っている。特に、ゲノム情報においては、これまで微生物を対象にTogoGenomeを開発してきたが、今年度DDBJ, SIB, EBIなどのグループとともに、 INSDCの塩基配列DBとEnsemblゲノムDBで共通のデータモデルを開発し真核生物も対象として相互運用性の向上を図った。一方で、まだRDF化が進んでいない公共DBにつ いては、TogoWSサービスを通じて、データ取得とRDF化をオンデマンドで提供している。昨年度からUCSCのゲノムDBにも対応し、REST APIを用いて容易にデータアクセ スが可能になった。さらに、研究者のもつ小規模データについてはTogoDBサービスを提供しており、表形式のデータを容易に高機能なDBとして公開できるだけでなく、 RDF生成やSPARQLエンドポイントの公開、オントロジー編集機能の追加、D2RQの採用によるタイムラグのないデータ管理への対応などを進めている。 基盤的データ  現在の生命科学はゲノム情報が基盤となっているが、ヒトやモデル 生物のゲノムデータベースで集積されている情報は、必ずしも再利用 性の高い形で統合化されていない。ライフサイエンス統合データベー スセンター (DBCLS) のTogoGenomeでは、生物種、 環境情報、 培 養条件、ゲノム配列、遺伝子アノテーション、タンパク質の機能と立 体構造、糖鎖やメチル化などの修飾、進化系統など、多様なデータの セマンティック・ウェブ技術での統合を進めている。 公共データ 小規模データ  多くの公共データベースは独自のウェブページやREST APIによって データ提供されていることが多い。それぞれ利用方法が異なるこれら のデータベースを統一的な方法で検索し、エントリを取得するため、 DBCLSではTogoWSを開発してきた。TogoWSではデータ形式の変換 機能を提供しているが、ここでRDF化への対応も進めている。  研究者や研究室の持つデータは、これまで論文のサプリメントとし て公開されることが多く、データベースとして永続化されることは少 なかった。DBCLSで提供しているTogoDBを利用すると、小規模なデ ータベースであっても容易に構築しインターネットで公開することが できる。TogoDBでは画面デザインを含め様々なカスタマイズが可能 だが、既存または独自のオントロジーを利用したRDF化にも対応して おり、再利用性の高いデータベースを容易に提供することができる。 RDF summit  2014年5月にDBCLSにおいてRDFサミットを開催し、DBCLS/DDBJ 共同でTogoGenomeのために開発してきたゲノム情報のRDF化モデル と、欧州バイオインフォマティクス研究所 (EBI) で開発されているゲ ノムデータベースEnsemblのRDFモデルの共通化について合意した。 BioHackathon / SPARQLthon  ライフサイエンスのデータベースをセマンティック・ウェブ技術を 用いて統合化するため、国際標準化の促進と相互運用性向上に必要な 技術開発を行う国際会議BioHackathonを年に1回 (今年で7回目)、国 内の統合化推進プログラムのデータをRDF化し再利用性を向上するた め技術開発合宿SPARQLthonを毎月1回 (先月で24回目)、それぞれ継 続的に開催し、オントロジー・RDFデータ・アプリケーションの開発 などを行ってきている。 Genome Regulatory region Protein coding gene rRNA gene ↑ ↑ ↑ ↑ <exon> <gene> rdf:type obo:SO_0000704 ; faldo:location [ ... ] ; rdfs:label "geneA" ; rdfs:seeAlso <UniProt> . rdf:type obo:SO_0000147 . ← FALDO locations ← Sequence ontology types ← Label of annotations ← Link to external resources ↑ ↑ ↑ ↑ INSDC/RefSeq/Ensembl RDF: D2RQ  すでにデータベースが関係データベース (RDB) で構築されている場 合には、D2RQを使うことによってSPARQL検索可能なRDFのデータ ベースにすることができる。DBCLSでは現在、D2RQの設定を容易に するためのアプリケーションを開発中である。 検索API  TogoWSでは http://togows.org/search/ のあとに、データベー ス名とキーワードを指定することでエントリのリストを取得できる。 取得API  エントリのリストを検索したら、/entry のあとに、データベース名 とエントリIDを指定するだけで、該当するエントリを取得できる。こ の際、エントリをJSONやRDFなど様々な形式に変換したり、指定し た部分だけを取得することが可能となっており、解析ワークフローに 組み込むといった相互運用性の高いデータの利用が実現している。 変換API  オープンバイオ (BioPerlやBioRubyなど) のライブラリやツールを 活用し、生命科学で使われる様々なデータ形式を相互に変換する機能 を提供しており、手持ちのデータをRDFに変換することもできる。 外部API  MySQLで公開されているUCSCゲノムデータベースなど、ウェブサ ービスのない外部データベースにも統一的なAPIを提供している。 http://togogenome.org/ http://togows.org/ http://togodb.org/  また、バイオサイエンスデータベースセンター (NBDC) の生命科学 系データベースアーカイブでもTogoDBが活用されている。 http://togows.org/api/ucsc/db/table/column[!]=value[/offset,limit][.format] http://togows.org/convert/data_source.format http://togows.org/entry/database/entry_id[,entry_id2,...][/field][.format] http://togows.org/search/database/query+string[/offset,limit][.format] 例: % curl http://togows.org/api/ucsc/hg38/refGene/name2=UVSSA % curl http://togows.org/api/ucsc/hg38/chr1:12,345-12,500.fasta