SlideShare a Scribd company logo
1 of 8
PGXを使った公共配列データの
Pagerank
オーイシ
BioProject, SRAと関連するPubMedエントリ
BioProject, SRAとそこに記述のあるPubMedエントリのリンクをエッジとしてPGXでグラフデータ化します。
目的:配列データベースから注目すべき配列
データを抽出する(ことができるかテストす
る)。
Load graph data
Accession id - -> PubMed id
…のような単純なtab textをedge listとして読み込みました。本当はノー
ドにプロパティを追加しvertexFilter、edgeFilterを利用して、登録期間
などのレンジを設定…等したいところ。
DRP000001 20398357
DRP000002 20398357
DRP000003 20400770
DRP000004 20400770
……
Pagerank
pgx> G = session.readGraphWithProperties(‘./edge_list.json')
pgx> analyst.pagerank(G, 0.0001, 0.85, 100)
pgx> G.queryPgql("SELECT n.id(), n.pagerank WHERE (n) ORDER BY n.pagerank
DESC").print(5)
------------------------------------
| n.id() | n.pagerank |
====================================
| 23851394 | 2.55259517565346E-4 |
| 24158624 | 1.4196374535289173E-4 |
| 25840857 | 1.3755439638029894E-4 |
| 23383127 | 1.3020548142597758E-4 |
| 9023104 | 1.1958426451250536E-4 |
------------------------------------
PubMed idしかランキングに表示されない。
欲しいのは配列データのランキングなので、これはちょっと違う、、、。
Undirect & re-pagerank
pgx> G = session.readGraphWithProperties(‘./edge_list.json')
pgx> G = G.undirect()
pgx> analyst.pagerank(G, 0.0001, 0.85, 100)
pgx> G.queryPgql("SELECT n.id(), n.pagerank WHERE (n) ORDER BY n.pagerank
DESC").print(5)
---------------------------------------
| n.id() | n.pagerank |
=======================================
| PRJNA33175 | 0.022764400568100977 |
| PRJNA168 | 0.0045585428625617855 |
| PRJNA178030 | 0.00448498012968195 |
| PRJNA313047 | 0.00392096260883999 |
| PRJNA177353 | 0.0019398995283837262 |
---------------------------------------
undirect()しグラフを無向化したのち集計すると読み込んだエッジの双方のノードがランキ
ングされました(pagerankの上位は配列データ側に集中していたためここでは表示されま
せんが)。
Top3 Nodes
Homo sapiens (human)
RefSeq annotation of the human reference genome assembly
https://www.ncbi.nlm.nih.gov/bioproject/?term=PRJNA168
Homo sapiens (human)
RefSeq annotation of the human haploid hydatidiform mole cell line
genome assembly
https://www.ncbi.nlm.nih.gov/bioproject/?term=PRJNA168
Bacterial 16S rRNA
Bacterial 16S Ribosomal RNA RefSeq Targeted Loci Project
https://www.ncbi.nlm.nih.gov/bioproject/33175
1
2
3
Top3 Nodes (PubMed entry)
Nature. 2013 Jul 25;499(7459):431-7. doi: 10.1038/nature12352. Epub 2013 Jul 14.
Insights into the phylogeny and coding potential of microbial dark matter.
https://www.ncbi.nlm.nih.gov/pubmed/?term=23851394
Nature. 2013 Jul 25;499(7459):431-7. doi: 10.1038/nature12352. Epub 2013 Jul 14.
Insights into the phylogeny and coding potential of microbial dark matter.
https://www.ncbi.nlm.nih.gov/pubmed/?term=23851394
Genome Res. 2015 May;25(5):762-74. doi: 10.1101/gr.185538.114. Epub 2015 Apr 3.
The 100-genomes strains, an S. cerevisiae resource that illuminates its
natural phenotypic and genotypic variation and emergence as an opportunistic
pathogen.
https://www.ncbi.nlm.nih.gov/pubmed/?term=25840857
1
2
3
※PubMedのみで集計されたpageranking上位がどのような論文かも一応。

More Related Content

More from Nao Oec

Lodチャレンジ2016 エリアベンチマーキング資料
Lodチャレンジ2016 エリアベンチマーキング資料Lodチャレンジ2016 エリアベンチマーキング資料
Lodチャレンジ2016 エリアベンチマーキング資料Nao Oec
 
Shizuoka.py #6 WebTestでWeb APIのテスト & Pythonメタプログラミングでテストの自動生成
Shizuoka.py #6 WebTestでWeb APIのテスト & Pythonメタプログラミングでテストの自動生成Shizuoka.py #6 WebTestでWeb APIのテスト & Pythonメタプログラミングでテストの自動生成
Shizuoka.py #6 WebTestでWeb APIのテスト & Pythonメタプログラミングでテストの自動生成Nao Oec
 
PGXでつぶやきの類似度によるグラフを生成してみた
PGXでつぶやきの類似度によるグラフを生成してみたPGXでつぶやきの類似度によるグラフを生成してみた
PGXでつぶやきの類似度によるグラフを生成してみたNao Oec
 
RESASを使った静岡市の新しい産業の創成手法サンプル
RESASを使った静岡市の新しい産業の創成手法サンプルRESASを使った静岡市の新しい産業の創成手法サンプル
RESASを使った静岡市の新しい産業の創成手法サンプルNao Oec
 
Python neo4j cytoscapejsでデータ可視化入門
Python neo4j cytoscapejsでデータ可視化入門Python neo4j cytoscapejsでデータ可視化入門
Python neo4j cytoscapejsでデータ可視化入門Nao Oec
 
Dockerで作るd3.jsインタラクション共有&DL環境
Dockerで作るd3.jsインタラクション共有&DL環境Dockerで作るd3.jsインタラクション共有&DL環境
Dockerで作るd3.jsインタラクション共有&DL環境Nao Oec
 
Shizuokapy4_データヴィジュアライズのための簡単なWeb API開発まめ知識
Shizuokapy4_データヴィジュアライズのための簡単なWeb API開発まめ知識Shizuokapy4_データヴィジュアライズのための簡単なWeb API開発まめ知識
Shizuokapy4_データヴィジュアライズのための簡単なWeb API開発まめ知識Nao Oec
 
コンピュータビジョン7章資料_20140830読書会
コンピュータビジョン7章資料_20140830読書会コンピュータビジョン7章資料_20140830読書会
コンピュータビジョン7章資料_20140830読書会Nao Oec
 
Open streetmapハンズオン@静岡まとめ
Open streetmapハンズオン@静岡まとめOpen streetmapハンズオン@静岡まとめ
Open streetmapハンズオン@静岡まとめNao Oec
 
Shizuokapy 3 oec_nlp
Shizuokapy 3 oec_nlpShizuokapy 3 oec_nlp
Shizuokapy 3 oec_nlpNao Oec
 
iLeafletとは何か
iLeafletとは何かiLeafletとは何か
iLeafletとは何かNao Oec
 

More from Nao Oec (11)

Lodチャレンジ2016 エリアベンチマーキング資料
Lodチャレンジ2016 エリアベンチマーキング資料Lodチャレンジ2016 エリアベンチマーキング資料
Lodチャレンジ2016 エリアベンチマーキング資料
 
Shizuoka.py #6 WebTestでWeb APIのテスト & Pythonメタプログラミングでテストの自動生成
Shizuoka.py #6 WebTestでWeb APIのテスト & Pythonメタプログラミングでテストの自動生成Shizuoka.py #6 WebTestでWeb APIのテスト & Pythonメタプログラミングでテストの自動生成
Shizuoka.py #6 WebTestでWeb APIのテスト & Pythonメタプログラミングでテストの自動生成
 
PGXでつぶやきの類似度によるグラフを生成してみた
PGXでつぶやきの類似度によるグラフを生成してみたPGXでつぶやきの類似度によるグラフを生成してみた
PGXでつぶやきの類似度によるグラフを生成してみた
 
RESASを使った静岡市の新しい産業の創成手法サンプル
RESASを使った静岡市の新しい産業の創成手法サンプルRESASを使った静岡市の新しい産業の創成手法サンプル
RESASを使った静岡市の新しい産業の創成手法サンプル
 
Python neo4j cytoscapejsでデータ可視化入門
Python neo4j cytoscapejsでデータ可視化入門Python neo4j cytoscapejsでデータ可視化入門
Python neo4j cytoscapejsでデータ可視化入門
 
Dockerで作るd3.jsインタラクション共有&DL環境
Dockerで作るd3.jsインタラクション共有&DL環境Dockerで作るd3.jsインタラクション共有&DL環境
Dockerで作るd3.jsインタラクション共有&DL環境
 
Shizuokapy4_データヴィジュアライズのための簡単なWeb API開発まめ知識
Shizuokapy4_データヴィジュアライズのための簡単なWeb API開発まめ知識Shizuokapy4_データヴィジュアライズのための簡単なWeb API開発まめ知識
Shizuokapy4_データヴィジュアライズのための簡単なWeb API開発まめ知識
 
コンピュータビジョン7章資料_20140830読書会
コンピュータビジョン7章資料_20140830読書会コンピュータビジョン7章資料_20140830読書会
コンピュータビジョン7章資料_20140830読書会
 
Open streetmapハンズオン@静岡まとめ
Open streetmapハンズオン@静岡まとめOpen streetmapハンズオン@静岡まとめ
Open streetmapハンズオン@静岡まとめ
 
Shizuokapy 3 oec_nlp
Shizuokapy 3 oec_nlpShizuokapy 3 oec_nlp
Shizuokapy 3 oec_nlp
 
iLeafletとは何か
iLeafletとは何かiLeafletとは何か
iLeafletとは何か
 

Pgx user meeting_20170602

  • 4. Load graph data Accession id - -> PubMed id …のような単純なtab textをedge listとして読み込みました。本当はノー ドにプロパティを追加しvertexFilter、edgeFilterを利用して、登録期間 などのレンジを設定…等したいところ。 DRP000001 20398357 DRP000002 20398357 DRP000003 20400770 DRP000004 20400770 ……
  • 5. Pagerank pgx> G = session.readGraphWithProperties(‘./edge_list.json') pgx> analyst.pagerank(G, 0.0001, 0.85, 100) pgx> G.queryPgql("SELECT n.id(), n.pagerank WHERE (n) ORDER BY n.pagerank DESC").print(5) ------------------------------------ | n.id() | n.pagerank | ==================================== | 23851394 | 2.55259517565346E-4 | | 24158624 | 1.4196374535289173E-4 | | 25840857 | 1.3755439638029894E-4 | | 23383127 | 1.3020548142597758E-4 | | 9023104 | 1.1958426451250536E-4 | ------------------------------------ PubMed idしかランキングに表示されない。 欲しいのは配列データのランキングなので、これはちょっと違う、、、。
  • 6. Undirect & re-pagerank pgx> G = session.readGraphWithProperties(‘./edge_list.json') pgx> G = G.undirect() pgx> analyst.pagerank(G, 0.0001, 0.85, 100) pgx> G.queryPgql("SELECT n.id(), n.pagerank WHERE (n) ORDER BY n.pagerank DESC").print(5) --------------------------------------- | n.id() | n.pagerank | ======================================= | PRJNA33175 | 0.022764400568100977 | | PRJNA168 | 0.0045585428625617855 | | PRJNA178030 | 0.00448498012968195 | | PRJNA313047 | 0.00392096260883999 | | PRJNA177353 | 0.0019398995283837262 | --------------------------------------- undirect()しグラフを無向化したのち集計すると読み込んだエッジの双方のノードがランキ ングされました(pagerankの上位は配列データ側に集中していたためここでは表示されま せんが)。
  • 7. Top3 Nodes Homo sapiens (human) RefSeq annotation of the human reference genome assembly https://www.ncbi.nlm.nih.gov/bioproject/?term=PRJNA168 Homo sapiens (human) RefSeq annotation of the human haploid hydatidiform mole cell line genome assembly https://www.ncbi.nlm.nih.gov/bioproject/?term=PRJNA168 Bacterial 16S rRNA Bacterial 16S Ribosomal RNA RefSeq Targeted Loci Project https://www.ncbi.nlm.nih.gov/bioproject/33175 1 2 3
  • 8. Top3 Nodes (PubMed entry) Nature. 2013 Jul 25;499(7459):431-7. doi: 10.1038/nature12352. Epub 2013 Jul 14. Insights into the phylogeny and coding potential of microbial dark matter. https://www.ncbi.nlm.nih.gov/pubmed/?term=23851394 Nature. 2013 Jul 25;499(7459):431-7. doi: 10.1038/nature12352. Epub 2013 Jul 14. Insights into the phylogeny and coding potential of microbial dark matter. https://www.ncbi.nlm.nih.gov/pubmed/?term=23851394 Genome Res. 2015 May;25(5):762-74. doi: 10.1101/gr.185538.114. Epub 2015 Apr 3. The 100-genomes strains, an S. cerevisiae resource that illuminates its natural phenotypic and genotypic variation and emergence as an opportunistic pathogen. https://www.ncbi.nlm.nih.gov/pubmed/?term=25840857 1 2 3 ※PubMedのみで集計されたpageranking上位がどのような論文かも一応。