Contenu connexe
Similaire à “これから”のライフサイエンス研究とバイオインフォマティクス (Next Generation Life Science & Bioinformatics) (20)
Plus de Hidemasa Bono (7)
“これから”のライフサイエンス研究とバイオインフォマティクス (Next Generation Life Science & Bioinformatics)
- 2. #NGLSBI
坊農秀雅
• 読み: ぼうのうひでまさ
• 趣味: 道の駅&温泉巡り、スキー、元鉄オタ
• 専門:
‒バイオインフォマティクス
‒ゲノム生物学(微生物→マウス、最近は昆虫)
• ドメイン: bonohu.jp
• twitter可
• ハッシュタグは
!2
bonohu!
!
bono@dbcls.jp
#NGLSBI
© 2013 DBCLS Licensed under CC 表示 2.1 日本
- 6. #NGLSBI
DNA塩基配列解読の超高速化
• かつてはSanger法
• 最近は「次世代シーケンサー(NGS)」
‒Illumina: Sequence By Synthesis
• http://www.youtube.com/watch?v=womKfikWlxM
‒Life Technologies(Applied Biosystems)
•ヌクレオチドがDNA鎖に取り込まれる過程でポリメ
ラーゼによって放出される水素イオンを検出
• https://www.youtube.com/watch?v=MxkYa9XCvBQ
‒PacBio: 一分子・リアルタイム(SMRT®)検出
• https://www.youtube.com/watch?v=NHCJ8PtYCFc
!6
© 2013 DBCLS Licensed under CC 表示 2.1 日本
- 12. #NGLSBI
次世代シーケンサからのデータ
• FASTQフォーマットのファイル
‒4行/readが基本単位
‒MiSeq v3
•5000万リードx4行
•=2億行
SRR001356.1 2023DAAXX:5:1:123:563 length=33
TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC
+SRR001356.1 2023DAAXX:5:1:123:563 length=33
-IIIIIIII8IIIIIIIIIII6IIIIIIIII9I
@SRR001356.2 2023DAAXX:5:1:123:476 length=33
TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG
+SRR001356.2 2023DAAXX:5:1:123:476 length=33
IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III
@SRR001356.3 2023DAAXX:5:1:121:746 length=33
GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT
+SRR001356.3 2023DAAXX:5:1:121:746 length=33
IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII
• ファイルサイズも2Gbyte/file超
‒FAT32フォーマットでは扱えない
• いわゆる「開く」ことが不可能
!12
© 2013 DBCLS Licensed under CC 表示 2.1 日本
- 28. #NGLSBI
レベル1: GUIを決め込む
• NGS解析GUIソフトウェア(有償)
– CLC Genomics workbench http://www.clcbio.co.jp/
– Avadis NGS http://www.avadis-ngs.com/
• 遺伝子発現解析
‒無償でいいものが多数
–例えば、GSEA(Gene Set Enrichment Analysis)のDAVID!
–Google 検索して調べましょう
!28
© 2013 DBCLS Licensed under CC 表示 2.1 日本
- 31. #NGLSBI
RNAseq
• 「次世代シーケンサを利用して、サンプル中
の RNA の中身に関する情報を得るために
cDNA をシーケンシングする方法」!
–http://en.wikipedia.org/wiki/RNA-Seqより勝手に翻訳!
• Whole transcriptome shutgun
sequencing(WTSS) や!
• Transcriptome sequencingとも
!31
© 2013 DBCLS Licensed under CC 表示 2.1 日本
- 32. #NGLSBI
SRR001356.1 2023DAAXX:5:1:123:563 length=33!
TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC!
+SRR001356.1 2023DAAXX:5:1:123:563 length=33!
-IIIIIIII8IIIIIIIIIII6IIIIIIIII9I!
@SRR001356.2 2023DAAXX:5:1:123:476 length=33!
TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG!
+SRR001356.2 2023DAAXX:5:1:123:476 length=33!
IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III!
@SRR001356.3 2023DAAXX:5:1:121:746 length=33!
GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT!
+SRR001356.3 2023DAAXX:5:1:121:746 length=33!
IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII
FASTQ
RNAseq データ
解析の流れ 上流はレベル2
ゲノム
1.tophat
(bowtie)
2.cufflinks
ゲノムに対する多重配列アラインメント
.gtf
ゲノムアノ
テーション
予測転写単位ごとの
(推定)発現量情報
!32
.fa
.bam
遺伝子アノ
テーション
3.cummeRbund
© 2013 DBCLS Licensed under CC 表示 2.1 日本
!32
- 33. #NGLSBI
レベル2: UNIXの使い方(CUI)デモ
• 出典: http://bit.ly/unixdemo131209
‒ grep
‒ less
‒ cut, sort, wc
!
• どうしてもWindowsという人はcygwinを
–http://togotv.dbcls.jp/20110520.html
!33
© 2013 DBCLS Licensed under CC 表示 2.1 日本
- 41. #NGLSBI
データベース乱立時代
• Nucleic Acids Research
• 毎年年頭にDatabase issueを発刊
• 2013年(最新版)の巻頭言
– http://nar.oxfordjournals.org/content/41/D1/D1.abstract
• 1,512のDB!
• 多すぎ。把握困難
統合しましょう
!41
© 2013 DBCLS Licensed under CC 表示 2.1 日本
- 50. #NGLSBI
RDFによるDB統合
ゲノムの配列情報と多種多様なアノテーションデータを個別のオン
トロジー、データ変換プログラムを開発し RDF 形式にして統合
ゲノム配列
NCBI: BioProject/RefSeq
-- 既存のリファレンス配列
DDBJ: Annotation
pipeline/GTPS -- 新規ゲノ
ム配列
実験・メタデータ
INSDC, NCBI: SRA, GEO
DBCLS: RefEx, Kusarinoko
GOLD, GSC: 環境メタデータ
Bulk data: 文献, 画像 ...
オントロジー
NCBO: BioPortal, OBO
(GO, SO ...)
DBCLS: MEO, GMO,
MCCV ...
アノテーション
UniProt: Protein
functions and links
Formats: GFF3, GTF,
GVF, DAS, BED ...
Tools: Cufflinks, BLAST,
InterProt ...
Slide from トーゴーの日シンポジウム2013
「データベース統合の実現に向けて2」
by 岡本忍 (DBCLS)
!50
©© 2013 DBCLS Licensed under CC 表示 2.1 日本
2013 DBCLS Licensed under CC BY 2.1JAPAN
- 60. #NGLSBI
MotDB
• Master of the DB「データベースの達人」
‒ 「もっとDB? もういらん、増やさんといて!」
• 統合DB講習会のテキスト置き場
‒ DBやツールの使い方の宝庫
http://MotDB.dbcls.jp/
‒ 例えば…
•RNAseq,ChIPseqのRによる解析方法
•遺伝子発現データの生物学的解釈方法
•Local BLASTのやり方(MacOSX, Windowsの両方)
!60
© 2013 DBCLS Licensed under CC 表示 2.1 日本
- 72. #NGLSBI
1. DBCLS SRA
Pipeline to help re-use public NGS data
Search data
• Yellow pages for NGS data archived!
–Indexed by metadata. Search by....!
Download
Quality Check
• Statistics!
• Publications!
• Diseases!
–Direct link to original DB(SRA)!
Data processing
Analysis
• Pre-calculated QC data
http://SRA.dbcls.jp/
!72
© 2013 DBCLS Licensed under CC BY 2.1JAPAN
© 2013 DBCLS Licensed under CC 表示 2.1 日本
- 77. #NGLSBI
Search by diseases(cont.)
Nakazato T, Ohta T, Bono H!
Experimental design-based functional mining and characterization of
high-throughput sequencing data in the Sequence Read Archive.!
PLOS ONE. 2013; doi: 10.1371/journal.pone.0077910
© 2013 DBCLS Licensed under CC BY 2.1JAPAN
© 2013 DBCLS Licensed under CC 表示 2.1 日本
!77
- 78. #NGLSBI
GGRNA
GooGle ライクな RNA 検索エンジン
http://GGRNA.dbcls.jp/
■ あらゆるキーワードや塩基配列・
アミノ酸配列からすばやく簡単に
遺伝子を検索するウェブサーバ
■ RefSeqのmRNA+ncRNAを
高速に全文検索する
■ PCRのプライマー、マイクロ
アレイのプローブ、siRNAの
標的配列を即座に確認
■ REST API提供により外部の
システムと連携可能
!78
© 2013 DBCLS Licensed under CC 表示 2.1 日本
- 79. #NGLSBI
GooGle ライクな Genome 検索エンジン
http://GGGenome.dbcls.jp/
Genomeも検索できたらええなあ…
やりましょう!!
!79
© 2013 DBCLS Licensed under CC 表示 2.1 日本
- 90. #NGLSBI
御清聴ありがとうございました
We all level 2 and more!
スライドのありか
http://bit.ly/bono131209
bonohu!
bono@dbcls.jp photo by @hirabat (1st Bono Conference on 20130113 )
!90
!90
© 2013 DBCLS Licensed under CC 表示 2.1 日本