SlideShare une entreprise Scribd logo
1  sur  23
m i R N A デ ー タ 解 析 入 門
第 2 3 回 勉 強 会 資 料
2013年6月15日
Copyright © Amelieff Corporation. All Rights Reserved.
2
m i R N A と は
• タンパク質をコードしない、ノンコーディングRNAの一種
• 他の遺伝子のイントロンのアンチセンス鎖などから転写
される
• 転写後、ヘアピン構造のprecursor miRNAになった後、
Dicerによって切り出されて長さ20~25bp程度のmature
miRNAとなって機能する
• miRNA上の一部分が他の遺伝子の一部分に結合する
ことで遺伝子の発現が制御される
• 細胞の発生、分化、増殖、がん化などに深く関与するこ
とが知られている
http://ja.wikipedia.org/wiki/MiRNA
Copyright © Amelieff Corporation. All Rights Reserved.
最 近 の m i R N A 関 連 記 事
3
BioToday 2013-05-10
マイナビウーマン 2013-04-27
MTPro 2013-05-08
日経バイオテクONLINE 2013-04-11
Copyright © Amelieff Corporation. All Rights Reserved.
4
m i R N A 解 析 の 一 般 的 な 流 れ
Single-endで
シーケンシング
アダプタを除去
10bp未満を
破棄
既知配列と比較
mature miRNA, other ncRNA,
exon, intergenic/intronic
既知
miRNA
発現量正規化
TPM(*1)
サンプル間比較
SAM(*2)、Fold Change
*1: transcript per million
*2: Significance Analysis of Microarrays
データのクリーニング・解析前処理
アノテーション
リードを
クリーニング
既知 other ncRNA
参考:
BMC Genomics. 2010 May 7;11:288. http://www.ncbi.nlm.nih.gov/pubmed/20459673
BGI Japan http://www.bgisequence.com/jp/services/sequencing-services/rna-sequencing/small-rna-sequencing/
intergenic/intronic
にある
未知転写物
新規
miRNA
新規miRNA予測
ターゲット予測
Pathway分類
GO分類
発現比較
転写物+両端70bpを
miRNA予測
既知 exon
uniqueなFastaに変換してから解析することが多い
二次構造や
既知モデルとの比較
Pathway分類
GO分類
Copyright © Amelieff Corporation. All Rights Reserved.
5
m i R N A の シ ー ケ ン シ ン グ
• 原則的にSingle End
• シーケンシング長は35~50bp程度で十分
• miRNAのキャプチャキット
– mirVana™ miRNA Isolation Kit (ライフテクノロジー)
– TruSeq Small RNA Sample Preparation Kit (イルミナ) など
Copyright © Amelieff Corporation. All Rights Reserved.
6
テ ス ト デ ー タ を 用 い た 解 析 例
Copyright © Amelieff Corporation. All Rights Reserved.
テ ス ト デ ー タ
• 哺乳類miRNAをGAII、Single End でシーケンシングした結果が公開されている
– http://trace.ddbj.nig.ac.jp/DRASearch/study?acc=ERP000773
• 今回はそのうちのヒト由来3組織×2サンプル=計6サンプルを使用
7
ID 説明 リード長 リード数
ERR038405
ヒト
脳由来
miRNA
43 21,758,606
ERR038406 43 20,241,515
ERR038410
肝臓由来
51 10,514,371
ERR038411 26 8,399,589
ERR038415
精巣由来
26 7,130,991
ERR038416 26 9,378,202
Copyright © Amelieff Corporation. All Rights Reserved.
8
テ ス ト デ ー タ の ク オ リ テ ィ を チ ェ ッ ク
• FastQC(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)でチェック
– → クオリティスコアの低いリードが入っている
– → 一部のサンプルでアダプタ配列が混入している
クリーニングが必要
Copyright © Amelieff Corporation. All Rights Reserved.
ク リ ー ニ ン グ
• クリーニング条件
– クオリティスコアが20未満の塩基を80%以上含むリードを破棄
– クオリティスコアが20未満の塩基をトリミング
– トリミングの結果、10bpより短くなったリードを破棄
• FastX-Toolkit(fastq_quality_filter、fastq_quality_trimmer)でクリーニング
• クリーニング前後のリード配列を、FastQC
(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)でチェック
9
$ fastq_quality_filter -i SRR060981.fastq
-q 20 -p 80 -Q33 | fastq_quality_trimmer -t 20
-l 10 -Q33 -o SRR060981_clean.fastq
Copyright © Amelieff Corporation. All Rights Reserved.
10
ク リ ー ニ ン グ 前 後 の ク オ リ テ ィ 比 較
クオリティの悪い塩基・
リードが除去された
Copyright © Amelieff Corporation. All Rights Reserved.
ア ダ プ タ 配 列 除 去
• 一部のサンプルで以下のアダプタの混入が確認された
– Illumina PCR Primer Index 1
• TACAGTCCGACGATCTCGTATGCCGTCTTC
• CTACAGTCCGACGATCTCGTATGCCGTCTT
– Illumina Single End Adapter 2
• TCGTATGCCGTCTTCTGCTTGAAAAAAAAA
• cutadapt(http://code.google.com/p/cutadapt/)を用いてアダプタ除去を行った
11
Copyright © Amelieff Corporation. All Rights Reserved.
ア ダ プ タ 配 列 除 去
• cutadapt実行前後の各アダプタ(全長)出現数
12
ID Illumina PCR Primer Index 1
TACAGTCCGACGATCTCGTA
TGCCGTCTTC
Illumina PCR Primer Index 1
CTACAGTCCGACGATCTCGT
ATGCCGTCTT
Illumina Single End Adapter 2
TCGTATGCCGTCTTCTGCTT
GAAAAAAAAA
除去前 除去後 除去前 除去後 除去前 除去後
ERR038405 8 0 16 0 3 0
ERR038406 264 0 495 0 45 0
ERR038410 2 0 2 0 0 0
ERR038411 0 0 0 0 0 0
ERR038415 0 0 0 0 0 0
ERR038416 0 0 0 0 0 0
アダプタが全長で入っているようなものは完全に除去できた
→アダプタが断片的に入っているようなものはどうか?
Copyright © Amelieff Corporation. All Rights Reserved.
ア ダ プ タ 配 列 除 去
• cutadapt実行前後の各アダプタ(前半15塩基)出現数
13
ID Illumina PCR Primer Index 1
TACAGTCCGACGATCTCGTA
TGCCGTCTTC
Illumina PCR Primer Index 1
CTACAGTCCGACGATCTCGT
ATGCCGTCTT
Illumina Single End Adapter 2
TCGTATGCCGTCTTCTGCTT
GAAAAAAAAA
除去前 除去後 除去前 除去後 除去前 除去後
ERR038405 82 45 99 39 552 0
ERR038406 1,402 91 2,217 78 21,281 11
ERR038410 2 0 2 0 3 0
ERR038411 5 0 4 1 38 0
ERR038415 27 0 14 0 77 0
ERR038416 154 3 124 2 995 0
「アダプタ断片」は少し残っている可能性がある
Copyright © Amelieff Corporation. All Rights Reserved.
ア ダ プ タ 配 列 除 去
• cutadapt実行前後の各アダプタ(後半15塩基)出現数 ※赤字配列をgrep
14
ID Illumina PCR Primer Index 1
TACAGTCCGACGATCTCGTA
TGCCGTCTTC
Illumina PCR Primer Index 1
CTACAGTCCGACGATCTCGT
ATGCCGTCTT
Illumina Single End Adapter 2
TCGTATGCCGTCTTCTGCTT
GAAAAAAAAA
除去前 除去後 除去前 除去後 除去前 除去後
ERR038405 552 0 130 0 3 0
ERR038406 21,281 11 4894 3 48 3
ERR038410 3 0 2 0 0 0
ERR038411 38 0 0 0 0 0
ERR038415 77 0 0 0 0 0
ERR038416 995 0 3 0 0 0
※3つ目のアダプタの
前半15塩基と同じ
「アダプタ断片」は少し残っている可能性がある
Copyright © Amelieff Corporation. All Rights Reserved.
15
ア ノ テ ー シ ョ ン
• fastqをfastaに変換(配列が同一のものは1つにまとめる)
• 作成したfastaを、既知mature miRNAデータにマッピング(blastn)し、
最もe-valueの小さい結果を採用した
• mature miRNAにマッピングできなかったものはprecursor miRNA、
ncRNA、既知遺伝子の順にマッピングし、アノテーションをつけた
miRBase V19
mature miRNA
miRBase V19
precursor miRNA
Rfam V11
other ncRNA
refSeq Gene
not
mapped
not
mapped
not
mapped
Copyright © Amelieff Corporation. All Rights Reserved.
16
既 知 h u m a n m a t u r e m i R N A の 発 現 比 較
• サンプルごとに総リード数は異なる(=実験時のバイアスなど)
→サンプル間で発現を比較するには補正が必要
ID アダプタ
除去後
ERR038405 59,245
ERR038406 723,434
ERR038410 460
ERR038411 32,323
ERR038415 157,294
ERR038416 656,099
例えばあるmiRNAが
ERR038406に15リード、ERR038410に13リード
あった場合、単純に
「ERR038406のほうが発現が高い」とは言えない
→「マップできたリード数」などで補正する
Copyright © Amelieff Corporation. All Rights Reserved.
17
既 知 h u m a n m a t u r e m i R N A の 発 現 比 較
• 各サンプルにおける発現量(補正前)
Copyright © Amelieff Corporation. All Rights Reserved.
18
既 知 h u m a n m a t u r e m i R N A の 発 現 比 較
• 各サンプルにおける発現量(補正後)
– 「human mature miRNAにマップできたリード数(単位:100万)」で割る
Copyright © Amelieff Corporation. All Rights Reserved.
19
既 知 h u m a n m a t u r e m i R N A の 発 現 比 較
• 補正による発現量の変化の例
0
5000
10000
15000
20000
25000
30000
35000
40000
ERR038405 ERR038406 ERR038410 ERR038411 ERR038415 ERR038416
hsa-let-7g-5p
補正前
補正後
Copyright © Amelieff Corporation. All Rights Reserved.
20
ヒ ー ト マ ッ プ 図
• 補正後の発現量データをRに読み込む
> mirna <- read.table("補正後の発現量ファイル", header=T,
row.names=1)
補正後発現量の合計が大きい順
50データを用いた
Copyright © Amelieff Corporation. All Rights Reserved.
21
ヒ ー ト マ ッ プ 図
• 組織ごとにクラスタリングされた
• 肝臓でmir-122の発現が高かった
(赤矢印)
• mir-122は肝臓特異的に発現する
miRNAであることが論文で報告さ
れている[1]
脳脳肝
臓
肝
臓
精
巣
精
巣
[1] Landgraf P, et al.
A mammalian microRNA expression atlas based on
small RNA library sequencing.
Cell. 2007 Jun 29;129(7):1401-14. PubMed PMID: 17604727
Copyright © Amelieff Corporation. All Rights Reserved.
22
ま と め
• miRNAシーケンシングデータ解析で留意すべき点
– アダプタが混入していたら、適切に除去する
– 既知miRNAやncRNAにマッピングしてアノテーションをつける
– 新規miRNAを予測するソフトもある
– 発現量を比較する場合は「マッピングできたリード数」などで補正する
Copyright © Amelieff Corporation All Rights Reserved.
23
アメリエフ
バイオインフォマティクス
調査リクエストサービス
バイオ研究の解析に使用するソフトや解析手法について、
無償で調査するサービスです。調査結果はアメリエフの
ブログでご紹介いたします。
申込みフォーム http://goo.gl/g3SOtU
ア メ リ ク

Contenu connexe

Tendances

フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善Yuta Matsunaga
 
AWS + MLflow + SageMakerの環境を動かしてみたお話
AWS + MLflow + SageMakerの環境を動かしてみたお話AWS + MLflow + SageMakerの環境を動かしてみたお話
AWS + MLflow + SageMakerの環境を動かしてみたお話ItohHiroki
 
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計Takahiro Kubo
 
分散システムについて語らせてくれ
分散システムについて語らせてくれ分散システムについて語らせてくれ
分散システムについて語らせてくれKumazaki Hiroki
 
40歳過ぎてもエンジニアでいるためにやっていること
40歳過ぎてもエンジニアでいるためにやっていること40歳過ぎてもエンジニアでいるためにやっていること
40歳過ぎてもエンジニアでいるためにやっていることonozaty
 
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptxネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptxShota Shinogi
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
Product ManagerとProduct Ownerの役割の違いについて
Product ManagerとProduct Ownerの役割の違いについてProduct ManagerとProduct Ownerの役割の違いについて
Product ManagerとProduct Ownerの役割の違いについてNoritaka Shinohara
 
無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)Shuyo Nakatani
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018Takahiro Kubo
 
Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールProphet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールhoxo_m
 
合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点Ichigaku Takigawa
 
(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説Hironori Washizaki
 
CyberChefの使い方(HamaCTF2019 WriteUp編)
CyberChefの使い方(HamaCTF2019 WriteUp編)CyberChefの使い方(HamaCTF2019 WriteUp編)
CyberChefの使い方(HamaCTF2019 WriteUp編)Shota Shinogi
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
ブレインパッドにおける機械学習プロジェクトの進め方
ブレインパッドにおける機械学習プロジェクトの進め方ブレインパッドにおける機械学習プロジェクトの進め方
ブレインパッドにおける機械学習プロジェクトの進め方BrainPad Inc.
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)ryotat
 

Tendances (20)

フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
 
AWS + MLflow + SageMakerの環境を動かしてみたお話
AWS + MLflow + SageMakerの環境を動かしてみたお話AWS + MLflow + SageMakerの環境を動かしてみたお話
AWS + MLflow + SageMakerの環境を動かしてみたお話
 
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計
 
分散システムについて語らせてくれ
分散システムについて語らせてくれ分散システムについて語らせてくれ
分散システムについて語らせてくれ
 
40歳過ぎてもエンジニアでいるためにやっていること
40歳過ぎてもエンジニアでいるためにやっていること40歳過ぎてもエンジニアでいるためにやっていること
40歳過ぎてもエンジニアでいるためにやっていること
 
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptxネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
Product ManagerとProduct Ownerの役割の違いについて
Product ManagerとProduct Ownerの役割の違いについてProduct ManagerとProduct Ownerの役割の違いについて
Product ManagerとProduct Ownerの役割の違いについて
 
無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
 
Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールProphet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツール
 
合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点
 
(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説
 
CyberChefの使い方(HamaCTF2019 WriteUp編)
CyberChefの使い方(HamaCTF2019 WriteUp編)CyberChefの使い方(HamaCTF2019 WriteUp編)
CyberChefの使い方(HamaCTF2019 WriteUp編)
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
ブレインパッドにおける機械学習プロジェクトの進め方
ブレインパッドにおける機械学習プロジェクトの進め方ブレインパッドにおける機械学習プロジェクトの進め方
ブレインパッドにおける機械学習プロジェクトの進め方
 
Marp Tutorial
Marp TutorialMarp Tutorial
Marp Tutorial
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
 

Plus de Amelieff

フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門Amelieff
 
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料Amelieff
 
フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料Amelieff
 
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料Amelieff
 
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料Amelieff
 
SNPデータ解析入門
SNPデータ解析入門SNPデータ解析入門
SNPデータ解析入門Amelieff
 
はじめてのLinux
はじめてのLinuxはじめてのLinux
はじめてのLinuxAmelieff
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアルAmelieff
 
Exome解析入門
Exome解析入門Exome解析入門
Exome解析入門Amelieff
 
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングNGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングAmelieff
 
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析Amelieff
 
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析Amelieff
 
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerNGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerAmelieff
 

Plus de Amelieff (13)

フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門
 
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
 
フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料
 
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
 
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
 
SNPデータ解析入門
SNPデータ解析入門SNPデータ解析入門
SNPデータ解析入門
 
はじめてのLinux
はじめてのLinuxはじめてのLinux
はじめてのLinux
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル
 
Exome解析入門
Exome解析入門Exome解析入門
Exome解析入門
 
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングNGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
 
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
 
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
 
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerNGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
 

miRNAデータ解析入門_第23回勉強会資料

  • 1. m i R N A デ ー タ 解 析 入 門 第 2 3 回 勉 強 会 資 料 2013年6月15日
  • 2. Copyright © Amelieff Corporation. All Rights Reserved. 2 m i R N A と は • タンパク質をコードしない、ノンコーディングRNAの一種 • 他の遺伝子のイントロンのアンチセンス鎖などから転写 される • 転写後、ヘアピン構造のprecursor miRNAになった後、 Dicerによって切り出されて長さ20~25bp程度のmature miRNAとなって機能する • miRNA上の一部分が他の遺伝子の一部分に結合する ことで遺伝子の発現が制御される • 細胞の発生、分化、増殖、がん化などに深く関与するこ とが知られている http://ja.wikipedia.org/wiki/MiRNA
  • 3. Copyright © Amelieff Corporation. All Rights Reserved. 最 近 の m i R N A 関 連 記 事 3 BioToday 2013-05-10 マイナビウーマン 2013-04-27 MTPro 2013-05-08 日経バイオテクONLINE 2013-04-11
  • 4. Copyright © Amelieff Corporation. All Rights Reserved. 4 m i R N A 解 析 の 一 般 的 な 流 れ Single-endで シーケンシング アダプタを除去 10bp未満を 破棄 既知配列と比較 mature miRNA, other ncRNA, exon, intergenic/intronic 既知 miRNA 発現量正規化 TPM(*1) サンプル間比較 SAM(*2)、Fold Change *1: transcript per million *2: Significance Analysis of Microarrays データのクリーニング・解析前処理 アノテーション リードを クリーニング 既知 other ncRNA 参考: BMC Genomics. 2010 May 7;11:288. http://www.ncbi.nlm.nih.gov/pubmed/20459673 BGI Japan http://www.bgisequence.com/jp/services/sequencing-services/rna-sequencing/small-rna-sequencing/ intergenic/intronic にある 未知転写物 新規 miRNA 新規miRNA予測 ターゲット予測 Pathway分類 GO分類 発現比較 転写物+両端70bpを miRNA予測 既知 exon uniqueなFastaに変換してから解析することが多い 二次構造や 既知モデルとの比較 Pathway分類 GO分類
  • 5. Copyright © Amelieff Corporation. All Rights Reserved. 5 m i R N A の シ ー ケ ン シ ン グ • 原則的にSingle End • シーケンシング長は35~50bp程度で十分 • miRNAのキャプチャキット – mirVana™ miRNA Isolation Kit (ライフテクノロジー) – TruSeq Small RNA Sample Preparation Kit (イルミナ) など
  • 6. Copyright © Amelieff Corporation. All Rights Reserved. 6 テ ス ト デ ー タ を 用 い た 解 析 例
  • 7. Copyright © Amelieff Corporation. All Rights Reserved. テ ス ト デ ー タ • 哺乳類miRNAをGAII、Single End でシーケンシングした結果が公開されている – http://trace.ddbj.nig.ac.jp/DRASearch/study?acc=ERP000773 • 今回はそのうちのヒト由来3組織×2サンプル=計6サンプルを使用 7 ID 説明 リード長 リード数 ERR038405 ヒト 脳由来 miRNA 43 21,758,606 ERR038406 43 20,241,515 ERR038410 肝臓由来 51 10,514,371 ERR038411 26 8,399,589 ERR038415 精巣由来 26 7,130,991 ERR038416 26 9,378,202
  • 8. Copyright © Amelieff Corporation. All Rights Reserved. 8 テ ス ト デ ー タ の ク オ リ テ ィ を チ ェ ッ ク • FastQC(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)でチェック – → クオリティスコアの低いリードが入っている – → 一部のサンプルでアダプタ配列が混入している クリーニングが必要
  • 9. Copyright © Amelieff Corporation. All Rights Reserved. ク リ ー ニ ン グ • クリーニング条件 – クオリティスコアが20未満の塩基を80%以上含むリードを破棄 – クオリティスコアが20未満の塩基をトリミング – トリミングの結果、10bpより短くなったリードを破棄 • FastX-Toolkit(fastq_quality_filter、fastq_quality_trimmer)でクリーニング • クリーニング前後のリード配列を、FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)でチェック 9 $ fastq_quality_filter -i SRR060981.fastq -q 20 -p 80 -Q33 | fastq_quality_trimmer -t 20 -l 10 -Q33 -o SRR060981_clean.fastq
  • 10. Copyright © Amelieff Corporation. All Rights Reserved. 10 ク リ ー ニ ン グ 前 後 の ク オ リ テ ィ 比 較 クオリティの悪い塩基・ リードが除去された
  • 11. Copyright © Amelieff Corporation. All Rights Reserved. ア ダ プ タ 配 列 除 去 • 一部のサンプルで以下のアダプタの混入が確認された – Illumina PCR Primer Index 1 • TACAGTCCGACGATCTCGTATGCCGTCTTC • CTACAGTCCGACGATCTCGTATGCCGTCTT – Illumina Single End Adapter 2 • TCGTATGCCGTCTTCTGCTTGAAAAAAAAA • cutadapt(http://code.google.com/p/cutadapt/)を用いてアダプタ除去を行った 11
  • 12. Copyright © Amelieff Corporation. All Rights Reserved. ア ダ プ タ 配 列 除 去 • cutadapt実行前後の各アダプタ(全長)出現数 12 ID Illumina PCR Primer Index 1 TACAGTCCGACGATCTCGTA TGCCGTCTTC Illumina PCR Primer Index 1 CTACAGTCCGACGATCTCGT ATGCCGTCTT Illumina Single End Adapter 2 TCGTATGCCGTCTTCTGCTT GAAAAAAAAA 除去前 除去後 除去前 除去後 除去前 除去後 ERR038405 8 0 16 0 3 0 ERR038406 264 0 495 0 45 0 ERR038410 2 0 2 0 0 0 ERR038411 0 0 0 0 0 0 ERR038415 0 0 0 0 0 0 ERR038416 0 0 0 0 0 0 アダプタが全長で入っているようなものは完全に除去できた →アダプタが断片的に入っているようなものはどうか?
  • 13. Copyright © Amelieff Corporation. All Rights Reserved. ア ダ プ タ 配 列 除 去 • cutadapt実行前後の各アダプタ(前半15塩基)出現数 13 ID Illumina PCR Primer Index 1 TACAGTCCGACGATCTCGTA TGCCGTCTTC Illumina PCR Primer Index 1 CTACAGTCCGACGATCTCGT ATGCCGTCTT Illumina Single End Adapter 2 TCGTATGCCGTCTTCTGCTT GAAAAAAAAA 除去前 除去後 除去前 除去後 除去前 除去後 ERR038405 82 45 99 39 552 0 ERR038406 1,402 91 2,217 78 21,281 11 ERR038410 2 0 2 0 3 0 ERR038411 5 0 4 1 38 0 ERR038415 27 0 14 0 77 0 ERR038416 154 3 124 2 995 0 「アダプタ断片」は少し残っている可能性がある
  • 14. Copyright © Amelieff Corporation. All Rights Reserved. ア ダ プ タ 配 列 除 去 • cutadapt実行前後の各アダプタ(後半15塩基)出現数 ※赤字配列をgrep 14 ID Illumina PCR Primer Index 1 TACAGTCCGACGATCTCGTA TGCCGTCTTC Illumina PCR Primer Index 1 CTACAGTCCGACGATCTCGT ATGCCGTCTT Illumina Single End Adapter 2 TCGTATGCCGTCTTCTGCTT GAAAAAAAAA 除去前 除去後 除去前 除去後 除去前 除去後 ERR038405 552 0 130 0 3 0 ERR038406 21,281 11 4894 3 48 3 ERR038410 3 0 2 0 0 0 ERR038411 38 0 0 0 0 0 ERR038415 77 0 0 0 0 0 ERR038416 995 0 3 0 0 0 ※3つ目のアダプタの 前半15塩基と同じ 「アダプタ断片」は少し残っている可能性がある
  • 15. Copyright © Amelieff Corporation. All Rights Reserved. 15 ア ノ テ ー シ ョ ン • fastqをfastaに変換(配列が同一のものは1つにまとめる) • 作成したfastaを、既知mature miRNAデータにマッピング(blastn)し、 最もe-valueの小さい結果を採用した • mature miRNAにマッピングできなかったものはprecursor miRNA、 ncRNA、既知遺伝子の順にマッピングし、アノテーションをつけた miRBase V19 mature miRNA miRBase V19 precursor miRNA Rfam V11 other ncRNA refSeq Gene not mapped not mapped not mapped
  • 16. Copyright © Amelieff Corporation. All Rights Reserved. 16 既 知 h u m a n m a t u r e m i R N A の 発 現 比 較 • サンプルごとに総リード数は異なる(=実験時のバイアスなど) →サンプル間で発現を比較するには補正が必要 ID アダプタ 除去後 ERR038405 59,245 ERR038406 723,434 ERR038410 460 ERR038411 32,323 ERR038415 157,294 ERR038416 656,099 例えばあるmiRNAが ERR038406に15リード、ERR038410に13リード あった場合、単純に 「ERR038406のほうが発現が高い」とは言えない →「マップできたリード数」などで補正する
  • 17. Copyright © Amelieff Corporation. All Rights Reserved. 17 既 知 h u m a n m a t u r e m i R N A の 発 現 比 較 • 各サンプルにおける発現量(補正前)
  • 18. Copyright © Amelieff Corporation. All Rights Reserved. 18 既 知 h u m a n m a t u r e m i R N A の 発 現 比 較 • 各サンプルにおける発現量(補正後) – 「human mature miRNAにマップできたリード数(単位:100万)」で割る
  • 19. Copyright © Amelieff Corporation. All Rights Reserved. 19 既 知 h u m a n m a t u r e m i R N A の 発 現 比 較 • 補正による発現量の変化の例 0 5000 10000 15000 20000 25000 30000 35000 40000 ERR038405 ERR038406 ERR038410 ERR038411 ERR038415 ERR038416 hsa-let-7g-5p 補正前 補正後
  • 20. Copyright © Amelieff Corporation. All Rights Reserved. 20 ヒ ー ト マ ッ プ 図 • 補正後の発現量データをRに読み込む > mirna <- read.table("補正後の発現量ファイル", header=T, row.names=1) 補正後発現量の合計が大きい順 50データを用いた
  • 21. Copyright © Amelieff Corporation. All Rights Reserved. 21 ヒ ー ト マ ッ プ 図 • 組織ごとにクラスタリングされた • 肝臓でmir-122の発現が高かった (赤矢印) • mir-122は肝臓特異的に発現する miRNAであることが論文で報告さ れている[1] 脳脳肝 臓 肝 臓 精 巣 精 巣 [1] Landgraf P, et al. A mammalian microRNA expression atlas based on small RNA library sequencing. Cell. 2007 Jun 29;129(7):1401-14. PubMed PMID: 17604727
  • 22. Copyright © Amelieff Corporation. All Rights Reserved. 22 ま と め • miRNAシーケンシングデータ解析で留意すべき点 – アダプタが混入していたら、適切に除去する – 既知miRNAやncRNAにマッピングしてアノテーションをつける – 新規miRNAを予測するソフトもある – 発現量を比較する場合は「マッピングできたリード数」などで補正する
  • 23. Copyright © Amelieff Corporation All Rights Reserved. 23 アメリエフ バイオインフォマティクス 調査リクエストサービス バイオ研究の解析に使用するソフトや解析手法について、 無償で調査するサービスです。調査結果はアメリエフの ブログでご紹介いたします。 申込みフォーム http://goo.gl/g3SOtU ア メ リ ク