SlideShare a Scribd company logo
Soumettre la recherche
Mettre en ligne
S’identifier
S’inscrire
Exome解析入門
Signaler
Amelieff
Suivre
Amelieff
16 Jul 2012
•
0 j'aime
•
27,060 vues
1
sur
25
Exome解析入門
16 Jul 2012
•
0 j'aime
•
27,060 vues
Signaler
Santé & Médecine
2012年7月7日に開催した、アメリエフ株式会社・第14回勉強会「Exome解析入門」のスライドです。
Amelieff
Suivre
Amelieff
Recommandé
遺伝研スパコンを使った解析の並列化.pptx
Osamu Ogasawara
1K vues
•
32 diapositives
R を起動するその前に
Kosei ABE
17.6K vues
•
41 diapositives
[DDBJing31] DDBJ と NIG SuperComputer の使い方
DNA Data Bank of Japan center
1.9K vues
•
86 diapositives
遺伝研スパコンの『ここが困った!』事例集と今後への提言
Masahiro Kasahara
10.4K vues
•
27 diapositives
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
Amelieff
23.9K vues
•
59 diapositives
NGS解析を始めた時にぶつかりがちな小さい壁あれこれ
DNA Data Bank of Japan center
4.2K vues
•
73 diapositives
Contenu connexe
Tendances
NGSを用いたジェノタイピングを様々な解析に用いるには?
Hiromi Kajiya-Kanegae
6.9K vues
•
36 diapositives
SNPデータ解析入門
Amelieff
86.7K vues
•
52 diapositives
フリーソフトではじめるNGS融合遺伝子解析入門
Amelieff
10.4K vues
•
39 diapositives
R Markdownによるドキュメント生成と バージョン管理入門
nocchi_airport
10.2K vues
•
87 diapositives
MIRU MIRU わかる GAN
Tomohiro Takahashi
5.8K vues
•
60 diapositives
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
39.4K vues
•
79 diapositives
Tendances
(20)
NGSを用いたジェノタイピングを様々な解析に用いるには?
Hiromi Kajiya-Kanegae
•
6.9K vues
SNPデータ解析入門
Amelieff
•
86.7K vues
フリーソフトではじめるNGS融合遺伝子解析入門
Amelieff
•
10.4K vues
R Markdownによるドキュメント生成と バージョン管理入門
nocchi_airport
•
10.2K vues
MIRU MIRU わかる GAN
Tomohiro Takahashi
•
5.8K vues
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
•
39.4K vues
Rで実験計画法 後編
itoyan110
•
33.4K vues
Rで計量時系列分析~CRANパッケージ総ざらい~
Takashi J OZAKI
•
58.8K vues
Pythonによる、デジタル通信のための ビタビ符号化・復号ライブラリの作成
Katsuhiro Morishita
•
2.3K vues
Gstreamer Basics
Seiji Hiraki
•
975 vues
Shinyユーザのための非同期プログラミング入門
hoxo_m
•
5.1K vues
ブートストラップ法とその周辺とR
Daisuke Yoneoka
•
13.2K vues
Efficient Neural Architecture Searchvia Parameter Sharing
Taichi Itoh
•
1.1K vues
文献紹介:YOLO series:v1-v5, X, F, and YOWO
Toru Tamaki
•
208 vues
[DL輪読会]Relational inductive biases, deep learning, and graph networks
Deep Learning JP
•
4.1K vues
Juliaで並列計算
Shintaro Fukushima
•
22.3K vues
バイオインフォマティクスで実験ノートを取ろう
Masahiro Kasahara
•
22.3K vues
Bioconductorも便利ですよ ~ConsensusClusterPlus(CCP)の紹介~
Satoshi Fujii
•
879 vues
バイオインフォマティクスによる遺伝子発現解析
sesejun
•
44.9K vues
ggplot2用例集 入門編
nocchi_airport
•
21.3K vues
Similaire à Exome解析入門
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
Amelieff
8.4K vues
•
14 diapositives
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
Amelieff
20.2K vues
•
36 diapositives
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
Amelieff
6.3K vues
•
12 diapositives
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
Amelieff
5.3K vues
•
20 diapositives
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
Genaris Omics, Inc.
7K vues
•
35 diapositives
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
Amelieff
5.3K vues
•
14 diapositives
Similaire à Exome解析入門
(20)
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
Amelieff
•
8.4K vues
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
Amelieff
•
20.2K vues
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
Amelieff
•
6.3K vues
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
Amelieff
•
5.3K vues
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
Genaris Omics, Inc.
•
7K vues
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
Amelieff
•
5.3K vues
オープンソースでシステム監視!統合監視ソフトウェアZabbix
Kodai Terashima
•
1.2K vues
アドテク×Scala×パフォーマンスチューニング
Yosuke Mizutani
•
14.4K vues
オープンソースでシステム監視!統合監視ソフトウェアZabbix
Kodai Terashima
•
1.3K vues
201910 up!magazine&promotions 2019 autumn
nippongenetics
•
102 vues
201910 up!magazine&promotions 2019 autumn
nippongenetics
•
21 vues
201910 up!magazine&promotions 2019 autumn
nippongenetics
•
1.4K vues
201910 up!magazine&promotions 2019 autumn
nippongenetics
•
42 vues
次世代シーケンス解析サーバーReseq解析マニュアル
Amelieff
•
3.4K vues
HeapStats: Introduction and Technical Preview
Yuji Kubota
•
2.7K vues
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2
Computational Materials Science Initiative
•
3.6K vues
Survey in CinC 2021
AMI Inc.
•
524 vues
MySQL Clusterを運用して10ヶ月間
hiroi10
•
6.9K vues
卒研発表 バースカ(確認済み)
Baasanchuluun Batnasan
•
193 vues
STARC RTL設計スタイルガイドによるVerilog HDL並列記述の補強
Kiyoshi Ogawa
•
5.6K vues
Exome解析入門
1.
Exomeデータ解析入門
2012年7月7日 アメリエフ株式会社 Copyright © Amelieff Co. Ltd. All Rights Reserved.
2.
サ ン プ
ル デ ー タ 遺伝性疾患 I 罹患した子供とその両親のトリオ 優性遺伝の形式をとる 幼少期に発症 II 原因として報告されている遺伝子変異があるが 見つからなかった 未知の原因遺伝子が関与している可能性が示唆 Copyright © Amelieff Co. Ltd. All Rights Reserved. 2
3.
E xo m
e 解 析 フ ロ ー I I 罹患 I 罹患 I 非罹患 QC QC QC サンプルごとの Mapping Mapping Mapping 解析 SNV/Indel SNV/Indel SNV/Indel 共通 非罹患者と共通する多型を除く 疾患関連遺伝子 疾患関連変異の候補 の探索 セグメントゲノム重複(segmental duplication)の領域を除く Common SNP, HomoのSNVは避ける Mutation typeで絞り込む 実験的に検証 Copyright © Amelieff Co. Ltd. All Rights Reserved. 3
4.
E xo m
e 解 析 フ ロ ー 【 サ ン プ ル ご と 解 析 】 QC 1. QCleaner : Fastqファイルをフィルタリング 1. BWA : マッピング Mapping 2. Picard : 重複リードの除去 1. GATK : リアラインメント : Recalibration : SNV/Indel検出 SNV/Indel : フィルタリング 2. QuickAnnotator :アノテーション付与 3. snpEFF :アノテーション付与/集計 Copyright © Amelieff Co. Ltd. All Rights Reserved. 4
5.
E xo m
e 解 析 フ ロ ー 【 疾 患 関 連 遺 伝 子 の 探 索 】 サンプル間 BEDtools : 罹患者に共通する多型を抽出 共通 BEDtools :非罹患者と共通する多型を除外 疾患関連 BEDtools :セグメントゲノム重複(segmental duplication)領域の 変異の候補 多型を除外 Linuxコマンド:Common SNP, HomoのSNVは避ける 絞り込み Mutation typeで絞り込む 実験的に 検証 Copyright © Amelieff Co. Ltd. All Rights Reserved. 5
6.
サ ン プ
ル ご と の 解 析 【コマンド】 1. QCleaner : Fastqファイルをフィルタリング ※自社開発のプログラムです。 QC $ perl qcleaner.pl --i1 $FILE1.fastq --i2 $FILE2.fastq --o1 $FILE1.clean.fastq --o2 $FILE2.clean.fastq --qp 20,80 --n 10 -- trim 20 --length 20 --log $FILE.qc.log FASTQ形式にマッチするかチェック データクオリティチェック(FastQC) Mapping Illumina CASAVA filter [Y] を除去 クオリティ20未満が80%以上のリードを除去 クオリティ20未満の末端をトリム 未知の塩基(N)が多いリード除去 SNV/Indel 配列長が短いリード除去 片側のみのリードを除外 データクオリティチェック(FastQC) Copyright © Amelieff Co. Ltd. All Rights Reserved. 6
7.
サ ン プ
ル ご と の 解 析 【コマンド】 1. QCleaner : Fastqファイルをフィルタリング QC ※公開ツールを組み合わせても同じ処理を行えます。下記のコマンドは、一部のコマンドです。 ・ データチェック $ fastqc --nogroup -o ./ -f fastq $FILE1.fastq $FILE2.fastq Mapping ・ クオリティ20以上の塩基が80%未満のリードを削除 $ fastq_quality_filter -i $FILE1.fastq -o $FILE1.qual.fastq -q 20 -p 80 -Q 33 -v ・ ペアのリードを抽出 $ cmpfastq.pl $FILE1.fastq $FILE2.fastq SNV/Indel 出力ファイル SRR290592_1.qual.fastq-common.out SRR290592_1.qual.fastq-unique.out※1 SRR290592_2.qual.fastq-common.out SRR290592_2.qual.fastq-unique.out ※1 ※ 1 使用しないという選択肢もありますが、シングルエンドとしてマッピングするということもできます。 Copyright © Amelieff Co. Ltd. All Rights Reserved. 7
8.
サ ン プ
ル ご と の 解 析 【コマンド】 1. Qcleaner : Fastqファイルをフィルタリング QC Mapping Sequence length : 90 %GC : 44 SNV/Indel 処理後 / 処理前 残存割合 リード数 62,157,419 / 62,167,318 99.98% 塩基数 5,594,167,710 / 5,595,058,620 99.98% Copyright © Amelieff Co. Ltd. All Rights Reserved. 8
9.
サ ン プ
ル ご と の 解 析 【コマンド】 1. BWA : マッピング QC ※ リファレンス GRCh Build37 + デコイ配列 Version 5 Mapping デコイ配列とは? ヒトWhole Genome Sequencing Cloneを「ヒトゲノム+ヒトヘルペスウイルスHHV-4 」に マッピングして、よくマップできなかったものを集めたもの サイズ: 合計35.4Mb、N50=22.9kb 特徴 : 50%はサテライト配列またはシンプルリピート、20%はレトロトランスポゾン 用途 : ① リファレンスゲノムにデコイを入れてマッピングすることにより、SNP検 SNV/Indel 出精度が上がる ② 構造変異の検出精度が上がることも期待される Copyright © Amelieff Co. Ltd. All Rights Reserved. 9
10.
サ ン プ
ル ご と の 解 析 【コマンド】 1. BWA : マッピング QC ・ マッピング/SAMをBAMに変換/ソート $ bwa aln -t 6 genome_hs37d5cs.fa $FILE1.clean.fastq -f $FILE1.sai $ bwa sampe -r "@RG¥tID:$FILE¥tSM:$FILE¥tPL:Illumina" -n 3 Mapping -N 10 -a 500 genome_hs37d5cs.fa $FILE1.sai $FILE2.sai $FILE1.clean.fastq $FILE2.clean.fastq | samtools view -Sb - | samtools sort - $FILE.sorted ※オプション -a INT maximum insert size [500] -n INT maximum hits to output for paired reads [3] -N INT maximum hits to output for discordant pairs [10] SNV/Indel ※RG(read groups) platform (PL) および sample (SM)が必要 PLの例:454, LS454, Illumina, Solid, ABI_Solid, CG (all case-insensitive) 解析ツールGATKに入力するBAMファイルに、RGタグの記述がないとエラーが出る Copyright © Amelieff Co. Ltd. All Rights Reserved. 10
11.
サ ン プ
ル ご と の 解 析 【コマンド】 1. BWA : マッピング QC ・ BAMファイルのインデックス作成 $ samtools index $FILE.sorted.bam ・マッピング率算出 $ samtools idxstats $FILE.sorted.bam | awk '{a += $3; b += Mapping $4} END {print "mapping=",a,",unmapping=",b,"mapped ratio=", a/(a+b)}' ※ samtools idxstatsを実行すると下記のような画面が標準出力されます 染色体 染色体の塩基数 mapped unmapped chr1 249250621 10967229 76642 chr10 135534747 4339778 29214 : SNV/Indel chr9 141213431 4480449 38793 chrM 16571 1769 13 chrX 155270560 2441946 15933 chrY 59373566 519445 7890 * 0 0 1296678 Copyright © Amelieff Co. Ltd. All Rights Reserved. 11
12.
サ ン プ
ル ご と の 解 析 【コマンド】 2. Picard : 重複リードの除去 QC $ java -jar MarkDuplicates.jar I=$FILE.sorted.bam O=$FILE.sorted.redup.bam METRICS_FILE=jeter.metrics REMOVE_DUPLICATES=true ASSUME_SORTED=true VALIDATION_STRINGENCY=SILENT Mapping ※BAMファイルを操作する上で、便利なコマンド ・BAMファイルの中身を表示する $ samtools view $FILE.sorted.redup.bam | less ・必要な領域を抜き出す $ samtools view -b $FILE.sorted.bam chr3:24148647-24546266 > $FILE.chr3.sorted.bam SNV/Indel Copyright © Amelieff Co. Ltd. All Rights Reserved. 12
13.
サ ン プ
ル ご と の 解 析 【コマンド】 1. GATK QC ※入力ファイルを確認 ① マップされていないリードと、そのペアのリードは除く $ samtools view -b -F 12 $FILE.sorted.redup.bam > $FILE.sorted.redup.f12.bam Mapping ② ソートは、数字が大きくなる順番にする $ java -jar ReorderSam.jar I=$FILE.sorted.redup.f12.bam O=$FILE.kary.redup.f12.bam REFERENCE=genome_hs37d5cs.fa ③ RG(read groups)情報を入れる $ java -Xmx10G -jar AddOrReplaceReadGroups.jar I=$FILE.kary.redup.f12.bam O=$FILE.kary.bam SO=coordinate RGID=$FILE RGLB=$FILE RGPL=Illumina RGPU=run RGSM=$FILE SNV/Indel ④ インデックス作成 $ samtools index $FILE.kary.bam Copyright © Amelieff Co. Ltd. All Rights Reserved. 13
14.
サ ン プ
ル ご と の 解 析 【コマンド】 1. GATK QC 1-1. リアラインメント ・ リアラインメントする対象領域を抽出 $ java -Xmx10G -jar GenomeAnalysisTK.jar -T RealignerTargetCreator -R genome_hs37d5cs.fa -I $FILE.kary.bam -o $FILE.intervals ※ Intervalファイルの中身 : chr1:1191423-1191507 Mapping chr1:1192263-1192295 chr1:1197640-1197641 chr1:1198376-1198377 chr1:1198661-1198795 chr1:1203212-1203259 chr1:1213787-1213788 chr1:1217938-1217939 chr1:1222267 chr1:1222468-1222474 chr1:1225488-1225489 SNV/Indel : ・ リアラインメント $ java -jar GenomeAnalysisTK.jar -T IndelRealigner -R genome_hs37d5cs.fa -I $FILE.kary.bam -targetIntervals $FILE.intervals -o $FILE.realigned.bam Copyright © Amelieff Co. Ltd. All Rights Reserved. 14
15.
サ ン プ
ル ご と の 解 析 【コマンド】 1. GATK QC 1-1. リアラインメント ・ペアエンド情報修正 $ java -Xmx10G -jar FixMateInformation.jar I=$FILE.realigned.bam O=$FILE.realigned.fix.bam SO=coordinate VALIDATION_STRINGENCY=SILENT TMP_DIR=$FILE Mapping 1-2. Recalibration ・Recalibrationで入力するファイル作成 $ java -Xmx10G -jar GenomeAnalysisTK.jar -T CountCovariates -cov ReadGroupCovariate -cov QualityScoreCovariate -cov CycleCovariate -cov DinucCovariate -I $FILE.realigned.fix.bam -R genome_hs37d5cs.fa -nt 6 - recalFile $FILE.recal_data.csv --knownSites:name,VCF db3np135-All.vcf ・ Recalibration実行/インデックス作成 SNV/Indel $ java -jar GenomeAnalysisTK.jar -I $FILE.realigned.fix.bam -R genome_hs37d5cs.fa -T TableRecalibration -l INFO -recalFile $FILE.recal_data.csv -log $FILE.new_qual.log --out $FILE.realigned.alnRecal.bam $ samtools index $FILE.realigned.alnRecal.bam Copyright © Amelieff Co. Ltd. All Rights Reserved. 15
16.
サ ン プ
ル ご と の 解 析 【コマンド】 1. GATK QC 1-3. SNV/Indel検出 $ java -jar GenomeAnalysisTK.jar -T UnifiedGenotyper -R genome_hs37d5cs.fa -I $FILE.realigned.alnRecal.bam -o $FILE.gatk.snv.vcf $ java -Xmx10G -jar GenomeAnalysisTK.jar -T UnifiedGenotyper -glm INDEL - R genome_hs37d5cs.fa -I $FILE.realigned.alnRecal.bam -o $FILE.gatk.indel.vcf ※ -glm /--genotype_likelihoods_model SNP, INDEL, BOTH から選べる。デフォルトはSNP Mapping 1-4. フィルタリング $ java -jar GenomeAnalysisTK.jar -T VariantFiltration -R genome_hs37d5cs.fa -V $FILE.gatk.snv.vcf -o $FILE.gatk.snv.fil.vcf -- clusterWindowSize 10 --filterExpression "DP < 3 || QUAL < 20 || SB > - 0.1" --filterName "HARD_TO_VALIDATE" $ java -jar ${GenomeAnalysisTK} -T VariantFiltration -R genome_hs37d5cs.fa -V 3_gatk/$FILE.gatk.indel.vcf -o SNV/Indel $FILE.gatk.indel.fil.vcf --filterExpression "QUAL < 20 || SB > -0.1 || MQ0 > 4 || DP < 3" --filterName "HARD_TO_VALIDATE" ※ VCFファイルのFILTER列に、条件を通過した場合“PASS”、そうでない場合は “filterName”が記入される ※オプション DP:Approximate read depth; some reads may have been filtered SB:Strand Bias QD:Variant Confidence/Quality by Depth HRun:Largest Contiguous Homopolymer Run of Variant Allele In Either Direction Copyright © Amelieff Co. Ltd. All Rights Reserved. 16
17.
サ ン プ
ル ご と の 解 析 【コマンド】 2. QuickAnnotator :アノテーション付与 ※自社開発のプログラムです。 QC $ java -Xmx10G -jar QuickAnnotator.jar -q vcf -g refGene.txt -s refGeneMrna.fa -o $FILE.gatk.snv.fil.anno $FILE.gatk.snv.fil.vcf ※公開ツールを組み合わせても同じ処理を行えます。下記のコマンドは、一部のコマンドです。 ・ Annovar Mapping ※データベースをダウンロードする必要があります 入力ファイルに変換 $ perl convert2annovar.pl -format vcf4 $FILE.gatk.snv.fil.vcf > $FILE.gatk.snv.fil.avlist アノテーションを付与 SNV/Indel $ perl summarize_annovar.pl --buildver hg19 $FILE.gatk.snv.fil.avlist humandb -outfile $FILE.gatk.snv.fil --ver1000g 1000g2012feb --verdbsnp 135 Copyright © Amelieff Co. Ltd. All Rights Reserved. 17
18.
サ ン プ
ル ご と の 解 析 【コマンド】 2. QuickAnnotator :アノテーション付与 QC ※公開ツールを組み合わせても同じ処理を行えます。下記のコマンドは、一部のコマンドです。 ・ Annovar ①SegDup ⑨LJB_SIFT_Pred ②ESP5400_ALL ⑩LJB_PolyPhen2 Mapping ③1000g2012feb_ALL ⑪LJB_PolyPhen2_Pred ④dbSNP135 ⑫LJB_LRT ⑤AVSIFT ⑬LJB_LRT_Pred ⑥LJB_PhyloP ⑭LRT_MutationTaster ⑦LJB_PhyloP_Pred ⑮LRT_MutationTaster_Pred SNV/Indel ⑧LJB_SIFT ⑯LJB_GERP++ Copyright © Amelieff Co. Ltd. All Rights Reserved. 18
19.
サ ン プ
ル ご と の 解 析 【コマンド】 3. snpEFF :アノテーション付与/集計 QC $ java -Xmx10G -jar snpEff.jar eff -c amelieff.config -i vcf -o vcf -noLog hg37.63 $FILE.gatk.snv.fil.vcf > $FILE.gatk.snv.fil.vcf.snpeff.vcf ※データベースをダウンロードして、configファイルにその位置情報を書きます 下記の文は、snpEffsnpEff_v2_1_core/snpEff_2_1/snpEff.configの一部です。 Mapping # Databases are stored here # E.g.: Information for 'hg19' is stored in data_dir/hg19/ # # Note: Since version 2.1 you can use tilde ('~') as first character to refer to your home directory #--- data_dir = ~/snpEff/data/ # Databases are stored here SNV/Indel # E.g.: Information for 'hg19' is stored in data_dir/hg19/ # # Note: Since version 2.1 you can use tilde ('~') as first character to refer to your home directory #--- data_dir = /home/db/snpEff Copyright © Amelieff Co. Ltd. All Rights Reserved. 19
20.
サ ン プ
ル ご と の 解 析 【コマンド】 3. snpEFF :アノテーション付与/集計 QC Mapping SNV/Indel ※snpEffは、Google Chartを用いて描画しています。 Copyright © Amelieff Co. Ltd. All Rights Reserved. 20
21.
サ ン プ
ル ご と の 解 析 【結果】 リファレンス 処理内容 I I 罹患 I 罹患 I 非罹患 QC マッピング率(%) 98.90 98.46 98.61 重複リード除外後(%) 98.63 98.12 98.35 SNV 196,600 196,784 169,939 デコイなし フィルタリング後のSNV 157,072 155,763 141,000 Indel 14,576 14,467 13,565 Mapping フィルタリング後のIndel 12,999 12,918 12,142 マッピング率(%) 98.68 98.73 98.31 重複リード除外後(%) 98.36 98.46 98.00 SNV 182,832 185,580 157,593 デコイあり フィルタリング後のSNV 146,695 147,652 131,720 Indel 13,956 13,998 12,909 SNV/Indel フィルタリング後のIndel 12,635 12,638 11,710 ※デコイありのフィルタリング後の多型の数は、デコイ配列上に検出された多型を除外しています。 Copyright © Amelieff Co. Ltd. All Rights Reserved. 21
22.
サ ン プ
ル ご と の 解 析 【結果】 Without Decoy 最大カバレージ: 1112 ※カバレージ10以上の領域の、平均カバレージは80.84 With Decoy 最大カバレージ: 817 Copyright © Amelieff Co. Ltd. All Rights Reserved. 22
23.
疾 患 関
連 遺 伝 子 の 探 索 サンプル間 1. BEDtools :罹患者に共通する多型を抽出 共通 $ intersectBed -a II-case.gatk.snv.fil.vcf -b I- case.gatk.snv.fil.vcf -u > case.vcf II 罹患 I 罹患 87,306 疾患関連 147,695 147,652 変異の候補 2. BEDtools : 1に対して、非罹患者と共通する多型を除外 $ intersectBed -a case.vcf -b I-control.gatk.snv.fil.vcf -v > target.vcf 絞り込み I 非罹患 131,720 実験的に 87,306 15,470 検証 Copyright © Amelieff Co. Ltd. All Rights Reserved. 23
24.
疾 患 関
連 遺 伝 子 の 探 索 3. Linuxコマンドで絞り込み/遺伝子ごとに集計 サンプル間 共通 15,470 ← セグメントゲノム重複(segmental duplication)領域以外のSNV 12,945 ← 最も近傍の遺伝子が、1k以内に位置するSNV 疾患関連 10,466 変異の候補 ← HeteroのSNV 5,816 2875遺伝子 (複数の変異を持つ遺伝子は693個) ← 1000人ゲノムプロジェクトでALTアリル頻度が1%以下のSNV 絞り込み 204 170遺伝子 (複数の変異を持つ遺伝子は10個) ← nonsynonymous SNV 32 実験的に 検証 候補として29遺伝子(複数の変異を持つ遺伝子は2個)を抽出 Copyright © Amelieff Co. Ltd. All Rights Reserved. 24
25.
NGSデータ解析サーバー販売中!!
データ解析パイプラインおよびリファレンスゲノム情報がプリインストールされています。 今回ご紹介した解析は、下記のサーバーで実施しました。サンプルあたりの実行時間は約8時間です。 OS CentOS 6 64bit CPU Intel Core i7-3930K [3.20GHz/6Core] メモリ 64GB SSD 64GBz(OS用) HDD 2TB x 4台(RAID10)(データ用) bwa, SAMtools, FastQC, BEDtools, ソフトウェア 自社開発ソフトなど Copyright © Amelieff Co. Ltd. All Rights Reserved. 25