090511-intro, setup2. 相同性検索の自動化と統計処理の基礎
の趣旨
ヒトゲノム計画をきっかけに、塩基配列決定技術はここ数年の間に予想をは
るかに超えるペースで高速化されました。10年前は、塩基配列を決定する作業
は遺伝子を単位として行われるものでしたが、最近では全ゲノムが単位となりつ
つあります。ゲノム情報だけに注目しても、日々膨大な量のデータが作り出され
ている現状においては、大量な情報を正確に扱える「コンピュータ」を使わない手
はありません。
本講習会では、ゲノム関連のデータベースから、目的とするデータを取得し、
必要な部分だけを取り出し加工して、解析するまでの流れをいろいろな方法で体
験します。最終的には、この一連の手順を自動化することを目標とします。
また、大量のデータを扱う上で必要となる統計処理についても触れます。
自動化への第一歩として、おそらく多くの人がこれまで慣れ親しんでいる「マウス
でクリック」する操作を最小限にとどめ、提供されているプログラムなどを利用し
てコマンドによる操作に慣れ、徐々にシフトしていきましょう。
2
6. 塩基配列決定の歴史
1972年 遺伝子組換え技術
1975-7年 高速塩基配列決定技術 (Sanger法、Maxam-Gilbert法など)
1985年 PCR法 (6kb = 6000bp/day)
1986年 蛍光シークエンス決定技術 商用DNAシークエンサー登場
1993年 キャピラリー電気泳動技術
2000年 ヒトゲノムドラフトシークエンス発表 (600kb = 600,000bp/day)
2007年 Microarray like sequence (600Mb = 600,000,000bp/day)
2010年 次世代シークエンサー (100Gb = 100,000,000,000bp/hour)
理論上、ヒトゲノム(3.3Gb)全体が4分で読めてしまうことになります。
6
7. 生命情報学にまつわる歴史
1971年 医学文献データベース MEDLINE開始
1980年 世界初のDNAデータベース
EMBL(European Molecular Biology Laboratory)開始
1982年 DNAデータベースGenBank開始
1985年 相同性検索ソフトFASTA誕生
1986年 アミノ酸配列データベース Swiss-Prot開始
1988年 NCBI(National Center for Biotechnology Information)設立
Human Genome Initiative設立 初めてBioinformaticsという言葉が使われる
マルチプルアラインメントソフトCLUSTAL誕生
1990年 ヒトゲノム計画開始 相同性検索ソフトBLAST誕生
1991年 World Wide Web誕生
2000年 Ensembl開始, 2001年 UCSC開始
7
8. 全ゲノム配列解読前の研究
1991年 Linda B. Buck and Richard Axel (The Nobel Prize in Physiology or Medicine for 2004)
により、ラットの嗅覚受容体遺伝子がクローニングされた。
Gタンパク質共役型であることは予想されていたので、その配列の特性を用いてprimerを
設計し、PCRをして(a)、得られた産物の塩基配列を決定(b)。
また、嗅覚を司る器官で発現されていることを確認(c)。 (18 loci)
(c)
(a) (b)
Figure 2 Figure 4 Figure 3
PCR result Amino acid alignment Northern Blot Analysis
(from Buck & Axel Cell 1991 65:175-87.)
1992年から1998年にかけては、このラットの嗅覚受容体遺伝子の情報をもとに、マウス、
ヒト、ナマズ、メダカなどの生物で嗅覚受容体遺伝子が相次いでクローニングされた。
8
13. 用語解説(2): 遺伝子に関連する言葉
exon1 exon2 exon3 exon4 exon5 exon6
5' 3'
intron1 intron2 intron5
intron3
intron4
exon: 赤い四角の全て(白く抜けている部分も含む)
intron: exon(赤い四角)とexonの間の配列 転写はされるが翻訳されない。
5' UTR: 5'側のmRNAに転写されるが、アミノ酸には翻訳されない領域(左側の白抜き)
3' UTR: 3'側のmRNAに転写されるが、アミノ酸には翻訳されない領域(右側の白抜き)
coding sequence (CDS): 開始コドンから終止コドンまでの領域 (アミノ酸をコードする)
(赤く塗りつぶされた四角の部分)
転写から発現までの流れ
1) ゲノム上のexon1からexon6までの間の配列がmRNAに転写(transcription)される。
2) exonの部分だけ切り取られつなげられる(この行程をsplicingと呼ぶ)。
3) アミノ酸へ翻訳(translation)される。
alternative splicing: 一部のexonがsplicingにより除去され、
異なるexonの組み合わせの転写産物ができる
例えば、exon1+2+3+4+5+6、exon1+2+5+6、exon1+2+3+6など。 13
14. ゲノムから表現型までの流れ -オ-ミクス(omics)-
オーミクス、またはオミックス(omics)と
遺伝子
ゲノム
(genome) (DNA) は、生体中の分子全体を網羅的に調
べる研究分野のことを指す。
転写
それぞれの段階は
転写産物
トランスクリプトーム
(transcpritome) (mRNA) gene + omeで遺伝子の総体、
transcript + omeで転写産物の総体
翻訳
のように、作られた造語。
翻訳産物 それぞれのomicsごとにデータベースが
プロテオーム
(proteome) (タンパク質) 存在している。
酵素反応など
生命情報学は、これらの情報から生命
代謝産物
現象を理解することを目指す学問です。
メタボローム
(脂質、糖、有機酸、
(metabolome)
ホルモンなど)
生命現象
表現型
フェノーム
(phenome) (疾患、環境応答性など) 14
15. 生命情報学関連のデータベースの一例
データベースの内容 データベース名称(運用国)
DNA塩基配列 GenBank(米)、EMBL(欧)、DDBJ(日)、UCSC(米)
一塩基多型(SNPs) dbSNP(米)、JSNP(日)
遺伝子および遺伝病 OMIM(米)、Mutation database(欧)
アミノ酸配列 SWISS-PROT(欧)、PIR(米)
アミノ酸配列ドメイン Pfam(欧)
アミノ酸配列モチーフ PROSITE(欧)、BLOCKS(米)
タンパク質立体構造 PDB(米)、SCOP(欧)、CATH(欧)
パスウェイ KEGG(日)
文献 MEDLINE(米)
総合的な配列情報 NCBI(米)、Ensembl(欧)
15
18. ソフトウェアのアップデート (1)
アップデートするソフトのリストが
表示されます。
インストールをクリックすると
パスワードを要求されます。
各自のパスワードを入力して
インストールを行って下さい。
*ソフトウェアをインストール、アンインストールするとき、設定を変更するときなど
管理者権限の確認としてパスワードの入力が求められます。
行おうとしている操作の内容を把握した上で、パスワードを入力するように
心がけて下さい。 18
19. ソフトウェアのアップデート (2)
いくつかのソフトについては、
左のような使用許諾契約が
表示されると思います。
同意するをクリックすると、
先に進んでいきます。
ダウンロード中には下のような
画面が表示されます。
ダウンロードが終了すると、
左の画面が表示されるので、
再起動して下さい。
この再起動には時間がかかります。
(アップデートするソフトの質と量によりますが
10~20分程度かかると思います。) 19
20. Mac OSのバージョンの確認 (再び)
アップデート終了後に、
もう一度、アップルマーク から
「このMacについて」を表示し、
OSのバージョンが変わっていること
を確認してみて下さい。
20
29. アンチウィルスのスキャン (2)
状態:スキャン不完全
コメント:ファイルを開くパーミッ
ションがありません
と表示されているもののリストが
出てきますが、
ログファイルなどの設定に関す
る
ファイルなので、
そのまま終了します。
Symantec AntiVirusを終了する場合には、
画面左上のSymantec AntiVirusから終了を選びます。
29
32. gcc (Xcode)のインストール (1)
MacBook Proの入っていた箱に一緒に入っている黒い箱の中の
「MacBook Pro Mac OS X Install Disc 1」のディスクを入れる。
Xcodeとはソフトウェアを開発するためのアップルの統合開発環境 (IDE) で
gcc (GNU Compiler Collection)を含んでいる。
gccとは、 C、C++、Javaなどのプログラム言語を使用するために必要なコンパイラ及びライ
ブラリが含まれている。
32
36. X11のインストール (1)
「MacBook Pro Mac OS X Install Disc 1」のディスクを入れる。
(Xcodeのインストールから引き続いて行う場合は
左下の画面が表示されていると思います。)
Optional Installs → Optional Installs.mpkgをクリックします。
X11環境とはMacOSX版のX Window Systemのこと。
X Window System(XWS)とは、UNIXのGUI(グラフィック・ユーザー・インターフェー
ス:画面へのグラフィック描画)環境、いわゆる「X環境」を提供する基本ソフトの
こと。 36
45. MacPortsのインストール (4)
portのアップデートをするためのコマンドです。
$ sudo /opt/local/bin/port -d selfupdate && sudo /opt/local/bin/port -d sync
スペルミスをしないよう注意しましょう。
$ sudo /opt/local/bin/port -d selfupdate && sudo /opt/local/bin/port -d sync
オレンジ色のバーの部分にはスペースが入っています。
ターミナル上でパスワードを聞かれます。
OSインストール時に設定した各自のパスワードを入力して下さい。
*管理者権限が必要な場合のみ、パスワードを入力して管理者権限を与えます。
45