SlideShare une entreprise Scribd logo
1  sur  77
相同性検索の自動化
と統計処理の基礎

      2009/05/18
        金子 聡子
  kaneko.satoko(at)ocha.ac.jp
          瀬々 潤

                                1
今日の内容
・UNIXの仕組みについて

・ゲノムデータベースについて(NCBI, Ensembl)




                                2
UNIXの仕組みについて

・OS/CUIとGUI/ターミナル/コマンドとプログラム

・ターミナルの使い方

・ディレクトリ/主要なディレクトリ/パスの概念(絶対パス/相対パス)

・コマンドと引数

・基本的なコマンド pwd/mkdir/cd/ls/less/rm/rmdir



                                          3
OS
OSとは、
「Windows」や「Mac」というのは、OS (Operating System) と呼ばれるものの種類を
表しています。
OSとは、コンピュータ(個人向けに限らずサーバーなども含めたコンピュータ全般)を
動かすのに必要なソフトウェアのことです。
*Mac OS Xは、UNIXがベースになっています。


CUIとGUI
OSにはたくさんの種類がありますが、それらは大きく2つに分類できます。

UNIXやLinuxなどキーボードを使ったコマンド入力(コンピュータと直接やりとりをするための
命令文)によって操作するCUI (Character User Interface) 環境が中心となったOSと、

WindowsやMacなどマウスを使ってファイルやフォルダを直接操作する
GUI (Graphical User Interface) 環境です。




              CUI                    GUI
                                                         4
ターミナル
ターミナルはコマンドを入れる場所のことです。
Macではこのアプリケーション「ターミナル」を通じてシェルを操作し、OSに命令を送ります。
(UNIXでは、シェルに直接コマンドを入れます)




コマンドとプログラム
何か処理を実行したい場合、その作業について手順を示したものをプログラムといい、
そのファイル名がコマンドとなります。 プログラムは、プログラム用の言語(Perl, Ruby,
Javaなど)を用いて行い各プログラムにより実行する際の約束事が異なります。

この講義の中では、「コマンド」/「プログラム」を実行するということは、
「ターミナル」に指令(例えば、echo $PATH )を送り、実行するということを指します。
                                                 5
ターミナルの使い方
Macintosh HD/アプリケーション/ユーティリティ
にあるターミナルのアイコンを
Dockへ ドラッグ&ドロップする。

この絵をクリックすると、右下のような
画面が立ち上がります。



                                Dock


                     ターミナル




                                       6
ディレクトリ
ファイルを保存する場所がディレクトリという単位に分けられています。
ディレクトリはツリー構造(階層構造)になっています。



                             ルートディレクトリ
      親ディレクトリ                全てのディレクトリの大本である
      ひとつ上のディレクトリを
                     ルート     ディレクトリ
      指します。




子ディレクトリ
サブディレクトリ
ひとつ下のディレクトリを
指します。




                           カレントディレクトリ
                           現在作業中のディレクトリ
                                           7
主要なディレクトリ
ホームディレクトリやルートディレクトリ以外にも、よく出てくる代表的なディレクトリを
いくつか紹介します。
                                          ルート
                                                     Macの場合はUsers


          bin        dev   etc     root     sbin   usr    home   var



                                 ホームディレクトリ         tg01   tg02   tg03

ディレクトリ          役割
bin             バイナリ形式の実行ファイルやコマンドが保管されています。
dev             デバイス関係のファイルが保管されています。
etc             各種設定ファイルなどさまざまな保管されています。
root            ルートディレクトリとは別に用意された、システム管理者用のホームディレクトリです。
sbin            管理者用のシステム標準コマンドが保管されています。
usr             各ユーザーのデータやアプリケーションが保管される場所です。
home            この下にユーザー毎のディレクトリが作られ、そこが各ユーザーのホームディレクトリになります。
(Users)
var             アプリケーションの記録(ログ)ファイルやメールデータなどが保管される場所です。                 8
パスの概念
ファイルを開いたり、コマンドを実行したりするには、そのファイルやコマンドの場所を
正確に指定する必要があります。 この指定方法をパス(PATH)といいます。

絶対パス
ルートディレクトリを基点として指定する方法です。この表示方法は、カレントディレクトリが
(現在表示しているディレクトリ)どこであっても、間違いなく目的のファイルを指定できます。

                                           ルート
                                    /

              bin                 Users                 usr              var

       /bin             /Users                   /usr             /var

                     tg01                     tg02

                        /Users/tg01           /Users/tg02


                    sample1.txt         /Users/tg01/sample1.txt
                        ・
                        ・
                        ・                                                      9
パスの概念 つづき
相対パス
カレントディレクトリを基点として指定する方法です。
下の図では、tg01をカレントディレクトリとした場合を例に示します。

./..
「..」はひとつ上の                                            ルート
ディレクトリ(親ディレクトリ)を                            ./../..
表します。

                      bin                  Users               usr          var

            ./../../bin             ./..                      ./../../usr   ./../../var

.                           tg01                       tg02
「.」はカレントディレクトリを
表します。                        カレントディレクトリ                       ./../tg02

                      sample1.txt          ./sample1.txt       カレントディレクトリの相対パス
                          ・                                    「./」は、省略可能です。
                          ・
                          ・



                                                                                     10
コマンド と引数
コマンドを入力するときの決まり
・半角英数字を使用する。
・大文字と小文字の違いを正しく入力する。
・コマンドと引数の間は半角スペースを空ける。
・入力が終わったら[Enter]キーを押す。


引数
コマンドの対象になるファイル名やディレクトリ名(パス)などの文字列のことを引数と呼ぶ。
特に、コマンドの挙動を変化させる引数は「オプション」と呼ぶことがある。
多くのオプションは ‘-’ で始まる。
複数のオプションと引数を半角スペースでつなげていくこともできる。

   例
$ man ls              man(manual)はマニュアルを表示するコマンド
                      この場合、lsというコマンドについてのマニュアルを表示。

$ ls –a /Users/tg02   /Users/tg02の中について、“-a”でファイルの先頭に“.”が付くもの
                      も含めて表示。

                                                          11
基本的なコマンド (1)
pwd (Print Work Directory)
カレントディレクトリの絶対パスを表示できます。      tg02          カレントディレクトリ

$ pwd
[結果 /Users/tg02]

                                    data


mkdir (MaKe DIRectory)
新しくディレクトリを作ります。
                                tg02          カレントディレクトリ
$ mkdir data
[Finderで確認してみて下さい]


                                       data




                                                        12
基本的なコマンド (2)
cd (Change Directory)
カレントディレクトリを変更するためのコマンドです。
移動したいディレクトリ名をコマンドの後ろに指定します。
                                tg02          カレントディレクトリ

$ cd ディレクトリ名
[絶対パスの場合 $cd /Users/tg02/data
相対パスの場合 $cd data]
                                       data     移動先の
ディレクトリを指定しないで使うと、                                ディレクトリ
どこにいてもホームディレクトリに戻ります。



CotEditorを起動して、ローマ字で名前を書いて、
「name.txt」という名前で
「data」ディレクトリに保存して下さい。

次に、ターミナルで自分の位置を確認して、
dataディレクトリに移動して下さい。
そして、新しく「a」と「b」という名前のディレクトリを
作成して下さい。
Finderで確認しながら作業をすると、ディレクトリの中にファイルが自動的に
作成されます。                                                13
基本的なコマンド (3)

ls (LiSt directory)         tg02          カレントディレクトリ
ディレクトリの情報を調べるコマンドです。

$ ls ディレクトリ名
[$ls data
                                   data
結果
a     b name.txt]
                                               name.txt
$ls –a 全てのファイルを見ることができます。

                               a           b

less
テキストファイルを閲覧するコマンドです。

$ less ファイル名
[$less name.txt
結果
(自分の名前)]

qを押すと、元の画面に戻ります。                                          14
基本的なコマンド (4)
rm (ReMove file)
ファイルを削除するときに使います。

$ rm ファイル名
[$rm name.txt]

$ls で、name.txtが無くなっていることを確認して下さい。

rmdir (ReMove DIRectory)
ディレクトリを削除するときに使います。(ディレクトリが空のときにのみ有効)

$ rmdir ディレクトリ名
[$rm a]
$ rm –rf ディレクトリ名
  -rfというオプションはディレクトリ内にファイルがあっても強制的に消す。
  使うときは要注意!!

$ls -a でdataディレクトリに何もないことを確認して下さい。

UNIXには、「ゴミ箱」はないため、
一度削除したら元には戻せないので十分注意して下さい。               15
基本的なコマンドの演習
1) カレントディレクトリを確認して
2) 「bin」 という名前のディレクトリを[/Users/tg02]に作成
3) ディレクトリが新しくできていることをターミナルから確認
4) 「bin」へ移動
5) ホームディレクトリへ戻る

*「tab」キーでコマンドやファイル名を補完することができます。
例: カレントディレクトリに「aabbccdd」と「bbccddee」というファイルがある場合
   ls aa[tab]とするとls aabbccdd となります。 (aaに一致しているものを呼び出す)

*キーボードのpage , page を押していくと前に入力したコマンドが表示されます

コマンドの説明があるWebサイト

基本的な一覧
http://www.k-tanaka.net/unix/
オプションについても
http://www5.plala.or.jp/vaio0630/ftp/command.htm
図解付き
http://cmd.misty.ne.jp/basic/index.html
                                                         16
ゲノムデータベースについて

・NCBI

・Ensembl

・NCBIとEnsemblのゲノムリスト




                       17
NCBI
・NCBIとは

・NCBI viewerの使い方
queryから検索/keywordの絞り込み/配列のフォーマットを変更/別
の検索の仕方

・DDBJ/EMBL/GenBankフォーマットの記載事項

・用語解説(3): FASTAフォーマット、クエリー




                                    18
NCBIとは
http://www.ncbi.nlm.nih.gov/
NCBI は、 National Center for Biotechnology Informationの略。
アメリカ合衆国の国立衛生研究所 (NIH) の下の NLM(National Library of Medicine)の
1部門として1988年に設立された。

NCBIのトップページ (2009年5月現在)          NCBIのデータベースの概念図




                                                           19
NCBI Viewerの使い方          queryから検索




NCBIトップページから
Search [All Databases]
for [query]
今回はolfactory receptor




NCBIからリンクの張られている
全てのデータベース中で
queryを含む項目の数が
表示される


                                     20
NCBI Viewerの使い方                      keywordの絞り込み
1991年のBuck and Axelの論文でクローニングされた
Rattus norvegicus olfactory receptor gene Olr1082 (Olr1082)の塩基配列を取得
queryとして[olfactory receptor]だけだと、26713もhitしてしまうので、
[quot;olfactory receptor genequot; AND rat AND Olr1082]として検索


                                           GenBankフォーマットで表示される




                                                                      21
NCBI Viewerの使い方   配列のフォーマットを変更




                    [Macintosh HD/ユーザー/tg02/ダウン
                    ロード]にsequence.fastaとして保存さ
                    れる




                                            22
NCBI Viewerの使い方                  別の検索の仕方
i) Accession numberが分かっていれば、トップページから
   Search 「Nucleotide」 for 「Accession number」を入力して、取得することができる。




ii) 論文情報の右上にある[Links]からその論文に記載されている情報についての
    リンクに飛ぶことができる。




[Nucleotide]をクリックすると、この論文で
決定された配列のリストが表示される。

ここでは直接関係ないが、
[Cited in PMC]をクリックすると、
その論文を引用した論文リストが表示される。
                                                                 23
DDBJ/EMBL/GenBankフォーマットの記載事項
記載事項とアクセッション番号は
                                       LOCUS      LISOD              756 bp DNA linear BCT 30-JUN-1993
                                       DEFINITION Listeria ivanovii sod gene for superoxide dismutase.
                                       ACCESSION X64011 S78972

             3つのデータベース間で統一             VERSION X64011.1 GI:44010
                                       KEYWORDS sod gene; superoxide dismutase.
                                       SOURCE Listeria ivanovii
LOCUS: 各データベース固有の名前                     ORGANISM Listeria ivanovii
                                              Bacteria; Firmicutes; Bacillales; Listeriaceae; Listeria.

DEFINITION: データのタイトル                   REFERENCE 1 (bases 1 to 756)
                                        AUTHORS Haas,A. and Goebel,W.
                                        TITLE Cloning of a superoxide dismutase gene from Listeria ivanovii by
ACCESSION: データのアクセッション番号                      functional complementation in Escherichia coli and characterization
                                              of the gene product
                                        JOURNAL Mol. Gen. Genet. 231 (2), 313-322 (1992)
            (DDBJ/EMBL/GenBankで共通)      MEDLINE 92140371
                                       REFERENCE 2 (bases 1 to 756)
VERSION: 配列の訂正・更新                       AUTHORS Kreft,J.
                                        TITLE Direct Submission

KEYWORD: 検索で参照されるキーワード
                                        JOURNAL Submitted (21-APR-1992) J. Kreft, Institut f. Mikrobiologie,
                                              Universitaet Wuerzburg, Biozentrum Am Hubland, 8700 Wuerzburg, FRG
                                       FEATURES            Location/Qualifiers

SOURCE: 学名                                source        1..756
                                                    /organism=quot;Listeria ivanoviiquot;
                                                    /strain=quot;ATCC 19119quot;
ORGANISM: 学名と系統関係                                   /db_xref=quot;taxon:1638quot;
                                                    /mol_type=quot;genomic DNAquot;

REFERENCE: 出典となった論文など                     RBS         95..100
                                                    /gene=quot;sodquot;
                                          gene         95..746
AUTHOR: 著者名                               CDS
                                                    /gene=quot;sodquot;
                                                       109..717

TITLE: 論文名                                          /gene=quot;sodquot;
                                                    /EC_number=quot;1.15.1.1quot;
                                                    /codon_start=1
JOURNAL: 雑誌名                                        /transl_table=11
                                                    /product=quot;superoxide dismutasequot;

MEDLINE: 論文のMEDLINE番号
                                                    /db_xref=quot;GI:44011quot;
                                                    /protein_id=quot;CAA45406.1quot;
                                                    /db_xref=quot;SWISS-PROT:P28763quot;

FEATURES: この次の行から生物学的な                              /translation=quot;MTYELPKLPYTYDALEPNFDKETMEIHYTKHHNIYVTKLNEAVS
                                                    GHAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLK
                                                    AAIESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPV
              特徴の記載                                 LGLDVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAKquot;
                                          terminator 723..746

CDS: Protein-coding sequence           ORIGIN
                                                    /gene=quot;sodquot;

                                            1 cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat
ORIGIN: この次の行から塩基配列                    //
                                           61 gtaatttctt ..........




記載事項の詳細は、http://www.ddbj.nig.ac.jp/sub/ref10-j.html                                                                 24
用語解説(3): FASTAフォーマット、クエリー
FASTAフォーマット: 遺伝子のアミノ酸配列や塩基配列のなどの書式のうち、
もっとも広く用いられている書式のひとつ。1行目はコメント行で1文字目に必ず
'>'を入れ、それ以降にデータ名やコメントを記載する。
2行目以降は問い合わせ配列入力行で、アミノ酸配列または塩基配列を記載する。
2行目以降は改行を入れて複数行に渡って書いてもよい。
 例




クエリー(query): データベースに対する処理要求(問い合わせ)を文字列として表したもの。
データの検索や更新、削除などの命令をシステムに発行するのに使われる。
検索する塩基配列やアミノ酸配列、キーワードなどを単にクエリー配列と呼ぶことがある。


                                            25
Ensembl
・Ensemblとは
・Ensembl viewerの使い方 keywordの絞り込み
・検索結果の表記について
・用語解説(4): Gene Ontology
・ゲノム領域の表記について
・用語解説(5): Synteny
・用語解説(6): Ortholog, Paralog, Homolog
・遺伝子の表記について
・用語解説(7): 同義置換と非同義置換
・用語解説(8): 多型と置換
・転写産物の表記について

                                       26
Ensemblとは
http://www.ensembl.org/index.html
Ensemblは、EMBL-EBI(独・仏・英・伊)とSangar Institute(英)による共同プロジェクト。
2000年にサービスが開始された。
ゲノム配列は、NCBIと共有しているが、アノテーション(注釈付け)は独自のものも
付加している。




                                                             27
Ensembl Viewerの使い方                         keyword 絞り込み
NCBIのときと同様に
Rattus norvegicus olfactory receptor gene Olr1082 (Olr1082)の塩基配列を取得
queryとして[olfactory receptor]だけだと、10238もhitしてしまうので、
Search [Rat] for [olfactory receptor gene Olr1082]として検索




補足
e.g. mouse chromosome2 or rat X:10000..20000 or human gene BRCA2とあるように
queryとして、[種 染色体], [種 染色体:開始位置..終了位置], [種 遺伝子 遺伝子名]
いろいろな形で指定することができる。




                                                                      28
検索結果の表記について




                                   この遺伝子と一致するmicroarrayの
                                   probe

            EMBL (European Molecular Biology Laboratory)のID
             NCBIのEntrez geneのID

             Gene Ontology

                NCBIのRefSeq (冗長性のない配列)のID DNA/タンパク
           RGD (Rat Genome Database)のID
        NCBIのUniGene(冗長性のない遺伝子)のID
                 Swiss-Prot (manualで注釈付けしたタンパク)のID
              TrEMBL (コンピュータにより注釈付けされたタンパク)のID


                                                              29
用語解説(4): Gene Ontology
Gene Ontology (GO) とは、生物学的概念を記述するための、共通の語彙を策定しようと
するプロジェクトのことです。
統一された語彙を用いて、機能情報などを記述することにより、異なった機関によって作
成されたデータベース、更に異なった生物種のデータベース間で、データの結合や、横断
比較を行うことが可能になります。
GOで定義された用語は、GO Termと呼ばれる。Go Termは3つのカテゴリーに分かれてい
ます。
biological process (生物学的プロセス)
cellular component (細胞の構成要素)
molecular function (分子機能)

例 olfactory receptor gene
molecular_function [GO:0003674]
    molecular transducer activity [GO:0060089]
         signal transducer activity [GO:0004871]
              receptor activity [GO:0004872]
                    transmembrane receptor activity [GO:0004888]
                         G-protein coupled receptor activity [GO:0004930]
                             rhodopsin-like receptor activity [GO:0001584]

                                                                             30
ゲノム領域の表記について (1)
Locationのトップには、染色体から注目する遺伝子にクローズアップしていく図が
表示される。




表示内容がリストに
なっています。

これらのボタンからも
表示を切り替えること
ができます。




                                            31
ゲノム領域の表記について (2)
         左側のメニューの拡大です。
         ゲノム領域の表示からは、
         Comparative Genomics(他のゲノムとの比較)と
         Genetic Variation(同一種の他の系統などとの比較)と
         Markers(染色体地図を作成する際にマーカーとなる
         sequence tagged site (STS)などの情報)
         へのリンクがあります。




         Configure this pageから、表示する内容を変更する
         ことができ、
         Export dataからは、データをダウンロードできます。




                                              32
ゲノム領域の表記について -Synteny-
                    ラットの7番染色体と
                    ヒトの染色体の間でsynteny
                    を示す領域を色分けして
                    示しています。




                    ちなみに、ヒトを中心とした
                    比較では10種(chicken,
                    chimpanzee, cow, dog,
                    horse, macaque, mouse,
                    opossum, orangutan, rat) 、
                    マウスを中心とした比較で
                    は3種(dog, human, rat)との
                    syntenyの情報を
                    得ることができます。




                                             33
用語解説(5):Synteny (シンテニー)
異なる種間で、遺伝子が同じ順番で並んでいること、もしくはその領域のことを指します。
染色体は、進化の過程でrearrangementを繰り返しているために、同じ名前の染色体、
例えば、ヒトの第1番染色体とマウスの第1番染色体であっても、その染色体に乗ってい
る遺伝子は異なっていることも多いのです。 オーソログを判定する際に利用します。




           Figure3
           Nature 2002 420:520-62 PMID: 12466850




                                                   34
用語解説(6): Ortholog, Paralog, Homolog
                            a
             遺伝子重複

                        a          b
       種分化

       a1          b1                  a2        b2
             種1                             種2
「遺伝子a」から遺伝子重複により「遺伝子b」できたのち、種1と種2に分化している。
オーソログ (ortholog): 種分化により分岐した遺伝子 (a1とa2、b1とb2)
パラログ (paralog): 遺伝子重複により分岐した遺伝子 (a1とb1、a2とb2、a1とb2、b1とa2)
オーソログ同士を比較し観察された違いは、種分岐以降の時間を反映しているが、
パラログ間の比較では、遺伝子が重複してからの時間を反映している。

ホモログ(homolog): 相同性の高い配列全般を指す言葉。
                                                        35
ゲノム領域の表記について -Resequencing Alignements-
他のプロジェクなど等により同じ領域の塩基配列が決定されていた場合に、
alignmentが表示されます。 配列が異なる場合は、緑色でマークされます。

· : 2段目以降の配列が1段目の配列と同一であることを示します。
~ :この部分はシークエンスされていないことを示します。




                                          36
ゲノム領域の表記について -Region in detail-

                         赤いラインで遺伝子の場所
                         がマークされ、他にEnsembl
                         でannotateされている遺伝子
                         が表示される




                         遺伝子領域の部分の
                         拡大表示




                                       37
ゲノム領域の表記について -Configure this page1-
Configure this pageをクリックすると下のようなパネルが表示される。
変更を加えた後は、Save and closeをクリックすると、
Ensemblの画面がリロードされて、変更内容が反映された画面になる。




                                             38
ゲノム領域の表記について -Configure this page2-

                     contigの名前やstart/stop codon
                     の位置の表示を選べる。



                     Affymetrixなどのmicroarrayで
                     用いられているprobeの位置を
                     表示することができる。




                     repeat配列の存在を表示するこ
                     とができる。




                                                  39
ゲノム領域の表記について -Configure this page3-

                          genome配列が明らかになって
                          いる複数の種とのalignmentを
                          表示することができる。



                        BLASTZによるゲノムワイドな
                        比較の結果を表示できる。




                        GC含量やスケールバーなどを
                        表示できる。




                                           40
ゲノム領域の表記について -Configure this page4-

                          表示する遺伝子の種類を
                          選ぶことができる。
                          他の生物種とのSyntenyを
                          表示できる。




                                            41
遺伝子の表記について (1)
Geneのトップには、遺伝子のIDとともに、転写産物、タンパクのIDも表示される。




                                            42
遺伝子の表記について (2)
       左側のメニューの拡大です。
       遺伝子の表示からは、
       文字が青くなっている部分については、
       その項目についての情報があることを示しています。


       この画面は遺伝子の表記のときには表示され続けます。
       緑色の四角の部分は消すことができます。




                                   43
遺伝子の表記について -Gene summary-
遺伝子、転写産物、タンパク
それぞれのEnsemblでのIDが表示されます。




                   遺伝子のContig上での位置と向きが表示されます。




                                           44
遺伝子の表記について -Splice variants-
alternative splicingなどの情報について。


                                 転写産物に対して
                                 タンパクの機能について
                                 のモチーフなど対応する
                                 部分が紫色のバーで表
                                 されている。



                                 splicing variantがあった
                                 場合、下のような図で示
                                 される。




                                                   45
遺伝子の表記について -Supporting evidence-
Ensemblの情報をサポートするものについて。



                       Ensembl以外のデータベースに登録され
                       ている類似配列についてまとめてあります。

                       NCBIへのリンクと、NCBIに登録されている
                       配列とのalignmentです。




                                             46
遺伝子の表記について -Marked-up sequence-
遺伝子やexonの場所について色を変えて示している。




                 Exon部分をマークして、塩基配列の表示をします。

                 ここで表示する範囲については、左側のメニュー
                 のConfigure this pageから変更することができます。




                                                47
遺伝子の表記について -Regulation-
ratのOlr1082は発現調節領域についての報告がないため、
他の遺伝子 (ヒトのsonic hedgehog) を例として使います。




cisRED (cis-regulatory element database): 転写の開始を制御するシス調節配列
CTCF (CCCTC-binding factor): zinc-finger proteinで転写の遮断(insulation)に必要


                                              調節領域の塩基配列が表示され
                                              ています。
                                                                        48
遺伝子の表記について -Genomic alignments-
他のゲノムとのalignmentを表示する。 デフォルトの画面は配列のみの表示




                          Select an alignmentから表示した
                          い項目を選びます。




                                                      49
遺伝子の表記について –Gene Tree-
注目する遺伝子と相同性のある配列を集めた系統樹


                      アミノ酸配列のalignmentをもとに
                      maximum likelihood 法で
                      作成した遺伝子の系統樹

                      paralogも含めた系統樹も表示で
                      きる。(paralogについての説明は
                      次のページで)




                                              50
遺伝子の表記について –Gene Tree (text)-
遺伝子の系統樹をテキスト形式で表しています。




                                                                    0.006

                                                           0.029           0.006

                                               0.165                0.035
簡単な例
((((human :0.006, chimpanzee :0.006) :0.029,           0.180
macaque :0.035) :0.165),
(mouse :0.02, rat :0.02) :0.180);                                  0.020

                                                                       0.020
                                                                                   51
遺伝子の表記について –Gene Tree (alignment) 1-
Gene Treeを作成する際に用いたalignmentをダウンロードすることができる。




                       MSF format:
                       アミノ酸配列のIDや長さなどの情報

                                      その下にIDとアミノ酸
                                      配列が続く




                                               52
遺伝子の表記について –Gene Tree (alignment) 2-
Configure this pageからalignmentのファイル形式を選ぶことができる。




                                                  53
遺伝子の表記について –Gene Tree (alignment) 3-
 ファイル形式の例
FASTA形式
>の後に配列の名前があり、
改行して配列が記されている
形式のこと。
この形式の情報から、
自分でalignmentを作り直すこ
とができる。

NEXUS形式
#NEXUSやntax(配列の数),
nchar(配列の長さ)など定義
が表示され、その下に
配列の名前とalignmentが10
文字ずつ区切られて表示さ
れる。
この形式は、
多くの解析ソフトで読み込む
ことができる。
                                        54
遺伝子の表記について –Orthologues-
他の生物種のorthologについてのリスト。




                          Species: 生物種名
                          Type: Orthologの関係の種類
                          (詳細は次のページで説明します)
                          dN/dS: サイトあたりの非同義置換数/
                          同義置換数 タンパク質としての機能
                          的な制約の目安
                          (詳細は後のページで説明します)
                          Ensembl identifier: EnsemblでのID
                          External ref.: Ensembl以外での名前や
                          タンパク質のIDなどの情報について
                                                       55
遺伝子の表記について –Orthologuesの定義-
  ortholog_one2one: 注目する生物種間で1対1対応のもの
  ortholog_one2many: どちらか一方の種で重複が起きているもの
  ortholog_many2many: 注目する生物種でともに重複が起きており、個々の対応が不
  明なもの
  apparent_ortholog_one2one: ヒト、マウス、ラット3種に注目した際、種分岐以前に重
  複していて、それぞれ別のコピーを失った場合、残っているもの同士のこと




http://www.ensembl.org/info/docs/compara/homology_method.html   56
用語解説(7): 同義置換と非同義置換
アミノ酸をコードしているCoding Sequenceに起こる置換は2種類に分かれます。
同義置換(synonymous substitution):アミノ酸を変えない置換、
非同義置換(nonsynonymous substitution):アミノ酸を変える置換
dS, Ksはサイトあたりの同義置換数(the rate of synonymous substitutions)
dN, Kaはサイトあたりの非同義置換数(the rate of nonsynonymous substitutions)

  1st                 2nd base                     3rd
 base      U         C         A          G       base   AUGは開始コドン
        UUU Phe   UCU Ser   UAU Tyr    UGU Cys     U     UAA, UAG, UGAは終止コドン
        UUC Phe   UCC Ser   UAC Tyr    UGC Cys     C
  U
        UUA Leu   UCA Ser   UAA stop   UGA stop    A     1stコドンに変異が起きても、
        UUG Leu   UCG Ser   UAG stop   UGG Trp     G     アミノ酸を変えない場合もある。
        CUU Leu   CCU Pro   CAU His    CGU Arg     U
        CUC Leu   CCC Pro   CAC His    CGC Arg     C
                                                         (Leu, Arg)
  C
        CUA Leu   CCA Pro   CAA Gln    CGA Arg     A
        CUG Leu   CCG Pro   CAG Gln    CGG Arg     G     2ndコドンに起こる置換は、
        AUU Ile   ACU Thr   AAU Asn    AGU Ser     U     すべて非同義置換。
        AUC Ile   ACC Thr   AAC Asn    AGC Ser     C
  A     AUA Ile   ACA Thr   AAA Lys    AGA Arg     A
        AUG Met   ACG Thr   AAG Lys    AGG Arg     G
        GUU Val   GCU Ala   GAU Asp    GGU Gly     U
        GUC Val   GCC Ala   GAC Asp    GGC Gly     C
  G
        GUA Val   GCA Ala   GAA Glu    GGA Gly     A
                                                                               57
        GUG Val   GCG Ala   GAG Glu    GGG Gly     G
遺伝子の表記について –Paralogues-
様々な生物で報告されているparalogのリスト。



                            基準は明記されていませんが、
                            ある程度以上の相同性のある
                            遺伝子がリストになっています。




                                              58
遺伝子の表記について –Protein families-



Family ID: 遺伝子ファミリーとしてのID
           Olr1082の場合には同じファミリーに57個の遺伝子が含まれています。
Consensus annotation: タンパク質に付けられている名前
Other Rat transcripts in this family: 同じ遺伝子ファミリーに属する遺伝子へのリンク
Multiple alignments: 同じ遺伝子ファミリーに属する遺伝子とのalignment




                                                               59
遺伝子の表記について –Variation Table (1)-
報告されているSNPのリスト。




                                                              Ambiguity
                                                       Code   Represents
                                                       Y      Pyrimidine (C&T)
                                                       R      Purine (A&G)
                                                       W      weak (A&T)
ID: SNPのID (リンク先にはSNPの前後100bpを含む配列など)
                                                       S      strong (G&C)
Type: SNPの種類(アミノ酸を変える/変えない、UTRなど)
                                                       K      keto (T&G)
Chr: bp: 染色体とその位置(bp)
                                                       M      amino (C&A)
Alleles: 多型となっている塩基
                                                       D      not C
Ambiguity: 塩基のvariationの一文字表記
                                                       V      not T
AA change: アミノ酸の変化
                                                       H      not G
AA co-ordinate: アミノ酸における位置(コドンでの位置)
                                                       B      not A
Class: 一塩基多型、insertionなど
                                                       X/N    unknown
Source: variationの情報源
Validation: variationが確認された情報の種類(frequency、hapmapなど)                       60
用語解説(8): 多型と置換
観察される配列の違いは、種内と種間で呼び方が異なり、
種内の場合は多型(polymorphism)、種間の場合は置換(substitution)と呼びます。

ある1個体で突然変異(mutation)が起き、その突然変異が生殖を介して種の中に
広がり、全ての個体がその突然変異を持つようになることを固定するといいます。
種間の比較では、固定した変異同士を観察していることになります。

               種内                      種内
                      消失          消失
    突然変異       多型                       多型     突然変異
                      固定          固定

                           種間の比較
また、突然変異の中には、良いもの・特に何の影響のないもの・悪いものがあります。
それを生存に有利(advantageous)・中立(neutral)・有害(deleterious)な変異と呼びます。


                                                          61
用語解説(8): 多型と置換 –alignmentで-
青い部分はヒト、チンパンジーそれぞれの種の中で異なっている変異(多型)で、
赤い部分が固定した突然変異(置換)のことを示しています。
                       10           20
        ヒト1   T······A··    ······C··G
        ヒト2   ·······A··    ·C····C··G
        ヒト3   T······A··    ······C··G
        ヒト4   T······A··    ·C····C···
        ヒト5   ····C··A··    ······C···
      祖先配列    CAGGGCATCC    GTCCTCGCCA
    チンパンジー1   ·TC·······    ····C···G·
    チンパンジー2   ·T·······T    ····C·····
    チンパンジー3   ·T·······T    ····C··C··
    チンパンジー4   ·T····T··T    ····C·····
    チンパンジー5   ·T········    ····C···G·

                                         62
遺伝子の表記について –Variation Table (2)-
Variation Tableの表示内容を「Configure this page」から変更できる。

      注目する領域の前後を表示する長さ                         variationが確認された

                   variationの情報源




                                              variationの持つ意味、
                                              起きた場所など
                   variationの種類


               : 1個体内のvariation



    MNPs: Multi Nucleotide Polymorphisms




                                                     表示する画像の大きさ
                                                                 63
遺伝子の表記について –ID History-
遺伝子のIDのデータベースのversionごとの変遷。




Assembly(ゲノム配列を長くつなぐ作業)のversionによっては、
注目する遺伝子が存在する領域にgapがあるなどの理由により
遺伝子として認識されなかったりすることがある。



                                        64
転写産物の表記について
最初のページには遺伝子の情報とTranscript summaryが表示される。




 EnsemblでのIDの付け方 (ヒトの場合)   ラット(Rattus norvegicus )の場合
 ENSG… Gene                ENSRNOG… Rat Gene
 ENST… Transcript          ENSRNOT… Rat Transcript
 ENSE… Exon                ENSRNOE… Rat Exon
 ENSP… Protein             ENSRNOP… Rat Protein         65
転写産物の表記について–Supporting evidence, Exons-
NCBIなど他のデータベースの情報と一致する領域についての図




                        図をクリックすると、
                        元となる情報のリンク
                        が表示される




                             exon, intron, 5' upstream,
                             3' downstreamの配列が
                             それぞれ表示される。



                                                   66
転写産物の表記について –cDNA sequence-
splicingを受けた後のexonの配列についての情報
一番上の配列はコドンの交互に黄色くなっており、一番下の配列は対応するアミノ酸。




variationが報告されている部分は、
配列の上に表示され、variationの詳細
情報にリンクしている。
アミノ酸が変化する場合は赤で表示。
                                      67
転写産物の表記について –Protein sequence-
タンパクの配列(アミノ酸配列)について




                      ・アミノ酸配列を変える変異が報告されてい
                      たアミノ酸には黄色、
                      ・アミノ酸配列を変えない変異が報告されて
                      いたアミノ酸には緑色が付けられている。

                      ・indelが報告されていた場合は青色が付け
                      られる。
                      ・spliceの境界となるアミノ酸は赤で表示。




                                           68
転写産物の表記について –General identifiers-
他のデータベースに登録されている注目した遺伝子に関連するIDのリスト
注目した遺伝子の配列と他のデータベース上の配列のalignmentなどにリンクがある。




                                          69
転写産物の表記について –Oligo probes-
注目する遺伝子配列中に含まれる、microarrayのoligo probeについてのリスト。




                             [view all locations]からは、
                             oligo probeと相同性のある領域
                             の詳細について見ることができる。
                             oligo probeは、25bp前後なので、
                             他の遺伝子座にも一致すること
                             もある。




                                                        70
転写産物の表記について –Gene ontology-
注目する遺伝子がGene ontologyのリスト。




                             Evidenceの種類 どのように分類されたかを示す。
                             IC - Inferred by Curator
                             IDA- Inferred from Direct Assay
                             IEA - Inferred from Electronic Annotation
                             IEP - Inferred from Expression Pattern
                             IGI - Inferred from Genetic Interaction
                             IMP - Inferred from Mutant Phenotype
                             IPI - Inferred from Physical Interaction
                             ISS - Inferred from Sequence or Structural Similarity
                             NAS - Non-traceable Author Statement
                             ND - No biological Data available
                             RCA - inferred from Reviewed Computational
                             Analysis
                             TAS - Traceable Author Statement
Gene Ontologyのページへのリンク       NR - Not Recorded
定義など詳細が書かれている。                                                                71
転写産物の表記について –Population comparison,
                         Comparison image-
転写産物についての多型情報




Comarison Imageでは、
Population comparisonの
情報を図として表している。




                                             72
転写産物の表記について –Protein summary-
タンパク質としての特徴である、ドメインやモチーフについての図
左側の名前はデータベースの名前をしめしている。
バーをクリックすると元の情報へのリンクが表示される。




                                 73
転写産物の表記について –Domains & features-
ドメインなどの特徴について、配列中の位置などの情報のリスト。




                                 [Display all genes with domain]
                                 からは、このドメインを
                                 持つ他の遺伝子につい
                                 てのリストへのリンク




                                                         74
転写産物の表記について –Transcript ID History-
                         転写産物のIDのデータベース
                         のversionごとの変遷

                         遺伝子や転写産物についての
                         情報や予測方法は次々更新さ
                         れていくために、versionが異な
                         るとannotationが異なることが
                         ある。




                                           75
NCBIとEnsemblのゲノムリストEnsembl 50種(2009年4月現在)
・登録されている生物種の重なりが少ない。
・それぞれ更新され続けているので、
解析に用いる場合は、versionを控えるなど、
注意が必要です。
 NCBI   110種(2009年4月現在)




                                      76
まとめ
・ターミナルを使ったコマンド入力による操作を行いました。

・代表的なデータベース(NCBIとEnsembl)のviewerの使い方
-主にversionが新しくなったEnsemblについて



次回は、ウェブサイトとローカルの両方で相同性検索を行います。




                                       77

Contenu connexe

Tendances

Hyper Estraierの設計と実装
Hyper Estraierの設計と実装Hyper Estraierの設計と実装
Hyper Estraierの設計と実装Hiroshi Ono
 
Abacus tamil (Sun Easy Abacus)
Abacus tamil (Sun Easy Abacus)Abacus tamil (Sun Easy Abacus)
Abacus tamil (Sun Easy Abacus)R Sunder Raj
 
Agile Estimating And Planning(J)
Agile Estimating And Planning(J)Agile Estimating And Planning(J)
Agile Estimating And Planning(J)Yasui Tsutomu
 
Fantasista Appendix1.0
Fantasista Appendix1.0Fantasista Appendix1.0
Fantasista Appendix1.0fantasistaVppr
 
Асхат Уразбаев
Асхат УразбаевАсхат Уразбаев
Асхат УразбаевSQALab
 
Jaws2008 Presen12
Jaws2008 Presen12Jaws2008 Presen12
Jaws2008 Presen12umekoumeda
 
ゲームボーイ向けOSの作り方
ゲームボーイ向けOSの作り方ゲームボーイ向けOSの作り方
ゲームボーイ向けOSの作り方Yuma Ohgami
 
Vjazanie Dlja Milani
Vjazanie Dlja MilaniVjazanie Dlja Milani
Vjazanie Dlja Milanititovanatalja
 
程式之美-微軟技術面試心得
程式之美-微軟技術面試心得程式之美-微軟技術面試心得
程式之美-微軟技術面試心得Bob Wei
 
2009年4月8日セミナー 2.Sedue新機能
2009年4月8日セミナー 2.Sedue新機能2009年4月8日セミナー 2.Sedue新機能
2009年4月8日セミナー 2.Sedue新機能Preferred Networks
 
lekcia
lekcialekcia
lekciaokovru
 
2009年4月8日セミナー 1.オープニング
2009年4月8日セミナー 1.オープニング2009年4月8日セミナー 1.オープニング
2009年4月8日セミナー 1.オープニングPreferred Networks
 
ブランド、プロフィット、コスト、デザインを追及するコンテンツ管理とは(Oracle OpenWorld Tokyo 2009)
ブランド、プロフィット、コスト、デザインを追及するコンテンツ管理とは(Oracle OpenWorld Tokyo 2009)ブランド、プロフィット、コスト、デザインを追及するコンテンツ管理とは(Oracle OpenWorld Tokyo 2009)
ブランド、プロフィット、コスト、デザインを追及するコンテンツ管理とは(Oracle OpenWorld Tokyo 2009)Makoto Shimizu
 
テスト駆動開発のエッセンス
テスト駆動開発のエッセンステスト駆動開発のエッセンス
テスト駆動開発のエッセンスhiroyuki Yamamoto
 
Intalio Be Workshop (Japanese)
Intalio Be Workshop (Japanese)Intalio Be Workshop (Japanese)
Intalio Be Workshop (Japanese)Tomoaki Sawada
 

Tendances (20)

Hyper Estraierの設計と実装
Hyper Estraierの設計と実装Hyper Estraierの設計と実装
Hyper Estraierの設計と実装
 
Abacus tamil (Sun Easy Abacus)
Abacus tamil (Sun Easy Abacus)Abacus tamil (Sun Easy Abacus)
Abacus tamil (Sun Easy Abacus)
 
PFI会社案内
PFI会社案内PFI会社案内
PFI会社案内
 
Agile Estimating And Planning(J)
Agile Estimating And Planning(J)Agile Estimating And Planning(J)
Agile Estimating And Planning(J)
 
Fantasista Appendix1.0
Fantasista Appendix1.0Fantasista Appendix1.0
Fantasista Appendix1.0
 
Асхат Уразбаев
Асхат УразбаевАсхат Уразбаев
Асхат Уразбаев
 
Jaws2008 Presen12
Jaws2008 Presen12Jaws2008 Presen12
Jaws2008 Presen12
 
ゲームボーイ向けOSの作り方
ゲームボーイ向けOSの作り方ゲームボーイ向けOSの作り方
ゲームボーイ向けOSの作り方
 
Vjazanie Dlja Milani
Vjazanie Dlja MilaniVjazanie Dlja Milani
Vjazanie Dlja Milani
 
Xen virtualization
Xen virtualizationXen virtualization
Xen virtualization
 
程式之美-微軟技術面試心得
程式之美-微軟技術面試心得程式之美-微軟技術面試心得
程式之美-微軟技術面試心得
 
2009年4月8日セミナー 2.Sedue新機能
2009年4月8日セミナー 2.Sedue新機能2009年4月8日セミナー 2.Sedue新機能
2009年4月8日セミナー 2.Sedue新機能
 
Jami Presentation
Jami PresentationJami Presentation
Jami Presentation
 
lekcia
lekcialekcia
lekcia
 
plan
planplan
plan
 
2009年4月8日セミナー 1.オープニング
2009年4月8日セミナー 1.オープニング2009年4月8日セミナー 1.オープニング
2009年4月8日セミナー 1.オープニング
 
priorbank ecommerce
priorbank ecommercepriorbank ecommerce
priorbank ecommerce
 
ブランド、プロフィット、コスト、デザインを追及するコンテンツ管理とは(Oracle OpenWorld Tokyo 2009)
ブランド、プロフィット、コスト、デザインを追及するコンテンツ管理とは(Oracle OpenWorld Tokyo 2009)ブランド、プロフィット、コスト、デザインを追及するコンテンツ管理とは(Oracle OpenWorld Tokyo 2009)
ブランド、プロフィット、コスト、デザインを追及するコンテンツ管理とは(Oracle OpenWorld Tokyo 2009)
 
テスト駆動開発のエッセンス
テスト駆動開発のエッセンステスト駆動開発のエッセンス
テスト駆動開発のエッセンス
 
Intalio Be Workshop (Japanese)
Intalio Be Workshop (Japanese)Intalio Be Workshop (Japanese)
Intalio Be Workshop (Japanese)
 

Plus de ocha_kaneko

100701_statistics3
100701_statistics3100701_statistics3
100701_statistics3ocha_kaneko
 
100624_statistics2
100624_statistics2100624_statistics2
100624_statistics2ocha_kaneko
 
100617_statistics1
100617_statistics1100617_statistics1
100617_statistics1ocha_kaneko
 
100610_blastclustalw
100610_blastclustalw100610_blastclustalw
100610_blastclustalwocha_kaneko
 
100603_TogoWS_SOAP
100603_TogoWS_SOAP100603_TogoWS_SOAP
100603_TogoWS_SOAPocha_kaneko
 
100527-TogoWS_REST
100527-TogoWS_REST100527-TogoWS_REST
100527-TogoWS_RESTocha_kaneko
 
100513_homology_search(ensembl)
100513_homology_search(ensembl)100513_homology_search(ensembl)
100513_homology_search(ensembl)ocha_kaneko
 
100506-unix-ensembl
100506-unix-ensembl100506-unix-ensembl
100506-unix-ensemblocha_kaneko
 
100422-intro,setup
100422-intro,setup100422-intro,setup
100422-intro,setupocha_kaneko
 
090622_blast-clustalw
090622_blast-clustalw090622_blast-clustalw
090622_blast-clustalwocha_kaneko
 
090615-TogoWS SOAP
090615-TogoWS SOAP090615-TogoWS SOAP
090615-TogoWS SOAPocha_kaneko
 
090608-TogoWS REST
090608-TogoWS REST090608-TogoWS REST
090608-TogoWS RESTocha_kaneko
 
090511-intro, setup
090511-intro, setup090511-intro, setup
090511-intro, setupocha_kaneko
 

Plus de ocha_kaneko (16)

100701_statistics3
100701_statistics3100701_statistics3
100701_statistics3
 
100624_statistics2
100624_statistics2100624_statistics2
100624_statistics2
 
100617_statistics1
100617_statistics1100617_statistics1
100617_statistics1
 
100610_blastclustalw
100610_blastclustalw100610_blastclustalw
100610_blastclustalw
 
100603_TogoWS_SOAP
100603_TogoWS_SOAP100603_TogoWS_SOAP
100603_TogoWS_SOAP
 
100527-TogoWS_REST
100527-TogoWS_REST100527-TogoWS_REST
100527-TogoWS_REST
 
100513_homology_search(ensembl)
100513_homology_search(ensembl)100513_homology_search(ensembl)
100513_homology_search(ensembl)
 
100520_dotplot
100520_dotplot100520_dotplot
100520_dotplot
 
100506-unix-ensembl
100506-unix-ensembl100506-unix-ensembl
100506-unix-ensembl
 
100422-intro,setup
100422-intro,setup100422-intro,setup
100422-intro,setup
 
Statistics_R
Statistics_RStatistics_R
Statistics_R
 
090622_blast-clustalw
090622_blast-clustalw090622_blast-clustalw
090622_blast-clustalw
 
090615-TogoWS SOAP
090615-TogoWS SOAP090615-TogoWS SOAP
090615-TogoWS SOAP
 
090608-TogoWS REST
090608-TogoWS REST090608-TogoWS REST
090608-TogoWS REST
 
090601-dotplot
090601-dotplot090601-dotplot
090601-dotplot
 
090511-intro, setup
090511-intro, setup090511-intro, setup
090511-intro, setup
 

090518_unix-ensembl