Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
#NGLSBI

これから の
ライフサイエンス研究と
バイオインフォマティクス
Next Generation Life Science & Bioinformatics

坊農 秀雅
情報・システム研究機構(ROIS)
ライフサイエンス統合...
#NGLSBI

坊農秀雅
• 読み: ぼうのうひでまさ
• 趣味: 道の駅&温泉巡り、スキー、元鉄オタ
• 専門:
‒バイオインフォマティクス
‒ゲノム生物学(微生物→マウス、最近は昆虫)

• ドメイン: bonohu.jp

• twit...
#NGLSBI

本日のお題
1. ライフサイエンス研究の現状
2. バイオインフォマティクスとは
3. これからのライフサイエンス研
究とバイオインフォマティクス

!3

© 2013 DBCLS Licensed under CC 表示 ...
#NGLSBI

1. ライフサイエンス研究
の現状

© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

Nature 464, 670-671 (2010)

!5

© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

DNA塩基配列解読の超高速化
• かつてはSanger法
• 最近は「次世代シーケンサー(NGS)」
‒Illumina: Sequence By Synthesis
• http://www.youtube.com/watc...
#NGLSBI

exomeの例

!7

© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

whole genomeの例

!8

© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

遺伝医学の入門書
• 遺伝医学やさしい系統講義18講
‒ 例えば…
‒ 単一遺伝子疾患とメンデル遺伝学
‒ 多因子疾患の遺伝学
‒ エピジェネティックス
‒ 集団遺伝学
‒ 薬理遺伝学・ゲノム薬理学
‒ 遺伝カウンセリング
‒...
#NGLSBI

個人ゲノム解読: 新たな問題も

!10

© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

MiSeq
• Illumina社のデスクトップ次世代シーケンサ
• 富山大学にも導入済み
• 最新の v3 試薬だと1runで
‒300塩基(base)
‒5000万リード
‒→15 Gb(参考: ヒトハプロイドゲノム 約3...
#NGLSBI

次世代シーケンサからのデータ
• FASTQフォーマットのファイル
‒4行/readが基本単位
‒MiSeq v3
•5000万リードx4行
•=2億行

SRR001356.1 2023DAAXX:5:1:123:563 l...
#NGLSBI

(・́ω`・)困ッタナァ...

© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

2. バイオインフォマティクス
とは?

© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

バイオインフォマティクスとは
• コンピュータを実験デバイスとして
使って、生物学的に有意な結論を引
き出そうとする学問
‒坊農秀雅(2002)

• 計算機科学の技術を応用して生物学
の問題を解こうとする学問
‒日本語版Wi...
#NGLSBI

バイオインフォマティクスの教科書
1. バイオインフォマティクスの歴史と全貌
2. 配列の収集と蓄積
3. 対にした配列のアラインメント
4. 配列アラインメントの確率的,統計的解析入門
5. 多重配列アラインメント
6. 類...
#NGLSBI

バイオインフォマティクスの範疇
イメージ解析
遺伝子発現解析
!

アミノ酸配列解析
塩基配列解析
!

パスウェイ解析
シミュレーション

!17

© 2013 DBCLS Licensed under CC 表示 2.1...
#NGLSBI

(かつての)バイオインフォマ
ティクス研究者の職種別分類
• アルゴリズム屋!

数学的
抽象的

–方法を考える人!
–「NP完全」がキーワード!

• 実装屋!
–プログラムやツールを書く人!

ライフサイエンス研究
–プ...
#NGLSBI

あなたも
バイオインフォマティクス研究者!
!19

© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

!20

© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

バイオインフォマティクス研究者の分類(改)
∼富山城の天守に喩えて∼

3. ガチ系
2. コマンドライン系
1. コピペ系
0. 他力本願

Photo by Hidemasa Bono on Dec.08, 2013
!2...
#NGLSBI

1. コピペ系バイオインフォマティクス
• 配列断片などをコピー&ペースト(コピペ)して
GUI(Graphical User Interface)で解析
‒ウェブブラウザ上や専用ソフトウェア
‒コピペマティクスw

• 武器...
#NGLSBI

2. コマンドライン系バイオインフォマティクス
• UNIXのコマンドライン上で、既存のツールを
組み合わせて解析をする
‒Command line User Interface(CUI) (cf. GUI)

• たまに捨て...
#NGLSBI

3. ガチ系バイオインフォマティクス
• ある解析技術に特化したプログラムを書く
‒例えば、BLAST

• ライフサイエンスに興味あるのかな…!?
• でもそういう人がプログラム作ってくれない
と…いつも大変感謝しております...
#NGLSBI

0. 他力本願
• 他人にやらせる系
• 自分の研究テーマなのに
• 「あなた、本当に研究者?」
• 武器
‒自然言語(関西弁が多い)

!25

© 2013 DBCLS Licensed under CC 表示 2.1 日...
#NGLSBI

考察
•レベル0は論外。すぐにレベルアップを
•時代が経ってソフトウェアが進化すれば、
レベル1でもなんとかなる(はず)
•早く目的の課題を解きたいのであれば、
自らのレベルをさらに上げるしかない

ぼうのふは レベル2にあが...
#NGLSBI

レベルを上げるとは?
• レベル0→1
‒インターネットをもっと活用、ソフトウェア導入
など、自らの意識改革で実現可能

• レベル1→2
‒UNIX使いましょう
•MacOSX: 「アプリケーション」→「ユティリティ」
の「...
#NGLSBI

レベル1: GUIを決め込む
• NGS解析GUIソフトウェア(有償)
– CLC Genomics workbench http://www.clcbio.co.jp/	

– Avadis NGS http://www.a...
#NGLSBI

マイクロアレイ解析
レベル1で可

遺伝子アノ
テーション

oligoprobeに対応する

遺伝子ごとの発現量
!29

Genespring
© 2013 DBCLS Licensed under CC 表示 2.1 日...
#NGLSBI

データ形式の実際(マイクロアレイ)
• タブ区切りテキスト!
–数万(=スポットの数)行!

• (古い)Excelでも「開ける」!
–Excel2003の行数制限内!

• コマンドライン操作なしで中身が直接見れる

!30...
#NGLSBI

RNAseq
• 「次世代シーケンサを利用して、サンプル中
の RNA の中身に関する情報を得るために 
cDNA をシーケンシングする方法」!
–http://en.wikipedia.org/wiki/RNA-Seqより勝...
#NGLSBI

SRR001356.1 2023DAAXX:5:1:123:563 length=33!
TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC!
+SRR001356.1 2023DAAXX:5:1:123:56...
#NGLSBI

レベル2: UNIXの使い方(CUI)デモ
• 出典: http://bit.ly/unixdemo131209	

‒ grep	

‒ less	

‒ cut, sort, wc	

!

• どうしてもWindowsと...
#NGLSBI

レベル1-2

http://www.hiroogakuen.jp/weblog/archives/17598
!34

© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

学部生でレベル2だとこんなことも
• 現在、学部4年生!
• First authorの論文がすでにaccepted

!35

© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

3. これからの
ライフサイエンス研究と
バイオインフォマティクス

© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

バイオインフォマティクス
スキルがあれば、ライフサ
イエンス研究はできるか?
NO
http://www.geocities.jp/papertoy_box/make/98CmdCar.html

© 2013 DBCLS L...
#NGLSBI

車輪の両輪
http://www.geocities.jp/papertoy_box/make/98CmdCar.html

•バイオインフォマティクス
を含めた実験スキル
•ライフサイエンスの知識
研究前進
!38

© 2...
#NGLSBI

ライフサイエンスの知識
•蓄積された事実
‒ (これまで)教科書
‒(最近は)データベース
• 特定のテーマに沿ったデータを集めて管
理し、容易に検索・抽出などの再利用を
できるようにしたもの
!39

© 2013 DBCL...
ライフサイエンス分野の
データベース

#NGLSBI

• PubMed, PubMedCentral(PMC)
‒論文のデータ

• DDBJ/EMBL/Genbank
‒塩基配列データ

• UniProtKB(かつてのSwissProt...
#NGLSBI

データベース乱立時代
• Nucleic Acids Research
• 毎年年頭にDatabase issueを発刊
• 2013年(最新版)の巻頭言
– http://nar.oxfordjournals.org/con...
#NGLSBI

日本の「統合DB」とは?
• 生命科学分野のいわゆる「公共データベース」
• ライフサイエンスデータの流通業
• NBDC 、 DBCLS、DDBJ

を中心に  

日本中のさまざまな大学・研究機関が協力
• 安心してすぐに...
#NGLSBI

無料で使えます
• 基本的にユーザー登録なし
• for profit(企業の方)もタダ

!43
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

じゃ、どうやって?
• やりたいことを「インターネット検索」して
見つかります
‒ 要するにググって下さい

• 見つからない場合は、NBDC portalから
‒ かつてのYahoo!的なindexサイト

!44
© 20...
#NGLSBI

http://biosciencedbc.jp/

!45
© 2013 DBCLS Licensed under CC 表示 2.1 日本
IntegbioDBカタログ

#NGLSBI

!46
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

生命科学DB横断検索

!47
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

生命科学DBアーカイブ

!48
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

バイオサイエンスデータベース
センター(NBDC)
•National Bioscience Database Center
‒Since 2011

•独立行政法人 科学技術振興機構(JST)の傘下

!49
http://...
#NGLSBI

RDFによるDB統合
ゲノムの配列情報と多種多様なアノテーションデータを個別のオン
トロジー、データ変換プログラムを開発し RDF 形式にして統合
ゲノム配列
NCBI: BioProject/RefSeq
-- 既存のリファ...
http://qa.lifesciencedb.jp/

#NGLSBI

LSQA

!51
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

和を以て貴しと為す

継続的に維持管理していくことが大事
!52
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

全部紹介している時間ないので

!53
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

統合DBの活用法
統合TV

http://togotv.dbcls.jp/
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

統合TV (togoTV)
•動画によるDBやツールのチュートリアル
‒ 各DBやツール名で検索

http://togotv.dbcls.jp/

•統合データベース講演会AJACSの動画も
•YouTubeにも
http:...
#NGLSBI

NGS

!56
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

!57
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

!58
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

!59
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

MotDB
• Master of the DB「データベースの達人」
‒ 「もっとDB? もういらん、増やさんといて!」

• 統合DB講習会のテキスト置き場
‒ DBやツールの使い方の宝庫

http://MotDB.db...
#NGLSBI

統合DBの活用法
1. 文献データ
新着論文レビュー
領域融合レビュー
Allie: 生命科学分野の略語/展開形検索
inMeXes: 逐次PubMed表現検索
© 2013 DBCLS Licensed under CC 表...
#NGLSBI

大人気のサービス
!62

©© 2013 DBCLS Licensed under CC 表示 2.1 日本
2013 DBCLS Licensed under CC BY 2.1JAPAN
#NGLSBI

新着論文レビュー
http://first.lifesciencedb.jp/

クリエイティブ・コモンズ 表示 2.1 日本
!63

©© 2013 DBCLS Licensed under CC 表示 2.1 日本
201...
#NGLSBI

領域融合レビュー
http://leading.lifesciencedb.jp/

クリエイティブ・コモンズ 表示 2.1 日本
!64

©© 2013 DBCLS Licensed under CC 表示 2.1 日本
...
#NGLSBI

http://allie.dbcls.jp/

!65

©© 2013 DBCLS Licensed under CC 表示 2.1 日本
2013 DBCLS Licensed under CC BY 2.1JAPAN
#NGLSBI

inMeXes

!66

http://docman.dbcls.jp/im/

©© 2013 DBCLS Licensed under CC 表示 2.1 日本
2013 DBCLS Licensed under CC ...
#NGLSBI

!67

©© 2013 DBCLS Licensed under CC 表示 2.1 日本
2013 DBCLS Licensed under CC BY 2.1JAPAN
#NGLSBI

Life
Science
Dictionary
のサイトにリンク

!68

©© 2013 DBCLS Licensed under CC 表示 2.1 日本
2013 DBCLS Licensed under CC BY ...
#NGLSBI

統合DBの活用法
2. 塩基配列データ
DDBJ
DBCLS SRA
GGRNA
GGGenome
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

突然ですが…DBCLS移転します
• 2013年度末に
‒ 柏の葉キャンパス駅前のビル
‒ 遺伝研DDBJ/CIBの隣のビル

• 「統合」なのに分割移転w
‒ 予算的、制度的な都合

• 物理的に「統合」
‒ DDBJ+DB...
#NGLSBI

!71
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

1. DBCLS SRA
Pipeline to help re-use public NGS data
Search data

• Yellow pages for NGS data archived!
–Indexed ...
#NGLSBI

Statistics: studies

!73

Picture from Togo Picture Gallery http://g86.dbcls.jp/togopic/©2013 DBCLS Licensed unde...
#NGLSBI

PUBLISHED OR NOT
公開されたデータを元にした論文はあるのか

19%

「論文を公開してから
データを公開する」!
とは限らない
paper published
not published

NUMBER OF...
#NGLSBI

Search by publications

http://bit.ly/sra2pubmed

!75
© 2013 DBCLS Licensed under CC BY 2.1JAPAN
© 2013 DBCLS Lic...
#NGLSBI

Search by diseases

!76
© 2013 DBCLS Licensed under CC BY 2.1JAPAN
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

Search by diseases(cont.)

Nakazato T, Ohta T, Bono H!
Experimental design-based functional mining and characteri...
#NGLSBI

GGRNA

GooGle ライクな RNA 検索エンジン
http://GGRNA.dbcls.jp/

■ あらゆるキーワードや塩基配列・

  アミノ酸配列からすばやく簡単に

  遺伝子を検索するウェブサーバ
■ Re...
#NGLSBI

GooGle ライクな Genome 検索エンジン
http://GGGenome.dbcls.jp/
Genomeも検索できたらええなあ…

やりましょう!!

!79
© 2013 DBCLS Licensed under...
#NGLSBI

統合DBの活用法
3. 遺伝子発現データ
NCBI GEO目次
RefEx

© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

GEO目次

!81
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

同じようなものが一杯あって、
どれを選んでいいか、わからない

!82
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

RefEx: 遺伝子発現
リファレンスデータセット
• 臓器ごとの発現比較を4つの実験手法と
BodyParts3Dで
http://RefEx.dbcls.jp/
‒正常組織・臓器における遺伝子発現のリファレンス
‒再利用可...
#NGLSBI

http://RefEx.dbcls.jp/

!84

© 2013 DBCLS Licensed under CC BY 2.1JAPAN
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

!85
© 2013 DBCLS Licensed under CC BY 2.1JAPAN
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

!86
© 2013 DBCLS Licensed under CC BY 2.1JAPAN
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

結語
整備されてきた
公共データベース
をうまく活用して
自分のやっている
ことに役立ててい
きましょう!
私もやっています
!87
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

いつでもどこでもタダじゃない…

!88
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

結語2

!89
© 2013 DBCLS Licensed under CC 表示 2.1 日本
#NGLSBI

御清聴ありがとうございました
We all level 2 and more!

スライドのありか	

http://bit.ly/bono131209

bonohu!
bono@dbcls.jp photo by @hir...
Prochain SlideShare
Chargement dans…5
×

“これから”のライフサイエンス研究とバイオインフォマティクス (Next Generation Life Science & Bioinformatics)

4 782 vues

Publié le

2013年12月9日に富山大学杉谷キャンパスにて市民公開学術講演としてお話した際に使用したスライドです。

Publié dans : Formation
  • Soyez le premier à commenter

“これから”のライフサイエンス研究とバイオインフォマティクス (Next Generation Life Science & Bioinformatics)

  1. 1. #NGLSBI これから の ライフサイエンス研究と バイオインフォマティクス Next Generation Life Science & Bioinformatics 坊農 秀雅 情報・システム研究機構(ROIS) ライフサイエンス統合データベースセンター (DBCLS) Pictures from http://g86.dbcls.jp/togopic/ © 2013 DBCLS Licensed under CC 表示 2.1 日本 !1
  2. 2. #NGLSBI 坊農秀雅 • 読み: ぼうのうひでまさ • 趣味: 道の駅&温泉巡り、スキー、元鉄オタ • 専門: ‒バイオインフォマティクス ‒ゲノム生物学(微生物→マウス、最近は昆虫) • ドメイン: bonohu.jp • twitter可 • ハッシュタグは !2 bonohu! ! bono@dbcls.jp #NGLSBI © 2013 DBCLS Licensed under CC 表示 2.1 日本
  3. 3. #NGLSBI 本日のお題 1. ライフサイエンス研究の現状 2. バイオインフォマティクスとは 3. これからのライフサイエンス研 究とバイオインフォマティクス !3 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  4. 4. #NGLSBI 1. ライフサイエンス研究 の現状 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  5. 5. #NGLSBI Nature 464, 670-671 (2010) !5 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  6. 6. #NGLSBI DNA塩基配列解読の超高速化 • かつてはSanger法 • 最近は「次世代シーケンサー(NGS)」 ‒Illumina: Sequence By Synthesis • http://www.youtube.com/watch?v=womKfikWlxM ‒Life Technologies(Applied Biosystems) •ヌクレオチドがDNA鎖に取り込まれる過程でポリメ ラーゼによって放出される水素イオンを検出 • https://www.youtube.com/watch?v=MxkYa9XCvBQ ‒PacBio: 一分子・リアルタイム(SMRT®)検出 • https://www.youtube.com/watch?v=NHCJ8PtYCFc !6 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  7. 7. #NGLSBI exomeの例 !7 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  8. 8. #NGLSBI whole genomeの例 !8 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  9. 9. #NGLSBI 遺伝医学の入門書 • 遺伝医学やさしい系統講義18講 ‒ 例えば… ‒ 単一遺伝子疾患とメンデル遺伝学 ‒ 多因子疾患の遺伝学 ‒ エピジェネティックス ‒ 集団遺伝学 ‒ 薬理遺伝学・ゲノム薬理学 ‒ 遺伝カウンセリング ‒ など !9 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  10. 10. #NGLSBI 個人ゲノム解読: 新たな問題も !10 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  11. 11. #NGLSBI MiSeq • Illumina社のデスクトップ次世代シーケンサ • 富山大学にも導入済み • 最新の v3 試薬だと1runで ‒300塩基(base) ‒5000万リード ‒→15 Gb(参考: ヒトハプロイドゲノム 約3Gb) !11 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  12. 12. #NGLSBI 次世代シーケンサからのデータ • FASTQフォーマットのファイル ‒4行/readが基本単位 ‒MiSeq v3 •5000万リードx4行 •=2億行 SRR001356.1 2023DAAXX:5:1:123:563 length=33 TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC +SRR001356.1 2023DAAXX:5:1:123:563 length=33 -IIIIIIII8IIIIIIIIIII6IIIIIIIII9I @SRR001356.2 2023DAAXX:5:1:123:476 length=33 TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG +SRR001356.2 2023DAAXX:5:1:123:476 length=33 IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III @SRR001356.3 2023DAAXX:5:1:121:746 length=33 GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT +SRR001356.3 2023DAAXX:5:1:121:746 length=33 IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII • ファイルサイズも2Gbyte/file超 ‒FAT32フォーマットでは扱えない • いわゆる「開く」ことが不可能 !12 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  13. 13. #NGLSBI (・́ω`・)困ッタナァ... © 2013 DBCLS Licensed under CC 表示 2.1 日本
  14. 14. #NGLSBI 2. バイオインフォマティクス とは? © 2013 DBCLS Licensed under CC 表示 2.1 日本
  15. 15. #NGLSBI バイオインフォマティクスとは • コンピュータを実験デバイスとして 使って、生物学的に有意な結論を引 き出そうとする学問 ‒坊農秀雅(2002) • 計算機科学の技術を応用して生物学 の問題を解こうとする学問 ‒日本語版Wikipedia(2013/12/7版) !15 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  16. 16. #NGLSBI バイオインフォマティクスの教科書 1. バイオインフォマティクスの歴史と全貌 2. 配列の収集と蓄積 3. 対にした配列のアラインメント 4. 配列アラインメントの確率的,統計的解析入門 5. 多重配列アラインメント 6. 類似配列のデータベース検索 7. 系統推定 8. RNA二次構造の予測 9. 遺伝子予測と遺伝子調節 10.タンパク質の分類と構造予測 11.ゲノム解析 12.PerlとPerlモジュールを用いたバイオインフォマティクス・プログラミング 13.マイクロアレイの解析 !16 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  17. 17. #NGLSBI バイオインフォマティクスの範疇 イメージ解析 遺伝子発現解析 ! アミノ酸配列解析 塩基配列解析 ! パスウェイ解析 シミュレーション !17 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  18. 18. #NGLSBI (かつての)バイオインフォマ ティクス研究者の職種別分類 • アルゴリズム屋! 数学的 抽象的 –方法を考える人! –「NP完全」がキーワード! • 実装屋! –プログラムやツールを書く人! ライフサイエンス研究 –プログラムを使って実際に生データを相手に手を 動かす人 者の範疇 • 解析屋! 生物的 具体的 © 2013 DBCLS Licensed under CC 表示 2.1 日本 !1 !18 8
  19. 19. #NGLSBI あなたも バイオインフォマティクス研究者! !19 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  20. 20. #NGLSBI !20 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  21. 21. #NGLSBI バイオインフォマティクス研究者の分類(改) ∼富山城の天守に喩えて∼ 3. ガチ系 2. コマンドライン系 1. コピペ系 0. 他力本願 Photo by Hidemasa Bono on Dec.08, 2013 !21 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  22. 22. #NGLSBI 1. コピペ系バイオインフォマティクス • 配列断片などをコピー&ペースト(コピペ)して GUI(Graphical User Interface)で解析 ‒ウェブブラウザ上や専用ソフトウェア ‒コピペマティクスw • 武器 ‒ショートカットキー(例: +C, +V) ‒グーグル先生 ‒ソーシャルネットワーク(SNS) •Twitter !22 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  23. 23. #NGLSBI 2. コマンドライン系バイオインフォマティクス • UNIXのコマンドライン上で、既存のツールを 組み合わせて解析をする ‒Command line User Interface(CUI) (cf. GUI) • たまに捨てコードを書く • 武器 ‒shell script ‒Perl, Ruby ‒Python ‒R !23 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  24. 24. #NGLSBI 3. ガチ系バイオインフォマティクス • ある解析技術に特化したプログラムを書く ‒例えば、BLAST • ライフサイエンスに興味あるのかな…!? • でもそういう人がプログラム作ってくれない と…いつも大変感謝しております • 武器 ‒C, C++ ‒Fortran !24 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  25. 25. #NGLSBI 0. 他力本願 • 他人にやらせる系 • 自分の研究テーマなのに • 「あなた、本当に研究者?」 • 武器 ‒自然言語(関西弁が多い) !25 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  26. 26. #NGLSBI 考察 •レベル0は論外。すぐにレベルアップを •時代が経ってソフトウェアが進化すれば、 レベル1でもなんとかなる(はず) •早く目的の課題を解きたいのであれば、 自らのレベルをさらに上げるしかない ぼうのふは レベル2にあがった! !26 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  27. 27. #NGLSBI レベルを上げるとは? • レベル0→1 ‒インターネットをもっと活用、ソフトウェア導入 など、自らの意識改革で実現可能 • レベル1→2 ‒UNIX使いましょう •MacOSX: 「アプリケーション」→「ユティリティ」 の「ターミナル」を常時起動 •Windows: cygwinを導入。できればMacOSXへ ‒ cygwin: UNIX系の便利なプログラムを利用するためのツール !27 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  28. 28. #NGLSBI レベル1: GUIを決め込む • NGS解析GUIソフトウェア(有償) – CLC Genomics workbench http://www.clcbio.co.jp/ – Avadis NGS http://www.avadis-ngs.com/ • 遺伝子発現解析 ‒無償でいいものが多数 –例えば、GSEA(Gene Set Enrichment Analysis)のDAVID! –Google 検索して調べましょう !28 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  29. 29. #NGLSBI マイクロアレイ解析 レベル1で可 遺伝子アノ テーション oligoprobeに対応する 遺伝子ごとの発現量 !29 Genespring © 2013 DBCLS Licensed under CC 表示 2.1 日本 !29
  30. 30. #NGLSBI データ形式の実際(マイクロアレイ) • タブ区切りテキスト! –数万(=スポットの数)行! • (古い)Excelでも「開ける」! –Excel2003の行数制限内! • コマンドライン操作なしで中身が直接見れる !30 !30 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  31. 31. #NGLSBI RNAseq • 「次世代シーケンサを利用して、サンプル中 の RNA の中身に関する情報を得るために  cDNA をシーケンシングする方法」! –http://en.wikipedia.org/wiki/RNA-Seqより勝手に翻訳! • Whole transcriptome shutgun sequencing(WTSS) や! • Transcriptome sequencingとも !31 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  32. 32. #NGLSBI SRR001356.1 2023DAAXX:5:1:123:563 length=33! TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC! +SRR001356.1 2023DAAXX:5:1:123:563 length=33! -IIIIIIII8IIIIIIIIIII6IIIIIIIII9I! @SRR001356.2 2023DAAXX:5:1:123:476 length=33! TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG! +SRR001356.2 2023DAAXX:5:1:123:476 length=33! IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III! @SRR001356.3 2023DAAXX:5:1:121:746 length=33! GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT! +SRR001356.3 2023DAAXX:5:1:121:746 length=33! IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII FASTQ RNAseq データ 解析の流れ 上流はレベル2 ゲノム 1.tophat (bowtie) 2.cufflinks ゲノムに対する多重配列アラインメント .gtf ゲノムアノ テーション 予測転写単位ごとの (推定)発現量情報 !32 .fa .bam 遺伝子アノ テーション 3.cummeRbund © 2013 DBCLS Licensed under CC 表示 2.1 日本 !32
  33. 33. #NGLSBI レベル2: UNIXの使い方(CUI)デモ • 出典: http://bit.ly/unixdemo131209 ‒ grep ‒ less ‒ cut, sort, wc ! • どうしてもWindowsという人はcygwinを –http://togotv.dbcls.jp/20110520.html  !33 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  34. 34. #NGLSBI レベル1-2 http://www.hiroogakuen.jp/weblog/archives/17598 !34 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  35. 35. #NGLSBI 学部生でレベル2だとこんなことも • 現在、学部4年生! • First authorの論文がすでにaccepted !35 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  36. 36. #NGLSBI 3. これからの ライフサイエンス研究と バイオインフォマティクス © 2013 DBCLS Licensed under CC 表示 2.1 日本
  37. 37. #NGLSBI バイオインフォマティクス スキルがあれば、ライフサ イエンス研究はできるか? NO http://www.geocities.jp/papertoy_box/make/98CmdCar.html © 2013 DBCLS Licensed under CC 表示 2.1 日本
  38. 38. #NGLSBI 車輪の両輪 http://www.geocities.jp/papertoy_box/make/98CmdCar.html •バイオインフォマティクス を含めた実験スキル •ライフサイエンスの知識 研究前進 !38 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  39. 39. #NGLSBI ライフサイエンスの知識 •蓄積された事実 ‒ (これまで)教科書 ‒(最近は)データベース • 特定のテーマに沿ったデータを集めて管 理し、容易に検索・抽出などの再利用を できるようにしたもの !39 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  40. 40. ライフサイエンス分野の データベース #NGLSBI • PubMed, PubMedCentral(PMC) ‒論文のデータ • DDBJ/EMBL/Genbank ‒塩基配列データ • UniProtKB(かつてのSwissProt) ‒アミノ酸配列データ • PDB !40 ‒タンパク質の立体構造データ © 2013 DBCLS Licensed under CC 表示 2.1 日本
  41. 41. #NGLSBI データベース乱立時代 • Nucleic Acids Research • 毎年年頭にDatabase issueを発刊 • 2013年(最新版)の巻頭言 – http://nar.oxfordjournals.org/content/41/D1/D1.abstract • 1,512のDB! • 多すぎ。把握困難 統合しましょう !41 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  42. 42. #NGLSBI 日本の「統合DB」とは? • 生命科学分野のいわゆる「公共データベース」 • ライフサイエンスデータの流通業 • NBDC 、 DBCLS、DDBJ を中心に   日本中のさまざまな大学・研究機関が協力 • 安心してすぐに利用できるデータを提供 • 公共DBとして外に出す際にデータを綺麗に !42 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  43. 43. #NGLSBI 無料で使えます • 基本的にユーザー登録なし • for profit(企業の方)もタダ !43 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  44. 44. #NGLSBI じゃ、どうやって? • やりたいことを「インターネット検索」して 見つかります ‒ 要するにググって下さい • 見つからない場合は、NBDC portalから ‒ かつてのYahoo!的なindexサイト !44 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  45. 45. #NGLSBI http://biosciencedbc.jp/ !45 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  46. 46. IntegbioDBカタログ #NGLSBI !46 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  47. 47. #NGLSBI 生命科学DB横断検索 !47 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  48. 48. #NGLSBI 生命科学DBアーカイブ !48 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  49. 49. #NGLSBI バイオサイエンスデータベース センター(NBDC) •National Bioscience Database Center ‒Since 2011 •独立行政法人 科学技術振興機構(JST)の傘下 !49 http://biosciencedbc.jp/about-us/projects-and-activitiesより引用 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  50. 50. #NGLSBI RDFによるDB統合 ゲノムの配列情報と多種多様なアノテーションデータを個別のオン トロジー、データ変換プログラムを開発し RDF 形式にして統合 ゲノム配列 NCBI: BioProject/RefSeq -- 既存のリファレンス配列 DDBJ: Annotation pipeline/GTPS -- 新規ゲノ ム配列 実験・メタデータ INSDC, NCBI: SRA, GEO
 DBCLS: RefEx, Kusarinoko GOLD, GSC: 環境メタデータ
 Bulk data: 文献, 画像 ... オントロジー NCBO: BioPortal, OBO (GO, SO ...) DBCLS: MEO, GMO, MCCV ...
 アノテーション UniProt: Protein functions and links Formats: GFF3, GTF, GVF, DAS, BED ... Tools: Cufflinks, BLAST, InterProt ... Slide from トーゴーの日シンポジウム2013 「データベース統合の実現に向けて2」 by 岡本忍 (DBCLS) !50 ©© 2013 DBCLS Licensed under CC 表示 2.1 日本 2013 DBCLS Licensed under CC BY 2.1JAPAN
  51. 51. http://qa.lifesciencedb.jp/ #NGLSBI LSQA !51 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  52. 52. #NGLSBI 和を以て貴しと為す 継続的に維持管理していくことが大事 !52 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  53. 53. #NGLSBI 全部紹介している時間ないので !53 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  54. 54. #NGLSBI 統合DBの活用法 統合TV http://togotv.dbcls.jp/ © 2013 DBCLS Licensed under CC 表示 2.1 日本
  55. 55. #NGLSBI 統合TV (togoTV) •動画によるDBやツールのチュートリアル ‒ 各DBやツール名で検索 http://togotv.dbcls.jp/ •統合データベース講演会AJACSの動画も •YouTubeにも http://youtube.com/togotv •約750の動画              (アップデート込) クリエイティブ・コモンズ 表示 2.1 日本 !55 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  56. 56. #NGLSBI NGS !56 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  57. 57. #NGLSBI !57 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  58. 58. #NGLSBI !58 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  59. 59. #NGLSBI !59 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  60. 60. #NGLSBI MotDB • Master of the DB「データベースの達人」 ‒ 「もっとDB? もういらん、増やさんといて!」 • 統合DB講習会のテキスト置き場 ‒ DBやツールの使い方の宝庫 http://MotDB.dbcls.jp/ ‒ 例えば… •RNAseq,ChIPseqのRによる解析方法 •遺伝子発現データの生物学的解釈方法 •Local BLASTのやり方(MacOSX, Windowsの両方) !60 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  61. 61. #NGLSBI 統合DBの活用法 1. 文献データ 新着論文レビュー 領域融合レビュー Allie: 生命科学分野の略語/展開形検索 inMeXes: 逐次PubMed表現検索 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  62. 62. #NGLSBI 大人気のサービス !62 ©© 2013 DBCLS Licensed under CC 表示 2.1 日本 2013 DBCLS Licensed under CC BY 2.1JAPAN
  63. 63. #NGLSBI 新着論文レビュー http://first.lifesciencedb.jp/ クリエイティブ・コモンズ 表示 2.1 日本 !63 ©© 2013 DBCLS Licensed under CC 表示 2.1 日本 2013 DBCLS Licensed under CC BY 2.1JAPAN
  64. 64. #NGLSBI 領域融合レビュー http://leading.lifesciencedb.jp/ クリエイティブ・コモンズ 表示 2.1 日本 !64 ©© 2013 DBCLS Licensed under CC 表示 2.1 日本 2013 DBCLS Licensed under CC BY 2.1JAPAN
  65. 65. #NGLSBI http://allie.dbcls.jp/ !65 ©© 2013 DBCLS Licensed under CC 表示 2.1 日本 2013 DBCLS Licensed under CC BY 2.1JAPAN
  66. 66. #NGLSBI inMeXes !66 http://docman.dbcls.jp/im/ ©© 2013 DBCLS Licensed under CC 表示 2.1 日本 2013 DBCLS Licensed under CC BY 2.1JAPAN
  67. 67. #NGLSBI !67 ©© 2013 DBCLS Licensed under CC 表示 2.1 日本 2013 DBCLS Licensed under CC BY 2.1JAPAN
  68. 68. #NGLSBI Life Science Dictionary のサイトにリンク !68 ©© 2013 DBCLS Licensed under CC 表示 2.1 日本 2013 DBCLS Licensed under CC BY 2.1JAPAN
  69. 69. #NGLSBI 統合DBの活用法 2. 塩基配列データ DDBJ DBCLS SRA GGRNA GGGenome © 2013 DBCLS Licensed under CC 表示 2.1 日本
  70. 70. #NGLSBI 突然ですが…DBCLS移転します • 2013年度末に ‒ 柏の葉キャンパス駅前のビル ‒ 遺伝研DDBJ/CIBの隣のビル • 「統合」なのに分割移転w ‒ 予算的、制度的な都合 • 物理的に「統合」 ‒ DDBJ+DBCLS(一部) でも、前から協調してやっています © 2013 DBCLS Licensed under CC 表示 2.1 日本 !70
  71. 71. #NGLSBI !71 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  72. 72. #NGLSBI 1. DBCLS SRA Pipeline to help re-use public NGS data Search data • Yellow pages for NGS data archived! –Indexed by metadata. Search by....! Download Quality Check • Statistics! • Publications! • Diseases! –Direct link to original DB(SRA)! Data processing Analysis • Pre-calculated QC data http://SRA.dbcls.jp/ !72 © 2013 DBCLS Licensed under CC BY 2.1JAPAN © 2013 DBCLS Licensed under CC 表示 2.1 日本
  73. 73. #NGLSBI Statistics: studies !73 Picture from Togo Picture Gallery http://g86.dbcls.jp/togopic/©2013 DBCLS Licensed under CC BY 2.1JAPAN © 2013 DBCLS Licensed under CC 表示 2.1 日本
  74. 74. #NGLSBI PUBLISHED OR NOT 公開されたデータを元にした論文はあるのか 19% 「論文を公開してから データを公開する」! とは限らない paper published not published NUMBER OF SUBMITTED STUDY !74 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  75. 75. #NGLSBI Search by publications http://bit.ly/sra2pubmed !75 © 2013 DBCLS Licensed under CC BY 2.1JAPAN © 2013 DBCLS Licensed under CC 表示 2.1 日本
  76. 76. #NGLSBI Search by diseases !76 © 2013 DBCLS Licensed under CC BY 2.1JAPAN © 2013 DBCLS Licensed under CC 表示 2.1 日本
  77. 77. #NGLSBI Search by diseases(cont.) Nakazato T, Ohta T, Bono H! Experimental design-based functional mining and characterization of high-throughput sequencing data in the Sequence Read Archive.! PLOS ONE. 2013; doi: 10.1371/journal.pone.0077910 © 2013 DBCLS Licensed under CC BY 2.1JAPAN © 2013 DBCLS Licensed under CC 表示 2.1 日本 !77
  78. 78. #NGLSBI GGRNA GooGle ライクな RNA 検索エンジン http://GGRNA.dbcls.jp/ ■ あらゆるキーワードや塩基配列・
   アミノ酸配列からすばやく簡単に
   遺伝子を検索するウェブサーバ ■ RefSeqのmRNA+ncRNAを
   高速に全文検索する ■ PCRのプライマー、マイクロ
   アレイのプローブ、siRNAの
   標的配列を即座に確認 ■ REST API提供により外部の
   システムと連携可能 !78 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  79. 79. #NGLSBI GooGle ライクな Genome 検索エンジン http://GGGenome.dbcls.jp/ Genomeも検索できたらええなあ… やりましょう!! !79 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  80. 80. #NGLSBI 統合DBの活用法 3. 遺伝子発現データ NCBI GEO目次 RefEx © 2013 DBCLS Licensed under CC 表示 2.1 日本
  81. 81. #NGLSBI GEO目次 !81 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  82. 82. #NGLSBI 同じようなものが一杯あって、 どれを選んでいいか、わからない !82 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  83. 83. #NGLSBI RefEx: 遺伝子発現 リファレンスデータセット • 臓器ごとの発現比較を4つの実験手法と BodyParts3Dで http://RefEx.dbcls.jp/ ‒正常組織・臓器における遺伝子発現のリファレンス ‒再利用可能で有用なパブリックデータの活用例 •「組織特異的遺伝子」検索機能の実装 EST GeneChip Classical Expressed Sequence Tags Affymetrix’s microarray CAGE RNAseq Cap Analysis of Gene Expression Transcriptome Sequencing © 2013 DBCLS Licensed under CC 表示 2.1 日本 !83
  84. 84. #NGLSBI http://RefEx.dbcls.jp/ !84 © 2013 DBCLS Licensed under CC BY 2.1JAPAN © 2013 DBCLS Licensed under CC 表示 2.1 日本
  85. 85. #NGLSBI !85 © 2013 DBCLS Licensed under CC BY 2.1JAPAN © 2013 DBCLS Licensed under CC 表示 2.1 日本
  86. 86. #NGLSBI !86 © 2013 DBCLS Licensed under CC BY 2.1JAPAN © 2013 DBCLS Licensed under CC 表示 2.1 日本
  87. 87. #NGLSBI 結語 整備されてきた 公共データベース をうまく活用して 自分のやっている ことに役立ててい きましょう! 私もやっています !87 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  88. 88. #NGLSBI いつでもどこでもタダじゃない… !88 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  89. 89. #NGLSBI 結語2 !89 © 2013 DBCLS Licensed under CC 表示 2.1 日本
  90. 90. #NGLSBI 御清聴ありがとうございました We all level 2 and more! スライドのありか http://bit.ly/bono131209 bonohu! bono@dbcls.jp photo by @hirabat (1st Bono Conference on 20130113 ) !90 !90 © 2013 DBCLS Licensed under CC 表示 2.1 日本

×