SlideShare une entreprise Scribd logo
1  sur  34
Kitasato.R 初回
2014/04/21
医学部解剖学 (旧埴原単位)
松前ひろみ
本日の資料
 このスライドはあとで共有します
 Kitasato.Rというサイトを作りました
 https://sites.google.com/site/kitasator/
 kitasato.r@googlegroups.comというML作りました
このウェブサイトの使い方
 Google アカウント(Gmail)があれば、編集でき
ます
 勉強会の予定、個人のメモなどご自由に
 希望者は松前まで。
 メーリングリスト
 分からないこと、とか、気楽に&自由にお使い
下さい
 交流会を企画したい
本日の進め方
1. 自己紹介(できれば全員)
2. 今回の勉強会の目的
3. Rとはなにか?
1. Rとバイオインフォマティクス
2. 研究現場におけるRの利用例
3. Rの勉強の仕方について
4. Rを触ってみる
1. 教科書 第2章
5. 次回以降の進め方
1. メーリングリストとこのウェブサイトの利用について
2. 輪読会担当割り振り
6. 質問、コメントなど
7. (最後に)Rをインストールしたい方がいれば対応します
自己紹介
自己紹介(松前)
 ポスドク: 医学部解剖学(旧 埴原単位)
 主な研究テーマは、次世代シーケンサー
(NGS)を活用したヒトゲノム解析
 日本人の起源(縄文人のゲノム解読)
 少数民族のゲノム研究と倫理問題
 標本とゲノムを繋ぐデータベース開発
 修士〜博士: 東京医科歯科大・難治疾患研究所
生命情報学分野
 バイオインフォマティクス
 海産無脊椎動物の遺伝子発現解析
 インフルエンザウイルスのパスウェイデータ
ベース構築
 Rはあくまでもデータ解析の一部・作図に使
用
 学士: 東海大で情報工学を学ぶ
 その他:科学教育
 2006〜2011年頃まで:「NPO法人 数理の翼」の運営
 1980年に数学者・廣中平祐が始めた高校生向け科学セ
ミナー
 2008〜2011年まで:雑誌「理科の探検」 企画委員
CMC出版より
4月30日発売予定
2013 分子生物学会
自己紹介(みなさま)
 名前
 所属
 Rの経験(ある場合にはどんなことをしてい
るか)
 その他、ご自由に一言
2. この会の目的
 経緯
 3月19日一般教育部の浜崎先生+理学部伊東先生のラボと合同セミ
ナーを行った際の飲み会でRを使ってみたいという相談を受ける
 4月10日 浜崎先生とポスドクの中森さんがラボにいらしてご相談
 どうせなら、いろんな人に使えるようになって貰おう!
 この部屋の確保など諸々の準備は、浜崎先生とポスドクの中森さんに
していただきました(ありがとうございます)
 <全員の目標>これまでexcelで作成してきた、実習や論文のデー
タの図をRで作成できるようになる。
 こんな図を作ってみたい、という目標があるとベター。なくてもOK。
 トラブルが起きてもパニックにならずに、問題解決に向けた取り組み
ができるようになる。
 Rは選択肢のひとつ。 ExcelとRにおけるデータ処理の長所短所が分か
り、状況に応じて、使い分けができるようになる。
 分子生物学で例えると、ピペットマンの使い方や、電気泳動の仕方が
分かるようなレベル
 (今回は)統計解析や個別の解析の勉強会ではない
 たのしくやりましょう!
この会の将来的な目的
 北里における、R情報交換の場
 参加者による自主的な勉強会の機会
 今後の展開
 個別のデータ解析の勉強会を開催する
 他のプログラミング言語を習得したことがある人
は、他のプログラミング言語とRで同じデータ処
理を行うプログラムを書いてみる。
 データの文字列処理、など
 プログラミング言語毎における、長所短所が分かり、
状況に応じて、使い分けが出来るようになる。
3. Rとは何か?
Rとは何か?
 “R is a free software environment for statistical computing and graphics.”
 http://www.r-project.org/
 “オープンソース”: ソースコードが公開されているソフトウェアのこと
 誰でも開発・再配布できる
 Linux,Android,Apache, プログラミング言語(PHP, Ruby, Perl, Python etc.)
 誰がどうやって開発しているのか?
 統計学者、Ross Ihaka とRobertClifford Gentlemanが1996年に開発
 現在では、有志による国際開発チーム”R Development CoreTeam”がコアな部分の
設計を担当
 オーストリアのViennaUniversity of Economics and Businessに拠点を置く非営利団
体”The R Foundation”が管理
 寄付による運用
 寄付者や支援機関のリストがHPで公開されている。行政、大学,Googleなどの企業、
個人などさまざま
 日本からの寄付:KansaiUniversity Faculty Commerce , Shigeru Mase, Minato Nakazawa
Ross Ihaka
ユーザサイドから見たR
 長所
 無料,Windows, Mac, Linux全部揃っている
 オープンソースの中では、圧倒的に開発チームも継続的・安定して
いる
 ユーザが多い
 本やインターネット上に使い方の情報が多い(日本語も多い)
 人に聞ける
 さまざまな拡張機能がある、自分でも作れる
 学術分野で使いたいような細かい図表の作成が出来て便利
 Excelのカラフルな3D円グラフ…
 短所
 細かいことをやろうと思うとプログラミング必須、とっつき辛い
 “R”という単語は検索しづらい
 有償ソフトウェアではないので、バグなどの問題もある
Rのダウンロード
 CRAN http://cran.r-project.org/
 本体のダウンロード
 CRANに登録されているパッケージ:4月20日現在、5457件
 統計学、社会科学から、疫学、生態学、ライフサイエンスまで
 全部を網羅している人はいない!分野毎に詳しい人がいる
3.1 Rとバイオインフォマティクス
 広義のバイオインフォマティクス
 ゲノム解析(私の専門)、バイオイメージング、質量分析、バ
イオデータベース開発、タンパク質構造予測、等
 ゲノム系の解析(遺伝統計学、遺伝子発現解析(マイクロアレ
イ・RNA-seq)、全ゲノムクロマチン免疫沈降シーケンス
(ChIP-Seq)など)では、Rのパッケージが使われることが良
い
 新しい解析手法を開発した場合には、Bioinformatics (IF 7, Oxford
Journals)といった、バイオインフォマティクス関連ジャーナル
への論文掲載を目指す
 Nature Biotech, Nature Methods, Genome Research, BMC Bioinformatics,
PLoS Computational Biology, Brief in Bioinformatics, BMC Genomics,
PLoS ONE, Nucleic Acids Research, Genome Biology, 等
 CRANのほか、Bioconductorにパッケージを登録
Bioconductor
 http://www.bioconductor.org/
 “Bioconductor provides tools for the analysis and
comprehension of high-throughput genomic data. “
 ライフサイエンス専用のパッケージリスト
 DNAアレイ、次世代シーケンサ、質量分析、イメージング等
のデータ解析を行うパッケージのうち、(ソフトウェアとし
ての)厳しい審査をパスしたもの
 理研でバイオインフォマティクスのPIをされている二階堂
さんによる審査経緯のブログ
 http://blog.hackingisbelieving.org/2012/05/bioconductor.html
 理研CDB上田泰己ラボに所属していた当時に開発したプログラ
ムの登録における苦労話(?)が書かれている
Bioconductorに登録されたパッケージ
の論文
3.2 研究におけるR(私の作図例)
• 論文のFigureをPNGやPDFなどのフォー
マットで出力
• 目盛り・レジェンド・色・線のタイプ
等を自分で指定
(論文投稿準備中につき割愛)
(Published data)
heatmap
地図データの利用(フィールドデータ)
• 地図を描く
• 地理情報をマッピングする
• 距離の計算
Google Map
RのパッケージをCRANから
追加インストールして利用
3.2 大学教育におけるRの利用例
http://sci20.kitasato-
u.websyllabus.jp/content/view/full/1616
http://www.okada.jp.org/RWiki/?R%A
5%B7%A5%E9%A5%D0%A5%B9
3.3 Rの勉強方法
https://sites.google.com/site/kitasator/basic_info
A. 個別の関数の機能は、Rのhelpを読む(英語)
B. 本を買う(有料)
C. インターネットのリソースを活用する(タダ)
 解説サイト・動画
 質問サイト
D. 講習会に参加する(無料・有料)
A. 大学・研究機関主催
B. 自主的な勉強会
まずはコピペでいいから動かしてみる(習うより慣れ
ろ)
Rの有名なサイト
 検索!検索!検索!
 情報科学の活用では「情報検索能力」が重要
 RjpWiki: http://www.okada.jp.org/RWiki/
 日本語のR情報の最大サイト。上級者まで使える
 RTips: http://cse.naro.affrc.go.jp/takezawa/r-tips/r.html
 本勉強会で使う基本技の解説
 バイオスタティスティクス: http://stat.biopapyrus.net/
 バイオ系でよく使う作図の基本技〜統計解析まで掲載
 Seek R: http://seekr.jp/
 Rに特化した検索サイト
統合TV
http://togotv.dbcls.jp/20090313.html
大学共同利用機関法人 情報・システム研究機構
ライフサイエンス統合データベースセンター
による、Rの解説動画
https://www.youtube.com/watch?v=WaonG2hR_j8
統合TVの内容も、それ以外の内容も
「ライフサイエンスQA」で質問でき
る
http://qa.lifesciencedb.jp/
https://www.coursera.org/course/rprog
Coursera (無料で受けられるオンラインの講義サイト)
• 英語の速度を変更できる
• 字幕つき
https://www.coursera.org/course/compdata
Rの勉強会
Kashiwa.R 東大柏キャンパス
を中心としたRの勉強会
Tokyo.R 都内のRユーザの為の勉強会
• 企業の人が多い
• 研究開発、IT、マーケティ
ング、研究支援サービス他
• ⇒企業におけるRの需要が
多い!!
求人サイト
JREC-IN
https://hpci.cbrc.jp/modules/tutorial/index.html
4. Rを触ってみる!
注意事項
 この実習室のRのバージョンは2.14.1です
 Rはバージョンによって動作が変わることがあります
 特にR 2.x.x とR 3.x.x系
 ご自身のPCにインストールされる際はご注意ください
 もしも、ご自身のPCと実習で違う結果が出たら…
 メーリングリストで報告をして下さい!
 OS (windows 8, Mac OS 10.8.5, とか)
 Rのバージョン
 使用したコマンドを正確に(コピペ)
 入力データ
 出てきた結果
5. 次回以降の進め方
輪読会の担当(MLで流します)
章 担当者
3
4
5
6
7
….
適時 自由研究発表(ここまで習ったことで、やりたかったこ
とができた、という報告があればお願いします!)
輪読会の担当決め
 輪読担当(ボランティア)
 人前で説明することで深く理解できる(すぐに使いたい
人向け)
 分からない・間違えることは恥ずかしいことではない
 あなたが間違えた場所=みんなも間違える可能性が高い
ので、孤軍奮闘せずに情報共有をする
 間違えたことから、意外な道が開けることも!
 私はみなさんの分からない点について、学習のサポート、
アドバイスをします
 今日のスライドを作るのに使った時間は7時間くらい
 間違えた回数・格闘した時間が技能向上に比例する(学
生の皆さんの積極的な参加を希望します。。)
 あとから輪読担当に立候補してもOK

Contenu connexe

Similaire à R勉強会20140421.upload

Rをはじめからていねいに
RをはじめからていねいにRをはじめからていねいに
RをはじめからていねいにTsukasa Fukunaga
 
TokyoR101_BeginnersSession1.pdf
TokyoR101_BeginnersSession1.pdfTokyoR101_BeginnersSession1.pdf
TokyoR101_BeginnersSession1.pdfkotora_0507
 
Python 機械学習プログラミング データ分析演習編
Python 機械学習プログラミング データ分析演習編Python 機械学習プログラミング データ分析演習編
Python 機械学習プログラミング データ分析演習編Etsuji Nakai
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニングYudai Shinbo
 
RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~江上 ゼミナール
 
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会Yuya Unno
 
[18-01-26]DSTEP ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
[18-01-26]DSTEP  ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類 [18-01-26]DSTEP  ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
[18-01-26]DSTEP ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類 Eli Kaminuma
 
東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太 
東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太 東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太 
東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太 Preferred Networks
 
第4回瀬戸内ROS勉強会LT資料
第4回瀬戸内ROS勉強会LT資料第4回瀬戸内ROS勉強会LT資料
第4回瀬戸内ROS勉強会LT資料NaotakaKawata
 

Similaire à R勉強会20140421.upload (9)

Rをはじめからていねいに
RをはじめからていねいにRをはじめからていねいに
Rをはじめからていねいに
 
TokyoR101_BeginnersSession1.pdf
TokyoR101_BeginnersSession1.pdfTokyoR101_BeginnersSession1.pdf
TokyoR101_BeginnersSession1.pdf
 
Python 機械学習プログラミング データ分析演習編
Python 機械学習プログラミング データ分析演習編Python 機械学習プログラミング データ分析演習編
Python 機械学習プログラミング データ分析演習編
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニング
 
RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~
 
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
 
[18-01-26]DSTEP ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
[18-01-26]DSTEP  ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類 [18-01-26]DSTEP  ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
[18-01-26]DSTEP ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
 
東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太 
東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太 東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太 
東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太 
 
第4回瀬戸内ROS勉強会LT資料
第4回瀬戸内ROS勉強会LT資料第4回瀬戸内ROS勉強会LT資料
第4回瀬戸内ROS勉強会LT資料
 

R勉強会20140421.upload