SlideShare une entreprise Scribd logo
1  sur  17
Télécharger pour lire hors ligne
財布にやさしい
Rを使ったデータマイニング
~「安い、早い、上手い」の工夫~
      簗島 亮次
     (ヤナシマ リョウジ)
   Twitter ID:yanashi
   はてなID:yanashi
自己紹介
• 名前:簗島 亮次
• 所属:4月より大きなSNSの会社
• お仕事:
 – ディレクター
 – 業務上で発生するデータ解析も少々。
来歴(Rを使った経歴)
• RSCTC Discovery Challenge2010 (Random
  Forest、gmodels, Revolution R)
  – 遺伝子発現データの解析コンテスト
  – 順位:3位
• リコメンデーションコンテスト2009 (kernlab, igraph,
  lda)
  – チームラボという会社が主催しているサグールテレビ
    のデータを用いたマイニングのコンテスト
  – 順位:1位
• 国際論文 (Bioconductor内のパッケージ)
  – Frontiers in Neuroinformatics誌
本日お話しする話。

      • データマイニングを行う環境を
安い      安価で構築する。



早い    • すばやく結果を提示できる。



上手い   • 結果をよさそうに見せる工夫。
昔あった経験
(結構あるあるだと思っているのですが)

              上司の要求

1. 会社のデータを分析して無駄を減らしたいんだよ
   ねぇ。
  •   高いソフト・機材を使いたくない
2. 実際効果があるかわからないから効果測定をし
   てから導入を検討したい。
  •   自腹もしくはありものでどうにかしろ
3. うちはベンチャーだからスピード感が重要だよ。
  •   とにかくすばやく結果を出せ
4. 社員全員役割を持っているから人を裂くことがで
   きない。
  •   解析から結果の提案まで自分でやれ
5. 期待してるから。
  •   1~4までを遂行しろ
そして、与えられたPC
•   前の所有者:人事兼経理の人のPC
•   メモリ: 512MB
•   CPU: Core 2 Duo 1.80G
•   OS: Windows XP
•   管理者権限なし



    今後もこういうケースに出会うかもしれない。。。
こんな場面に出くわしてしまった
    データマイナーへ

           どんな場面に直面しても



 ある程度の結果を残せる             ある程度の速度で解析できる




  安い              早い            上手い
             Revolutin RとRpyで
Rを使って安価に                        その他の工夫
               高速+自動化
目標


 データマイニングのコンテストに
このノートPC一台で戦いを挑む!


      スペック詳細
      ハード:ThinkPad X60
      OS:Ubuntu 9.10
      CPU:Inter Core 2 Duo 2.00Ghz
      メモリ:3G
RSCTC Discovery Challenge2010の例
• RSCTC Discovery Challenge2010とは?
  – 去年の12月から今年の2月まで行われていた
    データマイニングのコンテスト
  – マイクロアレイという遺伝子のデータを判別し、精
    度を競い合うというコンテスト
  – 1位には賞金がでます。2位までは国際会議に呼
    ばれます。3位までは名前が公開されます。
工夫①:安さ
今回用意した環境              データ解析環境の一例

 OS                   OS
   Ubuntu9.10           Windows 7 Professional
   0円                   39,690円
 解析ソフト                解析ソフト
   Revolution R         SPSS
   0円                   189,000円




            -228,690円!安さが違う!
工夫②:早い
    • Revolution R:
        – マルチコア対応Rパッケージ:
            • Intel MKLでコンパイルされているなど最適化
        – 最近各所でベンチマークテストが行われてる。
        – 自分のブログでも…




参考資料:http://www.revolution-computing.com/products/benchmarks.php
工夫②:早い
• Rpy2
  – PythonからRを操作するためのモジュール
  – 面倒なRの処理を自動化して、夜に働かせる。




         とても働いてる感じを演出!
工夫③:上手い

可視化部分     その他
実際の解析フロー

マイクロアレイデータ



                          RandomForest
             ランダムサンプリング
                            gmodels
               線形計画法
                            kernlab
               データ出力

                可視化




             結果の出力
というわけで。。。
コンテストに出た結果です



       0円
ご清聴ありがとうございました!

Contenu connexe

Similaire à 財布にやさしいRを使ったデータマイニング

PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版Katsuhiro Morishita
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会Hitoshi Sato
 
Pred net使ってみた
Pred net使ってみたPred net使ってみた
Pred net使ってみたkoji ochiai
 
20170419PFNオープンハウス リサーチャーの仕事_公開用
20170419PFNオープンハウス リサーチャーの仕事_公開用20170419PFNオープンハウス リサーチャーの仕事_公開用
20170419PFNオープンハウス リサーチャーの仕事_公開用Preferred Networks
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展Recruit Technologies
 
ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話Tokoroten Nakayama
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会Kimikazu Kato
 
Cytoscapeの現状とCyberinfrastructure
Cytoscapeの現状とCyberinfrastructureCytoscapeの現状とCyberinfrastructure
Cytoscapeの現状とCyberinfrastructureKeiichiro Ono
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 
111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッションShohei Hido
 
色々なOSSで競技プログラミング
色々なOSSで競技プログラミング色々なOSSで競技プログラミング
色々なOSSで競技プログラミングnhirokinet
 
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜Megagon Labs
 
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニングNGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニングNVIDIA Japan
 
PGXのレスポンスとリソース消費
PGXのレスポンスとリソース消費PGXのレスポンスとリソース消費
PGXのレスポンスとリソース消費Tatsumi Akinori
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識Katsuhiro Morishita
 

Similaire à 財布にやさしいRを使ったデータマイニング (20)

MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知るMapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
 
Pred net使ってみた
Pred net使ってみたPred net使ってみた
Pred net使ってみた
 
20170419PFNオープンハウス リサーチャーの仕事_公開用
20170419PFNオープンハウス リサーチャーの仕事_公開用20170419PFNオープンハウス リサーチャーの仕事_公開用
20170419PFNオープンハウス リサーチャーの仕事_公開用
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
 
ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会
 
JAWS DAYS 2022
JAWS DAYS 2022JAWS DAYS 2022
JAWS DAYS 2022
 
GTC Japan 2017
GTC Japan 2017GTC Japan 2017
GTC Japan 2017
 
Cytoscapeの現状とCyberinfrastructure
Cytoscapeの現状とCyberinfrastructureCytoscapeの現状とCyberinfrastructure
Cytoscapeの現状とCyberinfrastructure
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション
 
色々なOSSで競技プログラミング
色々なOSSで競技プログラミング色々なOSSで競技プログラミング
色々なOSSで競技プログラミング
 
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
 
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニングNGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
 
PGXのレスポンスとリソース消費
PGXのレスポンスとリソース消費PGXのレスポンスとリソース消費
PGXのレスポンスとリソース消費
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
 

Plus de Ryoji Yanashima

オンライン行動データを使ったオフラインチャネルの最適化
オンライン行動データを使ったオフラインチャネルの最適化オンライン行動データを使ったオフラインチャネルの最適化
オンライン行動データを使ったオフラインチャネルの最適化Ryoji Yanashima
 
代理店向けセミナー
代理店向けセミナー代理店向けセミナー
代理店向けセミナーRyoji Yanashima
 
DMPを使いこなすためには。
DMPを使いこなすためには。DMPを使いこなすためには。
DMPを使いこなすためには。Ryoji Yanashima
 
アドテク業界七不思議
アドテク業界七不思議アドテク業界七不思議
アドテク業界七不思議Ryoji Yanashima
 
Adtech2013 audiencemerger
Adtech2013 audiencemergerAdtech2013 audiencemerger
Adtech2013 audiencemergerRyoji Yanashima
 

Plus de Ryoji Yanashima (8)

Finc勉強会
Finc勉強会Finc勉強会
Finc勉強会
 
オンライン行動データを使ったオフラインチャネルの最適化
オンライン行動データを使ったオフラインチャネルの最適化オンライン行動データを使ったオフラインチャネルの最適化
オンライン行動データを使ったオフラインチャネルの最適化
 
代理店向けセミナー
代理店向けセミナー代理店向けセミナー
代理店向けセミナー
 
DMPを使いこなすためには。
DMPを使いこなすためには。DMPを使いこなすためには。
DMPを使いこなすためには。
 
アドテク業界七不思議
アドテク業界七不思議アドテク業界七不思議
アドテク業界七不思議
 
Adtech2013 audiencemerger
Adtech2013 audiencemergerAdtech2013 audiencemerger
Adtech2013 audiencemerger
 
TokyoWebming
TokyoWebmingTokyoWebming
TokyoWebming
 
TokyoWebmining
TokyoWebminingTokyoWebmining
TokyoWebmining
 

財布にやさしいRを使ったデータマイニング

  • 1. 財布にやさしい Rを使ったデータマイニング ~「安い、早い、上手い」の工夫~ 簗島 亮次 (ヤナシマ リョウジ) Twitter ID:yanashi はてなID:yanashi
  • 2. 自己紹介 • 名前:簗島 亮次 • 所属:4月より大きなSNSの会社 • お仕事: – ディレクター – 業務上で発生するデータ解析も少々。
  • 3. 来歴(Rを使った経歴) • RSCTC Discovery Challenge2010 (Random Forest、gmodels, Revolution R) – 遺伝子発現データの解析コンテスト – 順位:3位 • リコメンデーションコンテスト2009 (kernlab, igraph, lda) – チームラボという会社が主催しているサグールテレビ のデータを用いたマイニングのコンテスト – 順位:1位 • 国際論文 (Bioconductor内のパッケージ) – Frontiers in Neuroinformatics誌
  • 4. 本日お話しする話。 • データマイニングを行う環境を 安い 安価で構築する。 早い • すばやく結果を提示できる。 上手い • 結果をよさそうに見せる工夫。
  • 5. 昔あった経験 (結構あるあるだと思っているのですが) 上司の要求 1. 会社のデータを分析して無駄を減らしたいんだよ ねぇ。 • 高いソフト・機材を使いたくない 2. 実際効果があるかわからないから効果測定をし てから導入を検討したい。 • 自腹もしくはありものでどうにかしろ 3. うちはベンチャーだからスピード感が重要だよ。 • とにかくすばやく結果を出せ 4. 社員全員役割を持っているから人を裂くことがで きない。 • 解析から結果の提案まで自分でやれ 5. 期待してるから。 • 1~4までを遂行しろ
  • 6. そして、与えられたPC • 前の所有者:人事兼経理の人のPC • メモリ: 512MB • CPU: Core 2 Duo 1.80G • OS: Windows XP • 管理者権限なし 今後もこういうケースに出会うかもしれない。。。
  • 7. こんな場面に出くわしてしまった データマイナーへ どんな場面に直面しても ある程度の結果を残せる ある程度の速度で解析できる 安い 早い 上手い Revolutin RとRpyで Rを使って安価に その他の工夫 高速+自動化
  • 8. 目標 データマイニングのコンテストに このノートPC一台で戦いを挑む! スペック詳細 ハード:ThinkPad X60 OS:Ubuntu 9.10 CPU:Inter Core 2 Duo 2.00Ghz メモリ:3G
  • 9. RSCTC Discovery Challenge2010の例 • RSCTC Discovery Challenge2010とは? – 去年の12月から今年の2月まで行われていた データマイニングのコンテスト – マイクロアレイという遺伝子のデータを判別し、精 度を競い合うというコンテスト – 1位には賞金がでます。2位までは国際会議に呼 ばれます。3位までは名前が公開されます。
  • 10. 工夫①:安さ 今回用意した環境 データ解析環境の一例  OS  OS  Ubuntu9.10  Windows 7 Professional  0円  39,690円  解析ソフト  解析ソフト  Revolution R  SPSS  0円  189,000円 -228,690円!安さが違う!
  • 11. 工夫②:早い • Revolution R: – マルチコア対応Rパッケージ: • Intel MKLでコンパイルされているなど最適化 – 最近各所でベンチマークテストが行われてる。 – 自分のブログでも… 参考資料:http://www.revolution-computing.com/products/benchmarks.php
  • 12. 工夫②:早い • Rpy2 – PythonからRを操作するためのモジュール – 面倒なRの処理を自動化して、夜に働かせる。 とても働いてる感じを演出!
  • 14. 実際の解析フロー マイクロアレイデータ RandomForest ランダムサンプリング gmodels 線形計画法 kernlab データ出力 可視化 結果の出力