Contenu connexe
Similaire à 財布にやさしいRを使ったデータマイニング
Similaire à 財布にやさしいRを使ったデータマイニング (20)
Plus de Ryoji Yanashima (8)
財布にやさしいRを使ったデータマイニング
- 3. 来歴(Rを使った経歴)
• RSCTC Discovery Challenge2010 (Random
Forest、gmodels, Revolution R)
– 遺伝子発現データの解析コンテスト
– 順位:3位
• リコメンデーションコンテスト2009 (kernlab, igraph,
lda)
– チームラボという会社が主催しているサグールテレビ
のデータを用いたマイニングのコンテスト
– 順位:1位
• 国際論文 (Bioconductor内のパッケージ)
– Frontiers in Neuroinformatics誌
- 4. 本日お話しする話。
• データマイニングを行う環境を
安い 安価で構築する。
早い • すばやく結果を提示できる。
上手い • 結果をよさそうに見せる工夫。
- 5. 昔あった経験
(結構あるあるだと思っているのですが)
上司の要求
1. 会社のデータを分析して無駄を減らしたいんだよ
ねぇ。
• 高いソフト・機材を使いたくない
2. 実際効果があるかわからないから効果測定をし
てから導入を検討したい。
• 自腹もしくはありものでどうにかしろ
3. うちはベンチャーだからスピード感が重要だよ。
• とにかくすばやく結果を出せ
4. 社員全員役割を持っているから人を裂くことがで
きない。
• 解析から結果の提案まで自分でやれ
5. 期待してるから。
• 1~4までを遂行しろ
- 6. そして、与えられたPC
• 前の所有者:人事兼経理の人のPC
• メモリ: 512MB
• CPU: Core 2 Duo 1.80G
• OS: Windows XP
• 管理者権限なし
今後もこういうケースに出会うかもしれない。。。
- 7. こんな場面に出くわしてしまった
データマイナーへ
どんな場面に直面しても
ある程度の結果を残せる ある程度の速度で解析できる
安い 早い 上手い
Revolutin RとRpyで
Rを使って安価に その他の工夫
高速+自動化
- 9. RSCTC Discovery Challenge2010の例
• RSCTC Discovery Challenge2010とは?
– 去年の12月から今年の2月まで行われていた
データマイニングのコンテスト
– マイクロアレイという遺伝子のデータを判別し、精
度を競い合うというコンテスト
– 1位には賞金がでます。2位までは国際会議に呼
ばれます。3位までは名前が公開されます。
- 10. 工夫①:安さ
今回用意した環境 データ解析環境の一例
OS OS
Ubuntu9.10 Windows 7 Professional
0円 39,690円
解析ソフト 解析ソフト
Revolution R SPSS
0円 189,000円
-228,690円!安さが違う!
- 11. 工夫②:早い
• Revolution R:
– マルチコア対応Rパッケージ:
• Intel MKLでコンパイルされているなど最適化
– 最近各所でベンチマークテストが行われてる。
– 自分のブログでも…
参考資料:http://www.revolution-computing.com/products/benchmarks.php
- 12. 工夫②:早い
• Rpy2
– PythonからRを操作するためのモジュール
– 面倒なRの処理を自動化して、夜に働かせる。
とても働いてる感じを演出!