Submit Search
Upload
Tokyo r25 hiro_macchan
•
Download as PPTX, PDF
•
2 likes
•
1,709 views
Hiroki Matsui
Follow
About Revolution R Enterprise & RevoscaleR
Read less
Read more
Report
Share
Report
Share
1 of 36
Download now
Recommended
Japan r.3
Japan r.3
Hiroki Matsui
第5回LinkedData勉強会@yayamamo
第5回LinkedData勉強会@yayamamo
yayamamo @ DBCLS Kashiwanoha
SPARQLから入門するLinked Open Data(LOD)ハンズオン 第1回
SPARQLから入門するLinked Open Data(LOD)ハンズオン 第1回
yamahige
データベース12 - トランザクションと同時実行制御
データベース12 - トランザクションと同時実行制御
Kenta Oku
データベース14 - データベース構造とインデックス
データベース14 - データベース構造とインデックス
Kenta Oku
LOD連続講義 第5回「LODの作り方・使い方」
LOD連続講義 第5回「LODの作り方・使い方」
Fuyuko Matsumura
データベースシステム論13 - データベースの運用
データベースシステム論13 - データベースの運用
Shohei Yokoyama
データベースシステム論07 - SQL基礎演習2 データの問い合わせ
データベースシステム論07 - SQL基礎演習2 データの問い合わせ
Shohei Yokoyama
Recommended
Japan r.3
Japan r.3
Hiroki Matsui
第5回LinkedData勉強会@yayamamo
第5回LinkedData勉強会@yayamamo
yayamamo @ DBCLS Kashiwanoha
SPARQLから入門するLinked Open Data(LOD)ハンズオン 第1回
SPARQLから入門するLinked Open Data(LOD)ハンズオン 第1回
yamahige
データベース12 - トランザクションと同時実行制御
データベース12 - トランザクションと同時実行制御
Kenta Oku
データベース14 - データベース構造とインデックス
データベース14 - データベース構造とインデックス
Kenta Oku
LOD連続講義 第5回「LODの作り方・使い方」
LOD連続講義 第5回「LODの作り方・使い方」
Fuyuko Matsumura
データベースシステム論13 - データベースの運用
データベースシステム論13 - データベースの運用
Shohei Yokoyama
データベースシステム論07 - SQL基礎演習2 データの問い合わせ
データベースシステム論07 - SQL基礎演習2 データの問い合わせ
Shohei Yokoyama
SPARQLとMashup環境 (年岡先生)
SPARQLとMashup環境 (年岡先生)
Shun Shiramatsu
データベースシステム論12 - 問い合わせ処理と最適化
データベースシステム論12 - 問い合わせ処理と最適化
Shohei Yokoyama
Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編
wada, kazumi
汎用Web API“SPARQL”でオープンデータ検索
汎用Web API“SPARQL”でオープンデータ検索
uedayou
Rプログラミング01 はじめの一歩
Rプログラミング01 はじめの一歩
wada, kazumi
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
NTT DATA Technology & Innovation
Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京
tuchimur
SPARQLでオープンデータ活用!
SPARQLでオープンデータ活用!
uedayou
学術分野の事例紹介
学術分野の事例紹介
Linked Open Dataチャレンジ実行委員会
データベース13 - トランザクションと障害回復
データベース13 - トランザクションと障害回復
Kenta Oku
オープンデータとLinked Open Data(LOD)@神戸R
オープンデータとLinked Open Data(LOD)@神戸R
Kouji Kozaki
データベースシステム論08 - SQL応用演習 結合演算とその他
データベースシステム論08 - SQL応用演習 結合演算とその他
Shohei Yokoyama
データベースシステム論11 - データベースの構成
データベースシステム論11 - データベースの構成
Shohei Yokoyama
SPARQLを利用した逆マッシュアップ-プログラミングを必要としないアプリ作成方法-
SPARQLを利用した逆マッシュアップ-プログラミングを必要としないアプリ作成方法-
uedayou
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Koji Sekiguchi
Mongodb 紹介
Mongodb 紹介
Ryo Matsumura
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
KnowledgeGraph
Study 20131009
Study 20131009
fujii_t
Introduction of Oracle Database Architecture(抜粋版) - JPOUG Oracle Database入学式 ...
Introduction of Oracle Database Architecture(抜粋版) - JPOUG Oracle Database入学式 ...
Ryota Watabe
データベースシステム論02 - データベースの歴史と今
データベースシステム論02 - データベースの歴史と今
Shohei Yokoyama
#FTMA15 第一回 鬼コース 全PDF
#FTMA15 第一回 鬼コース 全PDF
Yoichi Ochiai
130411文献検索の方法(講義用)
130411文献検索の方法(講義用)
Yuko Matsumura
More Related Content
What's hot
SPARQLとMashup環境 (年岡先生)
SPARQLとMashup環境 (年岡先生)
Shun Shiramatsu
データベースシステム論12 - 問い合わせ処理と最適化
データベースシステム論12 - 問い合わせ処理と最適化
Shohei Yokoyama
Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編
wada, kazumi
汎用Web API“SPARQL”でオープンデータ検索
汎用Web API“SPARQL”でオープンデータ検索
uedayou
Rプログラミング01 はじめの一歩
Rプログラミング01 はじめの一歩
wada, kazumi
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
NTT DATA Technology & Innovation
Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京
tuchimur
SPARQLでオープンデータ活用!
SPARQLでオープンデータ活用!
uedayou
学術分野の事例紹介
学術分野の事例紹介
Linked Open Dataチャレンジ実行委員会
データベース13 - トランザクションと障害回復
データベース13 - トランザクションと障害回復
Kenta Oku
オープンデータとLinked Open Data(LOD)@神戸R
オープンデータとLinked Open Data(LOD)@神戸R
Kouji Kozaki
データベースシステム論08 - SQL応用演習 結合演算とその他
データベースシステム論08 - SQL応用演習 結合演算とその他
Shohei Yokoyama
データベースシステム論11 - データベースの構成
データベースシステム論11 - データベースの構成
Shohei Yokoyama
SPARQLを利用した逆マッシュアップ-プログラミングを必要としないアプリ作成方法-
SPARQLを利用した逆マッシュアップ-プログラミングを必要としないアプリ作成方法-
uedayou
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Koji Sekiguchi
Mongodb 紹介
Mongodb 紹介
Ryo Matsumura
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
KnowledgeGraph
Study 20131009
Study 20131009
fujii_t
Introduction of Oracle Database Architecture(抜粋版) - JPOUG Oracle Database入学式 ...
Introduction of Oracle Database Architecture(抜粋版) - JPOUG Oracle Database入学式 ...
Ryota Watabe
データベースシステム論02 - データベースの歴史と今
データベースシステム論02 - データベースの歴史と今
Shohei Yokoyama
What's hot
(20)
SPARQLとMashup環境 (年岡先生)
SPARQLとMashup環境 (年岡先生)
データベースシステム論12 - 問い合わせ処理と最適化
データベースシステム論12 - 問い合わせ処理と最適化
Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編
汎用Web API“SPARQL”でオープンデータ検索
汎用Web API“SPARQL”でオープンデータ検索
Rプログラミング01 はじめの一歩
Rプログラミング01 はじめの一歩
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京
SPARQLでオープンデータ活用!
SPARQLでオープンデータ活用!
学術分野の事例紹介
学術分野の事例紹介
データベース13 - トランザクションと障害回復
データベース13 - トランザクションと障害回復
オープンデータとLinked Open Data(LOD)@神戸R
オープンデータとLinked Open Data(LOD)@神戸R
データベースシステム論08 - SQL応用演習 結合演算とその他
データベースシステム論08 - SQL応用演習 結合演算とその他
データベースシステム論11 - データベースの構成
データベースシステム論11 - データベースの構成
SPARQLを利用した逆マッシュアップ-プログラミングを必要としないアプリ作成方法-
SPARQLを利用した逆マッシュアップ-プログラミングを必要としないアプリ作成方法-
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Mongodb 紹介
Mongodb 紹介
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
Study 20131009
Study 20131009
Introduction of Oracle Database Architecture(抜粋版) - JPOUG Oracle Database入学式 ...
Introduction of Oracle Database Architecture(抜粋版) - JPOUG Oracle Database入学式 ...
データベースシステム論02 - データベースの歴史と今
データベースシステム論02 - データベースの歴史と今
Viewers also liked
#FTMA15 第一回 鬼コース 全PDF
#FTMA15 第一回 鬼コース 全PDF
Yoichi Ochiai
130411文献検索の方法(講義用)
130411文献検索の方法(講義用)
Yuko Matsumura
整形外科外傷理学療法研究会用 足関節
整形外科外傷理学療法研究会用 足関節
orthopedictraumareha
THAの適応と成績20130409
THAの適応と成績20130409
Masatoshi Oba
患者報告式アウトカム尺度における臨床的意味のある変化の定め方
患者報告式アウトカム尺度における臨床的意味のある変化の定め方
Yasuyuki Okumura
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
Michimasa Haga
"おもしろい研究"への挑戦 - Challenges for "Omoshiroi" research
"おもしろい研究"への挑戦 - Challenges for "Omoshiroi" research
Akihiko Shirai
地域包括ケアにおけるICT利活用について
地域包括ケアにおけるICT利活用について
HealthcareBitStation
第6章 2つの平均値を比較する - TokyoR #28
第6章 2つの平均値を比較する - TokyoR #28
horihorio
無作為化比較試験の方法の批判的な読み方
無作為化比較試験の方法の批判的な読み方
Yasuyuki Okumura
ジャーナルの批判的吟味と委託研究について
ジャーナルの批判的吟味と委託研究について
k-kajiwara
疾患を意識した関節所見の取り方
疾患を意識した関節所見の取り方
帝京大学ちば総合医療センター
プレゼンテーションデザイン
プレゼンテーションデザイン
猛 近藤
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
horihorio
ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-
Koichiro Gibo
データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」
データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」
Masayuki Matsushita
Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定
Hiroki Matsui
ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方
Sayuri Shimizu
2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰
logics-of-blue
ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33
horihorio
Viewers also liked
(20)
#FTMA15 第一回 鬼コース 全PDF
#FTMA15 第一回 鬼コース 全PDF
130411文献検索の方法(講義用)
130411文献検索の方法(講義用)
整形外科外傷理学療法研究会用 足関節
整形外科外傷理学療法研究会用 足関節
THAの適応と成績20130409
THAの適応と成績20130409
患者報告式アウトカム尺度における臨床的意味のある変化の定め方
患者報告式アウトカム尺度における臨床的意味のある変化の定め方
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
"おもしろい研究"への挑戦 - Challenges for "Omoshiroi" research
"おもしろい研究"への挑戦 - Challenges for "Omoshiroi" research
地域包括ケアにおけるICT利活用について
地域包括ケアにおけるICT利活用について
第6章 2つの平均値を比較する - TokyoR #28
第6章 2つの平均値を比較する - TokyoR #28
無作為化比較試験の方法の批判的な読み方
無作為化比較試験の方法の批判的な読み方
ジャーナルの批判的吟味と委託研究について
ジャーナルの批判的吟味と委託研究について
疾患を意識した関節所見の取り方
疾患を意識した関節所見の取り方
プレゼンテーションデザイン
プレゼンテーションデザイン
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-
データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」
データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」
Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定
ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方
2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰
ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33
Similar to Tokyo r25 hiro_macchan
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
Recruit Technologies
DBpedia Japanese
DBpedia Japanese
Fumihiro Kato
V6 unix in okinawa
V6 unix in okinawa
magoroku Yamamoto
Rでreproducible research
Rでreproducible research
Shintaro Fukushima
Tech Fielders 2009/9/18 LT
Tech Fielders 2009/9/18 LT
terurou
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
Takahiro Inoue
Rとcdisc@moss10 公開用
Rとcdisc@moss10 公開用
Masafumi Okada
ROS Tutorial 02 - CIT
ROS Tutorial 02 - CIT
Daiki Maekawa
Programming camp 2008, Codereading
Programming camp 2008, Codereading
Hiro Yoshioka
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
Recruit Technologies
[db tech showcase Tokyo 2014] C25: Facebookが採用した世界最大級の分析基盤とは? by 日本ヒューレット・パッ...
[db tech showcase Tokyo 2014] C25: Facebookが採用した世界最大級の分析基盤とは? by 日本ヒューレット・パッ...
Insight Technology, Inc.
20160121 データサイエンティスト協会 木曜セミナー #5
20160121 データサイエンティスト協会 木曜セミナー #5
Koichiro Sasaki
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recruit Technologies
データマイニング+WEB勉強会資料第6回
データマイニング+WEB勉強会資料第6回
Naoyuki Yamada
Orb dlt technical_overview(特許情報なし)
Orb dlt technical_overview(特許情報なし)
Wataru Fukatsu
OpenDocument interoperability test workshop
OpenDocument interoperability test workshop
Makoto Takizawa
160705-03 RTミドルウエア講習会・名城大
160705-03 RTミドルウエア講習会・名城大
openrtm
Dragon: A Distributed Object Storage at Yahoo! JAPAN (WebDB Forum 2017)
Dragon: A Distributed Object Storage at Yahoo! JAPAN (WebDB Forum 2017)
Yahoo!デベロッパーネットワーク
Dat009 クラウドでビック
Dat009 クラウドでビック
Tech Summit 2016
Tokyo r38
Tokyo r38
Takashi Minoda
Similar to Tokyo r25 hiro_macchan
(20)
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
DBpedia Japanese
DBpedia Japanese
V6 unix in okinawa
V6 unix in okinawa
Rでreproducible research
Rでreproducible research
Tech Fielders 2009/9/18 LT
Tech Fielders 2009/9/18 LT
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
Rとcdisc@moss10 公開用
Rとcdisc@moss10 公開用
ROS Tutorial 02 - CIT
ROS Tutorial 02 - CIT
Programming camp 2008, Codereading
Programming camp 2008, Codereading
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
[db tech showcase Tokyo 2014] C25: Facebookが採用した世界最大級の分析基盤とは? by 日本ヒューレット・パッ...
[db tech showcase Tokyo 2014] C25: Facebookが採用した世界最大級の分析基盤とは? by 日本ヒューレット・パッ...
20160121 データサイエンティスト協会 木曜セミナー #5
20160121 データサイエンティスト協会 木曜セミナー #5
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
データマイニング+WEB勉強会資料第6回
データマイニング+WEB勉強会資料第6回
Orb dlt technical_overview(特許情報なし)
Orb dlt technical_overview(特許情報なし)
OpenDocument interoperability test workshop
OpenDocument interoperability test workshop
160705-03 RTミドルウエア講習会・名城大
160705-03 RTミドルウエア講習会・名城大
Dragon: A Distributed Object Storage at Yahoo! JAPAN (WebDB Forum 2017)
Dragon: A Distributed Object Storage at Yahoo! JAPAN (WebDB Forum 2017)
Dat009 クラウドでビック
Dat009 クラウドでビック
Tokyo r38
Tokyo r38
Tokyo r25 hiro_macchan
1.
びっぐでぇた解析環境あ~る ~主としてRevolution R のご紹介
~ 2012/08/04 Tokyo.R #25 Matsui Hiroki
2.
はじめに このプレゼンテーションは個人の見解で 有り、いかなる所属組織の公式見解ではあ りません。 また、このプレゼンテーションにおいて、 営利企業の製品に関する言及がありますが、 購入を推奨するものではないことをご留意 下さい。 2012/8/4
Tokyo.R#25 2
3.
自己紹介 • Matsui Hiroki
(RPT,MPH) • 出身:琵琶湖 住まい:千葉 職場:都内赤 門 • 趣味:サイクリング。一緒に走れる怖くない お嫁様募集中! • 専門:リハビリテーション、臨床疫学・医療 経済学 • 元理学療法士(リハビリ屋)→研究者 • Rは趣味程度に利用→現在は、仕事で利用 未熟者ですので間違い等は指摘して下さい。 • Twitter: Hiro_macchan (できれば、お手柔らかに。。) 2012/8/4 Tokyo.R#25 3
4.
前回までのあらすじ Tokyo.R#24 にて、#25の日程が2012/08/04に 決まる。 2012/8/4 Tokyo.R#25
4
5.
前回までのあらすじ Tokyo.R#24 にて、#25の日程が2012/08/04に 決まる。 当日、法事で実家に帰省する私は参加を見 送る。 2012/8/4 Tokyo.R#25
5
6.
前回までのあらすじ Tokyo.R#24 にて、#25の日程が2012/08/04に 決まる。 当日、法事で実家に帰省する私は参加を見 送る。 発表者リストに自分の名前を発見する。 2012/8/4 Tokyo.R#25
6
7.
前回までのあらすじ Tokyo.R#24 にて、#25の日程が2012/08/04に 決まる。 当日、法事で実家に帰省する私は参加を見 送る。 発表者リストに自分の名前を発見する。 (;゚д゚)ポカーン 2012/8/4 Tokyo.R#25
7
8.
前回までのあらすじ Tokyo.R#24 にて、#25の日程が2012/08/04に 決まる。 当日、法事で実家に帰省する私は参加を見 送る。 発表者リストに自分の名前を発見する。 (;゚д゚)ポカーン 滋賀からとんぼ返り←いまここ!! ※乗り換えた名古屋で赤福買ってきました。 2012/8/4 Tokyo.R#25
8
9.
背景
http://itpro.nikkeibp.co.jp/article/COLUMN/20120709/407924/ 2012/8/4 Tokyo.R#25 9
10.
背景 • R はビッグデータ解析環境として適しているの
か? – 確かに、各種ライブラリのおかげでデータを解析す る目的であれば極めて有用なツールである。 • R は基本的にデータをメモリ上に保持する。 – メモリ上限までしかデータを保持できない。 • R の処理系は決して高速とは呼べない。 – 基本的に単一CPUしか利用しない。 • ビッグデータと呼ばれる大規模データ解析に適し ていない? 2012/8/4 Tokyo.R#25 10
11.
背景 • 偉大な諸先輩方の貴重な資料
@sfchaos さん @wdkz さん (2011/04/10) (2011/11/26) • R で大規模データを扱う各種チャレンジは 継続的に行われている。 2012/8/4 Tokyo.R#25 11
12.
背景 • 今回のプレゼンテーションは以下の点に触れた
い。 – Rの商用パッケージである、RevoscaleR を使用 してHDD上でデータの処理を行う事が出来る。 – +α(LTネタについて) 2012/8/4 Tokyo.R#25 12
13.
RevoScaleRについて • Revolution Analytics
@カルフォルニア製 • Revolution R Enterprize に同梱されたパッ ケージみたいな扱い。 • 最近Revolution R Enterprize 6.0が出た。 • $1,000@1USER • アカデミアにいる人はフリーで利用でき る。 • 何か、ダウンロードするときにセキュリ ティに引っかかるんだけど。。。。広告 2012/8/4 Tokyo.R#25 13
14.
RevoScaleRについて • bigmemory, ff
などと同じくHDD上に一時ファイ ルを作成しそこにアクセスしながら解析する。 • Bigmemoryと違いData.frame を扱える。 • 独自関数で一般化線形モデルをサポート。 Summary Statistics,Crosstabulations Correlation and Covariance,Linear Regression Binomial Logistic Regression, Principal Components Analysis Generalized Linear Modeling,K-means clustering, Predictions • どうも、分散処理をサポートしているらしい。 2012/8/4 Tokyo.R#25 14
15.
今回使用するデータセットについ て • Data Expo
2009 – アメリカの航空旅客機の飛行データ – 1987年~2008年 – http://stat-computing.org/dataexpo/2009/the- data.html – フライトの日時や予定離着陸時間、目的地な どの情報を29カラムで表している。 – 今回は、時間の都合上2008年のデータを使用 2012/8/4 Tokyo.R#25 15
16.
RevoscaleR の使い方 1. データをHDD上にXDFファイル
として格納 2. XDFファイルの編集 3. XDFファイルの解析 4. 分散処理 2012/8/4 Tokyo.R#25 16
17.
RevoscaleR の使い方 1. データをHDD上にXDFファイル
として格納 2. XDFファイルの編集 3. XDFファイルの解析 4. 分散処理 2012/8/4 Tokyo.R#25 17
18.
RevoscaleR の使い方 データの格納 dat.2008.rx
<- rxTextToXdf(inFile="C:/Users/hoge/2008.csv", outFile="C:/Users/hoge/air2008.xdf", overwrite=TRUE) 入力ファイル(テキストファイル) 出力ファイル(.xdf)のパ のパス ス rxImportToXdf(inSource, outSource, rowSelection = NULL, transforms = NULL, transformFunc = NULL, transformVars = NULL, userObjects = NULL, append = "none", overwrite = FALSE, numRows = -1, reportProgress = rxGetOption("reportProgress")) SASのデータセットとかも読めるらし い。 2012/8/4 Tokyo.R#25 18
19.
RevoscaleR の使い方
データの格納 dat.2008.rx <- rxTextToXdf(inFile="C:/Users/hoge/2008.csv", outFile="C:/Users/hoge/air2008.xdf", overwrite=TRUE, colClasses=) colClasses :“logical”, “integer”,“factor”, “numeric”, “character”等が指定できる。 2012/8/4 Tokyo.R#25 19
20.
RevoscaleR の使い方 1. データをHDD上にXDFファイル
として格納 2. XDFファイルの編集 3. XDFファイルの解析 4. 分散処理 2012/8/4 Tokyo.R#25 20
21.
RevoscaleR の使い方
XDFファイルの編集 • XDFファイルの中身の確認 rxGetInfoXdf("C:/hoge/air2008.xdf", getVarInfo = TRUE) File name: C:/hoge/air2008.xdf Number of observations: 7009728 Number of variables: 29 Number of blocks: 15 Variable information: Var 1: Year, Type: integer, Low/High: (2008, 2008) Var 2: Month, Type: integer, Low/High: (1, 12) : 2012/8/4 Tokyo.R#25 21
22.
RevoscaleR の使い方 XDFファイルの編集 • XDFファイルの中身の編集
rxDataStepXdf(inFile = inputFile, outFile = outputFile, transforms = list(a = Year * 20, b = 100 * Month), #rowSelection = Weekday == 0, varsToKeep = varsToKeep, overwrite = TRUE) File name: C:/hoge/air2008.xdf Number of observations: 7009728 : Var 29: LateAircraftDelay, Type: integer, Low/High: (0, 1316) Var 30: a, Type: numeric, Low/High: (4016000.0000, 4016000.0000) Var 31: b, Type: numeric, Low/High: (20.0000, 240.0000) 2012/8/4 Tokyo.R#25 22
23.
RevoscaleR の使い方 1. データをHDD上にXDFファイル
として格納 2. XDFファイルの編集 3. XDFファイルの解析 4. 分散処理 2012/8/4 Tokyo.R#25 23
24.
RevoscaleR の使い方 XDFファイルの解析 • XDFファイルのクロス表集計
CTabs <- rxCrossTabs(ArrDelay ~ Origin, data = "C:/hoge/air2008.xdf") 何かうまく動かなかったです。 最初の読み込み時にちゃんと型設定すべきでした。 雰囲気的にはreshape2みたいなのりでデータの加 工が出来るっぽい? 2012/8/4 Tokyo.R#25 24
25.
RevoscaleR の使い方 XDFファイルの解析 •
XDFファイル→ヒストグラム rxHistogram(~AirTime, data = "C:/hoge/air2008.xdf") 2012/8/4 Tokyo.R#25 25
26.
RevoscaleR の使い方 XDFファイルの解析 • XDFファイルを直接GLMにぶち込む。 •
多分、rxLinMod()あたりにオプション指定する事で出来そ う? 調査中 2012/8/4 Tokyo.R#25 26
27.
RevoscaleR の使い方 1. データをHDD上にXDFファイル
として格納 2. XDFファイルの編集 3. XDFファイルの解析 4. 分散処理 2012/8/4 Tokyo.R#25 27
28.
RevoscaleR の使い方 分散処理 • ニュースリリースには、Revoscale
Rは並列処理機能を有 し、Windows HPC Serverやクラウド環境での並列処理を実 施できるとある。。。 調査中 2012/8/4 Tokyo.R#25 28
29.
まとめに変えて • RevoScaleRでHDD上でのデータ処理が可能
となることから、メモリ上限の制約からR を解き放つ事が出来る。 • ちょっと、遅い気がする。 – 並列処理機能についてもう少し調査が必要 – 高速なドライブ(FusionIO社製 iOdrive)との 相性は? • $1000の価値があるかはもう少し見ないと わからない。 2012/8/4 Tokyo.R#25 29
30.
現在の心境
調査未実施が多いことをお詫びします。 次の機会に、追加情報をお届けします。 2012/8/4 Tokyo.R#25 30
31.
参考文献 @sfchaos さん資料 http://www.slideshare.net/sfchaos/rbigmemory-tokyowebmining10 @wdkz さん資料 http://www.slideshare.net/wdkz/rffbigmemoryrevoscaler-10334116 Revolution
Analytics http://www.revolutionanalytics.com/ 2012/8/4 Tokyo.R#25 31
32.
+α • 実は、今回LT予定でした。 • LTテーマは
「データ前処理・失敗分析」 2012/8/4 Tokyo.R#25 32
33.
某飲み会にて。。。 • “ビールうめー!” • “女性の前では否定的な言葉は使わない。
なんかめんどくさいことがあったら嫌い じゃないんだよねって言うとよいよ!” • “R 使って解析するわけだけど、データの 前処理ってかなり大切だよね?” • “解析って色々やるわけだけど、失敗分析 についても共有すべきだよね?”
34.
分析者のお悩みあるある!!
35.
次回(今回?)予告 • 私のテーマ
「Excelの結合セルに関するごり押し事 例」 • みなさんのバッドノウハウとか、失敗事 例LTで発表しませんか? • 主催者の里さんと、皆様のご意見を賜り たいと思います。 2012/8/4 Tokyo.R#25 35
36.
Thank You ! 2012/8/4
Tokyo.R#25 36
Download now