Soumettre la recherche
Mettre en ligne
Big datauniversity
•
Télécharger en tant que PPTX, PDF
•
11 j'aime
•
3,117 vues
T
Tanaka Yuichi
Suivre
データサイエンティストのためのSpark入門
Lire moins
Lire la suite
Technologie
Signaler
Partager
Signaler
Partager
1 sur 28
Télécharger maintenant
Recommandé
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
Tanaka Yuichi
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
Tanaka Yuichi
Bluemixを使ったTwitter分析
Bluemixを使ったTwitter分析
Tanaka Yuichi
Apache Sparkを使った感情極性分析
Apache Sparkを使った感情極性分析
Tanaka Yuichi
SparkとJupyterNotebookを使った分析処理 [Html5 conference]
SparkとJupyterNotebookを使った分析処理 [Html5 conference]
Tanaka Yuichi
PythonでDeepLearningを始めるよ
PythonでDeepLearningを始めるよ
Tanaka Yuichi
Watson summit 2016_j2_5
Watson summit 2016_j2_5
Tanaka Yuichi
Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築
Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築
Tanaka Yuichi
Recommandé
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
Tanaka Yuichi
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
Tanaka Yuichi
Bluemixを使ったTwitter分析
Bluemixを使ったTwitter分析
Tanaka Yuichi
Apache Sparkを使った感情極性分析
Apache Sparkを使った感情極性分析
Tanaka Yuichi
SparkとJupyterNotebookを使った分析処理 [Html5 conference]
SparkとJupyterNotebookを使った分析処理 [Html5 conference]
Tanaka Yuichi
PythonでDeepLearningを始めるよ
PythonでDeepLearningを始めるよ
Tanaka Yuichi
Watson summit 2016_j2_5
Watson summit 2016_j2_5
Tanaka Yuichi
Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築
Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築
Tanaka Yuichi
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
Tanaka Yuichi
Apache Sparkの紹介
Apache Sparkの紹介
Ryuji Tamagawa
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
Jjug ccc
Jjug ccc
Tanaka Yuichi
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
本当にあったApache Spark障害の話
本当にあったApache Spark障害の話
x1 ichi
HBaseとSparkでセンサーデータを有効活用 #hbasejp
HBaseとSparkでセンサーデータを有効活用 #hbasejp
FwardNetwork
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
NTT DATA OSS Professional Services
Pysparkで始めるデータ分析
Pysparkで始めるデータ分析
Tanaka Yuichi
Spark GraphX で始めるグラフ解析
Spark GraphX で始めるグラフ解析
Yosuke Mizutani
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
YusukeKuramata
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
LINE Corp.
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
The Japan DataScientist Society
Spark勉強会_ibm_20151014-公開版
Spark勉強会_ibm_20151014-公開版
Atsushi Tsuchiya
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Kazutaka Tomita
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告
Katsunori Kanda
SparkやBigQueryなどを用いたモバイルゲーム分析環境
SparkやBigQueryなどを用いたモバイルゲーム分析環境
yuichi_komatsu
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
NTT DATA OSS Professional Services
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Future Of Data Japan
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜
x1 ichi
Data Scientist Workbench 入門
Data Scientist Workbench 入門
soh kaijima
社内向けに恋愛ゲーム作ってみた
社内向けに恋愛ゲーム作ってみた
DMM.com
Contenu connexe
Tendances
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
Tanaka Yuichi
Apache Sparkの紹介
Apache Sparkの紹介
Ryuji Tamagawa
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
Jjug ccc
Jjug ccc
Tanaka Yuichi
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
本当にあったApache Spark障害の話
本当にあったApache Spark障害の話
x1 ichi
HBaseとSparkでセンサーデータを有効活用 #hbasejp
HBaseとSparkでセンサーデータを有効活用 #hbasejp
FwardNetwork
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
NTT DATA OSS Professional Services
Pysparkで始めるデータ分析
Pysparkで始めるデータ分析
Tanaka Yuichi
Spark GraphX で始めるグラフ解析
Spark GraphX で始めるグラフ解析
Yosuke Mizutani
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
YusukeKuramata
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
LINE Corp.
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
The Japan DataScientist Society
Spark勉強会_ibm_20151014-公開版
Spark勉強会_ibm_20151014-公開版
Atsushi Tsuchiya
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Kazutaka Tomita
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告
Katsunori Kanda
SparkやBigQueryなどを用いたモバイルゲーム分析環境
SparkやBigQueryなどを用いたモバイルゲーム分析環境
yuichi_komatsu
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
NTT DATA OSS Professional Services
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Future Of Data Japan
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜
x1 ichi
Tendances
(20)
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
Apache Sparkの紹介
Apache Sparkの紹介
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Jjug ccc
Jjug ccc
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
本当にあったApache Spark障害の話
本当にあったApache Spark障害の話
HBaseとSparkでセンサーデータを有効活用 #hbasejp
HBaseとSparkでセンサーデータを有効活用 #hbasejp
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
Pysparkで始めるデータ分析
Pysparkで始めるデータ分析
Spark GraphX で始めるグラフ解析
Spark GraphX で始めるグラフ解析
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
Spark勉強会_ibm_20151014-公開版
Spark勉強会_ibm_20151014-公開版
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告
SparkやBigQueryなどを用いたモバイルゲーム分析環境
SparkやBigQueryなどを用いたモバイルゲーム分析環境
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜
En vedette
Data Scientist Workbench 入門
Data Scientist Workbench 入門
soh kaijima
社内向けに恋愛ゲーム作ってみた
社内向けに恋愛ゲーム作ってみた
DMM.com
DMM.comにおけるビッグデータ処理のためのSQL活用術
DMM.comにおけるビッグデータ処理のためのSQL活用術
DMM.com
Oracle Labs 発! Parallel Graph AnalytiX(PGX)
Oracle Labs 発! Parallel Graph AnalytiX(PGX)
オラクルエンジニア通信
Spark graph framesとopencypherによる分散グラフ処理の最新動向
Spark graph framesとopencypherによる分散グラフ処理の最新動向
Nagato Kasaki
金沢すきま旅を支えるオープンデータ
金沢すきま旅を支えるオープンデータ
Ryota Iida
オープンデータ入門
オープンデータ入門
健一郎 福島
オープンデータを活用したアプリケーション開発セミナー
オープンデータを活用したアプリケーション開発セミナー
Yuichiro Otani
エンジニアが 家事を手伝ったら こうなった
エンジニアが 家事を手伝ったら こうなった
ishikawa304
クラウド、クラウドというけれどJavaのシステムにとってクラウドってメリットあるの?
クラウド、クラウドというけれどJavaのシステムにとってクラウドってメリットあるの?
Takakiyo Tanaka
Ui live資料
Ui live資料
Ryota Iida
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
Insight Technology, Inc.
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方
Recruit Technologies
リクルートにおけるhadoop活用事例+α
リクルートにおけるhadoop活用事例+α
Recruit Technologies
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
Insight Technology, Inc.
銀行ロビーアシスタント
銀行ロビーアシスタント
Recruit Technologies
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
Recruit Technologies
Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編
Yuki Morishita
2016-06-15 Sparkの機械学習の開発と活用の動向
2016-06-15 Sparkの機械学習の開発と活用の動向
Yu Ishikawa
Database sql
Database sql
明 高橋
En vedette
(20)
Data Scientist Workbench 入門
Data Scientist Workbench 入門
社内向けに恋愛ゲーム作ってみた
社内向けに恋愛ゲーム作ってみた
DMM.comにおけるビッグデータ処理のためのSQL活用術
DMM.comにおけるビッグデータ処理のためのSQL活用術
Oracle Labs 発! Parallel Graph AnalytiX(PGX)
Oracle Labs 発! Parallel Graph AnalytiX(PGX)
Spark graph framesとopencypherによる分散グラフ処理の最新動向
Spark graph framesとopencypherによる分散グラフ処理の最新動向
金沢すきま旅を支えるオープンデータ
金沢すきま旅を支えるオープンデータ
オープンデータ入門
オープンデータ入門
オープンデータを活用したアプリケーション開発セミナー
オープンデータを活用したアプリケーション開発セミナー
エンジニアが 家事を手伝ったら こうなった
エンジニアが 家事を手伝ったら こうなった
クラウド、クラウドというけれどJavaのシステムにとってクラウドってメリットあるの?
クラウド、クラウドというけれどJavaのシステムにとってクラウドってメリットあるの?
Ui live資料
Ui live資料
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方
リクルートにおけるhadoop活用事例+α
リクルートにおけるhadoop活用事例+α
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
銀行ロビーアシスタント
銀行ロビーアシスタント
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編
2016-06-15 Sparkの機械学習の開発と活用の動向
2016-06-15 Sparkの機械学習の開発と活用の動向
Database sql
Database sql
Similaire à Big datauniversity
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
Ryuji Tamagawa
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
NTT DATA Technology & Innovation
What makes Apache Spark?
What makes Apache Spark?
Hadoop / Spark Conference Japan
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
NTT DATA Technology & Innovation
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
NTT DATA Technology & Innovation
ビッグじゃなくても使えるSpark Streaming
ビッグじゃなくても使えるSpark Streaming
chibochibo
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
NTT DATA OSS Professional Services
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
NTT DATA Technology & Innovation
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
Ryuji Tamagawa
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
Ryoma Nagata
個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみる
個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみる
Eiji Shinohara
Asakusa Framework 勉強会 2014 夏
Asakusa Framework 勉強会 2014 夏
鉄平 土佐
Hadoopとは
Hadoopとは
Hirokazu Yatsunami
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係
datastaxjp
Spark SQL - The internal -
Spark SQL - The internal -
NTT DATA OSS Professional Services
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Hadoop / Spark Conference Japan
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
NTT DATA OSS Professional Services
20131209_buildinsidermeetup
20131209_buildinsidermeetup
kumake
Similaire à Big datauniversity
(20)
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
What makes Apache Spark?
What makes Apache Spark?
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
ビッグじゃなくても使えるSpark Streaming
ビッグじゃなくても使えるSpark Streaming
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみる
個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみる
Asakusa Framework 勉強会 2014 夏
Asakusa Framework 勉強会 2014 夏
Hadoopとは
Hadoopとは
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係
Spark SQL - The internal -
Spark SQL - The internal -
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
20131209_buildinsidermeetup
20131209_buildinsidermeetup
Big datauniversity
1.
© 2016 IBM
Corporation データサイエンティストのための Spark 入門 Tanaka Y.P 2016-05-14
2.
© 2016 IBM
Corporation2 お断り
3.
© 2016 IBM
Corporation3 自己紹介 田中裕一(yuichi tanaka) 主にアーキテクチャとサーバーサイドプログラムを担当 することが多い。Hadoop/Spark周りをよく触ります。 Node.js、Python、最近はSpark周りの仕事でScalaを書く ことが多い気がします。 休日はOSS周りで遊んだり。 詳解 Apache Spark
4.
© 2016 IBM
Corporation4 アジェンダ Sparkの概要 Sparkのテクノロジースタック データサイエンスにおけるSparkの意義 分析のおさらい なぜSparkが重要なのか DataScientistWorkBenchでSparkRを使ってみよう
5.
© 2016 IBM
Corporation5 Sparkの概要
6.
© 2016 IBM
Corporation6 DataFrames Sparkのテクノロジースタック Spark Core SparkSQL Spark Streaming GraphX MLlib HDFS Cassandra HBase ・・・ Packages
7.
© 2016 IBM
Corporation7 Spark Mllibでサポートされるアルゴリズム Spark MllibとSparkML SparkMLlibはMllibとSparkmlの2つの実装に分かれている • 現在は双方に個別の実装がなされている • Versionによって実装状況が異なるので注意 アルゴリズムは別紙説明
8.
© 2016 IBM
Corporation8 Apache SparkとHadoop HadoopでのMapReduceの処理例
9.
© 2016 IBM
Corporation9 Apache Sparkの処理概要 SparkでのRDD&DAGの処理例
10.
© 2016 IBM
Corporation10 データサイエンスにおけるSparkの意義 なぜSparkか? Python,RのInterfaceが用意されている • ー>DataScientistが分析に集中できる RのDataFrameに似たインタフェース • ー>DataFramesの考え方操作はRに類似 分散処理を意識することなく分析可能 • 大規模なデータセットを扱うことが可能 ー>Rの欠点の解決 • より高速な処理が可能 • 分散データストアとの親和性の高さ • ー>データの場所の問題の解決
11.
© 2016 IBM
Corporation11 分析の手順のおさらい 問題提起 リサーチ 前処理 モデル作成 テスト • ビジネス課題の設定 • 仮説 • KPIの設定 • データの把握 • 品質のチェック • 集約 • 変換・補完 • クレンジング • 分析 • 結果のモデル化 • 評価 • 結果の精査
12.
© 2016 IBM
Corporation12 Sparkがなぜ重要なのか? 実業務において解析に使えるデータがそのまま格納されていることは稀 値がない場合 • テーブル定義と実際のデータが違う • そもそも入ってない 変換が必要な場合 • 順序・名義 • 男女やそう思うなど エラーデータや著しく外れたデータ • クレンジングが必要なケース データ量が少ない
13.
© 2016 IBM
Corporation13 閑話休題 どのくらいのデータがあればいいのか? データエンジニアとデータサイエンティストのコミュニケーション ミスに気をつける • 双方でデータに対する認識が違うとキャパシティプランニン グに失敗します。
14.
© 2016 IBM
Corporation14 DataScientistWorkbenchでRStudioを使ってみよう DataScientistWorkbench(DSWB)ではRStudioを立ち上げると SparkRに自動的に接続 ここから起動
15.
© 2016 IBM
Corporation15 sparkRSQLの生成 SparkContextを利用して、sparkRSQLからsqlContextを生成します。 SparkRではこのsqlContextを利用してデータフレーム操作を行います。
16.
© 2016 IBM
Corporation16 Rのデータセットからデータフレームの作成 RのfaithfulをもとにcreateDataFrameでデータフレームを作成します。
17.
© 2016 IBM
Corporation17 スキーマの確認 printSchemaを使ってスキーマを表示させます。
18.
© 2016 IBM
Corporation18 Columnの選択 Selectを使ってcolumnを絞ってみます。
19.
© 2016 IBM
Corporation19 データのフィルタリング filterを使ってデータのフィルタリングを行います
20.
© 2016 IBM
Corporation20 データのグルーピング groupByを使ってデータのグルーピングを行います
21.
© 2016 IBM
Corporation21 データの列の操作 データに新しく列を追加します。
22.
© 2016 IBM
Corporation22 sparkRの停止とcsvファイルの読み込み DSWBではディフォルトで幾つかのファイルが準備されています。 今回はresources/data/samples/weather/weather-stations20140101-20141231.csv の読み込みを行います。
23.
© 2016 IBM
Corporation23 sparkRroの停止とcsvファイルの読み込み SparkRではread.dfでファイルの読み込みを行うことが可能ですが、 read.dfはjson、parquetの形式をディフォルトでサポートします。 csvファイルを読み込むため、spark-packageからcsv用のpackageを SparkContextにロードする必要があります。
24.
© 2016 IBM
Corporation24 sparkRの停止とcsvファイルの読み込み read.dfコマンドでcsvファイルの読み込みを行っています。
25.
© 2016 IBM
Corporation25 ファイルへの出力 先ほどのweatherをProvでfilterし、write.dfを用いてparquet形式で出力します。
26.
© 2016 IBM
Corporation26 SQLとRの複合的な利用 registerTempTableをりようしたSparkSQLとSparkRの利用
27.
© 2016 IBM
Corporation27 Appendix DataPaloozaを日本でもやります!
28.
© 2016 IBM
Corporation28 ワークショップ、セッション、および資料は、IBMまたはセッション発表者によって準備され、それぞれ独自の見解を反映したものです。 それらは情報提供の目的のみで提供されており、いかなる参加者に対しても法律的またはその他の指導や助言を意図したものではなく、 またそのような結果を生むものでもありません。本講演資料に含まれている情報については、完全性と正確性を期するよう努力しましたが 「現状のまま」提供され、明示または暗示にかかわらずいかなる保証も伴わないものとします。本講演資料またはその他の資料の使用によ って、あるいはその他の関連によって、いかなる損害が生じた場合も、IBMは責任を負わないものとします。 本講演資料に含まれている内 容は、IBMまたはそのサプライヤーやライセンス交付者からいかなる保証または表明を引きだすことを意図したものでも、IBMソフトウェ アの使用を規定する適用ライセンス契約の条項を変更することを意図したものでもなく、またそのような結果を生むものでもありません。 本講演資料でIBM製品、プログラム、またはサービスに言及していても、IBMが営業活動を行っているすべての国でそれらが使用可能であ ることを暗示するものではありません。本講演資料で言及している製品リリース日付や製品機能は、市場機会またはその他の要因に基づい てIBM独自の決定権をもっていつでも変更できるものとし、いかなる方法においても将来の製品または機能が使用可能になると確約するこ とを意図したものではありません。本講演資料に含まれている内容は、参加者が開始する活動によって特定の販売、売上高の向上、または その他の結果が生じると述べる、または暗示することを意図したものでも、またそのような結果を生むものでもありません。 パフォーマン スは、管理された環境において標準的なIBMベンチマークを使用した測定と予測に基づいています。ユーザーが経験する実際のスループッ トやパフォーマンスは、ユーザーのジョブ・ストリームにおけるマルチプログラミングの量、入出力構成、ストレージ構成、および処理さ れるワークロードなどの考慮事項を含む、数多くの要因に応じて変化します。したがって、個々のユーザーがここで述べられているものと 同様の結果を得られると確約するものではありません。 記述されているすべてのお客様事例は、それらのお客様がどのようにIBM製品を使用したか、またそれらのお客様が達成した結果の実例と して示されたものです。実際の環境コストおよびパフォーマンス特性は、お客様ごとに異なる場合があります。 IBM、IBM ロゴ、ibm.comは、世界の多くの国で登録されたInternational Business Machines Corporationの商標です。 他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合があります。 現時点での IBM の商標リストについては、www.ibm.com/legal/copytrade.shtmlをご覧ください。 Apache Hadoop、Hadoop、Apache Spark、Spark、Apache Kafka、Kafka、 Apache、は、Apache Software Foundationの米国およびその他の国 における登録商標、または商標です。
Télécharger maintenant