Soumettre la recherche
Mettre en ligne
20160127三木会 RDB経験者のためのspark
•
9 j'aime
•
2,980 vues
Ryuji Tamagawa
Suivre
インサイトテクノロジーさんの勉強会に呼んでいただいてお話しさせていただいた資料です。
Lire moins
Lire la suite
Logiciels
Signaler
Partager
Signaler
Partager
1 sur 30
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
Kazuki Taniguchi
ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!
Nagato Kasaki
Apache Sparkの紹介
Apache Sparkの紹介
Ryuji Tamagawa
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Future Of Data Japan
(LT)Spark and Cassandra
(LT)Spark and Cassandra
datastaxjp
Bluemixを使ったTwitter分析
Bluemixを使ったTwitter分析
Tanaka Yuichi
Spark GraphX で始めるグラフ解析
Spark GraphX で始めるグラフ解析
Yosuke Mizutani
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜
x1 ichi
Recommandé
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
Kazuki Taniguchi
ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!
Nagato Kasaki
Apache Sparkの紹介
Apache Sparkの紹介
Ryuji Tamagawa
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Future Of Data Japan
(LT)Spark and Cassandra
(LT)Spark and Cassandra
datastaxjp
Bluemixを使ったTwitter分析
Bluemixを使ったTwitter分析
Tanaka Yuichi
Spark GraphX で始めるグラフ解析
Spark GraphX で始めるグラフ解析
Yosuke Mizutani
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜
x1 ichi
Hadoop Source Code Reading #17
Hadoop Source Code Reading #17
Shingo Furuyama
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告
Katsunori Kanda
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
Ryuji Tamagawa
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Kazutaka Tomita
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
DB Tech showcase Tokyo 2015 Works Applications
DB Tech showcase Tokyo 2015 Works Applications
2t3
Watson summit 2016_j2_5
Watson summit 2016_j2_5
Tanaka Yuichi
What makes Apache Spark?
What makes Apache Spark?
Hadoop / Spark Conference Japan
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
sugiyama koki
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
Tanaka Yuichi
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係
datastaxjp
PythonでDeepLearningを始めるよ
PythonでDeepLearningを始めるよ
Tanaka Yuichi
Hive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみた
Recruit Technologies
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
Amazon Web Services Japan
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
Tanaka Yuichi
Sparkパフォーマンス検証
Sparkパフォーマンス検証
BrainPad Inc.
Spark shark
Spark shark
Tsuyoshi OZAWA
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
Databricks の始め方
Databricks の始め方
Ryoma Nagata
Contenu connexe
Tendances
Hadoop Source Code Reading #17
Hadoop Source Code Reading #17
Shingo Furuyama
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告
Katsunori Kanda
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
Ryuji Tamagawa
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Kazutaka Tomita
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
DB Tech showcase Tokyo 2015 Works Applications
DB Tech showcase Tokyo 2015 Works Applications
2t3
Watson summit 2016_j2_5
Watson summit 2016_j2_5
Tanaka Yuichi
What makes Apache Spark?
What makes Apache Spark?
Hadoop / Spark Conference Japan
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
sugiyama koki
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
Tanaka Yuichi
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係
datastaxjp
PythonでDeepLearningを始めるよ
PythonでDeepLearningを始めるよ
Tanaka Yuichi
Hive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみた
Recruit Technologies
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
Amazon Web Services Japan
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
Tanaka Yuichi
Sparkパフォーマンス検証
Sparkパフォーマンス検証
BrainPad Inc.
Spark shark
Spark shark
Tsuyoshi OZAWA
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
Tendances
(20)
Hadoop Source Code Reading #17
Hadoop Source Code Reading #17
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
DB Tech showcase Tokyo 2015 Works Applications
DB Tech showcase Tokyo 2015 Works Applications
Watson summit 2016_j2_5
Watson summit 2016_j2_5
What makes Apache Spark?
What makes Apache Spark?
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係
PythonでDeepLearningを始めるよ
PythonでDeepLearningを始めるよ
Hive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみた
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
Sparkパフォーマンス検証
Sparkパフォーマンス検証
Spark shark
Spark shark
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
Similaire à 20160127三木会 RDB経験者のためのspark
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
Databricks の始め方
Databricks の始め方
Ryoma Nagata
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
NTT DATA OSS Professional Services
Jjug ccc
Jjug ccc
Tanaka Yuichi
Big datauniversity
Big datauniversity
Tanaka Yuichi
Asakusa Framework 勉強会 2014 夏
Asakusa Framework 勉強会 2014 夏
鉄平 土佐
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
NTT DATA Technology & Innovation
Yifeng spark-final-public
Yifeng spark-final-public
Yifeng Jiang
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
Ryoma Nagata
AWS re:Invent 2013 参加報告(新サービスとセッション)
AWS re:Invent 2013 参加報告(新サービスとセッション)
Akio Katayama
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
DataWorks Summit/Hadoop Summit
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
NTT DATA Technology & Innovation
Hadoopとは
Hadoopとは
Hirokazu Yatsunami
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
Amazon Web Services Japan
OSC2014 Tokyo/Spring Hadoop
OSC2014 Tokyo/Spring Hadoop
Shinichi YAMASHITA
ビッグじゃなくても使えるSpark Streaming
ビッグじゃなくても使えるSpark Streaming
chibochibo
Apache Sparkやってみたところ
Apache Sparkやってみたところ
Tatsunori Nishikori
Asakusa fw勉強会2014冬
Asakusa fw勉強会2014冬
鉄平 土佐
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
Yahoo!デベロッパーネットワーク
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
Mitsutoshi Kiuchi
Similaire à 20160127三木会 RDB経験者のためのspark
(20)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Databricks の始め方
Databricks の始め方
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
Jjug ccc
Jjug ccc
Big datauniversity
Big datauniversity
Asakusa Framework 勉強会 2014 夏
Asakusa Framework 勉強会 2014 夏
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
Yifeng spark-final-public
Yifeng spark-final-public
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
AWS re:Invent 2013 参加報告(新サービスとセッション)
AWS re:Invent 2013 参加報告(新サービスとセッション)
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
Hadoopとは
Hadoopとは
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
OSC2014 Tokyo/Spring Hadoop
OSC2014 Tokyo/Spring Hadoop
ビッグじゃなくても使えるSpark Streaming
ビッグじゃなくても使えるSpark Streaming
Apache Sparkやってみたところ
Apache Sparkやってみたところ
Asakusa fw勉強会2014冬
Asakusa fw勉強会2014冬
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
Plus de Ryuji Tamagawa
20171012 found IT #9 PySparkの勘所
20171012 found IT #9 PySparkの勘所
Ryuji Tamagawa
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
Ryuji Tamagawa
hbstudy 74 Site Reliability Engineering
hbstudy 74 Site Reliability Engineering
Ryuji Tamagawa
PySparkの勘所(20170630 sapporo db analytics showcase)
PySparkの勘所(20170630 sapporo db analytics showcase)
Ryuji Tamagawa
20170210 sapporotechbar7
20170210 sapporotechbar7
Ryuji Tamagawa
20161215 python pandas-spark四方山話
20161215 python pandas-spark四方山話
Ryuji Tamagawa
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京
Ryuji Tamagawa
20160708 データ処理のプラットフォームとしてのpython 札幌
20160708 データ処理のプラットフォームとしてのpython 札幌
Ryuji Tamagawa
Performant data processing with PySpark, SparkR and DataFrame API
Performant data processing with PySpark, SparkR and DataFrame API
Ryuji Tamagawa
足を地に着け落ち着いて考える
足を地に着け落ち着いて考える
Ryuji Tamagawa
ヘルシープログラマ・翻訳と実践
ヘルシープログラマ・翻訳と実践
Ryuji Tamagawa
Google Big Query
Google Big Query
Ryuji Tamagawa
BigQueryの課金、節約しませんか
BigQueryの課金、節約しませんか
Ryuji Tamagawa
You might be paying too much for BigQuery
You might be paying too much for BigQuery
Ryuji Tamagawa
Google BigQueryについて 紹介と推測
Google BigQueryについて 紹介と推測
Ryuji Tamagawa
lessons learned from talking at rakuten technology conference
lessons learned from talking at rakuten technology conference
Ryuji Tamagawa
丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました
丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました
Ryuji Tamagawa
Mongo dbを知ろう devlove関西
Mongo dbを知ろう devlove関西
Ryuji Tamagawa
Seleniumをもっと知るための本の話
Seleniumをもっと知るための本の話
Ryuji Tamagawa
データベース勉強会 In 広島 mongodb
データベース勉強会 In 広島 mongodb
Ryuji Tamagawa
Plus de Ryuji Tamagawa
(20)
20171012 found IT #9 PySparkの勘所
20171012 found IT #9 PySparkの勘所
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
hbstudy 74 Site Reliability Engineering
hbstudy 74 Site Reliability Engineering
PySparkの勘所(20170630 sapporo db analytics showcase)
PySparkの勘所(20170630 sapporo db analytics showcase)
20170210 sapporotechbar7
20170210 sapporotechbar7
20161215 python pandas-spark四方山話
20161215 python pandas-spark四方山話
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京
20160708 データ処理のプラットフォームとしてのpython 札幌
20160708 データ処理のプラットフォームとしてのpython 札幌
Performant data processing with PySpark, SparkR and DataFrame API
Performant data processing with PySpark, SparkR and DataFrame API
足を地に着け落ち着いて考える
足を地に着け落ち着いて考える
ヘルシープログラマ・翻訳と実践
ヘルシープログラマ・翻訳と実践
Google Big Query
Google Big Query
BigQueryの課金、節約しませんか
BigQueryの課金、節約しませんか
You might be paying too much for BigQuery
You might be paying too much for BigQuery
Google BigQueryについて 紹介と推測
Google BigQueryについて 紹介と推測
lessons learned from talking at rakuten technology conference
lessons learned from talking at rakuten technology conference
丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました
丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました
Mongo dbを知ろう devlove関西
Mongo dbを知ろう devlove関西
Seleniumをもっと知るための本の話
Seleniumをもっと知るための本の話
データベース勉強会 In 広島 mongodb
データベース勉強会 In 広島 mongodb
20160127三木会 RDB経験者のためのspark
1.
データベース技術者の皆様に なるべくわかりやすく Apache Spark を説明してみます Sky株式会社 玉川竜司
2.
自己紹介
3.
玉川竜司です • 本職はセキュリティソフトの開発 • 一番使っているのはSQL
Server • SQLiteも大好きです • db tech showcaseではMongoDBの 人としてデビュー • 今年はSparkの人で登壇? • オライリージャパンで翻訳してます • FB: Ryuji Tamagawa • Twitter : tamagawa_ryuji
4.
過去の翻訳
5.
2015年の翻訳
6.
2016年の予定
7.
本日の内容 • HadoopエコシステムとSpark • MapReduceとSpark •
Sparkの動作 • Sparkの今後
8.
HadoopエコシステムとSpark
9.
Hadoop 0.xの時代 HadoopRDB OS ファイルI/O メモリバッファ クエリ実行エンジン SQL ドライバ OS HDFS MapReduce • 分散処理の基盤だけが ある状態 •
HDFS / MapReduceに よる耐障害性と分散処 理の性能の保証 • プログラミングはめっ ちゃ大変
10.
Hadoop 1.xの時代 HadoopRDB OS ファイルI/O メモリバッファ クエリ実行エンジン SQL ドライバ OS HDFS Hive e.t.c. HBase MapReduce ドライバ •
「上物」の整備が進む • Hiveの登場で、SQLでの アクセスが可能に • ランダムアクセスで読み書 き可能なデータベースエン ジンであるHBaseが登場 • その他、エコシステムの 整備が進む
11.
Hadoop 2.xとSparkの登場 OS HDFS Hive e.t.c. HBaseMapReduce YARN Spark (Spark
Streaming, MLlib, GraphX, Spark SQL) 注:この階層図は技術的に正確ではありません。 複雑すぎて正確に描くことはたぶん無理・・・ Impalaなど (インメモ リ系SQL) 「Hadoopって何?」という問いに対する答はどんどん難しくなって いて、狭義ではHDFS+YARN+MapReduceあたりです。ただ、全 部ひっくるめて「エコシステム」って表現することが多くなりました。 RDB OS ファイルI/O メモリバッファ クエリ実行エンジン SQL ドライバ MapReduceによらない クエリ実行エンジンが増えてきた
12.
ターゲットの違い 基本的な指向 I/Oの特性 集中
/ 分散 RDB 小さいレコード を細かく読み・ 書き・更新 比較的小さな領 域をランダムア クセス 集中 Hadoop エコシステム 1回書いて何度 も読む 比較的大きな領 域をシーケンシ ャルアクセス 分散 • RDBもHadoopエコシステムも、それぞれの領域をカバーするような取り組 みが進んでいますが、基本的な性格を理解しておくことは重要だと思います。
13.
MapReduceとSpark
14.
Sparkが注目される2つの理由 処理が高速 プログラミングが容易
15.
その他の特徴 • Scale-inが容易(小規模な方向へのスケーラビリティ) • インタラクティブシェルによる探索的コンピューティング •
豊富なライブラリ(MLlib、GraphX、SparkStreaming・・・) • ファイルI/OはHadoopのライブラリを利用できる • HDFSやS3をファイルシステムとしてそのまま活用できる
16.
フレームワークの違い 基本的な処理 の単位 処理の対象 JVM クラスタ管理 MapReduce
Map / Reduce ファイル フェーズごとに起 動・終了 YARN Spark RDD / DataFrameに 対する操作 (高レベルなAPI) RDD 起動しっぱなし YARN / Mesos / ス タンドアローン
17.
Sparkが高速な理由 map JVM Invocation I/0 HDFS reduce JVM Invocation I/0 map JVM
Invocation I/0 reduce JVM Invocation I/0 f1(read data to RDD) Executor(JVM)Invocation HDFS I/O f2 f3 f4(persist to storage) f5(does shuffle) I/O f6 f7 Memory(RDDs) access access access access I/O access access MapReduce Spark
18.
MapReduceとSparkの速度 Spark MapReduce データ量 処理時間 注:イメージです
19.
Sparkの動作
20.
RDD(耐障害性分散データセット) • 論理的には、プログラミング言語でいうところのコレクション • 実体としては、RDBでのビューにキャッシュの機能を追加したもの、という感じ •
「パーティション」に分割され、クラスタを構成するノード群にまたがって配置 される ノード RDD-A Partition #1 RDD-B Partition #1 ノード Partition #2 Partition #2 ノード Partition #3 Partition #3 ノード Partition #4 Partition #4
21.
RDDの処理 • 論理的にはコレクション。物理的にはクラスタ内のノードに分散配置される • RDDに対して「変換」をかけて、新たなRDDを生成する。データベースで言え ば、ビューの定義にビューの定義を重ねているような感じ。 •
RDDに対して「アクション」を行うと、RDDをさかのぼって計算が実行される。 # テキストを読んでRDDを生成 rmRDD = sc.textfile(‘readme.md’) #フィルタをかけて次のRDDを生 spRDD = rmRDD.filter(…) #もう1つフィルタ。 sp10RDD = spRDD.filter(…) #この時点ではまだテキストファイルも読まれていない #行数のカウント。この時点ですべての処理が走る count = sp10RDD.count() 元のファイル rmRDD spRDD sp10RDD 123 table create view… create view… create view… select count…
22.
RDDの処理(論理構造) # テキストを読んでRDDを生成 rmRDD =
sc.textfile(‘readme.md’) #フィルタをかけて次のRDDを生成 RDD_1 = rmRDD.filter(…) #もう1つフィルタ。 RDD_2 = RDD_1.filter(…) #この時点ではまだテキストファイルも読まれていない #キャッシュを指示 RDD_2.persist() #1つめの分岐 RDD_2_a = RDD_2.filter(…) #行数のカウント。この時点ですべての処理が走る count = RDD_2_a.count() #RDD_2はここでキャッシュ #2つめの分岐 RDD_2_b = RDD_2.filter(…) #行数のカウント。この時点ですべての処理が走る count = RDD_2_b.count() #演算はRDD_2以降のみ ファイル rmRDD RDD_1 RDD_2 RDD_2_a RDD_2_a 123 456
23.
RDDの処理(実行) driver Executor1 Executor2 #
テキストを読んでRDDを生成 rmRDD = sc.textfile(‘readme.md’) #フィルタをかけて次のRDDを生成 RDD_1 = rmRDD.filter(…) #フィルタ1 #もう1つフィルタ。 RDD_2 = RDD_1.filter(…) #フィルタ2 #この時点ではまだテキストファイルも読まれていない #キャッシュを指示 RDD_2.persist() #1つめの分岐 RDD_2_a = RDD_2.filter(…) #フィルタ2a #行数のカウント。この時点ですべての処理が走る count = RDD_2_a.count() #RDD_2はここでキャッシュ #2つめの分岐 RDD_2_b = RDD_2.filter(…) #フィルタ2b #行数のカウント。この時点ですべての処理が走る count = RDD_2_b.count() #演算はRDD_2以降のみ rmRDD登録 フィルタ1登録 フィルタ2登録 RDD_2のキャッシュ準備 フィルタ2a登録 rmRDDの読み取り、フィルタ1,2,2a の実行、RDD_2のキャッシュ フィルタ2b登録 フィルタ2b実行
24.
シャッフルについて • RDDの変換は2種類に分類でき る。シャッフルを伴うものと伴わ ないもの • シャッフルを伴わないもの:変換 前のパーティションと変換後のパー ティションが一対一対応するもの。 例えば単純なフィルタリング。 •
シャッフルを伴うもの。変換前後 でパーティション構成が変化する もの。例えば集計や結合処理。 Executor1 Partition #1 Partition #1’ Partition #A Executor2 Partition #2 Partition2’ Partition #B Executor3 Partition #3 Partition3’ Partition #C
25.
シャッフルについて • 並列処理を行う際のコスト構造が RDBとは大きく異なる • Sparkにおいては、シャッフルの 際にはストレージI/Oが生ずるた め、非常にコストが大きい •
プロセスをまたがるデータの転送 はネットワークを経由するという 点でもコストが大きい • 耐障害性の観点からも差異がある Executor1 Partition #1 Partition #1’ Partition #A Executor2 Partition #2 Partition2’ Partition #B Executor3 Partition #3 Partition3’ Partition #C
26.
DataFrame / Dataset(SchemaRDD) • RDDはスキーマレス •
スキーマを適用することで、効 率化とSQLでの処理をできるよ うにしたのがSchamaRDD(1.3) • SchemaRDDをさらに発展させた のがDataFrame • SQLはHiveに準拠。Select系の SQLは普通に書けるレベル デモします
27.
Sparkの今後
28.
Project Tangsten • RDBでいうクエリオプティマイザの強化プロ ジェクト •
バージョン1.5で登場 • まだまだ進行中
29.
今後も発展していきそう • 「MapReduceは徐々にSparkに置き換えられていくだろう」 • 機械学習の分野がドライバになっている(MLlib)。イテレー ティブな処理においては、MapReduceよりも圧倒的に高速 •
Sparkをデータ処理の基盤としておくと何かとつぶしがきく感 • SQLもいけるし、手続き型の言語(Java, Scala, Python)も いける。Rもいける
30.
質問タイムです!
Télécharger maintenant