SlideShare une entreprise Scribd logo
1  sur  109
Télécharger pour lire hors ligne
Copyright©2017 NTT corp. All Rights Reserved.
分散並列処理の基本と
分散並列処理系の最近の動向について
小沢健史
NTT Software Innovation Center
2017/5/24
4Copyright©2017 NTT corp. All Rights Reserved.
•小沢 健史(Ozawa Tsuyoshi)
•Apache Hadoop Committer/PMC
•Hadoop 徹底入門第2版 Chapter 22(YARN)
•gihyo.jp “Hadoopはどのように動くのか”
Hadoop,Tez,YARN
自己紹介
5Copyright©2017 NTT corp. All Rights Reserved.
分析で Excel・DB を
使っている方
6Copyright©2017 NTT corp. All Rights Reserved.
•処理するデータがどんどん増える…
•HDD からデータの読み込み
→ データ量に応じて時間がかかってしまう
困ったことはありませんか?
100MB
100GB 100TB
1秒
1000秒
(=16分半)
読み込みで1000000秒!
(=約11日)
7Copyright©2017 NTT corp. All Rights Reserved.
•処理するデータがどんどん増える…
•HDD からデータの読み込み
→ データ量に応じて時間がかかってしまう
困ったことはありませんか?
100MB
100GB 100TB
1秒
10000秒
(=1分半)
読み込みで1000000秒!
(=約11日)そこで並列処理!
8Copyright©2017 NTT corp. All Rights Reserved.
•計算資源を並べることで速く処理すること
•例
•HDD を10個並べる
並列処理 (Parallel processing)
100 MB/sec
x 10個 = 最大1GB/sec
9Copyright©2017 NTT corp. All Rights Reserved.
並列処理の注意どころ (1)
並列処理の効果は処理依存
•ディスクI/Oの割合が
99%
99
1
10Copyright©2017 NTT corp. All Rights Reserved.
並列処理の注意どころ (1)
並列処理の効果は処理依存
•ディスクI/Oの割合が
99%
99
1
1
1
99倍
効果:50倍
11Copyright©2017 NTT corp. All Rights Reserved.
並列処理の注意どころ (1)
並列処理の効果は処理依存
•ディスクI/Oの割合が
99%
99
1
1
1
効果:50倍
99倍
•ディスクI/Oの割合が
50%
50
50
0.599倍
50
12Copyright©2017 NTT corp. All Rights Reserved.
並列処理の注意どころ (1)
並列処理の効果は処理依存
•ディスクI/Oの割合が
99%
99
1
1
1
99倍
•ディスクI/Oの割合が
50%
50
50
0.5
効果:約2倍
99倍
50
効果:50倍
13Copyright©2017 NTT corp. All Rights Reserved.
並列処理の注意どころ (2)
拡張性の限界
•値段的限界
L4 L8 L16 L32
$0.5
$1
$2
$4
https://azure.microsoft.com/en-
us/pricing/details/virtual-machines/windows/
14Copyright©2017 NTT corp. All Rights Reserved.
並列処理の注意どころ (2)
拡張性の限界
•値段的限界 •物理的限界
一台の計算機に足せる
ドライブ数に限界
L4 L8 L16 L32
$0.5
$1
$2
$4
https://azure.microsoft.com/en-
us/pricing/details/virtual-machines/windows/
15Copyright©2017 NTT corp. All Rights Reserved.
•故障確率が向上
•1日に1%の確率で1つのHDDが壊れると仮定
•64個ドライブのある計算機の場合,
1日に1つ以上ドライブが壊れる確率は
約48%=1 – (0.99 ** 64)
並列処理の注意どころ (3)
16Copyright©2017 NTT corp. All Rights Reserved.
•性能向上率はワークロード次第
•拡張性に限界
•故障確率が向上
並列処理の注意どころ まとめ
17Copyright©2017 NTT corp. All Rights Reserved.
•性能向上率はワークロード次第
•拡張性に限界
•故障確率が向上
並列処理の注意どころ まとめ
並列処理の特性
18Copyright©2017 NTT corp. All Rights Reserved.
•性能向上率はワークロード次第
•拡張性に限界
•故障確率が向上
並列処理の注意どころ まとめ
19Copyright©2017 NTT corp. All Rights Reserved.
•性能向上率はワークロード次第
•拡張性に限界
•故障確率が向上
並列処理の注意どころ まとめ
そこで分散処理!
20Copyright©2017 NTT corp. All Rights Reserved.
•複数の計算機をまたがって処理すること
•目的は処理の高速化に限らない
分散処理 (Distributed processing)
21Copyright©2017 NTT corp. All Rights Reserved.
•複数の計算機をまたがって処理すること
•目的は処理の高速化に限らない
•例
•異なる計算機2台に同じ計算をさせる
→ 故障しなかった方を採用
分散処理 (Distributed processing)
計算機1
計算機2
依頼主
投入
22Copyright©2017 NTT corp. All Rights Reserved.
•複数の計算機をまたがって処理すること
•目的は処理の高速化に限らない
•例
•異なる計算機2台に同じ計算をさせる
→ 故障しなかった方を採用
分散処理 (Distributed processing)
計算機1
計算機2
故障
依頼主
23Copyright©2017 NTT corp. All Rights Reserved.
•複数の計算機をまたがって処理すること
•目的は処理の高速化に限らない
•例
•異なる計算機2台に同じ計算をさせる
→ 故障しなかった方を採用
分散処理 (Distributed processing)
計算機1
計算機2
無事回答!依頼主
24Copyright©2017 NTT corp. All Rights Reserved.
•データのコピーを複数持つ
•目的
•データへアクセスできる確率を向上させるため
•処理が無事に終わる確率を向上させるため
分散処理でよく行われること
25Copyright©2017 NTT corp. All Rights Reserved.
•データのコピーを複数持つ
•目的
•データへアクセスできる確率を向上させるため
•処理が無事に終わる確率を向上させるため
分散処理でよく行われること
計算機1
計算機2
書き手
保存しといて
データ
26Copyright©2017 NTT corp. All Rights Reserved.
•データのコピーを複数持つ
•目的
•データへアクセスできる確率を向上させるため
•処理が無事に終わる確率を向上させるため
分散処理でよく行われること
計算機1
計算機2
書き手 コピー
データ
データ
27Copyright©2017 NTT corp. All Rights Reserved.
•データのコピーを複数持つ
•目的
•データへアクセスできる確率を向上させるため
•処理が無事に終わる確率を向上させるため
分散処理でよく行われること
計算機1
計算機2
データ
データ
28Copyright©2017 NTT corp. All Rights Reserved.
•データのコピーを複数持つ
•目的
•データへアクセスできる確率を向上させるため
•処理が無事に終わる確率を向上させるため
分散処理でよく行われること
計算機1
計算機2
データ
データ
故障
29Copyright©2017 NTT corp. All Rights Reserved.
•データのコピーを複数持つ
•目的
•データへアクセスできる確率を向上させるため
•処理が無事に終わる確率を向上させるため
分散処理でよく行われること
計算機1
計算機2
データ
データ
読み手
読みたい
30Copyright©2017 NTT corp. All Rights Reserved.
•データのコピーを複数持つ
•目的
•データへアクセスできる確率を向上させるため
•処理が無事に終わる確率を向上させるため
分散処理でよく行われること
計算機1
計算機2
データ
データ
読み手
成功!
データ
31Copyright©2017 NTT corp. All Rights Reserved.
分散処理の注意どころ (1)
分散のためにオーバヘッドが発生
•1台にコピー •2台にコピー
通信量増大
書き手
計算機
書き手
計算機1 計算機2
32Copyright©2017 NTT corp. All Rights Reserved.
•故障時のエラーハンドリング
分散処理の注意どころ (2)
書き手
計算機1 計算機2
データ
33Copyright©2017 NTT corp. All Rights Reserved.
•故障時のエラーハンドリング
分散処理の注意どころ (2)
書き手
計算機1 計算機2
データ
書込要求
34Copyright©2017 NTT corp. All Rights Reserved.
•故障時のエラーハンドリング
分散処理の注意どころ (2)
書き手
計算機1 計算機2
データ
書込応答 応答なし
35Copyright©2017 NTT corp. All Rights Reserved.
•故障時のエラーハンドリング
分散処理の注意どころ (2)
書き手
計算機1 計算機2
データ
過負荷で
書き込みに失敗
36Copyright©2017 NTT corp. All Rights Reserved.
•故障時のエラーハンドリング
分散処理の注意どころ (2)
計算機1 計算機2
データ
37Copyright©2017 NTT corp. All Rights Reserved.
•故障時のエラーハンドリング
分散処理の注意どころ (2)
計算機1 計算機2
データ
読み手
38Copyright©2017 NTT corp. All Rights Reserved.
•故障時のエラーハンドリング
分散処理の注意どころ (2)
計算機1 計算機2
データ
読み手
過負荷で
アクセスできず
読込要求
39Copyright©2017 NTT corp. All Rights Reserved.
•故障時のエラーハンドリング
分散処理の注意どころ (2)
計算機1 計算機2
データ
読み手
過負荷で
アクセスできず
データがないように
見える!
40Copyright©2017 NTT corp. All Rights Reserved.
•故障時のエラーハンドリング
分散処理の注意どころ (2)
計算機1 計算機2
データ
読み手
過負荷で
アクセスできず
データがないように
見える!
自分でケアするのは大変
41Copyright©2017 NTT corp. All Rights Reserved.
•故障時のエラーハンドリング
分散処理の注意どころ (2)
計算機1 計算機2
データ
読み手
過負荷で
アクセスできず
データがないように
見える!
とても大変!
42Copyright©2017 NTT corp. All Rights Reserved.
•故障時のエラーハンドリング
分散処理の注意どころ (2)
計算機1 計算機2
データ
読み手
過負荷で
アクセスできず
データがないように
見える!
そこで
並列分散処理
基盤
43Copyright©2017 NTT corp. All Rights Reserved.
並列処理と分散処理を組み合わせた処理基盤
→ 高速に,故障を意識せずに使える!
並列分散処理基盤
44Copyright©2017 NTT corp. All Rights Reserved.
•データを溜めるファイルシステム
データを処理する処理系
•Spark/MapReduce + HDFS など
•データベース
•SQL Server・Amazon Redshift など
最近の並列分散処理基盤
の組み合わせ
45Copyright©2017 NTT corp. All Rights Reserved.
なぜFSとDBは分かれているか?
46Copyright©2017 NTT corp. All Rights Reserved.
なぜFSとDBは分かれているか?
大量のデータを永続的に格納する手段としては,(中略)
OS により提供されるファイルがある.
しかし,ファイルシステムには(中略)問題点があり,こ
れらがデータベースの開発の動機となっている.
データベースシステム・北川博之著 p.2-p.3 より抜粋
47Copyright©2017 NTT corp. All Rights Reserved.
なぜFSとDBは分かれているか?
大量のデータを永続的に格納する手段としては,(中略)
OS により提供されるファイルがある.
しかし,ファイルシステムには(中略)問題点があり,こ
れらがデータベースの開発の動機となっている.
データベースシステム・北川博之著 p.2-p.3 より抜粋
思想から異なる
Copyright©2017 NTT corp. All Rights Reserved.
ファイルシステムベース
の並列分散処理基盤
49Copyright©2017 NTT corp. All Rights Reserved.
•処理系を柔軟に変更可能
ファイルシステムベースの処理系の利点
ファイルシステム
処理系1 処理系2
50Copyright©2017 NTT corp. All Rights Reserved.
•処理系を柔軟に変更可能
Hadoop エコシステムで起きていること
FileSystem API
Spark
HDFS
MapReduce
51Copyright©2017 NTT corp. All Rights Reserved.
•処理系を柔軟に変更可能
Hadoop エコシステムで起きていること
FileSystem API
Spark
HDFS
MapReduce
52Copyright©2017 NTT corp. All Rights Reserved.
•処理系を柔軟に変更可能
Hadoop エコシステムで起きていること
FileSystem API
Spark
HDFS
MapReduce
Azure Data
Lake Store
Amazon S3
53Copyright©2017 NTT corp. All Rights Reserved.
•処理系を柔軟に変更可能
•ファイルシステムの実装が変更可能に
→ クラウドとの相性良い
Hadoop エコシステムで起きていること
FileSystem API
Spark
HDFS
MapReduce
Azure Data
Lake Store
Amazon S3
54Copyright©2017 NTT corp. All Rights Reserved.
•処理系とファイルシステムが疎結合
→最適化度合いが限定的
ファイルシステムベースの処理系の欠点
FileSystem API
Spark
HDFS
MapReduce
Azure Data
Lake Store
Amazon S3
55Copyright©2017 NTT corp. All Rights Reserved.
•処理系とファイルシステムが疎結合
→最適化度合いが限定的
ファイルシステムベースの処理系の欠点
FileSystem API
Spark
HDFS
MapReduce
Azure Data
Lake Store
Amazon S3
56Copyright©2017 NTT corp. All Rights Reserved.
•処理系とファイルシステムが疎結合
→最適化度合いが限定的
ファイルシステムベースの処理系の欠点
FileSystem API
Spark
HDFS
MapReduce
Azure Data
Lake Store
Amazon S3
最適化のために
やりとりできる
情報が
限られる
Copyright©2017 NTT corp. All Rights Reserved.
代表的な処理系
MapReduce と Spark
58Copyright©2017 NTT corp. All Rights Reserved.
•データを分散ファイルシステムから読む
MapReduce
FileSystem API
HDFS
MapReduce
Azure Data
Lake Store
Amazon S3
読出
59Copyright©2017 NTT corp. All Rights Reserved.
•データを分散ファイルシステムから読む
•ユーザが指定した処理をする
MapReduce
FileSystem API
HDFS
MapReduce
Azure Data
Lake Store
Amazon S3
処理
60Copyright©2017 NTT corp. All Rights Reserved.
•データを分散ファイルシステムから読む
•ユーザが指定した処理をする
•分散ファイルシステムに結果を書き出し
MapReduce
FileSystem API
HDFS
MapReduce
Azure Data
Lake Store
Amazon S3
書出
61Copyright©2017 NTT corp. All Rights Reserved.
•基本は同じ
Spark
FileSystem API
HDFS Azure Data
Lake Store
Amazon S3
Spark
読出
62Copyright©2017 NTT corp. All Rights Reserved.
•基本は同じ
Spark
FileSystem API
HDFS Azure Data
Lake Store
Amazon S3
Spark
処理
63Copyright©2017 NTT corp. All Rights Reserved.
•基本は同じ
•毎回も書き出さずに,Spark の世界の中で
最適化されたデータ形式で保持が可能
Spark
FileSystem API
HDFS Azure Data
Lake Store
Amazon S3
Spark
結果
保持
64Copyright©2017 NTT corp. All Rights Reserved.
•基本は同じ
•毎回も書き出さずに,Spark の世界の中で
最適化されたデータ形式で保持が可能
•最終的には書出
Spark
FileSystem API
HDFS Azure Data
Lake Store
Amazon S3
Spark
書出
Copyright©2017 NTT corp. All Rights Reserved.
データベース
66Copyright©2017 NTT corp. All Rights Reserved.
•データ処理とデータ保持部が密結合
データベース
保持部
処理部
データベース
67Copyright©2017 NTT corp. All Rights Reserved.
•密結合により,最適化がしやすい
•プログラミングしやすい特性(ACID)をもつ
データベースの利点
保持部
処理部
データベース
68Copyright©2017 NTT corp. All Rights Reserved.
•スキーマ(型情報)を予め定義し、それを
並列処理のヒント情報として利用
•分析用DBの場合、列数がかなり多い傾向(30以上)
分析用データベースの概要
69Copyright©2017 NTT corp. All Rights Reserved.
•スキーマ(型情報)を予め定義し、それを
並列処理のヒント情報として利用
•分析用DBの場合、列数がかなり多い傾向(30以上)
→列方向にデータを分割
必要な列のみにアクセス
分析用データベースの概要
70Copyright©2017 NTT corp. All Rights Reserved.
•スキーマ(型情報)を予め定義し、それを
並列処理のヒント情報として利用
•分析用DBの場合、列数がかなり多い傾向(30以上)
→列方向にデータを分割
必要な列のみにアクセス
分析用データベースの概要
userId username project …
1 Tsuyoshi Hadoop …
2 Neo Azure …
… … … …
71Copyright©2017 NTT corp. All Rights Reserved.
•スキーマ(型情報)を予め定義し、それを
並列処理のヒント情報として利用
•分析用DBの場合、列数がかなり多い傾向(30以上)
→列方向にデータを分割
必要な列のみにアクセス
分析用データベースの概要
userId username project …
1 Tsuyoshi Hadoop …
2 Neo Azure …
… … … …
計算機1
72Copyright©2017 NTT corp. All Rights Reserved.
•スキーマ(型情報)を予め定義し、それを
並列処理のヒント情報として利用
•分析用DBの場合、列数がかなり多い傾向(30以上)
→列方向にデータを分割
必要な列のみにアクセス
分析用データベースの概要
userId username project …
1 Tsuyoshi Hadoop …
2 Neo Azure …
… … … …
計算機1 計算機2
73Copyright©2017 NTT corp. All Rights Reserved.
•スキーマ変更をする際にはシステムが
しばらく停止しうる
→ データの移動を伴うため
分析用データベースの注意どころ
74Copyright©2017 NTT corp. All Rights Reserved.
•スキーマが激しく変化する
•クエリの変化が激しい
→ MapReduce や Spark など
ファイルシステムベースの処理系
•スキーマ変化がまれ
•性能要求が非常に高い
•クエリがある程度決まっている
→ データベース
FSベース処理系/データベースの使い分け
75Copyright©2017 NTT corp. All Rights Reserved.
•NTT DATA の例
MapReduce/データベースの使い分け
秒
分
時間
日
Big Data
Processing
応
答
時
間
Size
Online Processing
GB TB PB
Online Batch
Processing
データ
ベース
分析データベース
Hadoop/
Spark
Query & Search
Processing
Enterprise Batch
Processing
Copyright©2017 NTT corp. All Rights Reserved.
最近の動向
77Copyright©2017 NTT corp. All Rights Reserved.
•処理速度に対する要求の多様化
•ミドルウェアの増加からくるデータ同期の複雑化
最近の動向 : Hadoop への不満からくる改善
78Copyright©2017 NTT corp. All Rights Reserved.
•処理速度に対する要求の多様化
→特化した処理系が出てきた
•ミドルウェアの増加からくるデータ同期の複雑化
→ ハブを担うミドルウェアが出てきた
最近の動向 : Hadoop への不満からくる改善
79Copyright©2017 NTT corp. All Rights Reserved.
•超巨大なバッチ処理が「安定して動けば良い」
処理速度に対する要求の多様化
80Copyright©2017 NTT corp. All Rights Reserved.
•超巨大なバッチ処理が「安定して動けば良い」
→ もっと色々やりたい!
処理速度に対する要求の多様化
81Copyright©2017 NTT corp. All Rights Reserved.
•速く結果を受け取って,試行錯誤やアクションの
回数を増やしたい
処理速度に対する要求の多様化
インタラクティブ
クエリ系
• Apache Impala
• Presto
• Hive(LLAP)
82Copyright©2017 NTT corp. All Rights Reserved.
•深層学習を高速に動作させたい
処理速度に対する要求の多様化
インタラクティブ
クエリ系
• Apache Impala
• Presto
• Hive(LLAP)
深層学習特化
• TensorFlow
• MXNet
• CNTK
• Chainer
83Copyright©2017 NTT corp. All Rights Reserved.
•バッチではなく,ストリーミング処理を
高速に動作させたい
処理速度に対する要求の多様化
インタラクティブ
クエリ系
• Apache Impala
• Presto
• Hive(LLAP)
深層学習特化
• TensorFlow
• MXNet
• CNTK
• Chainer
ストリーミング
処理系
• Apache Storm
• Spark
Streaming
84Copyright©2017 NTT corp. All Rights Reserved.
•ワークロードによる使い分けが普通に
処理速度に対する要求の多様化
インタラクティブ
クエリ系
• Apache Impala
• Presto
• Hive(LLAP)
深層学習特化
• TensorFlow
• MXNet
• CNTK
• Chainer
ストリーミング
処理系
• Apache Storm
• Spark
Streaming
85Copyright©2017 NTT corp. All Rights Reserved.
•ワークロードによる使い分けが普通に
処理速度に対する要求の多様化
インタラクティブ
クエリ系
• Apache Impala
• Presto
• Hive(LLAP)
深層学習特化
• TensorFlow
• MXNet
• CNTK
ストリーミング
処理系
• Apache Storm
• Spark
Streaming
データ同期が
大変に…
86Copyright©2017 NTT corp. All Rights Reserved.
•実際の運用の中で,処理系やサービスの間で
データの同期を複雑に行う必要
ミドルウェアの増加に伴う同期複雑化
推薦エンジン
分析DB Hadoop
検索エンジン
87Copyright©2017 NTT corp. All Rights Reserved.
•実際の運用の中で,処理系やサービスの間で
データの同期を複雑に行う必要
ミドルウェアの増加に伴う同期複雑化
推薦エンジン
分析DB Hadoop
メール通知
88Copyright©2017 NTT corp. All Rights Reserved.
•実際の運用の中で,処理系やサービスの間で
データの同期を複雑に行う必要
ミドルウェアの増加に伴う同期複雑化
推薦エンジン
分析DB Hadoop
メール通知
そこで
Apache
Kafka
89Copyright©2017 NTT corp. All Rights Reserved.
•データの「ハブ」の役割
•分散並列の特性を上手く利用し
ボトルネックにならないよう設計されている
Apache Kafka
推薦エンジン
分析DB Hadoop
メール通知
Apache Kafka
90Copyright©2017 NTT corp. All Rights Reserved.
•並列処理
•分散処理
•MapReduce系統の処理の特徴
•データベースの特徴
•最近の動向
まとめ
91Copyright©2017 NTT corp. All Rights Reserved.
•並列処理
•分散処理
•MapReduce系統の処理の特徴
•データベースの特徴
•最近の動向
まとめ
92Copyright©2017 NTT corp. All Rights Reserved.
•並列処理
•分散処理
•MapReduce系統の処理の特徴
•データベースの特徴
•最近の動向
まとめ
さいごに
93Copyright©2017 NTT corp. All Rights Reserved.
•並列処理
•分散処理
•MapReduce系統の処理の特徴
•データベースの特徴
•最近の動向
まとめ
分散並列処理が身近に
なってきた
94Copyright©2017 NTT corp. All Rights Reserved.
•並列処理
•分散処理
•MapReduce系統の処理の特徴
•データベースの特徴
•最近の動向
まとめ
何が何でも
分散処理?
95Copyright©2017 NTT corp. All Rights Reserved.
•並列処理
•分散処理
•MapReduce系統の処理の特徴
•データベースの特徴
•最近の動向
まとめ
何が何でも
分散処理?
96Copyright©2017 NTT corp. All Rights Reserved.
•並列処理
•分散処理
•MapReduce系統の処理の特徴
•データベースの特徴
•最近の動向
まとめ
効果が出るかは
問題次第
97Copyright©2017 NTT corp. All Rights Reserved.
•並列処理
•分散処理
•MapReduce系統の処理の特徴
•データベースの特徴
•最近の動向
まとめ
上手く使いこなして
ビジネスの役に
立ててください
98Copyright©2017 NTT corp. All Rights Reserved.
•並列処理
•分散処理
•MapReduce系統の処理の特徴
•データベースの特徴
•最近の動向
まとめ
エンジニアの
みなさまの力量に
かかっています!
Azure HDInsight
佐藤 直生 (NEO) - @satonaoki
データソース
アプリ
センサー/
デバイス
人
モバイル アプリ
自律
システム
インテリジェンス
データの管理 データの蓄積 データの分析 データの予知
データの可視化
• 多様な種類、
サイズの
データ蓄積
• PB クラスの
データに
対するデータ
ウエアハウス
• 機械学習
• Spark ベース
の分析
• Hadoop
Map
Reduce
活用
• リアルタイム・
イベント処理
• ダッシュボード
データ アクション
• オンプレミス/
クラウド間、
クラウド間の
データ移動
• クラウド上に
蓄積した
データの管理
• データ/メッセージ
ストリームの
処理
• ディープ
ラーニング
• ボット
• AI
データソース
アプリ
センサー/
デバイス
人
モバイル アプリ
自律
システム
インテリジェンス
データの管理 データの蓄積 データの分析 データの予知
データの可視化
データ アクション
分析
ストレージ
Azure HDInsight
Machine
Learning
Azure Blob Storage
または
Azure Data Lake Store
REALTIME ANALYTICS
BATCH ANALYTICS
INTERACTIVE ANALYTICS
Data Sources Ingest Prepare
(normalize, clean, etc.)
Analyze
(stat analysis, ML, etc.)
Publish
(for programmatic
consumption, BI/visualization)
Consume
(Alerts, Operational Stats,
Insights)
Machine Learning
(Spark + Azure ML)
(Failure and RCA
Predictions)
HDI + ISVs
OLAP for Data
Warehousing
HDI Custom ETL
Aggregate /Partition
Big Data Storage
PowerBI
dashboard
Hive, Spark processing
(Big Data Processing)
Big Data Storage
(Shared with field
Ops, customers,
MIS, and Engineers)
Realtime Machine Learning
(Anomaly Detection)
Azure Data
Lake Store
CosmosDB Azure Blob
Storage
CosmosDB
HDI + ISVs
OLAP for Data
Warehousing
セッションアンケートにご協力ください
➢ 専用アプリからご回答いただけます。
decode 2017
➢ スケジュールビルダーで受講セッションを
登録後、アンケート画面からご回答ください。
➢ アンケートの回答時間はたったの 15 秒です!
Ask the Speaker のご案内
本セッションの詳細は『Ask the Speaker Room』各コーナーカウンタにて
ご説明させていただきます。是非、お立ち寄りください。
© 2017 Microsoft Corporation. All rights reserved.
本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。

Contenu connexe

Tendances

[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化Takahiro Moteki
 
今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ株式会社クライム
 
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウSpark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウFuture Of Data Japan
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Cloudera Japan
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Cloudera Japan
 
最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたものcyberagent
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Japan
 
Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版Makoto Sato
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Cloudera Japan
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DMCloudera Japan
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介Cloudera Japan
 
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallAmazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallShinpei Ohtani
 
[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
[C31]世界最速カラムナーDBは本物だ! by Daisuke HiramaInsight Technology, Inc.
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best PracticeHadoop / Spark Conference Japan
 
D22 目覚めよDBエンジニア 〜世界最速カラムナーデータベースは本物だ!〜 by Koji Shinkubo
D22 目覚めよDBエンジニア 〜世界最速カラムナーデータベースは本物だ!〜 by Koji ShinkuboD22 目覚めよDBエンジニア 〜世界最速カラムナーデータベースは本物だ!〜 by Koji Shinkubo
D22 目覚めよDBエンジニア 〜世界最速カラムナーデータベースは本物だ!〜 by Koji ShinkuboInsight Technology, Inc.
 
(LT)Spark and Cassandra
(LT)Spark and Cassandra(LT)Spark and Cassandra
(LT)Spark and Cassandradatastaxjp
 
Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?chibochibo
 
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...Insight Technology, Inc.
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Cloudera Japan
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC EnterpriseYusukeKuramata
 

Tendances (20)

[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
 
今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ
 
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウSpark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
 
最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
 
Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DM
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
 
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallAmazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
 
[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
 
D22 目覚めよDBエンジニア 〜世界最速カラムナーデータベースは本物だ!〜 by Koji Shinkubo
D22 目覚めよDBエンジニア 〜世界最速カラムナーデータベースは本物だ!〜 by Koji ShinkuboD22 目覚めよDBエンジニア 〜世界最速カラムナーデータベースは本物だ!〜 by Koji Shinkubo
D22 目覚めよDBエンジニア 〜世界最速カラムナーデータベースは本物だ!〜 by Koji Shinkubo
 
(LT)Spark and Cassandra
(LT)Spark and Cassandra(LT)Spark and Cassandra
(LT)Spark and Cassandra
 
Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?
 
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
 

Similaire à [DI06] 並列分散処理の考え方とオープンソース分散処理系の動向

Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopDataWorks Summit
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera Japan
 
Azure IaaS 解説
Azure IaaS 解説Azure IaaS 解説
Azure IaaS 解説wintechq
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoTreasure Data, Inc.
 
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例terurou
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎Insight Technology, Inc.
 
Effective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターンEffective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターンNoritaka Sekiyama
 
[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...
[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...
[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...Insight Technology, Inc.
 
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...Amazon Web Services Japan
 
ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話
ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話
ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話Tokoroten Nakayama
 
次世代の高速メモリストレージ利用に向けたソフトウェアのモダナイゼーション
次世代の高速メモリストレージ利用に向けたソフトウェアのモダナイゼーション次世代の高速メモリストレージ利用に向けたソフトウェアのモダナイゼーション
次世代の高速メモリストレージ利用に向けたソフトウェアのモダナイゼーションNTT Software Innovation Center
 
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift UpdateAmazon Web Services Japan
 
マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会伊藤 孝
 
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介Masayuki Matsushita
 
Dataworks Summit SJ QueryEngine - Hadoop Source Code Reading #23 #hadoopreading
Dataworks Summit SJ QueryEngine - Hadoop Source Code Reading #23 #hadoopreadingDataworks Summit SJ QueryEngine - Hadoop Source Code Reading #23 #hadoopreading
Dataworks Summit SJ QueryEngine - Hadoop Source Code Reading #23 #hadoopreadingYahoo!デベロッパーネットワーク
 

Similaire à [DI06] 並列分散処理の考え方とオープンソース分散処理系の動向 (20)

Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
 
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreadingApache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
 
Azure IaaS 解説
Azure IaaS 解説Azure IaaS 解説
Azure IaaS 解説
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
 
Hadoop基盤を知る
Hadoop基盤を知るHadoop基盤を知る
Hadoop基盤を知る
 
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
 
Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版
 
Effective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターンEffective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターン
 
[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...
[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...
[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...
 
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
 
ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話
ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話
ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話
 
Java Clientで入門する Apache Kafka #jjug_ccc #ccc_e2
Java Clientで入門する Apache Kafka #jjug_ccc #ccc_e2Java Clientで入門する Apache Kafka #jjug_ccc #ccc_e2
Java Clientで入門する Apache Kafka #jjug_ccc #ccc_e2
 
次世代の高速メモリストレージ利用に向けたソフトウェアのモダナイゼーション
次世代の高速メモリストレージ利用に向けたソフトウェアのモダナイゼーション次世代の高速メモリストレージ利用に向けたソフトウェアのモダナイゼーション
次世代の高速メモリストレージ利用に向けたソフトウェアのモダナイゼーション
 
stapy_028_talk1
stapy_028_talk1stapy_028_talk1
stapy_028_talk1
 
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
 
マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会
 
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
 
Dataworks Summit SJ QueryEngine - Hadoop Source Code Reading #23 #hadoopreading
Dataworks Summit SJ QueryEngine - Hadoop Source Code Reading #23 #hadoopreadingDataworks Summit SJ QueryEngine - Hadoop Source Code Reading #23 #hadoopreading
Dataworks Summit SJ QueryEngine - Hadoop Source Code Reading #23 #hadoopreading
 

Plus de de:code 2017

[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用de:code 2017
 
[AI10] ゲームキャラクターのための人工知能と社会への応用 ~ FINAL FANTASY XV を事例として ~
[AI10] ゲームキャラクターのための人工知能と社会への応用 ~ FINAL FANTASY XV を事例として ~[AI10] ゲームキャラクターのための人工知能と社会への応用 ~ FINAL FANTASY XV を事例として ~
[AI10] ゲームキャラクターのための人工知能と社会への応用 ~ FINAL FANTASY XV を事例として ~de:code 2017
 
[DO07] マイクロサービスに必要な技術要素はすべて Spring Cloud にある
[DO07] マイクロサービスに必要な技術要素はすべて Spring Cloud にある[DO07] マイクロサービスに必要な技術要素はすべて Spring Cloud にある
[DO07] マイクロサービスに必要な技術要素はすべて Spring Cloud にあるde:code 2017
 
[SC09] パッチ待ちはもう古い!Windows 10 最新セキュリティ技術とゼロデイ攻撃攻防の実例
[SC09] パッチ待ちはもう古い!Windows 10 最新セキュリティ技術とゼロデイ攻撃攻防の実例[SC09] パッチ待ちはもう古い!Windows 10 最新セキュリティ技術とゼロデイ攻撃攻防の実例
[SC09] パッチ待ちはもう古い!Windows 10 最新セキュリティ技術とゼロデイ攻撃攻防の実例de:code 2017
 
[SC10] 自社開発モバイルアプリの DLP 対応化を Microsoft Intune で可能に
[SC10] 自社開発モバイルアプリの DLP 対応化を Microsoft Intune で可能に[SC10] 自社開発モバイルアプリの DLP 対応化を Microsoft Intune で可能に
[SC10] 自社開発モバイルアプリの DLP 対応化を Microsoft Intune で可能にde:code 2017
 
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装de:code 2017
 
[DI10] IoT を実践する最新のプラクティス ~ Azure IoT Hub 、SDK 、Azure IoT Suite ~
[DI10] IoT を実践する最新のプラクティス ~ Azure IoT Hub 、SDK 、Azure IoT Suite ~[DI10] IoT を実践する最新のプラクティス ~ Azure IoT Hub 、SDK 、Azure IoT Suite ~
[DI10] IoT を実践する最新のプラクティス ~ Azure IoT Hub 、SDK 、Azure IoT Suite ~de:code 2017
 
[AI03] AI × 導入の速さを武器に。 ” 人工知能パーツ ” Cognitive Services の使いどころ
[AI03] AI × 導入の速さを武器に。 ” 人工知能パーツ ” Cognitive Services の使いどころ[AI03] AI × 導入の速さを武器に。 ” 人工知能パーツ ” Cognitive Services の使いどころ
[AI03] AI × 導入の速さを武器に。 ” 人工知能パーツ ” Cognitive Services の使いどころde:code 2017
 
[SP04] これからのエンジニアに必要な「マネジメント」の考え方
[SP04] これからのエンジニアに必要な「マネジメント」の考え方[SP04] これからのエンジニアに必要な「マネジメント」の考え方
[SP04] これからのエンジニアに必要な「マネジメント」の考え方de:code 2017
 
[DO17] セゾン情報システムズの CTO 小野氏による、伝統的 Sier におけるモダン開発への挑戦
[DO17] セゾン情報システムズの CTO 小野氏による、伝統的 Sier におけるモダン開発への挑戦[DO17] セゾン情報システムズの CTO 小野氏による、伝統的 Sier におけるモダン開発への挑戦
[DO17] セゾン情報システムズの CTO 小野氏による、伝統的 Sier におけるモダン開発への挑戦de:code 2017
 
[DO13] 楽天のクラウドストレージ使いこなし術 Azure と OSS で少しずつ進めるレガシー脱却
[DO13] 楽天のクラウドストレージ使いこなし術 Azure と OSS で少しずつ進めるレガシー脱却[DO13] 楽天のクラウドストレージ使いこなし術 Azure と OSS で少しずつ進めるレガシー脱却
[DO13] 楽天のクラウドストレージ使いこなし術 Azure と OSS で少しずつ進めるレガシー脱却de:code 2017
 
[DO11] JOY, Inc. : あなたの仕事場での喜びは何ですか?
[DO11] JOY, Inc. : あなたの仕事場での喜びは何ですか?[DO11] JOY, Inc. : あなたの仕事場での喜びは何ですか?
[DO11] JOY, Inc. : あなたの仕事場での喜びは何ですか?de:code 2017
 
[DO08] 『変わらない開発現場』を変えていくために ~エンプラ系レガシー SIer のための DevOps 再入門~
[DO08] 『変わらない開発現場』を変えていくために ~エンプラ系レガシー SIer のための DevOps 再入門~[DO08] 『変わらない開発現場』を変えていくために ~エンプラ系レガシー SIer のための DevOps 再入門~
[DO08] 『変わらない開発現場』を変えていくために ~エンプラ系レガシー SIer のための DevOps 再入門~de:code 2017
 
[DO06] Infrastructure as Code でサービスを迅速にローンチし、継続的にインフラを変更しよう
[DO06] Infrastructure as Code でサービスを迅速にローンチし、継続的にインフラを変更しよう[DO06] Infrastructure as Code でサービスを迅速にローンチし、継続的にインフラを変更しよう
[DO06] Infrastructure as Code でサービスを迅速にローンチし、継続的にインフラを変更しようde:code 2017
 
[DO05] システムの信頼性を上げるための新しい考え方 SRE ( Site Reliability Engineering ) in Azure, o...
[DO05] システムの信頼性を上げるための新しい考え方 SRE ( Site Reliability Engineering ) in Azure, o...[DO05] システムの信頼性を上げるための新しい考え方 SRE ( Site Reliability Engineering ) in Azure, o...
[DO05] システムの信頼性を上げるための新しい考え方 SRE ( Site Reliability Engineering ) in Azure, o...de:code 2017
 
[DO04] アジャイル開発サバイバルガイド 〜キミが必ず直面する課題と乗り越え方を伝えよう!〜
[DO04] アジャイル開発サバイバルガイド 〜キミが必ず直面する課題と乗り越え方を伝えよう!〜[DO04] アジャイル開発サバイバルガイド 〜キミが必ず直面する課題と乗り越え方を伝えよう!〜
[DO04] アジャイル開発サバイバルガイド 〜キミが必ず直面する課題と乗り越え方を伝えよう!〜de:code 2017
 
[DO02] Jenkins PipelineとBlue Oceanによる、フルスクラッチからの継続的デリバリ
[DO02] Jenkins PipelineとBlue Oceanによる、フルスクラッチからの継続的デリバリ[DO02] Jenkins PipelineとBlue Oceanによる、フルスクラッチからの継続的デリバリ
[DO02] Jenkins PipelineとBlue Oceanによる、フルスクラッチからの継続的デリバリde:code 2017
 
[SP03] 「怠惰の美徳~言語デザイナーの視点から」
[SP03] 「怠惰の美徳~言語デザイナーの視点から」[SP03] 「怠惰の美徳~言語デザイナーの視点から」
[SP03] 「怠惰の美徳~言語デザイナーの視点から」de:code 2017
 
[SP02] Developing autonomous vehicles with AirSim
[SP02] Developing autonomous vehicles with AirSim[SP02] Developing autonomous vehicles with AirSim
[SP02] Developing autonomous vehicles with AirSimde:code 2017
 
[SP01] CTO が語る! 今注目すべきテクノロジー
[SP01] CTO が語る! 今注目すべきテクノロジー[SP01] CTO が語る! 今注目すべきテクノロジー
[SP01] CTO が語る! 今注目すべきテクノロジーde:code 2017
 

Plus de de:code 2017 (20)

[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
 
[AI10] ゲームキャラクターのための人工知能と社会への応用 ~ FINAL FANTASY XV を事例として ~
[AI10] ゲームキャラクターのための人工知能と社会への応用 ~ FINAL FANTASY XV を事例として ~[AI10] ゲームキャラクターのための人工知能と社会への応用 ~ FINAL FANTASY XV を事例として ~
[AI10] ゲームキャラクターのための人工知能と社会への応用 ~ FINAL FANTASY XV を事例として ~
 
[DO07] マイクロサービスに必要な技術要素はすべて Spring Cloud にある
[DO07] マイクロサービスに必要な技術要素はすべて Spring Cloud にある[DO07] マイクロサービスに必要な技術要素はすべて Spring Cloud にある
[DO07] マイクロサービスに必要な技術要素はすべて Spring Cloud にある
 
[SC09] パッチ待ちはもう古い!Windows 10 最新セキュリティ技術とゼロデイ攻撃攻防の実例
[SC09] パッチ待ちはもう古い!Windows 10 最新セキュリティ技術とゼロデイ攻撃攻防の実例[SC09] パッチ待ちはもう古い!Windows 10 最新セキュリティ技術とゼロデイ攻撃攻防の実例
[SC09] パッチ待ちはもう古い!Windows 10 最新セキュリティ技術とゼロデイ攻撃攻防の実例
 
[SC10] 自社開発モバイルアプリの DLP 対応化を Microsoft Intune で可能に
[SC10] 自社開発モバイルアプリの DLP 対応化を Microsoft Intune で可能に[SC10] 自社開発モバイルアプリの DLP 対応化を Microsoft Intune で可能に
[SC10] 自社開発モバイルアプリの DLP 対応化を Microsoft Intune で可能に
 
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
 
[DI10] IoT を実践する最新のプラクティス ~ Azure IoT Hub 、SDK 、Azure IoT Suite ~
[DI10] IoT を実践する最新のプラクティス ~ Azure IoT Hub 、SDK 、Azure IoT Suite ~[DI10] IoT を実践する最新のプラクティス ~ Azure IoT Hub 、SDK 、Azure IoT Suite ~
[DI10] IoT を実践する最新のプラクティス ~ Azure IoT Hub 、SDK 、Azure IoT Suite ~
 
[AI03] AI × 導入の速さを武器に。 ” 人工知能パーツ ” Cognitive Services の使いどころ
[AI03] AI × 導入の速さを武器に。 ” 人工知能パーツ ” Cognitive Services の使いどころ[AI03] AI × 導入の速さを武器に。 ” 人工知能パーツ ” Cognitive Services の使いどころ
[AI03] AI × 導入の速さを武器に。 ” 人工知能パーツ ” Cognitive Services の使いどころ
 
[SP04] これからのエンジニアに必要な「マネジメント」の考え方
[SP04] これからのエンジニアに必要な「マネジメント」の考え方[SP04] これからのエンジニアに必要な「マネジメント」の考え方
[SP04] これからのエンジニアに必要な「マネジメント」の考え方
 
[DO17] セゾン情報システムズの CTO 小野氏による、伝統的 Sier におけるモダン開発への挑戦
[DO17] セゾン情報システムズの CTO 小野氏による、伝統的 Sier におけるモダン開発への挑戦[DO17] セゾン情報システムズの CTO 小野氏による、伝統的 Sier におけるモダン開発への挑戦
[DO17] セゾン情報システムズの CTO 小野氏による、伝統的 Sier におけるモダン開発への挑戦
 
[DO13] 楽天のクラウドストレージ使いこなし術 Azure と OSS で少しずつ進めるレガシー脱却
[DO13] 楽天のクラウドストレージ使いこなし術 Azure と OSS で少しずつ進めるレガシー脱却[DO13] 楽天のクラウドストレージ使いこなし術 Azure と OSS で少しずつ進めるレガシー脱却
[DO13] 楽天のクラウドストレージ使いこなし術 Azure と OSS で少しずつ進めるレガシー脱却
 
[DO11] JOY, Inc. : あなたの仕事場での喜びは何ですか?
[DO11] JOY, Inc. : あなたの仕事場での喜びは何ですか?[DO11] JOY, Inc. : あなたの仕事場での喜びは何ですか?
[DO11] JOY, Inc. : あなたの仕事場での喜びは何ですか?
 
[DO08] 『変わらない開発現場』を変えていくために ~エンプラ系レガシー SIer のための DevOps 再入門~
[DO08] 『変わらない開発現場』を変えていくために ~エンプラ系レガシー SIer のための DevOps 再入門~[DO08] 『変わらない開発現場』を変えていくために ~エンプラ系レガシー SIer のための DevOps 再入門~
[DO08] 『変わらない開発現場』を変えていくために ~エンプラ系レガシー SIer のための DevOps 再入門~
 
[DO06] Infrastructure as Code でサービスを迅速にローンチし、継続的にインフラを変更しよう
[DO06] Infrastructure as Code でサービスを迅速にローンチし、継続的にインフラを変更しよう[DO06] Infrastructure as Code でサービスを迅速にローンチし、継続的にインフラを変更しよう
[DO06] Infrastructure as Code でサービスを迅速にローンチし、継続的にインフラを変更しよう
 
[DO05] システムの信頼性を上げるための新しい考え方 SRE ( Site Reliability Engineering ) in Azure, o...
[DO05] システムの信頼性を上げるための新しい考え方 SRE ( Site Reliability Engineering ) in Azure, o...[DO05] システムの信頼性を上げるための新しい考え方 SRE ( Site Reliability Engineering ) in Azure, o...
[DO05] システムの信頼性を上げるための新しい考え方 SRE ( Site Reliability Engineering ) in Azure, o...
 
[DO04] アジャイル開発サバイバルガイド 〜キミが必ず直面する課題と乗り越え方を伝えよう!〜
[DO04] アジャイル開発サバイバルガイド 〜キミが必ず直面する課題と乗り越え方を伝えよう!〜[DO04] アジャイル開発サバイバルガイド 〜キミが必ず直面する課題と乗り越え方を伝えよう!〜
[DO04] アジャイル開発サバイバルガイド 〜キミが必ず直面する課題と乗り越え方を伝えよう!〜
 
[DO02] Jenkins PipelineとBlue Oceanによる、フルスクラッチからの継続的デリバリ
[DO02] Jenkins PipelineとBlue Oceanによる、フルスクラッチからの継続的デリバリ[DO02] Jenkins PipelineとBlue Oceanによる、フルスクラッチからの継続的デリバリ
[DO02] Jenkins PipelineとBlue Oceanによる、フルスクラッチからの継続的デリバリ
 
[SP03] 「怠惰の美徳~言語デザイナーの視点から」
[SP03] 「怠惰の美徳~言語デザイナーの視点から」[SP03] 「怠惰の美徳~言語デザイナーの視点から」
[SP03] 「怠惰の美徳~言語デザイナーの視点から」
 
[SP02] Developing autonomous vehicles with AirSim
[SP02] Developing autonomous vehicles with AirSim[SP02] Developing autonomous vehicles with AirSim
[SP02] Developing autonomous vehicles with AirSim
 
[SP01] CTO が語る! 今注目すべきテクノロジー
[SP01] CTO が語る! 今注目すべきテクノロジー[SP01] CTO が語る! 今注目すべきテクノロジー
[SP01] CTO が語る! 今注目すべきテクノロジー
 

Dernier

スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 

Dernier (9)

スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 

[DI06] 並列分散処理の考え方とオープンソース分散処理系の動向

  • 1.
  • 2.
  • 3. Copyright©2017 NTT corp. All Rights Reserved. 分散並列処理の基本と 分散並列処理系の最近の動向について 小沢健史 NTT Software Innovation Center 2017/5/24
  • 4. 4Copyright©2017 NTT corp. All Rights Reserved. •小沢 健史(Ozawa Tsuyoshi) •Apache Hadoop Committer/PMC •Hadoop 徹底入門第2版 Chapter 22(YARN) •gihyo.jp “Hadoopはどのように動くのか” Hadoop,Tez,YARN 自己紹介
  • 5. 5Copyright©2017 NTT corp. All Rights Reserved. 分析で Excel・DB を 使っている方
  • 6. 6Copyright©2017 NTT corp. All Rights Reserved. •処理するデータがどんどん増える… •HDD からデータの読み込み → データ量に応じて時間がかかってしまう 困ったことはありませんか? 100MB 100GB 100TB 1秒 1000秒 (=16分半) 読み込みで1000000秒! (=約11日)
  • 7. 7Copyright©2017 NTT corp. All Rights Reserved. •処理するデータがどんどん増える… •HDD からデータの読み込み → データ量に応じて時間がかかってしまう 困ったことはありませんか? 100MB 100GB 100TB 1秒 10000秒 (=1分半) 読み込みで1000000秒! (=約11日)そこで並列処理!
  • 8. 8Copyright©2017 NTT corp. All Rights Reserved. •計算資源を並べることで速く処理すること •例 •HDD を10個並べる 並列処理 (Parallel processing) 100 MB/sec x 10個 = 最大1GB/sec
  • 9. 9Copyright©2017 NTT corp. All Rights Reserved. 並列処理の注意どころ (1) 並列処理の効果は処理依存 •ディスクI/Oの割合が 99% 99 1
  • 10. 10Copyright©2017 NTT corp. All Rights Reserved. 並列処理の注意どころ (1) 並列処理の効果は処理依存 •ディスクI/Oの割合が 99% 99 1 1 1 99倍 効果:50倍
  • 11. 11Copyright©2017 NTT corp. All Rights Reserved. 並列処理の注意どころ (1) 並列処理の効果は処理依存 •ディスクI/Oの割合が 99% 99 1 1 1 効果:50倍 99倍 •ディスクI/Oの割合が 50% 50 50 0.599倍 50
  • 12. 12Copyright©2017 NTT corp. All Rights Reserved. 並列処理の注意どころ (1) 並列処理の効果は処理依存 •ディスクI/Oの割合が 99% 99 1 1 1 99倍 •ディスクI/Oの割合が 50% 50 50 0.5 効果:約2倍 99倍 50 効果:50倍
  • 13. 13Copyright©2017 NTT corp. All Rights Reserved. 並列処理の注意どころ (2) 拡張性の限界 •値段的限界 L4 L8 L16 L32 $0.5 $1 $2 $4 https://azure.microsoft.com/en- us/pricing/details/virtual-machines/windows/
  • 14. 14Copyright©2017 NTT corp. All Rights Reserved. 並列処理の注意どころ (2) 拡張性の限界 •値段的限界 •物理的限界 一台の計算機に足せる ドライブ数に限界 L4 L8 L16 L32 $0.5 $1 $2 $4 https://azure.microsoft.com/en- us/pricing/details/virtual-machines/windows/
  • 15. 15Copyright©2017 NTT corp. All Rights Reserved. •故障確率が向上 •1日に1%の確率で1つのHDDが壊れると仮定 •64個ドライブのある計算機の場合, 1日に1つ以上ドライブが壊れる確率は 約48%=1 – (0.99 ** 64) 並列処理の注意どころ (3)
  • 16. 16Copyright©2017 NTT corp. All Rights Reserved. •性能向上率はワークロード次第 •拡張性に限界 •故障確率が向上 並列処理の注意どころ まとめ
  • 17. 17Copyright©2017 NTT corp. All Rights Reserved. •性能向上率はワークロード次第 •拡張性に限界 •故障確率が向上 並列処理の注意どころ まとめ 並列処理の特性
  • 18. 18Copyright©2017 NTT corp. All Rights Reserved. •性能向上率はワークロード次第 •拡張性に限界 •故障確率が向上 並列処理の注意どころ まとめ
  • 19. 19Copyright©2017 NTT corp. All Rights Reserved. •性能向上率はワークロード次第 •拡張性に限界 •故障確率が向上 並列処理の注意どころ まとめ そこで分散処理!
  • 20. 20Copyright©2017 NTT corp. All Rights Reserved. •複数の計算機をまたがって処理すること •目的は処理の高速化に限らない 分散処理 (Distributed processing)
  • 21. 21Copyright©2017 NTT corp. All Rights Reserved. •複数の計算機をまたがって処理すること •目的は処理の高速化に限らない •例 •異なる計算機2台に同じ計算をさせる → 故障しなかった方を採用 分散処理 (Distributed processing) 計算機1 計算機2 依頼主 投入
  • 22. 22Copyright©2017 NTT corp. All Rights Reserved. •複数の計算機をまたがって処理すること •目的は処理の高速化に限らない •例 •異なる計算機2台に同じ計算をさせる → 故障しなかった方を採用 分散処理 (Distributed processing) 計算機1 計算機2 故障 依頼主
  • 23. 23Copyright©2017 NTT corp. All Rights Reserved. •複数の計算機をまたがって処理すること •目的は処理の高速化に限らない •例 •異なる計算機2台に同じ計算をさせる → 故障しなかった方を採用 分散処理 (Distributed processing) 計算機1 計算機2 無事回答!依頼主
  • 24. 24Copyright©2017 NTT corp. All Rights Reserved. •データのコピーを複数持つ •目的 •データへアクセスできる確率を向上させるため •処理が無事に終わる確率を向上させるため 分散処理でよく行われること
  • 25. 25Copyright©2017 NTT corp. All Rights Reserved. •データのコピーを複数持つ •目的 •データへアクセスできる確率を向上させるため •処理が無事に終わる確率を向上させるため 分散処理でよく行われること 計算機1 計算機2 書き手 保存しといて データ
  • 26. 26Copyright©2017 NTT corp. All Rights Reserved. •データのコピーを複数持つ •目的 •データへアクセスできる確率を向上させるため •処理が無事に終わる確率を向上させるため 分散処理でよく行われること 計算機1 計算機2 書き手 コピー データ データ
  • 27. 27Copyright©2017 NTT corp. All Rights Reserved. •データのコピーを複数持つ •目的 •データへアクセスできる確率を向上させるため •処理が無事に終わる確率を向上させるため 分散処理でよく行われること 計算機1 計算機2 データ データ
  • 28. 28Copyright©2017 NTT corp. All Rights Reserved. •データのコピーを複数持つ •目的 •データへアクセスできる確率を向上させるため •処理が無事に終わる確率を向上させるため 分散処理でよく行われること 計算機1 計算機2 データ データ 故障
  • 29. 29Copyright©2017 NTT corp. All Rights Reserved. •データのコピーを複数持つ •目的 •データへアクセスできる確率を向上させるため •処理が無事に終わる確率を向上させるため 分散処理でよく行われること 計算機1 計算機2 データ データ 読み手 読みたい
  • 30. 30Copyright©2017 NTT corp. All Rights Reserved. •データのコピーを複数持つ •目的 •データへアクセスできる確率を向上させるため •処理が無事に終わる確率を向上させるため 分散処理でよく行われること 計算機1 計算機2 データ データ 読み手 成功! データ
  • 31. 31Copyright©2017 NTT corp. All Rights Reserved. 分散処理の注意どころ (1) 分散のためにオーバヘッドが発生 •1台にコピー •2台にコピー 通信量増大 書き手 計算機 書き手 計算機1 計算機2
  • 32. 32Copyright©2017 NTT corp. All Rights Reserved. •故障時のエラーハンドリング 分散処理の注意どころ (2) 書き手 計算機1 計算機2 データ
  • 33. 33Copyright©2017 NTT corp. All Rights Reserved. •故障時のエラーハンドリング 分散処理の注意どころ (2) 書き手 計算機1 計算機2 データ 書込要求
  • 34. 34Copyright©2017 NTT corp. All Rights Reserved. •故障時のエラーハンドリング 分散処理の注意どころ (2) 書き手 計算機1 計算機2 データ 書込応答 応答なし
  • 35. 35Copyright©2017 NTT corp. All Rights Reserved. •故障時のエラーハンドリング 分散処理の注意どころ (2) 書き手 計算機1 計算機2 データ 過負荷で 書き込みに失敗
  • 36. 36Copyright©2017 NTT corp. All Rights Reserved. •故障時のエラーハンドリング 分散処理の注意どころ (2) 計算機1 計算機2 データ
  • 37. 37Copyright©2017 NTT corp. All Rights Reserved. •故障時のエラーハンドリング 分散処理の注意どころ (2) 計算機1 計算機2 データ 読み手
  • 38. 38Copyright©2017 NTT corp. All Rights Reserved. •故障時のエラーハンドリング 分散処理の注意どころ (2) 計算機1 計算機2 データ 読み手 過負荷で アクセスできず 読込要求
  • 39. 39Copyright©2017 NTT corp. All Rights Reserved. •故障時のエラーハンドリング 分散処理の注意どころ (2) 計算機1 計算機2 データ 読み手 過負荷で アクセスできず データがないように 見える!
  • 40. 40Copyright©2017 NTT corp. All Rights Reserved. •故障時のエラーハンドリング 分散処理の注意どころ (2) 計算機1 計算機2 データ 読み手 過負荷で アクセスできず データがないように 見える! 自分でケアするのは大変
  • 41. 41Copyright©2017 NTT corp. All Rights Reserved. •故障時のエラーハンドリング 分散処理の注意どころ (2) 計算機1 計算機2 データ 読み手 過負荷で アクセスできず データがないように 見える! とても大変!
  • 42. 42Copyright©2017 NTT corp. All Rights Reserved. •故障時のエラーハンドリング 分散処理の注意どころ (2) 計算機1 計算機2 データ 読み手 過負荷で アクセスできず データがないように 見える! そこで 並列分散処理 基盤
  • 43. 43Copyright©2017 NTT corp. All Rights Reserved. 並列処理と分散処理を組み合わせた処理基盤 → 高速に,故障を意識せずに使える! 並列分散処理基盤
  • 44. 44Copyright©2017 NTT corp. All Rights Reserved. •データを溜めるファイルシステム データを処理する処理系 •Spark/MapReduce + HDFS など •データベース •SQL Server・Amazon Redshift など 最近の並列分散処理基盤 の組み合わせ
  • 45. 45Copyright©2017 NTT corp. All Rights Reserved. なぜFSとDBは分かれているか?
  • 46. 46Copyright©2017 NTT corp. All Rights Reserved. なぜFSとDBは分かれているか? 大量のデータを永続的に格納する手段としては,(中略) OS により提供されるファイルがある. しかし,ファイルシステムには(中略)問題点があり,こ れらがデータベースの開発の動機となっている. データベースシステム・北川博之著 p.2-p.3 より抜粋
  • 47. 47Copyright©2017 NTT corp. All Rights Reserved. なぜFSとDBは分かれているか? 大量のデータを永続的に格納する手段としては,(中略) OS により提供されるファイルがある. しかし,ファイルシステムには(中略)問題点があり,こ れらがデータベースの開発の動機となっている. データベースシステム・北川博之著 p.2-p.3 より抜粋 思想から異なる
  • 48. Copyright©2017 NTT corp. All Rights Reserved. ファイルシステムベース の並列分散処理基盤
  • 49. 49Copyright©2017 NTT corp. All Rights Reserved. •処理系を柔軟に変更可能 ファイルシステムベースの処理系の利点 ファイルシステム 処理系1 処理系2
  • 50. 50Copyright©2017 NTT corp. All Rights Reserved. •処理系を柔軟に変更可能 Hadoop エコシステムで起きていること FileSystem API Spark HDFS MapReduce
  • 51. 51Copyright©2017 NTT corp. All Rights Reserved. •処理系を柔軟に変更可能 Hadoop エコシステムで起きていること FileSystem API Spark HDFS MapReduce
  • 52. 52Copyright©2017 NTT corp. All Rights Reserved. •処理系を柔軟に変更可能 Hadoop エコシステムで起きていること FileSystem API Spark HDFS MapReduce Azure Data Lake Store Amazon S3
  • 53. 53Copyright©2017 NTT corp. All Rights Reserved. •処理系を柔軟に変更可能 •ファイルシステムの実装が変更可能に → クラウドとの相性良い Hadoop エコシステムで起きていること FileSystem API Spark HDFS MapReduce Azure Data Lake Store Amazon S3
  • 54. 54Copyright©2017 NTT corp. All Rights Reserved. •処理系とファイルシステムが疎結合 →最適化度合いが限定的 ファイルシステムベースの処理系の欠点 FileSystem API Spark HDFS MapReduce Azure Data Lake Store Amazon S3
  • 55. 55Copyright©2017 NTT corp. All Rights Reserved. •処理系とファイルシステムが疎結合 →最適化度合いが限定的 ファイルシステムベースの処理系の欠点 FileSystem API Spark HDFS MapReduce Azure Data Lake Store Amazon S3
  • 56. 56Copyright©2017 NTT corp. All Rights Reserved. •処理系とファイルシステムが疎結合 →最適化度合いが限定的 ファイルシステムベースの処理系の欠点 FileSystem API Spark HDFS MapReduce Azure Data Lake Store Amazon S3 最適化のために やりとりできる 情報が 限られる
  • 57. Copyright©2017 NTT corp. All Rights Reserved. 代表的な処理系 MapReduce と Spark
  • 58. 58Copyright©2017 NTT corp. All Rights Reserved. •データを分散ファイルシステムから読む MapReduce FileSystem API HDFS MapReduce Azure Data Lake Store Amazon S3 読出
  • 59. 59Copyright©2017 NTT corp. All Rights Reserved. •データを分散ファイルシステムから読む •ユーザが指定した処理をする MapReduce FileSystem API HDFS MapReduce Azure Data Lake Store Amazon S3 処理
  • 60. 60Copyright©2017 NTT corp. All Rights Reserved. •データを分散ファイルシステムから読む •ユーザが指定した処理をする •分散ファイルシステムに結果を書き出し MapReduce FileSystem API HDFS MapReduce Azure Data Lake Store Amazon S3 書出
  • 61. 61Copyright©2017 NTT corp. All Rights Reserved. •基本は同じ Spark FileSystem API HDFS Azure Data Lake Store Amazon S3 Spark 読出
  • 62. 62Copyright©2017 NTT corp. All Rights Reserved. •基本は同じ Spark FileSystem API HDFS Azure Data Lake Store Amazon S3 Spark 処理
  • 63. 63Copyright©2017 NTT corp. All Rights Reserved. •基本は同じ •毎回も書き出さずに,Spark の世界の中で 最適化されたデータ形式で保持が可能 Spark FileSystem API HDFS Azure Data Lake Store Amazon S3 Spark 結果 保持
  • 64. 64Copyright©2017 NTT corp. All Rights Reserved. •基本は同じ •毎回も書き出さずに,Spark の世界の中で 最適化されたデータ形式で保持が可能 •最終的には書出 Spark FileSystem API HDFS Azure Data Lake Store Amazon S3 Spark 書出
  • 65. Copyright©2017 NTT corp. All Rights Reserved. データベース
  • 66. 66Copyright©2017 NTT corp. All Rights Reserved. •データ処理とデータ保持部が密結合 データベース 保持部 処理部 データベース
  • 67. 67Copyright©2017 NTT corp. All Rights Reserved. •密結合により,最適化がしやすい •プログラミングしやすい特性(ACID)をもつ データベースの利点 保持部 処理部 データベース
  • 68. 68Copyright©2017 NTT corp. All Rights Reserved. •スキーマ(型情報)を予め定義し、それを 並列処理のヒント情報として利用 •分析用DBの場合、列数がかなり多い傾向(30以上) 分析用データベースの概要
  • 69. 69Copyright©2017 NTT corp. All Rights Reserved. •スキーマ(型情報)を予め定義し、それを 並列処理のヒント情報として利用 •分析用DBの場合、列数がかなり多い傾向(30以上) →列方向にデータを分割 必要な列のみにアクセス 分析用データベースの概要
  • 70. 70Copyright©2017 NTT corp. All Rights Reserved. •スキーマ(型情報)を予め定義し、それを 並列処理のヒント情報として利用 •分析用DBの場合、列数がかなり多い傾向(30以上) →列方向にデータを分割 必要な列のみにアクセス 分析用データベースの概要 userId username project … 1 Tsuyoshi Hadoop … 2 Neo Azure … … … … …
  • 71. 71Copyright©2017 NTT corp. All Rights Reserved. •スキーマ(型情報)を予め定義し、それを 並列処理のヒント情報として利用 •分析用DBの場合、列数がかなり多い傾向(30以上) →列方向にデータを分割 必要な列のみにアクセス 分析用データベースの概要 userId username project … 1 Tsuyoshi Hadoop … 2 Neo Azure … … … … … 計算機1
  • 72. 72Copyright©2017 NTT corp. All Rights Reserved. •スキーマ(型情報)を予め定義し、それを 並列処理のヒント情報として利用 •分析用DBの場合、列数がかなり多い傾向(30以上) →列方向にデータを分割 必要な列のみにアクセス 分析用データベースの概要 userId username project … 1 Tsuyoshi Hadoop … 2 Neo Azure … … … … … 計算機1 計算機2
  • 73. 73Copyright©2017 NTT corp. All Rights Reserved. •スキーマ変更をする際にはシステムが しばらく停止しうる → データの移動を伴うため 分析用データベースの注意どころ
  • 74. 74Copyright©2017 NTT corp. All Rights Reserved. •スキーマが激しく変化する •クエリの変化が激しい → MapReduce や Spark など ファイルシステムベースの処理系 •スキーマ変化がまれ •性能要求が非常に高い •クエリがある程度決まっている → データベース FSベース処理系/データベースの使い分け
  • 75. 75Copyright©2017 NTT corp. All Rights Reserved. •NTT DATA の例 MapReduce/データベースの使い分け 秒 分 時間 日 Big Data Processing 応 答 時 間 Size Online Processing GB TB PB Online Batch Processing データ ベース 分析データベース Hadoop/ Spark Query & Search Processing Enterprise Batch Processing
  • 76. Copyright©2017 NTT corp. All Rights Reserved. 最近の動向
  • 77. 77Copyright©2017 NTT corp. All Rights Reserved. •処理速度に対する要求の多様化 •ミドルウェアの増加からくるデータ同期の複雑化 最近の動向 : Hadoop への不満からくる改善
  • 78. 78Copyright©2017 NTT corp. All Rights Reserved. •処理速度に対する要求の多様化 →特化した処理系が出てきた •ミドルウェアの増加からくるデータ同期の複雑化 → ハブを担うミドルウェアが出てきた 最近の動向 : Hadoop への不満からくる改善
  • 79. 79Copyright©2017 NTT corp. All Rights Reserved. •超巨大なバッチ処理が「安定して動けば良い」 処理速度に対する要求の多様化
  • 80. 80Copyright©2017 NTT corp. All Rights Reserved. •超巨大なバッチ処理が「安定して動けば良い」 → もっと色々やりたい! 処理速度に対する要求の多様化
  • 81. 81Copyright©2017 NTT corp. All Rights Reserved. •速く結果を受け取って,試行錯誤やアクションの 回数を増やしたい 処理速度に対する要求の多様化 インタラクティブ クエリ系 • Apache Impala • Presto • Hive(LLAP)
  • 82. 82Copyright©2017 NTT corp. All Rights Reserved. •深層学習を高速に動作させたい 処理速度に対する要求の多様化 インタラクティブ クエリ系 • Apache Impala • Presto • Hive(LLAP) 深層学習特化 • TensorFlow • MXNet • CNTK • Chainer
  • 83. 83Copyright©2017 NTT corp. All Rights Reserved. •バッチではなく,ストリーミング処理を 高速に動作させたい 処理速度に対する要求の多様化 インタラクティブ クエリ系 • Apache Impala • Presto • Hive(LLAP) 深層学習特化 • TensorFlow • MXNet • CNTK • Chainer ストリーミング 処理系 • Apache Storm • Spark Streaming
  • 84. 84Copyright©2017 NTT corp. All Rights Reserved. •ワークロードによる使い分けが普通に 処理速度に対する要求の多様化 インタラクティブ クエリ系 • Apache Impala • Presto • Hive(LLAP) 深層学習特化 • TensorFlow • MXNet • CNTK • Chainer ストリーミング 処理系 • Apache Storm • Spark Streaming
  • 85. 85Copyright©2017 NTT corp. All Rights Reserved. •ワークロードによる使い分けが普通に 処理速度に対する要求の多様化 インタラクティブ クエリ系 • Apache Impala • Presto • Hive(LLAP) 深層学習特化 • TensorFlow • MXNet • CNTK ストリーミング 処理系 • Apache Storm • Spark Streaming データ同期が 大変に…
  • 86. 86Copyright©2017 NTT corp. All Rights Reserved. •実際の運用の中で,処理系やサービスの間で データの同期を複雑に行う必要 ミドルウェアの増加に伴う同期複雑化 推薦エンジン 分析DB Hadoop 検索エンジン
  • 87. 87Copyright©2017 NTT corp. All Rights Reserved. •実際の運用の中で,処理系やサービスの間で データの同期を複雑に行う必要 ミドルウェアの増加に伴う同期複雑化 推薦エンジン 分析DB Hadoop メール通知
  • 88. 88Copyright©2017 NTT corp. All Rights Reserved. •実際の運用の中で,処理系やサービスの間で データの同期を複雑に行う必要 ミドルウェアの増加に伴う同期複雑化 推薦エンジン 分析DB Hadoop メール通知 そこで Apache Kafka
  • 89. 89Copyright©2017 NTT corp. All Rights Reserved. •データの「ハブ」の役割 •分散並列の特性を上手く利用し ボトルネックにならないよう設計されている Apache Kafka 推薦エンジン 分析DB Hadoop メール通知 Apache Kafka
  • 90. 90Copyright©2017 NTT corp. All Rights Reserved. •並列処理 •分散処理 •MapReduce系統の処理の特徴 •データベースの特徴 •最近の動向 まとめ
  • 91. 91Copyright©2017 NTT corp. All Rights Reserved. •並列処理 •分散処理 •MapReduce系統の処理の特徴 •データベースの特徴 •最近の動向 まとめ
  • 92. 92Copyright©2017 NTT corp. All Rights Reserved. •並列処理 •分散処理 •MapReduce系統の処理の特徴 •データベースの特徴 •最近の動向 まとめ さいごに
  • 93. 93Copyright©2017 NTT corp. All Rights Reserved. •並列処理 •分散処理 •MapReduce系統の処理の特徴 •データベースの特徴 •最近の動向 まとめ 分散並列処理が身近に なってきた
  • 94. 94Copyright©2017 NTT corp. All Rights Reserved. •並列処理 •分散処理 •MapReduce系統の処理の特徴 •データベースの特徴 •最近の動向 まとめ 何が何でも 分散処理?
  • 95. 95Copyright©2017 NTT corp. All Rights Reserved. •並列処理 •分散処理 •MapReduce系統の処理の特徴 •データベースの特徴 •最近の動向 まとめ 何が何でも 分散処理?
  • 96. 96Copyright©2017 NTT corp. All Rights Reserved. •並列処理 •分散処理 •MapReduce系統の処理の特徴 •データベースの特徴 •最近の動向 まとめ 効果が出るかは 問題次第
  • 97. 97Copyright©2017 NTT corp. All Rights Reserved. •並列処理 •分散処理 •MapReduce系統の処理の特徴 •データベースの特徴 •最近の動向 まとめ 上手く使いこなして ビジネスの役に 立ててください
  • 98. 98Copyright©2017 NTT corp. All Rights Reserved. •並列処理 •分散処理 •MapReduce系統の処理の特徴 •データベースの特徴 •最近の動向 まとめ エンジニアの みなさまの力量に かかっています!
  • 99. Azure HDInsight 佐藤 直生 (NEO) - @satonaoki
  • 100. データソース アプリ センサー/ デバイス 人 モバイル アプリ 自律 システム インテリジェンス データの管理 データの蓄積 データの分析 データの予知 データの可視化 • 多様な種類、 サイズの データ蓄積 • PB クラスの データに 対するデータ ウエアハウス • 機械学習 • Spark ベース の分析 • Hadoop Map Reduce 活用 • リアルタイム・ イベント処理 • ダッシュボード データ アクション • オンプレミス/ クラウド間、 クラウド間の データ移動 • クラウド上に 蓄積した データの管理 • データ/メッセージ ストリームの 処理 • ディープ ラーニング • ボット • AI
  • 102. 分析 ストレージ Azure HDInsight Machine Learning Azure Blob Storage または Azure Data Lake Store
  • 103.
  • 104.
  • 105.
  • 106. REALTIME ANALYTICS BATCH ANALYTICS INTERACTIVE ANALYTICS Data Sources Ingest Prepare (normalize, clean, etc.) Analyze (stat analysis, ML, etc.) Publish (for programmatic consumption, BI/visualization) Consume (Alerts, Operational Stats, Insights) Machine Learning (Spark + Azure ML) (Failure and RCA Predictions) HDI + ISVs OLAP for Data Warehousing HDI Custom ETL Aggregate /Partition Big Data Storage PowerBI dashboard Hive, Spark processing (Big Data Processing) Big Data Storage (Shared with field Ops, customers, MIS, and Engineers) Realtime Machine Learning (Anomaly Detection) Azure Data Lake Store CosmosDB Azure Blob Storage CosmosDB HDI + ISVs OLAP for Data Warehousing
  • 107. セッションアンケートにご協力ください ➢ 専用アプリからご回答いただけます。 decode 2017 ➢ スケジュールビルダーで受講セッションを 登録後、アンケート画面からご回答ください。 ➢ アンケートの回答時間はたったの 15 秒です!
  • 108. Ask the Speaker のご案内 本セッションの詳細は『Ask the Speaker Room』各コーナーカウンタにて ご説明させていただきます。是非、お立ち寄りください。
  • 109. © 2017 Microsoft Corporation. All rights reserved. 本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。