SlideShare a Scribd company logo
1 of 58
Download to read offline
(C) Recruit Technologies Co.,Ltd. All rights reserved.
ビッグデータ処理データベースの
全体像と使い分け
2016/7/15
株式会社リクルートテクノロジーズ
ビッグデータ部
渡部徹太郎
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department自己紹介
{"ID" :"fetaro",
"名前":"渡部 徹太郎",
"所属":"リクルートテクノロジーズ ビッグデータ部"
"研究":"東京工業大学で情報検索の研究(日本データベース学会)"
"仕事":{前職:["証券会社のWeb基盤",
"オープンソース全般,主にMongoDB,NoSQL"],
現職:["リクルート横断のデータ分析基盤,
"ExadataとHadoopの両刀使い"]}
"エディタ":"emacs派"
"趣味" :"自宅サーバ"
"属性" : ["ギーク","スーツ"]}
1
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department発表をしようと思った背景
 ビッグデータ処理技術がありすぎる
2
DynamoDB
Kinesis
EMR
Redshift
BigQuery
Oracle
Exadata
Impala
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department発表をしようと思った背景
 リクルートのサービスはたくさんある
 日々次々と新しいサービスが生まれる
 ケースドリブンで最適なもの最速で提供する必要がある
 →いろいろな技術を知る必要がある!
3
・・・100以上のサービス
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department本発表の目的
 ビッグデータのデータベースのニュースを見た時に、
 「どの辺」のデータベースか分かるようにする
 ベンダの誇大広告を見抜けるようにする
4
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentアジェンダ
 ビッグデータ処理データベースの分類
 各分類と代表製品の説明
 その他のビッグデータキーワードの説明
 Spark/Elastic Search/マイクロバッチ/インメモリデータグリッド/グ
ラフDB/
 ブロックチェーン/分散OLTP 急遽追加!
 リクルートテクノロジーズ ビッグデータ部における
データベース使い分け
 まとめ
5
(C) Recruit Technologies Co.,Ltd. All rights reserved.
ビッグデータ処理データベースの分類
6
目標到達時間 13:03
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータベースを分類する軸:重視する性能
7
 レスポンスを重視 →主にオペレーション用途
 スループットを重視 →主に分析用途
アプリケーションサーバ
オペレーション
用途
データベース
登録画面
参照画面
編集画面
マスタ
データベース
BIツール
分析用途
データベース
レポート生成ジョブCSV レポート
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータベースを分類する軸:性能拡張方式
 データベースの代表的なボトルネックを解消
 ディスクIO
 CPU
 ネットワーク帯域
 共有リソースの開放待ち
 ネットワークラウンドトリップ
8
スケールアップ
集約
スケールアウト
分散
app app app app app appapp app app
一般的なハードウェアを複
数並べて並列処理
単一HWハードウェアを強化
性能限界
CPU↑
ディスク↑
NW↑
 データベースの性能拡張方式
←主にこの辺のボトルネックを解消
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータベースの分類
9
DB
( ) )
Hadoop
RDB(OLTP)
KVS
/
/
RDB(DWH)
NoSQLと
呼ばれている
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
DB
データベースの分類
10
( ) )
RDB(OLTP)
KVS
RDB(DWH)
DynamoDB
BigQuery
Exadata Redshift
EMR
Hadoop
Exadata
(C) Recruit Technologies Co.,Ltd. All rights reserved.
各分類と代表製品の説明
11
目標到達時間 13:10
(C) Recruit Technologies Co.,Ltd. All rights reserved.
スケールアップ型RDB(DWH)
12
DB
Hadoop
RDB(OLTP)
KVS
RDB(DWH)
スケールアウト
スケールアップ
オペレーション 分析
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
オンプレ サービス
アプライアンス ソフトウェア
スケールアップ型RDB(DWH)
 ひとことで言うと
 データの抽出・集計に特化したRDB
 アーキテクチャの特徴
1. データをパーティショニングして複数ディスクから同時に読む
(製品によっては)ハードウェアを最適化して、アプライアンスとして提供
2. 列志向で圧縮してデータ格納
13
Redshift
Exadata
DB
Hadoop
RDB(OLTP)
KVS
RDB(DWH)
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
ストレージノード ストレージノード ストレージノード
スケールアップ型RDB(DWH)
 データをパーティショニングして複数ディスクから同時に読む
(製品によっては)ハードウェアを最適化して、アプライアンス
14
データベースノード
HDD
SSD
絞込み処理
HDD
HDD HDD
HDD
SSD
絞込み処理
HDD
HDD HDD
HDD
SSD
絞込み処理
HDD
HDD HDD
データベースノード
CPU
WHERE句を解釈し、
読み込むブロックを最小化
ディスクIOを削減
キャッシュして
ディスクIOを削減
CPUを多数搭載し、CPUボト
ルネックを軽減
40Gbpsのラック内SANによりネッ
トワークボトルネックを軽減
CPU CPUCPU CPU CPU
40G bps
Oracle Exadataの例
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentスケールアップ型RDB(DWH)
 列志向で圧縮してデータ格納
15
ID=2
1 1982年生男 2 1967年生女 3 2000年生女 4 2000年男
1 2 3 4
index
ID=2
1 1982年生
2 1967年生
3 2000年生
4 2000年生
男
女
女
男
ID 年齢性別
性別
男 女
1男 4 女 1982年生 1967年生 2000年生1 2 3 42 3
年齢
1982年生 1967年生 2000年生
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentスケールアップ型RDB(DWH)
 処理イメージ
 レスポンス:数秒、数分
 データサイズ:直近13ヶ月(1T〜数10T)
 計算:SQLベース
 ユースケース
 自由検索
 レポート
 BIツールのデータソース
 苦手なこと
 データの更新(INSET,UPDATE,DELETE)は非常に遅い
 トランザクションも遅い
16
(C) Recruit Technologies Co.,Ltd. All rights reserved.
スケールアウト型RDB(DWH)
17
DB
Hadoop
RDB(OLTP)
KVS
RDB(DWH)
スケールアウト
スケールアップ
オペレーション 分析
目標到達時間 13:17
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
Hadoop系 独自
オンプレ サービス
スケールアウト型RDB(DWH)
 ひとことで言うと
 SELECTしか提供しないRDB
 アーキテクチャの特徴
 SQLライクなクエリを提供
 INSERT, UPDATE, DELETEはない
 トランザクションを提供しない
 データの書き込みは一括ロードおよび全件削除のみ
18
BigQueryImpala
+
→
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department伝えたいこと
 RDBやSQLだから分散できないわけではない
 整合性を保った更新(トランザクション)は処理の並列数を上げにくい
 スキーマレスとスケールアウトは関係ない
 スキーマがある(リレーショナルデータ)でも、単一ノードで処理されるのであれ
ばスケールアウトする
 JOINやSORTはスケールアウトは難しい
 単一ノードで完結できないため、どんなデータベースであっても難しい
 ブログ「RedShiftよりもBigQueryが速い!」
→戦う相手が違う
19
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Hadoop
20
DB
Hadoop
RDB(OLTP)
KVS
RDB(DWH)
スケールアウト
スケールアップ
オペレーション 分析
目標到達時間 13:20
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentHadoop
 ひとことで言うと
 分散したファイルに、様々
な分散処理をできるソフト
ウェア群
 アーキテクチャの特徴
 データはファイル
 ストレージと処理が分離
 途中でノードがダウンして
も処理を継続
2121
分散ファイルシステム
分散処理エンジン
ABC
A B C
クライアント
計算
ノード
計算
ノード
計算
ノード
コーディネータ
計算
結果
プログラム
プログラム
クライアント
プログラムプログラム
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentHadoop
22
プロダクト 分散ファイルシ
システム
分散処理エンジン
オン
プレ
OSSベースでいろいろ使
る
MapR-FS
サー
ビス
?
EMR S3
Impala
Cloud
Dataproc
GCS
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentHadoop
 処理のイメージ
 レスポンス:数十分〜数時間
 データサイズ:全データ(10T〜数P)
 計算:分散できる計算なら何でも
 ユースケース
 長期的なビジネストレンド分析
 RDB(DWH)に入れる前のデータ加工
 機械学習によるクラスタリング、レコメンド
 分散自然言語処理
23
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentHadoop
 クラウドのHadoop
 分散処理エンジンとストレージの分離
 計算ノードの台数を即時増減可能
 クラスタは使った分だけ払えば良い
24
core core core
HDFS(MapR-FS) S3
Master
データ データ
コンテナ
データ データ
コンテナ
データ データデータ データ
core
コンテナ
Master
コンテナ
core
コンテナ
core
コンテナ
Hadoop EMR
NEWNEW
データ移動
が必要
データ移動
不要
0:00 12:00 0:00 12:00
ク
ラ
ス
タ
起
動
台
数
オンプレ
クラウド
計算に必要なリソース
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentHadoop
 Hadoopでも列志向を活用
 Hadoopは通常ファイルをデータとして扱う
• CSVのイメージ
 ファイルの中身を列志向に変えることで、さらなる抽出速度の向上ができ
る
• ORC(列持ちフォーマット) + Snappy(圧縮)
(C) Recruit Technologies Co.,Ltd. All rights reserved.
KVS
26
DB
Hadoop
RDB(OLTP)
KVS
RDB(DWH)
スケールアウト
スケールアップ
オペレーション 分析
目標到達時間 13:25
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentKVS
 ひとことで言うと
 分散して、シンプルなオペレーションができるデータベース
 アーキテクチャの特徴
 RDB(OLTP)とは異なり、
以下の2つによりスケーラビリティを獲得
1. 「強い整合性」を犠牲にして「結果整合性」を採用
2. 分散しやすいデータモデルと、分散しやすいクエリだけを提供する 27
データモデル キーバリュー ワイドカラム
データ構造
オンプレ
クラウド
ElastiCache
DynamoDB
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentKVS
 整合性を保証するとスケールアウトが困難
 整合性を緩めればスケールアウトできる
28
アプリケーション アプリケーション
アプリケーション
アプリケーション
待たされ
る
A B C
分散トランザクションで
アプリケーション
待たされ
る
待たされる
アプリケーション
→ →
A B C
アプリケーション
アプリケーション
アプリケーション
アプリケーション
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentKVS
 KVS
29
分散ファイルシステム
(HDFS等)
分散処理フレームワーク
(MapReduce, Spark等)
ABC
A B C
クライアント
計算
ノード
計算
ノード
計算
ノー
コーディネータ
計算
結果
プログラム
プログラム
クライアント
プログラムプログラム
KVS/ドキュメントDB
シャード シャード シャード
A
クエリルータ
B C
アプリケー
ション2
アプリケー
ション1
 Hadoop
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentKVS
 分散しやすいデータモデル
 データ間の参照関係を定義させない
 分散しやすいクエリ
 一つのデータでクエリが完結するようにする
• トランザクションを提供しない
• (トランザクショナルな)JOINを提供しない
30
ユーザ1
取引1
取引2
ユーザ1 取引1
取引2
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentKVS
 ユースケース
 大規模Webのバックエンド
• ユーザセッションの格納
• ユーザ属性格納
• 事前計算データのキャッシュ
 メッセージングシステム
 大量書き込みが必要なケース(IoT)
 できないこと
 トランザクション
 集計
 JOIN
 セカンダリインデックスが無いものもある
31
(C) Recruit Technologies Co.,Ltd. All rights reserved.
ドキュメントDB
32
DB
Hadoop
RDB(OLTP)
KVS
RDB(DWH)
スケールアウト
スケールアップ
オペレーション 分析
目標到達時間 13:30
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
オン
プレ
クラ
ウド
ドキュメントDB
33
 ひとことで言うと
 KVSよりもクエリが豊富で使いやすい
 アーキテクチャ上の特徴
 データモデルにJSONを扱う
 集計を提供している物が多い
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentドキュメントDB
 分散処理を活かしたユースケース
 大規模Webのバックエンド
 オンラインゲーム
 カタログ管理
 JSONを使いたいだけのユースケース ←日本ではこちらが多い
 プロトタイプ開発
 データハブ
 JSONログ保管
34
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department伝えたいこと
 ドキュメントDBの集計機能は「おまけ」!
 小規模データの同期集計はできるが、バッチには不向き
 BIベンダはドキュメントDBは相手にしていない
 ベンダ
「ACIDトランザクションを提供するドキュメントDBです!」
 →何かを犠牲にしています
 非構造データ処理と半構造データ処理は違う
 半構造データ=JSON,XML
 非構造データ=自然言語、音声、画像、動画 →パーサー次第
35
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department伝えたいこと NoSQLはバズワード
 NoSQL ≠ スキーマレス
 スキーマ定義が必須
 ドキュメントバリデーション機能あり
 NoSQL ≠ SQLが使えない
 SQLライクなクエリ言語を採用しているNoSQL
 NoSQL ≠ 分散処理
 JSONが入るRDB
36
(C) Recruit Technologies Co.,Ltd. All rights reserved.
その他のビッグデータキーワードの説明
37
目標到達時間 13:35
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentSpark
 データサイエンティストのために作られた分析ライブラリ群
 Hadoopが無くても動く
 データベースではない
 データ蓄積はHadoopのHDFSでもよいし、そうでなくても良い
 以下の様なものが含まれる
 Spark 本体 :メモリベースで集計などをする
 Spark MLLib:機械学習
 Spark SQL:SQLライクなインターフェース
 Spark Stream:マイクロバッチ
38
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentマイクロバッチ
 続々と流れてくるデータに対して、短い期間で集計を行う処理
 データベースではない。データを永続化しない。
 使いドコロ
 初回来訪者の属性推定
 デバイス異常値検出
39
Kinesis
Analytics
Kinesis
Streams
マイクロバッチ
マイクロバッチ
PUB
(出版)
SUB
(購読)
分散キュークライアント
クライアント
クライアント
クライアント
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
ディスク
ディスク
インメモリデータグリッド
 KVSに似ているが、アプリケーションのローカルに置かれるキャッシュ
 メモリ上での処理を前提として、永続化はオプション
 ユースケース
 金融の取引処理
 ミリ秒以下の応答時間
40
Javaアプリ インメモリDB
Javaアプリ インメモリDB
メモリ
同期
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentElasticsearch
 検索エンジン
 ドキュメントデータベースに非常に近い
 JSONが入る
 レプリケーションできる
 シャーディング出来る
 ドキュメントデータベースとの違い
 Kibanaと連携できる
 全文検索が強力
 かなり集計できる
41
Elasticsearch Service
Kibana
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentグラフDB
 グラフ演算に特化したDB
 RDB以上にスケールアウトできない
 ユースケース
 最短経路探索
 金融取引の詐欺検出
 ソーシャルネットワークにおける人物間の計算
 RDBだとJOINの多重入れ子になるような計算
42
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department【急遽追加!】ブロックチェーン
 分散KVS
 台帳をP2Pで共有
 トランザクション提供
 コミットは、因数分解を最初に説いた人がみんなのトランザクションをまと
めてコミット
→つまり非常に遅い
43
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department【急遽追加!】分散OLTP
 今朝の神林さんの発表を聞いて急遽追加
 10万TPS
 前提とするHW:1000コア、10TBメモリ、高速バス
 既存のRDB(OLTP)とはアーキテクチャが異なる
44
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータベースの分類 追記版
45
DB
(
)
)
RDB(OLTP)
KVS
ElasticSearch
Hadoop
RDB(DWH)
OLTP
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータベースの分類
46
DB
( ) )
RDB(OLTP)
KVS
RDB(DWH)
DynamoDB
BigQuery
Exadata
EMR
Hadoop
Kinesis
ブランド
Redshift
OLTP
Exadata
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department伝えたいこと
 IoTのデバイスログ収集はKVSが最適ではない
 書き込みは多いが、オペレーショナルではないため
 やりたいことは分析
 IoTはデバイスログ収集は
マイクロバッチ + Hadoop or RDB(DWH) が最適
47
(C) Recruit Technologies Co.,Ltd. All rights reserved.
リクルートテクノロジーズ ビッグデータ部における使い分け
48
目標到達時間 13:45
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentリクルートテクノロジーズ ビッグデータ部での活用
49
DB
( ) )
RDB(OLTP)
KVS
RDB(DWH)
DynamoDB
BigQuery
Exadata
EMR
Hadoop
DB
Kinesis
ブランド
Redshift
OLTP
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentリクルートテクノロジーズ ビッグデータ部での活用
 リクルートのサービス
 ビジネスモデル
 「リボンモデル」
50
カスタマ
(ユーザ)
クライアント
(企業)
 主業務
 分析
• KPIの測定
• 競合分析
 施策
• マッチング
• ユーザ属性推定
• レコメンデーション
• ターゲッティング
 適材適所で高速にインプリ
・・・100以上のサービス
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentHadoop
 Hadoopの用途
 マッチング
 ユーザの属性推定
 レコメンデーション
 RDB(DWH)へのデー
タ事前加工
51
EMR
Impala
安定したオンプレ
Hadoop基盤
SQLベースで充分
リッチなUIを利用したい 常時起動が必要ない
キャパシティが読めない
AWSが前提
最新技術の積極利用
計算
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentRDB(DWH)
 RDB(DWH)の用途
 SQLベースの分析
 KPIの測定
 競合分析
 サイトアクセス解析
 加工済みデータをBIから
接続して自由に分析して
もらう
52
Exadata
Redshift
BigQuery
Impala
コストパフォーマンスがよい
金がある
オンプレから出せない
開発ツールの充実
Oracleとの連携
Hadoopにあるデータを
そのまま分析したい
+
無限のスケーラビリティ
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentマイクロバッチ
 マイクロバッチの用途
 初回訪問ユーザの属性推定して、パーソナライゼーション
53
Kinesis
Analytics
Kinesis
Stream
+
+
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentKVS ドキュメントDB グラフDB
 機械学習結果をWebフロントに返す
 アプリケーションの途中結果格納
 アプリケーションのプロトタイプ開発
 地理空間情報(GeoJSON)蓄積・加工
 ユーザと企業のマッチングに、駅のグラフデータを利用
54
DynamoDB
(C) Recruit Technologies Co.,Ltd. All rights reserved.
エンジニア募集中!
ベンチャーマインドあふれるリクルートで、
次々と溢れ出る新規ビジネスのアイデアを
高速にインプリしてみませんか?
適材適所でシステムを構築しましょう
55
(C) Recruit Technologies Co.,Ltd. All rights reserved.
まとめ
56
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentまとめ
 この図を頭に入れておくと、新しいデータベースが出てきても
なんとなくわかります
57
57
DB
( ) )
RDB(OLTP)
KVS
ElasticSearch
Hadoop
RDB(DWH)
OLTP

More Related Content

What's hot

データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例Tetsutaro Watanabe
 
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)NTT DATA Technology & Innovation
 
PostgreSQL 12は ここがスゴイ! ~性能改善やpluggable storage engineなどの新機能を徹底解説~ (NTTデータ テクノ...
PostgreSQL 12は ここがスゴイ! ~性能改善やpluggable storage engineなどの新機能を徹底解説~ (NTTデータ テクノ...PostgreSQL 12は ここがスゴイ! ~性能改善やpluggable storage engineなどの新機能を徹底解説~ (NTTデータ テクノ...
PostgreSQL 12は ここがスゴイ! ~性能改善やpluggable storage engineなどの新機能を徹底解説~ (NTTデータ テクノ...NTT DATA Technology & Innovation
 
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門Satoru Ishikawa
 
ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方Yoshiyasu SAEKI
 
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache FlinkIoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache FlinkTakanori Suzuki
 
Apache Arrow - データ処理ツールの次世代プラットフォーム
Apache Arrow - データ処理ツールの次世代プラットフォームApache Arrow - データ処理ツールの次世代プラットフォーム
Apache Arrow - データ処理ツールの次世代プラットフォームKouhei Sutou
 
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)NTT DATA Technology & Innovation
 
エンジニアの個人ブランディングと技術組織
エンジニアの個人ブランディングと技術組織エンジニアの個人ブランディングと技術組織
エンジニアの個人ブランディングと技術組織Takafumi ONAKA
 
楽天における大規模データベースの運用
楽天における大規模データベースの運用楽天における大規模データベースの運用
楽天における大規模データベースの運用Rakuten Group, Inc.
 
SPAセキュリティ入門~PHP Conference Japan 2021
SPAセキュリティ入門~PHP Conference Japan 2021SPAセキュリティ入門~PHP Conference Japan 2021
SPAセキュリティ入門~PHP Conference Japan 2021Hiroshi Tokumaru
 
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送Google Cloud Platform - Japan
 
本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話Kumazaki Hiroki
 
がっつりMongoDB事例紹介
がっつりMongoDB事例紹介がっつりMongoDB事例紹介
がっつりMongoDB事例紹介Tetsutaro Watanabe
 
AWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザAWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザNoritaka Sekiyama
 
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返りSotaro Kimura
 
インフラエンジニアのためのcassandra入門
インフラエンジニアのためのcassandra入門インフラエンジニアのためのcassandra入門
インフラエンジニアのためのcassandra入門Akihiro Kuwano
 
AWSではじめるMLOps
AWSではじめるMLOpsAWSではじめるMLOps
AWSではじめるMLOpsMariOhbuchi
 

What's hot (20)

データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例
 
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
 
PostgreSQL 12は ここがスゴイ! ~性能改善やpluggable storage engineなどの新機能を徹底解説~ (NTTデータ テクノ...
PostgreSQL 12は ここがスゴイ! ~性能改善やpluggable storage engineなどの新機能を徹底解説~ (NTTデータ テクノ...PostgreSQL 12は ここがスゴイ! ~性能改善やpluggable storage engineなどの新機能を徹底解説~ (NTTデータ テクノ...
PostgreSQL 12は ここがスゴイ! ~性能改善やpluggable storage engineなどの新機能を徹底解説~ (NTTデータ テクノ...
 
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
 
ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方
 
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache FlinkIoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache Flink
 
Apache Arrow - データ処理ツールの次世代プラットフォーム
Apache Arrow - データ処理ツールの次世代プラットフォームApache Arrow - データ処理ツールの次世代プラットフォーム
Apache Arrow - データ処理ツールの次世代プラットフォーム
 
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
 
エンジニアの個人ブランディングと技術組織
エンジニアの個人ブランディングと技術組織エンジニアの個人ブランディングと技術組織
エンジニアの個人ブランディングと技術組織
 
楽天における大規模データベースの運用
楽天における大規模データベースの運用楽天における大規模データベースの運用
楽天における大規模データベースの運用
 
使ってみませんか?pg_hint_plan
使ってみませんか?pg_hint_plan使ってみませんか?pg_hint_plan
使ってみませんか?pg_hint_plan
 
Docker Compose 徹底解説
Docker Compose 徹底解説Docker Compose 徹底解説
Docker Compose 徹底解説
 
SPAセキュリティ入門~PHP Conference Japan 2021
SPAセキュリティ入門~PHP Conference Japan 2021SPAセキュリティ入門~PHP Conference Japan 2021
SPAセキュリティ入門~PHP Conference Japan 2021
 
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
 
本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話
 
がっつりMongoDB事例紹介
がっつりMongoDB事例紹介がっつりMongoDB事例紹介
がっつりMongoDB事例紹介
 
AWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザAWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザ
 
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
 
インフラエンジニアのためのcassandra入門
インフラエンジニアのためのcassandra入門インフラエンジニアのためのcassandra入門
インフラエンジニアのためのcassandra入門
 
AWSではじめるMLOps
AWSではじめるMLOpsAWSではじめるMLOps
AWSではじめるMLOps
 

Viewers also liked

データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~NTT DATA OSS Professional Services
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)hamaken
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) hamaken
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)narumikanno0918
 
機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話Ryota Kamoshida
 
RとSQLiteで気軽にデータベース作成
RとSQLiteで気軽にデータベース作成RとSQLiteで気軽にデータベース作成
RとSQLiteで気軽にデータベース作成弘毅 露崎
 
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~sugiyama koki
 
サーバ構築・デプロイが簡単に!Elastic beanstalk
サーバ構築・デプロイが簡単に!Elastic beanstalkサーバ構築・デプロイが簡単に!Elastic beanstalk
サーバ構築・デプロイが簡単に!Elastic beanstalkHirokazu Ouchi
 
Gis tools for hadoopを用いたビッグデータ処理の検証
Gis tools for hadoopを用いたビッグデータ処理の検証Gis tools for hadoopを用いたビッグデータ処理の検証
Gis tools for hadoopを用いたビッグデータ処理の検証Kazutaka ishizaki
 
Hadoopによる空間ビッグデータ処理の試み
Hadoopによる空間ビッグデータ処理の試みHadoopによる空間ビッグデータ処理の試み
Hadoopによる空間ビッグデータ処理の試みKazutaka ishizaki
 
ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方Sayuri Shimizu
 
LINE&LINE@セミナー2時間レジュメ(東京都)国分寺市商工会主催
LINE&LINE@セミナー2時間レジュメ(東京都)国分寺市商工会主催LINE&LINE@セミナー2時間レジュメ(東京都)国分寺市商工会主催
LINE&LINE@セミナー2時間レジュメ(東京都)国分寺市商工会主催新潟コンサルタント横田秀珠
 
Nfv orchestration open stack summit may2015 aricent
Nfv orchestration open stack summit may2015 aricentNfv orchestration open stack summit may2015 aricent
Nfv orchestration open stack summit may2015 aricentAricent
 
Treasure Data Cloud Data Platform
Treasure Data Cloud Data PlatformTreasure Data Cloud Data Platform
Treasure Data Cloud Data Platforminside-BigData.com
 
Monitor OpenStack Environments from the bottom up and front to back
Monitor OpenStack Environments from the bottom up and front to backMonitor OpenStack Environments from the bottom up and front to back
Monitor OpenStack Environments from the bottom up and front to backIcinga
 

Viewers also liked (20)

データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話
 
AWSのNoSQL入門
AWSのNoSQL入門AWSのNoSQL入門
AWSのNoSQL入門
 
LINE&LINE@セミナー(東京都)国分寺市商工会主催チラシ
LINE&LINE@セミナー(東京都)国分寺市商工会主催チラシLINE&LINE@セミナー(東京都)国分寺市商工会主催チラシ
LINE&LINE@セミナー(東京都)国分寺市商工会主催チラシ
 
LINE公式アカウント一覧225件のLINE IDと友だち多い順
LINE公式アカウント一覧225件のLINE IDと友だち多い順LINE公式アカウント一覧225件のLINE IDと友だち多い順
LINE公式アカウント一覧225件のLINE IDと友だち多い順
 
RとSQLiteで気軽にデータベース作成
RとSQLiteで気軽にデータベース作成RとSQLiteで気軽にデータベース作成
RとSQLiteで気軽にデータベース作成
 
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
 
サーバ構築・デプロイが簡単に!Elastic beanstalk
サーバ構築・デプロイが簡単に!Elastic beanstalkサーバ構築・デプロイが簡単に!Elastic beanstalk
サーバ構築・デプロイが簡単に!Elastic beanstalk
 
Gis tools for hadoopを用いたビッグデータ処理の検証
Gis tools for hadoopを用いたビッグデータ処理の検証Gis tools for hadoopを用いたビッグデータ処理の検証
Gis tools for hadoopを用いたビッグデータ処理の検証
 
Hadoopによる空間ビッグデータ処理の試み
Hadoopによる空間ビッグデータ処理の試みHadoopによる空間ビッグデータ処理の試み
Hadoopによる空間ビッグデータ処理の試み
 
ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方
 
LINE&LINE@セミナー2時間レジュメ(東京都)国分寺市商工会主催
LINE&LINE@セミナー2時間レジュメ(東京都)国分寺市商工会主催LINE&LINE@セミナー2時間レジュメ(東京都)国分寺市商工会主催
LINE&LINE@セミナー2時間レジュメ(東京都)国分寺市商工会主催
 
Nfv orchestration open stack summit may2015 aricent
Nfv orchestration open stack summit may2015 aricentNfv orchestration open stack summit may2015 aricent
Nfv orchestration open stack summit may2015 aricent
 
NFV Tutorial
NFV TutorialNFV Tutorial
NFV Tutorial
 
Treasure Data Cloud Data Platform
Treasure Data Cloud Data PlatformTreasure Data Cloud Data Platform
Treasure Data Cloud Data Platform
 
NFV and OpenStack
NFV and OpenStackNFV and OpenStack
NFV and OpenStack
 
Monitor OpenStack Environments from the bottom up and front to back
Monitor OpenStack Environments from the bottom up and front to backMonitor OpenStack Environments from the bottom up and front to back
Monitor OpenStack Environments from the bottom up and front to back
 

Similar to ビッグデータ処理データベースの全体像と使い分け

ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - Tetsutaro Watanabe
 
ビックデータ処理技術の全体像とリクルートでの使い分け
ビックデータ処理技術の全体像とリクルートでの使い分けビックデータ処理技術の全体像とリクルートでの使い分け
ビックデータ処理技術の全体像とリクルートでの使い分けTetsutaro Watanabe
 
巨大なサービスと膨大なデータを支えるプラットフォーム

巨大なサービスと膨大なデータを支えるプラットフォーム
巨大なサービスと膨大なデータを支えるプラットフォーム

巨大なサービスと膨大なデータを支えるプラットフォーム
Tetsutaro Watanabe
 
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例Tetsutaro Watanabe
 
トレジャーデータ新サービス発表 2013/12/9
トレジャーデータ新サービス発表 2013/12/9トレジャーデータ新サービス発表 2013/12/9
トレジャーデータ新サービス発表 2013/12/9Treasure Data, Inc.
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みRecruit Technologies
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムRecruit Technologies
 
アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門Yoichi Kawasaki
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料Recruit Technologies
 
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューションDell TechCenter Japan
 
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)日本マイクロソフト株式会社
 
【de:code 2020】 ~すでに時代遅れ? 個人情報や紙のためにオフィスに行くのは今すぐやめよう~ 日本郵政スタッフが実現したステイ ホーム/クラウ...
【de:code 2020】 ~すでに時代遅れ? 個人情報や紙のためにオフィスに行くのは今すぐやめよう~ 日本郵政スタッフが実現したステイ ホーム/クラウ...【de:code 2020】 ~すでに時代遅れ? 個人情報や紙のためにオフィスに行くのは今すぐやめよう~ 日本郵政スタッフが実現したステイ ホーム/クラウ...
【de:code 2020】 ~すでに時代遅れ? 個人情報や紙のためにオフィスに行くのは今すぐやめよう~ 日本郵政スタッフが実現したステイ ホーム/クラウ...日本マイクロソフト株式会社
 
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeAzure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeHideo Takagi
 
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~griddb
 
ビッグデータやIoTシステムを支えるデータベース 『GridDB』
ビッグデータやIoTシステムを支えるデータベース 『GridDB』ビッグデータやIoTシステムを支えるデータベース 『GridDB』
ビッグデータやIoTシステムを支えるデータベース 『GridDB』griddb
 
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~griddb
 
20100930 sig startups
20100930 sig startups20100930 sig startups
20100930 sig startupsIchiro Fukuda
 
BigData-JAWS 2020-11-30 - AWS Batchによるデータ変換処理
BigData-JAWS 2020-11-30 - AWS Batchによるデータ変換処理BigData-JAWS 2020-11-30 - AWS Batchによるデータ変換処理
BigData-JAWS 2020-11-30 - AWS Batchによるデータ変換処理Yutaro Ono
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方Recruit Technologies
 

Similar to ビッグデータ処理データベースの全体像と使い分け (20)

ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
 
ビックデータ処理技術の全体像とリクルートでの使い分け
ビックデータ処理技術の全体像とリクルートでの使い分けビックデータ処理技術の全体像とリクルートでの使い分け
ビックデータ処理技術の全体像とリクルートでの使い分け
 
巨大なサービスと膨大なデータを支えるプラットフォーム

巨大なサービスと膨大なデータを支えるプラットフォーム
巨大なサービスと膨大なデータを支えるプラットフォーム

巨大なサービスと膨大なデータを支えるプラットフォーム

 
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例
 
トレジャーデータ新サービス発表 2013/12/9
トレジャーデータ新サービス発表 2013/12/9トレジャーデータ新サービス発表 2013/12/9
トレジャーデータ新サービス発表 2013/12/9
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
 
アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
 
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
 
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
 
【de:code 2020】 ~すでに時代遅れ? 個人情報や紙のためにオフィスに行くのは今すぐやめよう~ 日本郵政スタッフが実現したステイ ホーム/クラウ...
【de:code 2020】 ~すでに時代遅れ? 個人情報や紙のためにオフィスに行くのは今すぐやめよう~ 日本郵政スタッフが実現したステイ ホーム/クラウ...【de:code 2020】 ~すでに時代遅れ? 個人情報や紙のためにオフィスに行くのは今すぐやめよう~ 日本郵政スタッフが実現したステイ ホーム/クラウ...
【de:code 2020】 ~すでに時代遅れ? 個人情報や紙のためにオフィスに行くのは今すぐやめよう~ 日本郵政スタッフが実現したステイ ホーム/クラウ...
 
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeAzure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data Lake
 
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~
 
ビッグデータやIoTシステムを支えるデータベース 『GridDB』
ビッグデータやIoTシステムを支えるデータベース 『GridDB』ビッグデータやIoTシステムを支えるデータベース 『GridDB』
ビッグデータやIoTシステムを支えるデータベース 『GridDB』
 
BPStudy20121221
BPStudy20121221BPStudy20121221
BPStudy20121221
 
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
 
20100930 sig startups
20100930 sig startups20100930 sig startups
20100930 sig startups
 
BigData-JAWS 2020-11-30 - AWS Batchによるデータ変換処理
BigData-JAWS 2020-11-30 - AWS Batchによるデータ変換処理BigData-JAWS 2020-11-30 - AWS Batchによるデータ変換処理
BigData-JAWS 2020-11-30 - AWS Batchによるデータ変換処理
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方
 

More from Recruit Technologies

新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場Recruit Technologies
 
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びカーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びRecruit Technologies
 
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Recruit Technologies
 
HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話Recruit Technologies
 
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所Recruit Technologies
 
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Recruit Technologies
 
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例Recruit Technologies
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントRecruit Technologies
 
ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後Recruit Technologies
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Recruit Technologies
 
EMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するEMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するRecruit Technologies
 
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントリクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントRecruit Technologies
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントRecruit Technologies
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルRecruit Technologies
 
「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~Recruit Technologies
 

More from Recruit Technologies (20)

新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場
 
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びカーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
 
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
 
Tableau活用4年の軌跡
Tableau活用4年の軌跡Tableau活用4年の軌跡
Tableau活用4年の軌跡
 
HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話
 
LT(自由)
LT(自由)LT(自由)
LT(自由)
 
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
 
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
 
リクルート式AIの活用法
リクルート式AIの活用法リクルート式AIの活用法
リクルート式AIの活用法
 
銀行ロビーアシスタント
銀行ロビーアシスタント銀行ロビーアシスタント
銀行ロビーアシスタント
 
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
 
EMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するEMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成する
 
RANCHERを使ったDev(Ops)
RANCHERを使ったDev(Ops)RANCHERを使ったDev(Ops)
RANCHERを使ったDev(Ops)
 
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントリクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
 
「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~
 

Recently uploaded

新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 

Recently uploaded (7)

新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 

ビッグデータ処理データベースの全体像と使い分け

  • 1. (C) Recruit Technologies Co.,Ltd. All rights reserved. ビッグデータ処理データベースの 全体像と使い分け 2016/7/15 株式会社リクルートテクノロジーズ ビッグデータ部 渡部徹太郎
  • 2. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department自己紹介 {"ID" :"fetaro", "名前":"渡部 徹太郎", "所属":"リクルートテクノロジーズ ビッグデータ部" "研究":"東京工業大学で情報検索の研究(日本データベース学会)" "仕事":{前職:["証券会社のWeb基盤", "オープンソース全般,主にMongoDB,NoSQL"], 現職:["リクルート横断のデータ分析基盤, "ExadataとHadoopの両刀使い"]} "エディタ":"emacs派" "趣味" :"自宅サーバ" "属性" : ["ギーク","スーツ"]} 1
  • 3. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department発表をしようと思った背景  ビッグデータ処理技術がありすぎる 2 DynamoDB Kinesis EMR Redshift BigQuery Oracle Exadata Impala
  • 4. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department発表をしようと思った背景  リクルートのサービスはたくさんある  日々次々と新しいサービスが生まれる  ケースドリブンで最適なもの最速で提供する必要がある  →いろいろな技術を知る必要がある! 3 ・・・100以上のサービス
  • 5. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department本発表の目的  ビッグデータのデータベースのニュースを見た時に、  「どの辺」のデータベースか分かるようにする  ベンダの誇大広告を見抜けるようにする 4
  • 6. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentアジェンダ  ビッグデータ処理データベースの分類  各分類と代表製品の説明  その他のビッグデータキーワードの説明  Spark/Elastic Search/マイクロバッチ/インメモリデータグリッド/グ ラフDB/  ブロックチェーン/分散OLTP 急遽追加!  リクルートテクノロジーズ ビッグデータ部における データベース使い分け  まとめ 5
  • 7. (C) Recruit Technologies Co.,Ltd. All rights reserved. ビッグデータ処理データベースの分類 6 目標到達時間 13:03
  • 8. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータベースを分類する軸:重視する性能 7  レスポンスを重視 →主にオペレーション用途  スループットを重視 →主に分析用途 アプリケーションサーバ オペレーション 用途 データベース 登録画面 参照画面 編集画面 マスタ データベース BIツール 分析用途 データベース レポート生成ジョブCSV レポート
  • 9. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータベースを分類する軸:性能拡張方式  データベースの代表的なボトルネックを解消  ディスクIO  CPU  ネットワーク帯域  共有リソースの開放待ち  ネットワークラウンドトリップ 8 スケールアップ 集約 スケールアウト 分散 app app app app app appapp app app 一般的なハードウェアを複 数並べて並列処理 単一HWハードウェアを強化 性能限界 CPU↑ ディスク↑ NW↑  データベースの性能拡張方式 ←主にこの辺のボトルネックを解消
  • 10. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータベースの分類 9 DB ( ) ) Hadoop RDB(OLTP) KVS / / RDB(DWH) NoSQLと 呼ばれている
  • 11. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department DB データベースの分類 10 ( ) ) RDB(OLTP) KVS RDB(DWH) DynamoDB BigQuery Exadata Redshift EMR Hadoop Exadata
  • 12. (C) Recruit Technologies Co.,Ltd. All rights reserved. 各分類と代表製品の説明 11 目標到達時間 13:10
  • 13. (C) Recruit Technologies Co.,Ltd. All rights reserved. スケールアップ型RDB(DWH) 12 DB Hadoop RDB(OLTP) KVS RDB(DWH) スケールアウト スケールアップ オペレーション 分析
  • 14. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department オンプレ サービス アプライアンス ソフトウェア スケールアップ型RDB(DWH)  ひとことで言うと  データの抽出・集計に特化したRDB  アーキテクチャの特徴 1. データをパーティショニングして複数ディスクから同時に読む (製品によっては)ハードウェアを最適化して、アプライアンスとして提供 2. 列志向で圧縮してデータ格納 13 Redshift Exadata DB Hadoop RDB(OLTP) KVS RDB(DWH)
  • 15. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department ストレージノード ストレージノード ストレージノード スケールアップ型RDB(DWH)  データをパーティショニングして複数ディスクから同時に読む (製品によっては)ハードウェアを最適化して、アプライアンス 14 データベースノード HDD SSD 絞込み処理 HDD HDD HDD HDD SSD 絞込み処理 HDD HDD HDD HDD SSD 絞込み処理 HDD HDD HDD データベースノード CPU WHERE句を解釈し、 読み込むブロックを最小化 ディスクIOを削減 キャッシュして ディスクIOを削減 CPUを多数搭載し、CPUボト ルネックを軽減 40Gbpsのラック内SANによりネッ トワークボトルネックを軽減 CPU CPUCPU CPU CPU 40G bps Oracle Exadataの例
  • 16. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentスケールアップ型RDB(DWH)  列志向で圧縮してデータ格納 15 ID=2 1 1982年生男 2 1967年生女 3 2000年生女 4 2000年男 1 2 3 4 index ID=2 1 1982年生 2 1967年生 3 2000年生 4 2000年生 男 女 女 男 ID 年齢性別 性別 男 女 1男 4 女 1982年生 1967年生 2000年生1 2 3 42 3 年齢 1982年生 1967年生 2000年生
  • 17. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentスケールアップ型RDB(DWH)  処理イメージ  レスポンス:数秒、数分  データサイズ:直近13ヶ月(1T〜数10T)  計算:SQLベース  ユースケース  自由検索  レポート  BIツールのデータソース  苦手なこと  データの更新(INSET,UPDATE,DELETE)は非常に遅い  トランザクションも遅い 16
  • 18. (C) Recruit Technologies Co.,Ltd. All rights reserved. スケールアウト型RDB(DWH) 17 DB Hadoop RDB(OLTP) KVS RDB(DWH) スケールアウト スケールアップ オペレーション 分析 目標到達時間 13:17
  • 19. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department Hadoop系 独自 オンプレ サービス スケールアウト型RDB(DWH)  ひとことで言うと  SELECTしか提供しないRDB  アーキテクチャの特徴  SQLライクなクエリを提供  INSERT, UPDATE, DELETEはない  トランザクションを提供しない  データの書き込みは一括ロードおよび全件削除のみ 18 BigQueryImpala + →
  • 20. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department伝えたいこと  RDBやSQLだから分散できないわけではない  整合性を保った更新(トランザクション)は処理の並列数を上げにくい  スキーマレスとスケールアウトは関係ない  スキーマがある(リレーショナルデータ)でも、単一ノードで処理されるのであれ ばスケールアウトする  JOINやSORTはスケールアウトは難しい  単一ノードで完結できないため、どんなデータベースであっても難しい  ブログ「RedShiftよりもBigQueryが速い!」 →戦う相手が違う 19
  • 21. (C) Recruit Technologies Co.,Ltd. All rights reserved. Hadoop 20 DB Hadoop RDB(OLTP) KVS RDB(DWH) スケールアウト スケールアップ オペレーション 分析 目標到達時間 13:20
  • 22. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentHadoop  ひとことで言うと  分散したファイルに、様々 な分散処理をできるソフト ウェア群  アーキテクチャの特徴  データはファイル  ストレージと処理が分離  途中でノードがダウンして も処理を継続 2121 分散ファイルシステム 分散処理エンジン ABC A B C クライアント 計算 ノード 計算 ノード 計算 ノード コーディネータ 計算 結果 プログラム プログラム クライアント プログラムプログラム
  • 23. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentHadoop 22 プロダクト 分散ファイルシ システム 分散処理エンジン オン プレ OSSベースでいろいろ使 る MapR-FS サー ビス ? EMR S3 Impala Cloud Dataproc GCS
  • 24. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentHadoop  処理のイメージ  レスポンス:数十分〜数時間  データサイズ:全データ(10T〜数P)  計算:分散できる計算なら何でも  ユースケース  長期的なビジネストレンド分析  RDB(DWH)に入れる前のデータ加工  機械学習によるクラスタリング、レコメンド  分散自然言語処理 23
  • 25. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentHadoop  クラウドのHadoop  分散処理エンジンとストレージの分離  計算ノードの台数を即時増減可能  クラスタは使った分だけ払えば良い 24 core core core HDFS(MapR-FS) S3 Master データ データ コンテナ データ データ コンテナ データ データデータ データ core コンテナ Master コンテナ core コンテナ core コンテナ Hadoop EMR NEWNEW データ移動 が必要 データ移動 不要 0:00 12:00 0:00 12:00 ク ラ ス タ 起 動 台 数 オンプレ クラウド 計算に必要なリソース
  • 26. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentHadoop  Hadoopでも列志向を活用  Hadoopは通常ファイルをデータとして扱う • CSVのイメージ  ファイルの中身を列志向に変えることで、さらなる抽出速度の向上ができ る • ORC(列持ちフォーマット) + Snappy(圧縮)
  • 27. (C) Recruit Technologies Co.,Ltd. All rights reserved. KVS 26 DB Hadoop RDB(OLTP) KVS RDB(DWH) スケールアウト スケールアップ オペレーション 分析 目標到達時間 13:25
  • 28. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentKVS  ひとことで言うと  分散して、シンプルなオペレーションができるデータベース  アーキテクチャの特徴  RDB(OLTP)とは異なり、 以下の2つによりスケーラビリティを獲得 1. 「強い整合性」を犠牲にして「結果整合性」を採用 2. 分散しやすいデータモデルと、分散しやすいクエリだけを提供する 27 データモデル キーバリュー ワイドカラム データ構造 オンプレ クラウド ElastiCache DynamoDB
  • 29. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentKVS  整合性を保証するとスケールアウトが困難  整合性を緩めればスケールアウトできる 28 アプリケーション アプリケーション アプリケーション アプリケーション 待たされ る A B C 分散トランザクションで アプリケーション 待たされ る 待たされる アプリケーション → → A B C アプリケーション アプリケーション アプリケーション アプリケーション
  • 30. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentKVS  KVS 29 分散ファイルシステム (HDFS等) 分散処理フレームワーク (MapReduce, Spark等) ABC A B C クライアント 計算 ノード 計算 ノード 計算 ノー コーディネータ 計算 結果 プログラム プログラム クライアント プログラムプログラム KVS/ドキュメントDB シャード シャード シャード A クエリルータ B C アプリケー ション2 アプリケー ション1  Hadoop
  • 31. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentKVS  分散しやすいデータモデル  データ間の参照関係を定義させない  分散しやすいクエリ  一つのデータでクエリが完結するようにする • トランザクションを提供しない • (トランザクショナルな)JOINを提供しない 30 ユーザ1 取引1 取引2 ユーザ1 取引1 取引2
  • 32. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentKVS  ユースケース  大規模Webのバックエンド • ユーザセッションの格納 • ユーザ属性格納 • 事前計算データのキャッシュ  メッセージングシステム  大量書き込みが必要なケース(IoT)  できないこと  トランザクション  集計  JOIN  セカンダリインデックスが無いものもある 31
  • 33. (C) Recruit Technologies Co.,Ltd. All rights reserved. ドキュメントDB 32 DB Hadoop RDB(OLTP) KVS RDB(DWH) スケールアウト スケールアップ オペレーション 分析 目標到達時間 13:30
  • 34. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department オン プレ クラ ウド ドキュメントDB 33  ひとことで言うと  KVSよりもクエリが豊富で使いやすい  アーキテクチャ上の特徴  データモデルにJSONを扱う  集計を提供している物が多い
  • 35. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentドキュメントDB  分散処理を活かしたユースケース  大規模Webのバックエンド  オンラインゲーム  カタログ管理  JSONを使いたいだけのユースケース ←日本ではこちらが多い  プロトタイプ開発  データハブ  JSONログ保管 34
  • 36. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department伝えたいこと  ドキュメントDBの集計機能は「おまけ」!  小規模データの同期集計はできるが、バッチには不向き  BIベンダはドキュメントDBは相手にしていない  ベンダ 「ACIDトランザクションを提供するドキュメントDBです!」  →何かを犠牲にしています  非構造データ処理と半構造データ処理は違う  半構造データ=JSON,XML  非構造データ=自然言語、音声、画像、動画 →パーサー次第 35
  • 37. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department伝えたいこと NoSQLはバズワード  NoSQL ≠ スキーマレス  スキーマ定義が必須  ドキュメントバリデーション機能あり  NoSQL ≠ SQLが使えない  SQLライクなクエリ言語を採用しているNoSQL  NoSQL ≠ 分散処理  JSONが入るRDB 36
  • 38. (C) Recruit Technologies Co.,Ltd. All rights reserved. その他のビッグデータキーワードの説明 37 目標到達時間 13:35
  • 39. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentSpark  データサイエンティストのために作られた分析ライブラリ群  Hadoopが無くても動く  データベースではない  データ蓄積はHadoopのHDFSでもよいし、そうでなくても良い  以下の様なものが含まれる  Spark 本体 :メモリベースで集計などをする  Spark MLLib:機械学習  Spark SQL:SQLライクなインターフェース  Spark Stream:マイクロバッチ 38
  • 40. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentマイクロバッチ  続々と流れてくるデータに対して、短い期間で集計を行う処理  データベースではない。データを永続化しない。  使いドコロ  初回来訪者の属性推定  デバイス異常値検出 39 Kinesis Analytics Kinesis Streams マイクロバッチ マイクロバッチ PUB (出版) SUB (購読) 分散キュークライアント クライアント クライアント クライアント
  • 41. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department ディスク ディスク インメモリデータグリッド  KVSに似ているが、アプリケーションのローカルに置かれるキャッシュ  メモリ上での処理を前提として、永続化はオプション  ユースケース  金融の取引処理  ミリ秒以下の応答時間 40 Javaアプリ インメモリDB Javaアプリ インメモリDB メモリ 同期
  • 42. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentElasticsearch  検索エンジン  ドキュメントデータベースに非常に近い  JSONが入る  レプリケーションできる  シャーディング出来る  ドキュメントデータベースとの違い  Kibanaと連携できる  全文検索が強力  かなり集計できる 41 Elasticsearch Service Kibana
  • 43. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentグラフDB  グラフ演算に特化したDB  RDB以上にスケールアウトできない  ユースケース  最短経路探索  金融取引の詐欺検出  ソーシャルネットワークにおける人物間の計算  RDBだとJOINの多重入れ子になるような計算 42
  • 44. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department【急遽追加!】ブロックチェーン  分散KVS  台帳をP2Pで共有  トランザクション提供  コミットは、因数分解を最初に説いた人がみんなのトランザクションをまと めてコミット →つまり非常に遅い 43
  • 45. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department【急遽追加!】分散OLTP  今朝の神林さんの発表を聞いて急遽追加  10万TPS  前提とするHW:1000コア、10TBメモリ、高速バス  既存のRDB(OLTP)とはアーキテクチャが異なる 44
  • 46. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータベースの分類 追記版 45 DB ( ) ) RDB(OLTP) KVS ElasticSearch Hadoop RDB(DWH) OLTP
  • 47. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータベースの分類 46 DB ( ) ) RDB(OLTP) KVS RDB(DWH) DynamoDB BigQuery Exadata EMR Hadoop Kinesis ブランド Redshift OLTP Exadata
  • 48. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department伝えたいこと  IoTのデバイスログ収集はKVSが最適ではない  書き込みは多いが、オペレーショナルではないため  やりたいことは分析  IoTはデバイスログ収集は マイクロバッチ + Hadoop or RDB(DWH) が最適 47
  • 49. (C) Recruit Technologies Co.,Ltd. All rights reserved. リクルートテクノロジーズ ビッグデータ部における使い分け 48 目標到達時間 13:45
  • 50. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentリクルートテクノロジーズ ビッグデータ部での活用 49 DB ( ) ) RDB(OLTP) KVS RDB(DWH) DynamoDB BigQuery Exadata EMR Hadoop DB Kinesis ブランド Redshift OLTP
  • 51. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentリクルートテクノロジーズ ビッグデータ部での活用  リクルートのサービス  ビジネスモデル  「リボンモデル」 50 カスタマ (ユーザ) クライアント (企業)  主業務  分析 • KPIの測定 • 競合分析  施策 • マッチング • ユーザ属性推定 • レコメンデーション • ターゲッティング  適材適所で高速にインプリ ・・・100以上のサービス
  • 52. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentHadoop  Hadoopの用途  マッチング  ユーザの属性推定  レコメンデーション  RDB(DWH)へのデー タ事前加工 51 EMR Impala 安定したオンプレ Hadoop基盤 SQLベースで充分 リッチなUIを利用したい 常時起動が必要ない キャパシティが読めない AWSが前提 最新技術の積極利用 計算
  • 53. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentRDB(DWH)  RDB(DWH)の用途  SQLベースの分析  KPIの測定  競合分析  サイトアクセス解析  加工済みデータをBIから 接続して自由に分析して もらう 52 Exadata Redshift BigQuery Impala コストパフォーマンスがよい 金がある オンプレから出せない 開発ツールの充実 Oracleとの連携 Hadoopにあるデータを そのまま分析したい + 無限のスケーラビリティ
  • 54. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentマイクロバッチ  マイクロバッチの用途  初回訪問ユーザの属性推定して、パーソナライゼーション 53 Kinesis Analytics Kinesis Stream + +
  • 55. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentKVS ドキュメントDB グラフDB  機械学習結果をWebフロントに返す  アプリケーションの途中結果格納  アプリケーションのプロトタイプ開発  地理空間情報(GeoJSON)蓄積・加工  ユーザと企業のマッチングに、駅のグラフデータを利用 54 DynamoDB
  • 56. (C) Recruit Technologies Co.,Ltd. All rights reserved. エンジニア募集中! ベンチャーマインドあふれるリクルートで、 次々と溢れ出る新規ビジネスのアイデアを 高速にインプリしてみませんか? 適材適所でシステムを構築しましょう 55
  • 57. (C) Recruit Technologies Co.,Ltd. All rights reserved. まとめ 56
  • 58. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentまとめ  この図を頭に入れておくと、新しいデータベースが出てきても なんとなくわかります 57 57 DB ( ) ) RDB(OLTP) KVS ElasticSearch Hadoop RDB(DWH) OLTP