Soumettre la recherche
Mettre en ligne
DeltaCubeにおけるユニークユーザー集計高速化(実践編)
•
0 j'aime
•
2,636 vues
BrainPad Inc.
Suivre
Prestoを利用したユニークユーザー集計の高速化に関するデータマネジメントツール「DeltaCube」の資料②
Lire moins
Lire la suite
Données & analyses
Signaler
Partager
Signaler
Partager
1 sur 15
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
Sparkストリーミング検証
Sparkストリーミング検証
BrainPad Inc.
Sparkパフォーマンス検証
Sparkパフォーマンス検証
BrainPad Inc.
Amazon RDS for PostgreSQL ( JPUG 2014夏セミナー) #jpug
Amazon RDS for PostgreSQL ( JPUG 2014夏セミナー) #jpug
Yasuhiro Matsuo
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
リアルタイム処理エンジンGearpumpの紹介
リアルタイム処理エンジンGearpumpの紹介
Sotaro Kimura
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
Koji Shinkubo
[よくわかるクラウドデータベース] Amazon RDS for PostgreSQL検証報告
[よくわかるクラウドデータベース] Amazon RDS for PostgreSQL検証報告
Amazon Web Services Japan
20111215_第1回EMR勉強会発表資料
20111215_第1回EMR勉強会発表資料
Kotaro Tsukui
Recommandé
Sparkストリーミング検証
Sparkストリーミング検証
BrainPad Inc.
Sparkパフォーマンス検証
Sparkパフォーマンス検証
BrainPad Inc.
Amazon RDS for PostgreSQL ( JPUG 2014夏セミナー) #jpug
Amazon RDS for PostgreSQL ( JPUG 2014夏セミナー) #jpug
Yasuhiro Matsuo
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
リアルタイム処理エンジンGearpumpの紹介
リアルタイム処理エンジンGearpumpの紹介
Sotaro Kimura
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
Koji Shinkubo
[よくわかるクラウドデータベース] Amazon RDS for PostgreSQL検証報告
[よくわかるクラウドデータベース] Amazon RDS for PostgreSQL検証報告
Amazon Web Services Japan
20111215_第1回EMR勉強会発表資料
20111215_第1回EMR勉強会発表資料
Kotaro Tsukui
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
Hadoop / Spark Conference Japan
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache Flink
Takanori Suzuki
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Nagato Kasaki
Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?
chibochibo
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
Hadoop / Spark Conference Japan
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Hadoop / Spark Conference Japan
Hive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみた
Recruit Technologies
Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証
Recruit Technologies
【ヒカラボ】RDS for MySQL → Aurora
【ヒカラボ】RDS for MySQL → Aurora
Yuki Kanazawa
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Future Of Data Japan
hscj2019_ishizaki_public
hscj2019_ishizaki_public
Kazuaki Ishizaki
Spark Structured Streaming with Kafka
Spark Structured Streaming with Kafka
Sotaro Kimura
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
Sotaro Kimura
各スペシャリストがお届け!データベース最新情報セミナー -PostgreSQL10-
各スペシャリストがお届け!データベース最新情報セミナー -PostgreSQL10-
Yoshinori Nakanishi
ゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せます
infinite_loop
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
Insight Technology, Inc.
Amazon Aurora Deep Dive (re:Invent 2015 DAT405 日本語翻訳版)
Amazon Aurora Deep Dive (re:Invent 2015 DAT405 日本語翻訳版)
Amazon Web Services Japan
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...
[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...
Insight Technology, Inc.
Apache Arrow - データ処理ツールの次世代プラットフォーム
Apache Arrow - データ処理ツールの次世代プラットフォーム
Kouhei Sutou
ASPLOS2017: Building Durable Transactions with Decoupling for Persistent Memory
ASPLOS2017: Building Durable Transactions with Decoupling for Persistent Memory
Atsushi Koshiba
[Cyber HPC Symposium 2019] Microsoft Azureによる、クラウド時代のハイパフォーマンスコンピューティング High...
[Cyber HPC Symposium 2019] Microsoft Azureによる、クラウド時代のハイパフォーマンスコンピューティング High...
Shuichi Gojuki
Contenu connexe
Tendances
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
Hadoop / Spark Conference Japan
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache Flink
Takanori Suzuki
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Nagato Kasaki
Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?
chibochibo
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
Hadoop / Spark Conference Japan
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Hadoop / Spark Conference Japan
Hive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみた
Recruit Technologies
Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証
Recruit Technologies
【ヒカラボ】RDS for MySQL → Aurora
【ヒカラボ】RDS for MySQL → Aurora
Yuki Kanazawa
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Future Of Data Japan
hscj2019_ishizaki_public
hscj2019_ishizaki_public
Kazuaki Ishizaki
Spark Structured Streaming with Kafka
Spark Structured Streaming with Kafka
Sotaro Kimura
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
Sotaro Kimura
各スペシャリストがお届け!データベース最新情報セミナー -PostgreSQL10-
各スペシャリストがお届け!データベース最新情報セミナー -PostgreSQL10-
Yoshinori Nakanishi
ゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せます
infinite_loop
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
Insight Technology, Inc.
Amazon Aurora Deep Dive (re:Invent 2015 DAT405 日本語翻訳版)
Amazon Aurora Deep Dive (re:Invent 2015 DAT405 日本語翻訳版)
Amazon Web Services Japan
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...
[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...
Insight Technology, Inc.
Apache Arrow - データ処理ツールの次世代プラットフォーム
Apache Arrow - データ処理ツールの次世代プラットフォーム
Kouhei Sutou
Tendances
(20)
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache Flink
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Hive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみた
Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証
【ヒカラボ】RDS for MySQL → Aurora
【ヒカラボ】RDS for MySQL → Aurora
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
hscj2019_ishizaki_public
hscj2019_ishizaki_public
Spark Structured Streaming with Kafka
Spark Structured Streaming with Kafka
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
各スペシャリストがお届け!データベース最新情報セミナー -PostgreSQL10-
各スペシャリストがお届け!データベース最新情報セミナー -PostgreSQL10-
ゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せます
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
Amazon Aurora Deep Dive (re:Invent 2015 DAT405 日本語翻訳版)
Amazon Aurora Deep Dive (re:Invent 2015 DAT405 日本語翻訳版)
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...
[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...
Apache Arrow - データ処理ツールの次世代プラットフォーム
Apache Arrow - データ処理ツールの次世代プラットフォーム
Similaire à DeltaCubeにおけるユニークユーザー集計高速化(実践編)
ASPLOS2017: Building Durable Transactions with Decoupling for Persistent Memory
ASPLOS2017: Building Durable Transactions with Decoupling for Persistent Memory
Atsushi Koshiba
[Cyber HPC Symposium 2019] Microsoft Azureによる、クラウド時代のハイパフォーマンスコンピューティング High...
[Cyber HPC Symposium 2019] Microsoft Azureによる、クラウド時代のハイパフォーマンスコンピューティング High...
Shuichi Gojuki
AWS Black Belt Techシリーズ Amazon EMR
AWS Black Belt Techシリーズ Amazon EMR
Amazon Web Services Japan
Amazon ElastiCache - AWSマイスターシリーズ
Amazon ElastiCache - AWSマイスターシリーズ
SORACOM, INC
AWSのデータベースサービス全体像
AWSのデータベースサービス全体像
Amazon Web Services Japan
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
Daiyu Hatakeyama
20120117 13 meister-elasti_cache-public
20120117 13 meister-elasti_cache-public
Amazon Web Services Japan
OpenStack 101
OpenStack 101
Rongze Zhu
CPUの同時実行機能
CPUの同時実行機能
Shinichiro Niiyama
How to use Ceph RBD as CloudStack Primary Storage
How to use Ceph RBD as CloudStack Primary Storage
Kimihiko Kitase
Building andobservingcloudnativeappliactionusingazure elastic-terraform
Building andobservingcloudnativeappliactionusingazure elastic-terraform
Shotaro Suzuki
エンターテイメント業界におけるAWS活用事例
エンターテイメント業界におけるAWS活用事例
Amazon Web Services Japan
[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
Insight Technology, Inc.
Mysql casial01
Mysql casial01
matsuo kenji
Linux/DB Tuning (DevSumi2010, Japanese)
Linux/DB Tuning (DevSumi2010, Japanese)
Yoshinori Matsunobu
Web Operations and Perl kansai.pm#14
Web Operations and Perl kansai.pm#14
Masahiro Nagano
AWS Black Belt Techシリーズ Amazon ElastiCache
AWS Black Belt Techシリーズ Amazon ElastiCache
Amazon Web Services Japan
AWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL Compatibility
AWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL Compatibility
Amazon Web Services Japan
OSC ver : MariaDB ColumnStore ベンチマークしちゃいませんか?
OSC ver : MariaDB ColumnStore ベンチマークしちゃいませんか?
KAWANO KAZUYUKI
Linux on Power と x86 Linux との技術的な相違点
Linux on Power と x86 Linux との技術的な相違点
Shinichiro Arai
Similaire à DeltaCubeにおけるユニークユーザー集計高速化(実践編)
(20)
ASPLOS2017: Building Durable Transactions with Decoupling for Persistent Memory
ASPLOS2017: Building Durable Transactions with Decoupling for Persistent Memory
[Cyber HPC Symposium 2019] Microsoft Azureによる、クラウド時代のハイパフォーマンスコンピューティング High...
[Cyber HPC Symposium 2019] Microsoft Azureによる、クラウド時代のハイパフォーマンスコンピューティング High...
AWS Black Belt Techシリーズ Amazon EMR
AWS Black Belt Techシリーズ Amazon EMR
Amazon ElastiCache - AWSマイスターシリーズ
Amazon ElastiCache - AWSマイスターシリーズ
AWSのデータベースサービス全体像
AWSのデータベースサービス全体像
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
20120117 13 meister-elasti_cache-public
20120117 13 meister-elasti_cache-public
OpenStack 101
OpenStack 101
CPUの同時実行機能
CPUの同時実行機能
How to use Ceph RBD as CloudStack Primary Storage
How to use Ceph RBD as CloudStack Primary Storage
Building andobservingcloudnativeappliactionusingazure elastic-terraform
Building andobservingcloudnativeappliactionusingazure elastic-terraform
エンターテイメント業界におけるAWS活用事例
エンターテイメント業界におけるAWS活用事例
[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
[C31]世界最速カラムナーDBは本物だ! by Daisuke Hirama
Mysql casial01
Mysql casial01
Linux/DB Tuning (DevSumi2010, Japanese)
Linux/DB Tuning (DevSumi2010, Japanese)
Web Operations and Perl kansai.pm#14
Web Operations and Perl kansai.pm#14
AWS Black Belt Techシリーズ Amazon ElastiCache
AWS Black Belt Techシリーズ Amazon ElastiCache
AWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL Compatibility
AWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL Compatibility
OSC ver : MariaDB ColumnStore ベンチマークしちゃいませんか?
OSC ver : MariaDB ColumnStore ベンチマークしちゃいませんか?
Linux on Power と x86 Linux との技術的な相違点
Linux on Power と x86 Linux との技術的な相違点
Plus de BrainPad Inc.
Oss LT会_20210203
Oss LT会_20210203
BrainPad Inc.
Business utilization of real estate image classification system using deep le...
Business utilization of real estate image classification system using deep le...
BrainPad Inc.
ブレインパッドにおける機械学習プロジェクトの進め方
ブレインパッドにおける機械学習プロジェクトの進め方
BrainPad Inc.
機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルト
BrainPad Inc.
機械学習システム開発案件の事例紹介
機械学習システム開発案件の事例紹介
BrainPad Inc.
れこめん道~とあるエンジニアの苦闘の日々
れこめん道~とあるエンジニアの苦闘の日々
BrainPad Inc.
DMPの分析機能を実現する技術
DMPの分析機能を実現する技術
BrainPad Inc.
機械学習システムを受託開発 する時に気をつけておきたい事
機械学習システムを受託開発 する時に気をつけておきたい事
BrainPad Inc.
システム開発素人が深層学習を用いた画像認識で麻雀点数計算するLINEbotを作ったハナシ
システム開発素人が深層学習を用いた画像認識で麻雀点数計算するLINEbotを作ったハナシ
BrainPad Inc.
Python研修の作り方 - teaching-is_learning-
Python研修の作り方 - teaching-is_learning-
BrainPad Inc.
2018 builderscon airflowを用いて、 複雑大規模なジョブフロー管理 に立ち向かう
2018 builderscon airflowを用いて、 複雑大規模なジョブフロー管理 に立ち向かう
BrainPad Inc.
2018.08.21-機械学習工学研究会 現場を交えた勉強会発表資料
2018.08.21-機械学習工学研究会 現場を交えた勉強会発表資料
BrainPad Inc.
GKEとgRPCで実装する多言語対応・スケーラブルな内部API
GKEとgRPCで実装する多言語対応・スケーラブルな内部API
BrainPad Inc.
実証実験報告セミナー資料 20180328(抜粋版)
実証実験報告セミナー資料 20180328(抜粋版)
BrainPad Inc.
エンジニア勉強会資料_⑥エンジニアが主導する組織マネジメントや開発体制の継続的改善
エンジニア勉強会資料_⑥エンジニアが主導する組織マネジメントや開発体制の継続的改善
BrainPad Inc.
エンジニア勉強会資料_⑤広告プロダクトとプラットフォームの開発
エンジニア勉強会資料_⑤広告プロダクトとプラットフォームの開発
BrainPad Inc.
エンジニア勉強会資料_④Rtoaster×Myndエンジンによる興味キーワード分析機能開発事例
エンジニア勉強会資料_④Rtoaster×Myndエンジンによる興味キーワード分析機能開発事例
BrainPad Inc.
エンジニア勉強会資料_③Rtoasterの11年
エンジニア勉強会資料_③Rtoasterの11年
BrainPad Inc.
エンジニア勉強会資料_②エンジニア・デザイナ・プロダクトオーナーが推薦するプロトタイプドリブン開発
エンジニア勉強会資料_②エンジニア・デザイナ・プロダクトオーナーが推薦するプロトタイプドリブン開発
BrainPad Inc.
エンジニア勉強会資料_①ブレインパッドの中で僕たちは何を開発しているのか?
エンジニア勉強会資料_①ブレインパッドの中で僕たちは何を開発しているのか?
BrainPad Inc.
Plus de BrainPad Inc.
(20)
Oss LT会_20210203
Oss LT会_20210203
Business utilization of real estate image classification system using deep le...
Business utilization of real estate image classification system using deep le...
ブレインパッドにおける機械学習プロジェクトの進め方
ブレインパッドにおける機械学習プロジェクトの進め方
機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルト
機械学習システム開発案件の事例紹介
機械学習システム開発案件の事例紹介
れこめん道~とあるエンジニアの苦闘の日々
れこめん道~とあるエンジニアの苦闘の日々
DMPの分析機能を実現する技術
DMPの分析機能を実現する技術
機械学習システムを受託開発 する時に気をつけておきたい事
機械学習システムを受託開発 する時に気をつけておきたい事
システム開発素人が深層学習を用いた画像認識で麻雀点数計算するLINEbotを作ったハナシ
システム開発素人が深層学習を用いた画像認識で麻雀点数計算するLINEbotを作ったハナシ
Python研修の作り方 - teaching-is_learning-
Python研修の作り方 - teaching-is_learning-
2018 builderscon airflowを用いて、 複雑大規模なジョブフロー管理 に立ち向かう
2018 builderscon airflowを用いて、 複雑大規模なジョブフロー管理 に立ち向かう
2018.08.21-機械学習工学研究会 現場を交えた勉強会発表資料
2018.08.21-機械学習工学研究会 現場を交えた勉強会発表資料
GKEとgRPCで実装する多言語対応・スケーラブルな内部API
GKEとgRPCで実装する多言語対応・スケーラブルな内部API
実証実験報告セミナー資料 20180328(抜粋版)
実証実験報告セミナー資料 20180328(抜粋版)
エンジニア勉強会資料_⑥エンジニアが主導する組織マネジメントや開発体制の継続的改善
エンジニア勉強会資料_⑥エンジニアが主導する組織マネジメントや開発体制の継続的改善
エンジニア勉強会資料_⑤広告プロダクトとプラットフォームの開発
エンジニア勉強会資料_⑤広告プロダクトとプラットフォームの開発
エンジニア勉強会資料_④Rtoaster×Myndエンジンによる興味キーワード分析機能開発事例
エンジニア勉強会資料_④Rtoaster×Myndエンジンによる興味キーワード分析機能開発事例
エンジニア勉強会資料_③Rtoasterの11年
エンジニア勉強会資料_③Rtoasterの11年
エンジニア勉強会資料_②エンジニア・デザイナ・プロダクトオーナーが推薦するプロトタイプドリブン開発
エンジニア勉強会資料_②エンジニア・デザイナ・プロダクトオーナーが推薦するプロトタイプドリブン開発
エンジニア勉強会資料_①ブレインパッドの中で僕たちは何を開発しているのか?
エンジニア勉強会資料_①ブレインパッドの中で僕たちは何を開発しているのか?
DeltaCubeにおけるユニークユーザー集計高速化(実践編)
1.
Copyright © BrainPad
Inc. All Rights Reserved. DeltaCubeにおけるユニークユーザー集計高速化 (実践編) 2016年6月10日
2.
Copyright © BrainPad
Inc. All Rights Reserved. 1. approx_distinctパフォーマンス検証 2
3.
Copyright © BrainPad
Inc. All Rights Reserved. 以下の環境で性能検証を実施 クラスタ環境 – Amazon EMRを利用(EMR 4.6.0) – master: r3.xlarge 1台 – core : r3.xlarge 3台 – sandboxを利用してPresto 0.143、Hive 1.0.0をインストール データソース – Hiveテーブル • Amazon S3に実データ格納 • hive metastoreはremote mode(MySQL) 3 検証環境 デフォルト設定でmaster, core共に 以下の設定内容。 • xmx • 25735444038 • query.max-memory • 30GB • query.max-memory-per-node • 12867722019B
4.
Copyright © BrainPad
Inc. All Rights Reserved. データフォーマット – ORC • 50万行ごとに分割 • カラム数は24 – パーティション • 日付(年月日) データサイズ – 1行あたりログサイズ • 約120~約280B – 1日あたりログサイズ • UU数が小規模な場合 – 約177KB • UU数が中規模な場合 – 約222MB • UU数が大規模な場合 – 約200MB~約2.6GB 4 検証データ
5.
Copyright © BrainPad
Inc. All Rights Reserved. 以下の内容で、厳密に集計(COUNT(DISTINCT x))した場合と 推定(approx_distinct(x))した場合の結果を取得 – UU数が小規模(1日あたり数百)な場合 • 1日分~180日分まで1日分ずつログを増加させる – 例) – 1回目:4月1日分のログで集計 – 2回目:4月1日~4月2日分のログで集計 – ・・・ – UU数が中規模(1日あたり数万)な場合 • 1日分~180日分まで1日分ずつログを増加させる – UU数が大規模(1日あたり十数万~百数十万)な場合 • 1日分~375日分まで1日分ずつログを増加させる 5 検証項目
6.
Copyright © BrainPad
Inc. All Rights Reserved. 6 小規模検証結果(UU数と計算時間) 図の横軸が真のUU数 上図縦軸は集計結果のUU数 – strict_uu • COUNT(DISTINCT x)の結果 • 真の値と等しい – approx_uu • approx_distinct(x)の結果 下図縦軸は計算時間 – strict_time • COUNT(DISTINCT x)の結果 – approx_time • approx_distinct(x)の結果 – 両者にあまり差はない
7.
Copyright © BrainPad
Inc. All Rights Reserved. 図の横軸が真のUU数 上図縦軸はUU数の絶対誤差 – 推定UU – 真のUUで計算 下図縦軸はUU数の相対誤差 – 絶対誤差/真のUU*100で 計算 – 最大でも±4%以内 – 絶対値平均で1.6%程度 – ±3%以内に90%以上が 収まっている 7 小規模検証結果(絶対誤差と相対誤差)
8.
Copyright © BrainPad
Inc. All Rights Reserved. 8 中規模検証結果(UU数と計算時間) 図の各軸は小規模検証結果と同様 計算時間(下図) – UU数が増加するほど差が大き くなる – 最大で1/3まで短縮されている (外れ値を除く) – 平均でも1/2まで短縮 – いくつか外れ値のようなものが 含まれる • 手動で再実行した場合は前後の 条件での集計と同程度の速度で あった
9.
Copyright © BrainPad
Inc. All Rights Reserved. 図の各軸は小規模検証結果 と同様 相対誤差(下図) – 最大でも±5%以内 – 絶対値平均で2.4%程度 – ±4%以内に75%以上が 収まっている 9 中規模検証結果(絶対誤差と相対誤差)
10.
Copyright © BrainPad
Inc. All Rights Reserved. 10 大規模検証結果(UU数と計算時間) 図の各軸は小規模検証結果と 同様 計算時間 – UU数が増加するほど差が 大きい – 最大で1/4まで短縮 (外れ値を除く) – 平均でも1/3以下まで短縮 – いくつか外れ値のような ものが含まれる • 手動で再実行した場合は 前後の条件での集計と同 程度の速度であった
11.
Copyright © BrainPad
Inc. All Rights Reserved. 図の各軸は小規模検証結果 と同様 相対誤差(下図) – 最大でも±5%以内 – 絶対値平均で1%程度 – ±4%以内に99%以上が 収まっている 11 大規模検証結果(絶対誤差と相対誤差)
12.
Copyright © BrainPad
Inc. All Rights Reserved. 誤差はかなり小さい – 全検証において最大でも±5%以内の相対誤差で収まった • 全検証の平均では相対誤差1.5%程度 • 93%以上は相対誤差±4%以内 – UU数が小さい場合でも誤差は小さい • 単純なHyperLogLogだけではなくその推定値に補正をかけている? 誤差がある値を境に小さくなっていくことがある – その前後でアルゴリズムを切り替えている? 基本的にUU数が増加すると絶対誤差は増加する – UU数の真値も増加するので相対誤差が増加するわけではない 大規模データに対してはかなり高速 – そもそも厳密な集計が高速な場合(数秒程度)にはあまり効果がない – 基本的にデータが大きくなるほど計算時間の削減率は大きい • 計算時間が1/4にまで短縮される場合もあった 12 検証結果考察
13.
Copyright © BrainPad
Inc. All Rights Reserved. 2. まとめ 13
14.
Copyright © BrainPad
Inc. All Rights Reserved. 全ての検証で相対誤差±5%以内と実用的 – アルゴリズム的に心配していたUU数が小さい場合も十分な精度 かなりの高速化が期待できる – データが大規模であるほど効果を発揮 個々のユーザーの情報は潰れる – COUNT(DISTINCT x)の推定のため、ユーザーの一覧は出せない • その集合に含まれるユーザーを特定することはできない メモリの使用量も削減 – (注)今回は高速化が主目的のため、削減量などのデータは未取得 毎回ランダムにサンプリングして推定するタイプではない – 入力データが同じなら同じ結果が返ってくる – ヘビーユーザーのような大量にログに出てくる人物に影響されない 14 まとめ
15.
Copyright © BrainPad
Inc. All Rights Reserved. 株式会社ブレインパッド 〒108-0071 東京都港区白金台3-2-10 白金台ビル3F TEL:03-6721-7001 FAX:03-6721-7010 info@brainpad.co.jp Copyright © BrainPad Inc. All Rights Reserved. www.brainpad.co.jp
Télécharger maintenant