SlideShare une entreprise Scribd logo
1  sur  16
Télécharger pour lire hors ligne
産業技術総合研究所情報技術研究部門 
主任研究員油井誠 
大規模機械学習基盤構築の取組み 
1 
Large-scale machine learning for the rest of us 
WebDB forum 2014 
1 / 10
自己紹介 
学部 
修士 
博士 (NAIST) 
ポスドク (CWI) 
産総研 
Web 2.0/AJAXの流行による 
データベースへの 
トランザクションの急増 
大量データの価値化 
・PostgreSQLを改造して 
XML取り扱い機能を付与 
・フロムスクラッチから XML専用のDBを開発 
・メニーコアを活かした 超並列DBの研究開発 
・ロックフリーのページ 置換アルゴリズムの開発 
従来の関係データベースでは 
上手く扱えない 
XMLデータが増加 
・大規模機械学習の並列 処理 
・並列データ処理基盤 
WebDB forum 2014 2 
2 / 10
Hivemallとは 
Apache Hadoopのエコシステム上に構築したオープン ソースの機械学習ライブラリ 
3 
Hadoop HDFS 
MapReduce 
(MRv1) 
Hive/PIG 
クエリ処理系 
Hivemall 
Apache YARN 
Apache Tez 
DAG処理系 
Apache MESOS 
Apache Spark 
DAG処理系 
Spark MLlib 
MR 
v2 
SparkSQL 
分散ファイルシステム 
リソース管理システム 
並列処理フレームワーク 
問合せ処理系 
機械学習ライブラリ 
github.com/myui/hivemall(bit.ly/hivemall) 
WebDB forum 2014 
3 / 10
•クラス分類(二値分類/多値 分類) 
Perceptron 
Passive Aggressive (PA) 
Confidence Weighted (CW) 
Adaptive Regularization of Weight Vectors (AROW) 
Soft Confidence Weighted (SCW) 
AdaGrad+RDA 
•回帰分析 
確率的勾配降下法に基づくロジス ティック回帰 
PA Regression 
AROW Regression 
AdaGrad 
AdaDELTA 
4 
Hivemallが提供する機能 
•K近傍法& レコメンデーション 
Minhashとb-Bit Minhash(LSH variant) 
類似度に基づくK近傍探索 
•Feature engineering 
Feature hashing 
Feature scaling (normalization, z-score) 
TF-IDF vectorizer 
WebDB forum 2014 
4 / 10
SQLベースの宣言的かつ容易な記述 
5 
Hivemallの特徴 
Mahoutによるプログラミング 
CREATE TABLE lr_modelAS 
SELECT 
feature, --reducers perform model averaging in parallel 
avg(weight) as weight 
FROM ( 
SELECT logress(features,label,..) as (feature,weight) 
FROM train 
) t --map-only task 
GROUP BY feature; --shuffled to reducers 
一般的なエンジニアでも機械学習を扱える 
WebDB forum 2014 
5 / 10
6 
学習器1 
学習器2 
学習器N 
パラメタ 
交換 
学習 
モデル 
分割された訓練例 
データ並列 
データ並列 
(モデルパラメタ) 
Hivemallにおける工夫点 
1.データを増幅することで機械学習の繰り返し処理 を避けている 
2.関係演算の並列処理に適した実行形態 
3.低レイテンシのパラメタ交換(外部プロセスとの通信による) 
WebDB forum 2014 
6 / 10
Hivemallの性能 
7 
Vowpal Wabbit(VW1)…高速な機械学習ライブラリとして最も著名なもの 
VW32…Vowpal Wabbitを32ノードのHadoop環境で動かしたもの 
Bismarck…データベース上で動作する機械学習ライブラリとして著名なもの 
Spark…UC Berkeleyが提供する最近最も注目される機械学習フレームワーク 
一般に使われるライブラリでは4時間以上かかる処理を32台で2分以内に処理 
同等精度のVWでは597.67秒(約10分)で5倍以上高速 
116.4 
596.67 
493.81 
755.24 
465 
0 
100 
200 
300 
400 
500 
600 
700 
800 
Hivemall 
VW1 
VW32 
Bismarck 
Spark 1.0 
0.64 
0.66 
0.68 
0.7 
0.72 
0.74 
0.76 
Hivemall 
VW1 
VW32 
Bismarck 
KDD Cup 2012, Track 2: 
データ:中国の検索エンジンプロバイダ提供の実データ(機械学習のPublicなデータとして最大級) 
訓練データは2億レコード以上、特徴数は5千万以上 
タスク:検索エンジン広告の広告クリックスルー率(CTR)推定 
CTR=(広告の)クリック数/ (広告の)表示数 
WebDB forum 2014 
7 / 10
資金提供型共同研究:(株)ロックオン 
•インターネット広告効果測定 
•Eコマースプラットフォーム 
•リスティング(検索連動)広告管理 
企業での利用及び開発への参加・貢献 
•(株)フリークアウト 
•国内初のリアルタイム広告入札サービス提供企業 
•(株)スケールアウト 
•広告配信プラットフォーム提供企業、KDDIが買収 
•トレジャーデータ(米) 
•データ収集・保管・分析のHadoop as a Service提供 
等 
Hivemallの広告関連企業での導入事例 
WebDB forum 2014 8 
8 / 10
•Hadoop Summit2014に日本から唯一の採択 
•米InfoWorld誌選定 Best Open Source SoftwareAward 2014 受賞 
•他は世界的にも著名なソフトばかり 
•R(統計解析向けプログラム言語) 
•Hadoop 
•Hive 
•Storm(ストリーム処理基盤) 
•Cassandra(非SQLデータベースシステム) 
•Neo4J(グラフデータベースシステム) 
•KNIME(ワークフローシステム) 
•etc. 
9 
研究成果のアウトリーチ活動の成果 
InfoWorld誌はIDGの発行するCIO/ITマネージャ向けの 業界誌としてリーディングソース 
WebDB forum 2014 
9 / 10
•Hadoop/Hiveに基づく機械学習フレームワーク 
•SQLベースの簡単な記述方法を提供 
•データ量の増大に対してスケールする 
•米国業界誌からビッグデータ分析のベストツールとして 受賞 
•インターネット広告企業を中心にビジネスで使われ つつある 
•Apache等オープンソースコミュニティへの貢献 
→ Apache incubatorに提案予定 
10 
Hivemallのまとめ 
github.com/myui/hivemall(bit.ly/hivemall) 
WebDB forum 2014 
10 / 10
11 
産業界にインパクトのある研究とは何か? 
産業界にインパクトを与えた論文は何か? 
問を少し変えてみる 
WebDB forum 2014
12 
SIGMOD Test of Time Awardからのピックアップ 
A Case for Redundant Arrays of Inexpensive Disks (RAID). David A. Patterson, Garth A. Gibson, and Randy H. Katz, In Proc.SIGMOD, 1988. 
引用数3281 
Encapsulation of Parallelism in the Volcano Query Processing System. Goetz Graefe, In Proc. SIGMOD, 1990. 
引用元383 
Mining Association Rules Between Sets of Items in Large Databases. Rakesh Agrawal, Tomasz Imielinski, and Arun Swam 
引用元15008 
RAIDの提案、ストレージビジネスへの影響大 
Volcano Iterator Modelの提案 
多くのRDBMS(Postgres/MySQLも)がこの実行モデルに基づく 
Aprioriアルゴリズムの提案 
Data miningon RDBMSの草分け 
WebDB forum 2014
13 
SIGMOD Test of Time Awardからのピックアップ 
WebDB forum 2014
•J Dean, S Ghemawat, "MapReduce: Simplified Data Processing on Large Clusters", Proc. OSDI, 2004. 
•MateiZaharia, MosharafChowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica, “Spark: cluster computing with working sets”, Proc. HotCloud(USENIX workshop), 2010. 
14 
AMPLabの学生は初期は論文はあまり出ないかもしれないが 
プロジェクトに集中するように言われていたらしい. 
研究よりも実装が研究面への注目を喚起している 
産業界への影響,学術面での影響を考慮しても外せない 
オープンソース実装Hadoopが登場したことも大きい 
(BigQueryの基礎となっているDremelは代替実装が生まれていない) 
OS系会議からのピックアップ 
DB系だとビジネス創生、OS系会議だとオープンソース実装が重要 
WebDB forum 2014
既に登場しているもの 
•仮想化技術+ DB 
•FPGA + DB 
•InfinibandRDMA + DB 
•KVS + FPGA / InfinibandRDMA 
•H/Wトランザクショナルメモリ+DB 
まだ登場していないもの 
•機械学習+ アクセラレータ/FPGA 
•機械学習+ 高速ネットワーク 
•NVRAM + DBMS 
•組込み/IoT用データ処理 
•Query shipping/Continuous queries処理のオフロード 
•TCP/IP、MQTTの代替プロトコルfor IoT-DB 
15 
OS層からDB層の技術を融合した世界と戦える研究は何か? 
WebDB forum 2014
16 
学習器1 
学習器2 
学習器N 
パラメタ 
交換 
学習 
モデル 
分割された訓練例 
データ並列 
データ並列 
(モデルパラメタ) 
Mu Li, David G. Andersen, Jun W. Park, et al.,"Scaling Distributed Machine Learning with the Parameter Server", Proc. OSDI, 2014. 
OS層からDB層の技術を融合した世界と戦える研究は何か? 
超低レイテンシ/Line rateのパラメタ交換 
(FPGA+高速ネットワーク) 
WebDB forum 2014

Contenu connexe

Tendances

ICDE 2015 Study (R24-4, R27-3)
ICDE 2015 Study (R24-4, R27-3)ICDE 2015 Study (R24-4, R27-3)
ICDE 2015 Study (R24-4, R27-3)Masafumi Oyamada
 
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...Insight Technology, Inc.
 
Data x AI x API で考えるビジネスインフラ
Data x AI x API で考えるビジネスインフラData x AI x API で考えるビジネスインフラ
Data x AI x API で考えるビジネスインフラDaiyu Hatakeyama
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeSatoru Ishikawa
 
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...Insight Technology, Inc.
 
今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ株式会社クライム
 
Nosqlの基礎知識(2013年7月講義資料)
Nosqlの基礎知識(2013年7月講義資料)Nosqlの基礎知識(2013年7月講義資料)
Nosqlの基礎知識(2013年7月講義資料)CLOUDIAN KK
 
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京Koichiro Sasaki
 
[db tech showcase Tokyo 2017] D35: 何を基準に選定すべきなのか!? ~ビッグデータ×IoT×AI時代のデータベースのアー...
[db tech showcase Tokyo 2017] D35: 何を基準に選定すべきなのか!? ~ビッグデータ×IoT×AI時代のデータベースのアー...[db tech showcase Tokyo 2017] D35: 何を基準に選定すべきなのか!? ~ビッグデータ×IoT×AI時代のデータベースのアー...
[db tech showcase Tokyo 2017] D35: 何を基準に選定すべきなのか!? ~ビッグデータ×IoT×AI時代のデータベースのアー...Insight Technology, Inc.
 
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House ArchitectureBigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House ArchitectureSatoru Ishikawa
 
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編Daiyu Hatakeyama
 
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢Insight Technology, Inc.
 
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...Insight Technology, Inc.
 
Hadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食いHadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食いRyuji Tamagawa
 
並列データベースシステムの概念と原理
並列データベースシステムの概念と原理並列データベースシステムの概念と原理
並列データベースシステムの概念と原理Makoto Yui
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - Tetsutaro Watanabe
 
DataStax Enterpriseによる大規模グラフ解析
DataStax Enterpriseによる大規模グラフ解析DataStax Enterpriseによる大規模グラフ解析
DataStax Enterpriseによる大規模グラフ解析Yuki Morishita
 

Tendances (20)

ICDE 2015 Study (R24-4, R27-3)
ICDE 2015 Study (R24-4, R27-3)ICDE 2015 Study (R24-4, R27-3)
ICDE 2015 Study (R24-4, R27-3)
 
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
 
Datomic&datalog紹介
Datomic&datalog紹介Datomic&datalog紹介
Datomic&datalog紹介
 
Azure Datalake 大全
Azure Datalake 大全Azure Datalake 大全
Azure Datalake 大全
 
Data x AI x API で考えるビジネスインフラ
Data x AI x API で考えるビジネスインフラData x AI x API で考えるビジネスインフラ
Data x AI x API で考えるビジネスインフラ
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
 
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
 
今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ
 
20071204
2007120420071204
20071204
 
Nosqlの基礎知識(2013年7月講義資料)
Nosqlの基礎知識(2013年7月講義資料)Nosqlの基礎知識(2013年7月講義資料)
Nosqlの基礎知識(2013年7月講義資料)
 
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
 
[db tech showcase Tokyo 2017] D35: 何を基準に選定すべきなのか!? ~ビッグデータ×IoT×AI時代のデータベースのアー...
[db tech showcase Tokyo 2017] D35: 何を基準に選定すべきなのか!? ~ビッグデータ×IoT×AI時代のデータベースのアー...[db tech showcase Tokyo 2017] D35: 何を基準に選定すべきなのか!? ~ビッグデータ×IoT×AI時代のデータベースのアー...
[db tech showcase Tokyo 2017] D35: 何を基準に選定すべきなのか!? ~ビッグデータ×IoT×AI時代のデータベースのアー...
 
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House ArchitectureBigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House Architecture
 
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
 
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
 
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
 
Hadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食いHadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食い
 
並列データベースシステムの概念と原理
並列データベースシステムの概念と原理並列データベースシステムの概念と原理
並列データベースシステムの概念と原理
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
 
DataStax Enterpriseによる大規模グラフ解析
DataStax Enterpriseによる大規模グラフ解析DataStax Enterpriseによる大規模グラフ解析
DataStax Enterpriseによる大規模グラフ解析
 

Similaire à Panel Discussion@WebDB forum 2014

経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめYasushi Hara
 
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoopInsight Technology, Inc.
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~Developers Summit
 
Spark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについてSpark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについてRecruit Technologies
 
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)CLOUDIAN KK
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムRecruit Technologies
 
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保するDNA Data Bank of Japan center
 
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築貴志 上坂
 
OSSとクラウドによるコンピューティングモデルの変化
OSSとクラウドによるコンピューティングモデルの変化OSSとクラウドによるコンピューティングモデルの変化
OSSとクラウドによるコンピューティングモデルの変化Nobuyori Takahashi
 
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門Daiyu Hatakeyama
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16Yifeng Jiang
 
No-Ops で大量データ処理基盤を簡単に実現する
No-Ops で大量データ処理基盤を簡単に実現するNo-Ops で大量データ処理基盤を簡単に実現する
No-Ops で大量データ処理基盤を簡単に実現するKiyoshi Fukuda
 
Jjug springセッション
Jjug springセッションJjug springセッション
Jjug springセッションYuichi Hasegawa
 
[db tech showcase Tokyo 2015] C17:MySQL Cluster ユーザー事例紹介~JR東日本情報システム様における導入事例...
[db tech showcase Tokyo 2015] C17:MySQL Cluster ユーザー事例紹介~JR東日本情報システム様における導入事例...[db tech showcase Tokyo 2015] C17:MySQL Cluster ユーザー事例紹介~JR東日本情報システム様における導入事例...
[db tech showcase Tokyo 2015] C17:MySQL Cluster ユーザー事例紹介~JR東日本情報システム様における導入事例...Insight Technology, Inc.
 

Similaire à Panel Discussion@WebDB forum 2014 (20)

経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
 
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
 
Spark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについてSpark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについて
 
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
 
HBaseCon 2012 参加レポート
HBaseCon 2012 参加レポートHBaseCon 2012 参加レポート
HBaseCon 2012 参加レポート
 
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
 
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
 
OSSとクラウドによるコンピューティングモデルの変化
OSSとクラウドによるコンピューティングモデルの変化OSSとクラウドによるコンピューティングモデルの変化
OSSとクラウドによるコンピューティングモデルの変化
 
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
 
No-Ops で大量データ処理基盤を簡単に実現する
No-Ops で大量データ処理基盤を簡単に実現するNo-Ops で大量データ処理基盤を簡単に実現する
No-Ops で大量データ処理基盤を簡単に実現する
 
No-Ops で大量データ処理基盤
No-Ops で大量データ処理基盤No-Ops で大量データ処理基盤
No-Ops で大量データ処理基盤
 
SoCC12報告
SoCC12報告SoCC12報告
SoCC12報告
 
IEEE/ACM SC2013報告
IEEE/ACM SC2013報告IEEE/ACM SC2013報告
IEEE/ACM SC2013報告
 
ICD/CPSY 201412
ICD/CPSY 201412ICD/CPSY 201412
ICD/CPSY 201412
 
Jjug springセッション
Jjug springセッションJjug springセッション
Jjug springセッション
 
[db tech showcase Tokyo 2015] C17:MySQL Cluster ユーザー事例紹介~JR東日本情報システム様における導入事例...
[db tech showcase Tokyo 2015] C17:MySQL Cluster ユーザー事例紹介~JR東日本情報システム様における導入事例...[db tech showcase Tokyo 2015] C17:MySQL Cluster ユーザー事例紹介~JR東日本情報システム様における導入事例...
[db tech showcase Tokyo 2015] C17:MySQL Cluster ユーザー事例紹介~JR東日本情報システム様における導入事例...
 

Plus de Makoto Yui

Apache Hivemall and my OSS experience
Apache Hivemall and my OSS experienceApache Hivemall and my OSS experience
Apache Hivemall and my OSS experienceMakoto Yui
 
Introduction to Apache Hivemall v0.5.2 and v0.6
Introduction to Apache Hivemall v0.5.2 and v0.6Introduction to Apache Hivemall v0.5.2 and v0.6
Introduction to Apache Hivemall v0.5.2 and v0.6Makoto Yui
 
Introduction to Apache Hivemall v0.5.0
Introduction to Apache Hivemall v0.5.0Introduction to Apache Hivemall v0.5.0
Introduction to Apache Hivemall v0.5.0Makoto Yui
 
Idea behind Apache Hivemall
Idea behind Apache HivemallIdea behind Apache Hivemall
Idea behind Apache HivemallMakoto Yui
 
Introduction to Apache Hivemall v0.5.0
Introduction to Apache Hivemall v0.5.0Introduction to Apache Hivemall v0.5.0
Introduction to Apache Hivemall v0.5.0Makoto Yui
 
What's new in Hivemall v0.5.0
What's new in Hivemall v0.5.0What's new in Hivemall v0.5.0
What's new in Hivemall v0.5.0Makoto Yui
 
What's new in Apache Hivemall v0.5.0
What's new in Apache Hivemall v0.5.0What's new in Apache Hivemall v0.5.0
What's new in Apache Hivemall v0.5.0Makoto Yui
 
Revisiting b+-trees
Revisiting b+-treesRevisiting b+-trees
Revisiting b+-treesMakoto Yui
 
Incubating Apache Hivemall
Incubating Apache HivemallIncubating Apache Hivemall
Incubating Apache HivemallMakoto Yui
 
Hivemall meets Digdag @Hackertackle 2018-02-17
Hivemall meets Digdag @Hackertackle 2018-02-17Hivemall meets Digdag @Hackertackle 2018-02-17
Hivemall meets Digdag @Hackertackle 2018-02-17Makoto Yui
 
Apache Hivemall @ Apache BigData '17, Miami
Apache Hivemall @ Apache BigData '17, MiamiApache Hivemall @ Apache BigData '17, Miami
Apache Hivemall @ Apache BigData '17, MiamiMakoto Yui
 
機械学習のデータ並列処理@第7回BDI研究会
機械学習のデータ並列処理@第7回BDI研究会機械学習のデータ並列処理@第7回BDI研究会
機械学習のデータ並列処理@第7回BDI研究会Makoto Yui
 
Podling Hivemall in the Apache Incubator
Podling Hivemall in the Apache IncubatorPodling Hivemall in the Apache Incubator
Podling Hivemall in the Apache IncubatorMakoto Yui
 
Dots20161029 myui
Dots20161029 myuiDots20161029 myui
Dots20161029 myuiMakoto Yui
 
Hadoopsummit16 myui
Hadoopsummit16 myuiHadoopsummit16 myui
Hadoopsummit16 myuiMakoto Yui
 
HadoopCon'16, Taipei @myui
HadoopCon'16, Taipei @myuiHadoopCon'16, Taipei @myui
HadoopCon'16, Taipei @myuiMakoto Yui
 
3rd Hivemall meetup
3rd Hivemall meetup3rd Hivemall meetup
3rd Hivemall meetupMakoto Yui
 
Recommendation 101 using Hivemall
Recommendation 101 using HivemallRecommendation 101 using Hivemall
Recommendation 101 using HivemallMakoto Yui
 
Hivemall dbtechshowcase 20160713 #dbts2016
Hivemall dbtechshowcase 20160713 #dbts2016Hivemall dbtechshowcase 20160713 #dbts2016
Hivemall dbtechshowcase 20160713 #dbts2016Makoto Yui
 
Introduction to Hivemall
Introduction to HivemallIntroduction to Hivemall
Introduction to HivemallMakoto Yui
 

Plus de Makoto Yui (20)

Apache Hivemall and my OSS experience
Apache Hivemall and my OSS experienceApache Hivemall and my OSS experience
Apache Hivemall and my OSS experience
 
Introduction to Apache Hivemall v0.5.2 and v0.6
Introduction to Apache Hivemall v0.5.2 and v0.6Introduction to Apache Hivemall v0.5.2 and v0.6
Introduction to Apache Hivemall v0.5.2 and v0.6
 
Introduction to Apache Hivemall v0.5.0
Introduction to Apache Hivemall v0.5.0Introduction to Apache Hivemall v0.5.0
Introduction to Apache Hivemall v0.5.0
 
Idea behind Apache Hivemall
Idea behind Apache HivemallIdea behind Apache Hivemall
Idea behind Apache Hivemall
 
Introduction to Apache Hivemall v0.5.0
Introduction to Apache Hivemall v0.5.0Introduction to Apache Hivemall v0.5.0
Introduction to Apache Hivemall v0.5.0
 
What's new in Hivemall v0.5.0
What's new in Hivemall v0.5.0What's new in Hivemall v0.5.0
What's new in Hivemall v0.5.0
 
What's new in Apache Hivemall v0.5.0
What's new in Apache Hivemall v0.5.0What's new in Apache Hivemall v0.5.0
What's new in Apache Hivemall v0.5.0
 
Revisiting b+-trees
Revisiting b+-treesRevisiting b+-trees
Revisiting b+-trees
 
Incubating Apache Hivemall
Incubating Apache HivemallIncubating Apache Hivemall
Incubating Apache Hivemall
 
Hivemall meets Digdag @Hackertackle 2018-02-17
Hivemall meets Digdag @Hackertackle 2018-02-17Hivemall meets Digdag @Hackertackle 2018-02-17
Hivemall meets Digdag @Hackertackle 2018-02-17
 
Apache Hivemall @ Apache BigData '17, Miami
Apache Hivemall @ Apache BigData '17, MiamiApache Hivemall @ Apache BigData '17, Miami
Apache Hivemall @ Apache BigData '17, Miami
 
機械学習のデータ並列処理@第7回BDI研究会
機械学習のデータ並列処理@第7回BDI研究会機械学習のデータ並列処理@第7回BDI研究会
機械学習のデータ並列処理@第7回BDI研究会
 
Podling Hivemall in the Apache Incubator
Podling Hivemall in the Apache IncubatorPodling Hivemall in the Apache Incubator
Podling Hivemall in the Apache Incubator
 
Dots20161029 myui
Dots20161029 myuiDots20161029 myui
Dots20161029 myui
 
Hadoopsummit16 myui
Hadoopsummit16 myuiHadoopsummit16 myui
Hadoopsummit16 myui
 
HadoopCon'16, Taipei @myui
HadoopCon'16, Taipei @myuiHadoopCon'16, Taipei @myui
HadoopCon'16, Taipei @myui
 
3rd Hivemall meetup
3rd Hivemall meetup3rd Hivemall meetup
3rd Hivemall meetup
 
Recommendation 101 using Hivemall
Recommendation 101 using HivemallRecommendation 101 using Hivemall
Recommendation 101 using Hivemall
 
Hivemall dbtechshowcase 20160713 #dbts2016
Hivemall dbtechshowcase 20160713 #dbts2016Hivemall dbtechshowcase 20160713 #dbts2016
Hivemall dbtechshowcase 20160713 #dbts2016
 
Introduction to Hivemall
Introduction to HivemallIntroduction to Hivemall
Introduction to Hivemall
 

Panel Discussion@WebDB forum 2014

  • 2. 自己紹介 学部 修士 博士 (NAIST) ポスドク (CWI) 産総研 Web 2.0/AJAXの流行による データベースへの トランザクションの急増 大量データの価値化 ・PostgreSQLを改造して XML取り扱い機能を付与 ・フロムスクラッチから XML専用のDBを開発 ・メニーコアを活かした 超並列DBの研究開発 ・ロックフリーのページ 置換アルゴリズムの開発 従来の関係データベースでは 上手く扱えない XMLデータが増加 ・大規模機械学習の並列 処理 ・並列データ処理基盤 WebDB forum 2014 2 2 / 10
  • 3. Hivemallとは Apache Hadoopのエコシステム上に構築したオープン ソースの機械学習ライブラリ 3 Hadoop HDFS MapReduce (MRv1) Hive/PIG クエリ処理系 Hivemall Apache YARN Apache Tez DAG処理系 Apache MESOS Apache Spark DAG処理系 Spark MLlib MR v2 SparkSQL 分散ファイルシステム リソース管理システム 並列処理フレームワーク 問合せ処理系 機械学習ライブラリ github.com/myui/hivemall(bit.ly/hivemall) WebDB forum 2014 3 / 10
  • 4. •クラス分類(二値分類/多値 分類) Perceptron Passive Aggressive (PA) Confidence Weighted (CW) Adaptive Regularization of Weight Vectors (AROW) Soft Confidence Weighted (SCW) AdaGrad+RDA •回帰分析 確率的勾配降下法に基づくロジス ティック回帰 PA Regression AROW Regression AdaGrad AdaDELTA 4 Hivemallが提供する機能 •K近傍法& レコメンデーション Minhashとb-Bit Minhash(LSH variant) 類似度に基づくK近傍探索 •Feature engineering Feature hashing Feature scaling (normalization, z-score) TF-IDF vectorizer WebDB forum 2014 4 / 10
  • 5. SQLベースの宣言的かつ容易な記述 5 Hivemallの特徴 Mahoutによるプログラミング CREATE TABLE lr_modelAS SELECT feature, --reducers perform model averaging in parallel avg(weight) as weight FROM ( SELECT logress(features,label,..) as (feature,weight) FROM train ) t --map-only task GROUP BY feature; --shuffled to reducers 一般的なエンジニアでも機械学習を扱える WebDB forum 2014 5 / 10
  • 6. 6 学習器1 学習器2 学習器N パラメタ 交換 学習 モデル 分割された訓練例 データ並列 データ並列 (モデルパラメタ) Hivemallにおける工夫点 1.データを増幅することで機械学習の繰り返し処理 を避けている 2.関係演算の並列処理に適した実行形態 3.低レイテンシのパラメタ交換(外部プロセスとの通信による) WebDB forum 2014 6 / 10
  • 7. Hivemallの性能 7 Vowpal Wabbit(VW1)…高速な機械学習ライブラリとして最も著名なもの VW32…Vowpal Wabbitを32ノードのHadoop環境で動かしたもの Bismarck…データベース上で動作する機械学習ライブラリとして著名なもの Spark…UC Berkeleyが提供する最近最も注目される機械学習フレームワーク 一般に使われるライブラリでは4時間以上かかる処理を32台で2分以内に処理 同等精度のVWでは597.67秒(約10分)で5倍以上高速 116.4 596.67 493.81 755.24 465 0 100 200 300 400 500 600 700 800 Hivemall VW1 VW32 Bismarck Spark 1.0 0.64 0.66 0.68 0.7 0.72 0.74 0.76 Hivemall VW1 VW32 Bismarck KDD Cup 2012, Track 2: データ:中国の検索エンジンプロバイダ提供の実データ(機械学習のPublicなデータとして最大級) 訓練データは2億レコード以上、特徴数は5千万以上 タスク:検索エンジン広告の広告クリックスルー率(CTR)推定 CTR=(広告の)クリック数/ (広告の)表示数 WebDB forum 2014 7 / 10
  • 8. 資金提供型共同研究:(株)ロックオン •インターネット広告効果測定 •Eコマースプラットフォーム •リスティング(検索連動)広告管理 企業での利用及び開発への参加・貢献 •(株)フリークアウト •国内初のリアルタイム広告入札サービス提供企業 •(株)スケールアウト •広告配信プラットフォーム提供企業、KDDIが買収 •トレジャーデータ(米) •データ収集・保管・分析のHadoop as a Service提供 等 Hivemallの広告関連企業での導入事例 WebDB forum 2014 8 8 / 10
  • 9. •Hadoop Summit2014に日本から唯一の採択 •米InfoWorld誌選定 Best Open Source SoftwareAward 2014 受賞 •他は世界的にも著名なソフトばかり •R(統計解析向けプログラム言語) •Hadoop •Hive •Storm(ストリーム処理基盤) •Cassandra(非SQLデータベースシステム) •Neo4J(グラフデータベースシステム) •KNIME(ワークフローシステム) •etc. 9 研究成果のアウトリーチ活動の成果 InfoWorld誌はIDGの発行するCIO/ITマネージャ向けの 業界誌としてリーディングソース WebDB forum 2014 9 / 10
  • 10. •Hadoop/Hiveに基づく機械学習フレームワーク •SQLベースの簡単な記述方法を提供 •データ量の増大に対してスケールする •米国業界誌からビッグデータ分析のベストツールとして 受賞 •インターネット広告企業を中心にビジネスで使われ つつある •Apache等オープンソースコミュニティへの貢献 → Apache incubatorに提案予定 10 Hivemallのまとめ github.com/myui/hivemall(bit.ly/hivemall) WebDB forum 2014 10 / 10
  • 12. 12 SIGMOD Test of Time Awardからのピックアップ A Case for Redundant Arrays of Inexpensive Disks (RAID). David A. Patterson, Garth A. Gibson, and Randy H. Katz, In Proc.SIGMOD, 1988. 引用数3281 Encapsulation of Parallelism in the Volcano Query Processing System. Goetz Graefe, In Proc. SIGMOD, 1990. 引用元383 Mining Association Rules Between Sets of Items in Large Databases. Rakesh Agrawal, Tomasz Imielinski, and Arun Swam 引用元15008 RAIDの提案、ストレージビジネスへの影響大 Volcano Iterator Modelの提案 多くのRDBMS(Postgres/MySQLも)がこの実行モデルに基づく Aprioriアルゴリズムの提案 Data miningon RDBMSの草分け WebDB forum 2014
  • 13. 13 SIGMOD Test of Time Awardからのピックアップ WebDB forum 2014
  • 14. •J Dean, S Ghemawat, "MapReduce: Simplified Data Processing on Large Clusters", Proc. OSDI, 2004. •MateiZaharia, MosharafChowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica, “Spark: cluster computing with working sets”, Proc. HotCloud(USENIX workshop), 2010. 14 AMPLabの学生は初期は論文はあまり出ないかもしれないが プロジェクトに集中するように言われていたらしい. 研究よりも実装が研究面への注目を喚起している 産業界への影響,学術面での影響を考慮しても外せない オープンソース実装Hadoopが登場したことも大きい (BigQueryの基礎となっているDremelは代替実装が生まれていない) OS系会議からのピックアップ DB系だとビジネス創生、OS系会議だとオープンソース実装が重要 WebDB forum 2014
  • 15. 既に登場しているもの •仮想化技術+ DB •FPGA + DB •InfinibandRDMA + DB •KVS + FPGA / InfinibandRDMA •H/Wトランザクショナルメモリ+DB まだ登場していないもの •機械学習+ アクセラレータ/FPGA •機械学習+ 高速ネットワーク •NVRAM + DBMS •組込み/IoT用データ処理 •Query shipping/Continuous queries処理のオフロード •TCP/IP、MQTTの代替プロトコルfor IoT-DB 15 OS層からDB層の技術を融合した世界と戦える研究は何か? WebDB forum 2014
  • 16. 16 学習器1 学習器2 学習器N パラメタ 交換 学習 モデル 分割された訓練例 データ並列 データ並列 (モデルパラメタ) Mu Li, David G. Andersen, Jun W. Park, et al.,"Scaling Distributed Machine Learning with the Parameter Server", Proc. OSDI, 2014. OS層からDB層の技術を融合した世界と戦える研究は何か? 超低レイテンシ/Line rateのパラメタ交換 (FPGA+高速ネットワーク) WebDB forum 2014