Panel Discussion@WebDB forum 2014

産業技術総合研究所情報技術研究部門
主任研究員油井誠
大規模機械学習基盤構築の取組み
1
Large-scale machine learning for the rest of us
WebDB forum 2014
1 / 10

自己紹介
学部
修士
博士 (NAIST)
ポスドク (CWI)
産総研
Web 2.0/AJAXの流行による
データベースへの
トランザクションの急増
大量データの価値化
・PostgreSQLを改造して
XML取り扱い機能を付与
・フロムスクラッチから XML専用のDBを開発
・メニーコアを活かした超並列DBの研究開発
・ロックフリーのページ置換アルゴリズムの開発
従来の関係データベースでは
上手く扱えない
XMLデータが増加
・大規模機械学習の並列処理
・並列データ処理基盤
WebDB forum 2014 2
2 / 10

Hivemallとは
Apache Hadoopのエコシステム上に構築したオープンソースの機械学習ライブラリ
3
Hadoop HDFS
MapReduce
(MRv1)
Hive/PIG
クエリ処理系
Hivemall
Apache YARN
Apache Tez
DAG処理系
Apache MESOS
Apache Spark
DAG処理系
Spark MLlib
MR
v2
SparkSQL
分散ファイルシステム
リソース管理システム
並列処理フレームワーク
問合せ処理系
機械学習ライブラリ
github.com/myui/hivemall(bit.ly/hivemall)
WebDB forum 2014
3 / 10

•クラス分類(二値分類/多値分類)
Perceptron
Passive Aggressive (PA)
Confidence Weighted (CW)
Adaptive Regularization of Weight Vectors (AROW)
Soft Confidence Weighted (SCW)
AdaGrad+RDA
•回帰分析
確率的勾配降下法に基づくロジスティック回帰
PA Regression
AROW Regression
AdaGrad
AdaDELTA
4
Hivemallが提供する機能
•K近傍法& レコメンデーション
Minhashとb-Bit Minhash(LSH variant)
類似度に基づくK近傍探索
•Feature engineering
Feature hashing
Feature scaling (normalization, z-score)
TF-IDF vectorizer
WebDB forum 2014
4 / 10

SQLベースの宣言的かつ容易な記述
5
Hivemallの特徴
Mahoutによるプログラミング
CREATE TABLE lr_modelAS
SELECT
feature, --reducers perform model averaging in parallel
avg(weight) as weight
FROM (
SELECT logress(features,label,..) as (feature,weight)
FROM train
) t --map-only task
GROUP BY feature; --shuffled to reducers
一般的なエンジニアでも機械学習を扱える
WebDB forum 2014
5 / 10

6
学習器1
学習器2
学習器N
パラメタ
交換
学習
モデル
分割された訓練例
データ並列
データ並列
（モデルパラメタ）
Hivemallにおける工夫点
1.データを増幅することで機械学習の繰り返し処理を避けている
2.関係演算の並列処理に適した実行形態
3.低レイテンシのパラメタ交換（外部プロセスとの通信による）
WebDB forum 2014
6 / 10

Hivemallの性能
7
Vowpal Wabbit（VW1)…高速な機械学習ライブラリとして最も著名なもの
VW32…Vowpal Wabbitを32ノードのHadoop環境で動かしたもの
Bismarck…データベース上で動作する機械学習ライブラリとして著名なもの
Spark…UC Berkeleyが提供する最近最も注目される機械学習フレームワーク
一般に使われるライブラリでは4時間以上かかる処理を32台で2分以内に処理
同等精度のVWでは597.67秒（約10分）で5倍以上高速
116.4
596.67
493.81
755.24
465
0
100
200
300
400
500
600
700
800
Hivemall
VW1
VW32
Bismarck
Spark 1.0
0.64
0.66
0.68
0.7
0.72
0.74
0.76
Hivemall
VW1
VW32
Bismarck
KDD Cup 2012, Track 2：
データ：中国の検索エンジンプロバイダ提供の実データ(機械学習のPublicなデータとして最大級）
訓練データは2億レコード以上、特徴数は5千万以上
タスク：検索エンジン広告の広告クリックスルー率（CTR）推定
ＣＴＲ＝（広告の）クリック数/ （広告の）表示数
WebDB forum 2014
7 / 10

資金提供型共同研究：(株)ロックオン
•インターネット広告効果測定
•Ｅコマースプラットフォーム
•リスティング(検索連動)広告管理
企業での利用及び開発への参加・貢献
•（株）フリークアウト
•国内初のリアルタイム広告入札サービス提供企業
•（株）スケールアウト
•広告配信プラットフォーム提供企業、ＫＤＤＩが買収
•トレジャーデータ(米)
•データ収集・保管・分析のHadoop as a Service提供
等
Hivemallの広告関連企業での導入事例
WebDB forum 2014 8
8 / 10

•Hadoop Summit2014に日本から唯一の採択
•米InfoWorld誌選定 Best Open Source SoftwareAward 2014 受賞
•他は世界的にも著名なソフトばかり
•R(統計解析向けプログラム言語）
•Hadoop
•Hive
•Storm(ストリーム処理基盤）
•Cassandra（非SQLデータベースシステム）
•Neo4J(グラフデータベースシステム）
•KNIME(ワークフローシステム）
•etc.
9
研究成果のアウトリーチ活動の成果
InfoWorld誌はIDGの発行するCIO/ITマネージャ向けの業界誌としてリーディングソース
WebDB forum 2014
9 / 10

•Hadoop/Hiveに基づく機械学習フレームワーク
•SQLベースの簡単な記述方法を提供
•データ量の増大に対してスケールする
•米国業界誌からビッグデータ分析のベストツールとして受賞
•インターネット広告企業を中心にビジネスで使われつつある
•Apache等オープンソースコミュニティへの貢献
→ Apache incubatorに提案予定
10
Hivemallのまとめ
github.com/myui/hivemall(bit.ly/hivemall)
WebDB forum 2014
10 / 10

11
産業界にインパクトのある研究とは何か？
産業界にインパクトを与えた論文は何か？
問を少し変えてみる
WebDB forum 2014

12
SIGMOD Test of Time Awardからのピックアップ
A Case for Redundant Arrays of Inexpensive Disks (RAID). David A. Patterson, Garth A. Gibson, and Randy H. Katz, In Proc.SIGMOD, 1988.
引用数3281
Encapsulation of Parallelism in the Volcano Query Processing System. Goetz Graefe, In Proc. SIGMOD, 1990.
引用元383
Mining Association Rules Between Sets of Items in Large Databases. Rakesh Agrawal, Tomasz Imielinski, and Arun Swam
引用元15008
RAIDの提案、ストレージビジネスへの影響大
Volcano Iterator Modelの提案
多くのRDBMS(Postgres/MySQLも）がこの実行モデルに基づく
Aprioriアルゴリズムの提案
Data miningon RDBMSの草分け
WebDB forum 2014

13
SIGMOD Test of Time Awardからのピックアップ
WebDB forum 2014

•J Dean, S Ghemawat, "MapReduce: Simplified Data Processing on Large Clusters", Proc. OSDI, 2004.
•MateiZaharia, MosharafChowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica, “Spark: cluster computing with working sets”, Proc. HotCloud(USENIX workshop), 2010.
14
AMPLabの学生は初期は論文はあまり出ないかもしれないが
プロジェクトに集中するように言われていたらしい．
研究よりも実装が研究面への注目を喚起している
産業界への影響，学術面での影響を考慮しても外せない
オープンソース実装Hadoopが登場したことも大きい
(BigQueryの基礎となっているDremelは代替実装が生まれていない）
OS系会議からのピックアップ
DB系だとビジネス創生、OS系会議だとオープンソース実装が重要
WebDB forum 2014

既に登場しているもの
•仮想化技術+ DB
•FPGA + DB
•InfinibandRDMA + DB
•KVS + FPGA / InfinibandRDMA
•H/Wトランザクショナルメモリ＋DB
まだ登場していないもの
•機械学習+ アクセラレータ/FPGA
•機械学習+ 高速ネットワーク
•NVRAM + DBMS
•組込み/IoT用データ処理
•Query shipping/Continuous queries処理のオフロード
•TCP/IP、MQTTの代替プロトコルfor IoT-DB
15
OS層からDB層の技術を融合した世界と戦える研究は何か?
WebDB forum 2014

16
学習器1
学習器2
学習器N
パラメタ
交換
学習
モデル
分割された訓練例
データ並列
データ並列
（モデルパラメタ）
Mu Li, David G. Andersen, Jun W. Park, et al.,"Scaling Distributed Machine Learning with the Parameter Server", Proc. OSDI, 2014.
OS層からDB層の技術を融合した世界と戦える研究は何か?
超低レイテンシ/Line rateのパラメタ交換
（FPGA+高速ネットワーク）
WebDB forum 2014

Panel Discussion@WebDB forum 2014

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Panel Discussion@WebDB forum 2014

Similaire à Panel Discussion@WebDB forum 2014 (20)

Plus de Makoto Yui

Plus de Makoto Yui (20)

Panel Discussion@WebDB forum 2014