TinyMapReduce on ruby

KVSをWebアプリのメインストレージにしたら、集計バッチをMapReduceでやるはめになったでござるの巻松本一輝 Lang-8, Inc.

TinyMapReduce DRuby上で動く原始的なMapReduceのサンプル 200行くらい対障害性ゼロ Lang-8でサイトデータ等の分析に使用 http://github.com/kazuki-m/TinyMapReduce

MapReduce? 膨大なデータ群に対して、ユーザが定義するMap関数、Combiner関数、Reduce関数を適用するためのフレームワークデータを細かく分割することにより、並列実行が可能。リニアにスケールする Googleの中の人が発案

MapReduce 概要例：１～１１までの自然数に含まれる２の倍数および３の倍数の個数をカウントする。 [1,2,3,4,5,6,7,8,9,10,11] 分割数 M=3 [1,2,3,4] [9,10,11] [5,6,7,8]

Map関数:Value->Hash 1 , 2 , 3 , 4 { } , { “2の倍数” => 1 } , { “3の倍数” => 1 } , { “2の倍数” => 1 } 5 , 6 , 7 , 8 { } , { “2の倍数” => 1 , “3の倍数” => 1 } , { } , { “2の倍数” => 1 } 9, 10, 11 {“3の倍数” => 1}, {“2の倍数” => 1} , { }

Combiner関数:HashのArray->Hash [ { } , { “2の倍数” => 1 } , { “3の倍数” => 1 } , { “2の倍数” => 1 } ] { “2の倍数” => 2 , “3の倍数” => 1 } [{ } , { “2の倍数” => 1 } , { “3の倍数” => 1 } , { “2の倍数” => 1 } ] { “2の倍数” => 2 , “3の倍数” => 1 } [ {“3の倍数” => 1}, {“2の倍数” => 1} , { } ] { “3の倍数” => 1, “2の倍数” => 1 }

Reduce関数:Array -> Value Key:“2の倍数” [ 2,2,1] -> 5 Key:“3の倍数” [ 1,1 ,1] -> 3

MapReduceの何が嬉しいのか一見、まわりくどい　（シングルマシンで実行したときの　　効率はとても悪い）しかし、リニアにスケールする

MapReduce 構成 Master Worker Worker Worker Worker Worker Worker Worker 入力データ

Masterが指令 Master Worker Worker Worker Worker Worker Worker Worker 入力データ

入力データを分割取得 Master Worker Worker Worker Worker Worker Worker Worker #2 #m #1 ・・・入力データ

Map/Combiner関数を適用・中間結果出力 Master Worker Worker Worker Worker Worker Worker Worker #2 #m #1 ・・・中間データ入力データ

Shuffle: 同じKeyを寄せ集め Master Worker Worker Worker Worker Worker Worker Worker 中間データ #2 #m #1 ・・・入力データ

中間データを分割取得 Master Worker Worker Worker Worker Worker Worker Worker #2 #r #1 #2 #m #1 ・・・・・・中間データ入力データ

Reduce関数を適用・結果を出力 Master Worker Worker Worker Worker Worker Worker Worker #1… #2 #r #1 #2 #m #1 ・・・・・・中間データ入力データ出力データ

RDBからKVSへレコードがスキーマレスになる　　-> プライマリキーでしか叩けない　　->SQLで集計プログラムを作れない MapReduceの採用により、 DWHに匹敵する分析力を分散KVS上で実現可能

長所高速（IOがボトルネックにならない）　　※MapReduceは分散KVSとセットで　　運用しないと（あまり）意味がない。　　（Fairy＆ Roma、　　　MapReduce ＆ GFS/BigTable 等）集計プログラムの作成が容易

短所インフラ準備に手間がかかる

まとめ　　　　　　☆ ﾁﾝ　　　　　ﾏﾁｸﾀﾋﾞﾚﾀ～　　　　　　　　　　　　　　　　　　　　　　　　ﾏﾁｸﾀﾋﾞﾚﾀ～　　　　 ☆　ﾁﾝ　　〃　 ∧＿∧　　　／￣￣￣￣￣￣￣￣　　　　　ヽ　＿＿_＼（＼・∀・）　＜　Fairyまだ～？　　　　　　＼＿／⊂　⊂＿ )　　＼＿＿＿＿＿＿＿＿　　　　　／￣￣￣￣￣￣／|　　　　　　　|￣￣￣￣￣￣￣|　 |　　　　　　　|　　愛媛みかん　 |／

TinyMapReduce on ruby

Recommandé

Recommandé

Contenu connexe

Similaire à TinyMapReduce on ruby

Similaire à TinyMapReduce on ruby (20)

TinyMapReduce on ruby