20130626 kawasaki.rb NKT77

Hadoop with Ruby
- 僕がPythonを選んだ理由
実際は
「Kawasaki.rbのきっかけとなった
“Rubyのハッシュが遅かった事例”の紹介」
- NKT77

<B,1>
<C,1>
<E,1>
MapReduce with Hadoop
• WordCountの例
mapper1
mapper2
mapperN
...
<単語,頻度>
<A,1>
<C,1>
<D,1>
<C,1>
<D,1>
<E,1>
<A,1>
<B,1>
<C,1>
<C,1>
<C,1>
<D,1>
<D,1>
<E,1>
<A,1>
<B,1>
<C,3>
<D,2>
<E,1>
reducer
Map Shuffle Reduce

<B,1>
<C,1>
<E,1>
MapReduce with Hadoop
• WordCountの例
mapper1
mapper2
mapperN
...
<単語,頻度>
<A,1>
<C,1>
<D,1>
<C,1>
<D,1>
<E,1>
<A,1>
<B,1>
<C,1>
<C,1>
<C,1>
<D,1>
<D,1>
<E,1>
<A,1>
<B,1>
<C,3>
<D,2>
<E,1>
reducer
Map Shuffle Reduce
超大規模なデータも
ＨＤＦＳ上に展開すること
でマシンを増やして
スケールアウト
MapReduceで処理する
ことでマシンを増やして

Hadoop Streaming
Hadoop Streamingの仕組みを使うと、標準入出力に対応する
任意の言語でMap/Reduceを書くことができる
• WordCountの例
#!/usr/bin/env ruby
$stdin.each do |line|
line.strip.split(" ").each do |w|
puts "#{w}¥t1"
end
end
line = $stdin.gets
w, f = line.strip.split("¥t")
w_prev = w
f_sum = f.to_i
if w == w_prev
f_sum += f.to_i
else
puts "#{w_prev} #{f_sum}"
w_prev = w
f_sum = f.to_i
end
end
A B C D
A C B E
A E
Mapper
Reducer
A 1
A 1
A 1
B 1
B 1
C 1
C 1
D 1
E 1
E 1
A 3
B 2
C 2
D 1
E 2

Hadoop Streaming
Hadoop Streamingの仕組みを使うと、標準入出力に対応する
任意の言語でMap/Reduceを書くことができる
• WordCountの例
#!/usr/bin/env ruby
puts "#{w}¥t1"
end
end
line = $stdin.gets
w_prev = w
f_sum = f.to_i
if w == w_prev
f_sum += f.to_i
else
w_prev = w
f_sum = f.to_i
end
end
A B C D
A C B E
A E
Mapper
Reducer
A 1
A 1
A 1
B 1
B 1
C 1
C 1
D 1
E 1
E 1
A 3
B 2
C 2
D 1
E 2
Amazon Web Serviceの
ElasticMapReduceのサービスを利用して
簡単にHadoop Streamingが使える！
→Rubyで大規模データ処理！

当然こんなちょっとした処理も可能
• 大規模データのＩＤのマッピング
商品１ＩＤ１
商品２ＩＤ２
...
商品１００万ＩＤ１００万
def load_idmap(idmapfile)
idmap = {}
puts idmapfile
open(idmapfile).each do |line|
rkey, rval = line.strip.split(" ")
idmap[rkey] = rval
end
idmap
end
idmap = load_idmap("idmap.dat")
puts "#{idmap[w]}¥t1"
end
end
Mapper
A B C D
A C B E
A E
1 2 3 4
1 3 2 5
1 5

...？？？
AWSのEMRで実際に実験
変換するＩＤ列：８文字ＩＤ列～５０億アイテム（LZO形式で26G）
マッピング：～１００万組
前頁のMapperで変換を実行し、
念のためにPython実装でも実行
Ruby(1.9.3) Python(2.7.3)
実行時間 23.2時間 2.0時間

Rubyの連想配列について
• Rubyは大きな連想配列を持たせると遅くなる（2013年1月）
配列の生成時間：
理想的には線形になるはず、、
50万行 100万行 300万行
秒
マッピングの連想配列サイズ

Rubyの連想配列について
• Rubyは大きな連想配列を持たせると遅くなる（2013年1月）
配列の参照時間：
理想的にはＯ（１）になるはず、、
秒
マッピングの連想配列サイズ
1万行 10万行 100万行 300万行

RubyのHashについての参考情報
・ハッシュの速度低下についての報告はいくつかある
Inserting hash value slows down as table gets larger
http://www.ruby-forum.com/topic/1301386
遅いのはGabage Collectのせい？
http://www.platanus.cz/blog/working-with-huge-hashes-in-ruby
Google_hashを使うと速くなる？
https://github.com/rdp/google_hash/blob/master/README
・ハッシュアルゴリズム解説の例
Ruby
http://d.hatena.ne.jp/zariganitosh/20090716/1247709137
チェイン法
Python
http://www.laurentluce.com/posts/python-dictionary-implementation/
Open Addressing法

RubyのHashについての参考情報
・ハッシュの速度低下についての報告はいくつかある
Inserting hash value slows down as table gets larger
http://www.ruby-forum.com/topic/1301386
遅いのはGabage Collectのせい？
http://www.platanus.cz/blog/working-with-huge-hashes-in-ruby
Google_hashを使うと速くなる？
https://github.com/rdp/google_hash/blob/master/README
・ハッシュアルゴリズム解説の例
Ruby
http://d.hatena.ne.jp/zariganitosh/20090716/1247709137
チェイン法
Python
http://www.laurentluce.com/posts/python-dictionary-implementation/
Open Addressing法
専門家に報告
とりあえず実験
保留

１億要素のインサートとルックアップの秒数
Google Hashの効果
○Intの１０ケタ文字列をHashに入れるときにIntに変換
python Ruby Ruby
+GoogleHash
insertion 57.19 141.15 46.59
lookup 50.50 63.15 25.23
○要素がIntのとき
python Ruby Ruby
+GoogleHash
insertion 22.53 114.61 47.92
lookup 17.11 43.16 14.06
python Ruby Ruby
+GoogleHash
insertion 44.11 126.09 102.15
lookup 20.13 60.93 47.94
○Intの１０ケタの文字列
キーが文字列のときは効果が小さい

ＥＭＲのコスト
料金 11178円 972円
High Memory Extra Large Instance (m2.xlarge)を使用
6.5 EC2 Compute Units, 10 instances
(0.45$/h + 0.09$/h)*X h*10instances * 90円で計算
変換するＩＤ列：８文字ＩＤ列～５０億アイテム（LZO形式で26G）

ＥＭＲのお値段
変換するＩＤ列：～５０億ＩＤアイテム（LZO形式で26G）
料金 11178円 972円
High Memory Extra Large Instance (m2.xlarge)を使用
6.5 EC2 Compute Units, 10 instances
(0.45$/h + 0.09$/h)*X h*10instances * 90円で計算
クラウドコンピューティングでは、
速度がシビアに金額に効いてくるので怖い

まとめ
• 今回はRubyのハッシュの遅延の事例を紹介
• 大規模のクラウドコンピューティングだと普段
気にしていない速度差もコストに効いてくる
• 今回は1.9.3の実験結果、Rubyは常に進化し
ているので常にベンチマークが必要

ありがとうございました！

20130626 kawasaki.rb NKT77

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à 20130626 kawasaki.rb NKT77

Similaire à 20130626 kawasaki.rb NKT77 (20)

20130626 kawasaki.rb NKT77