ゾウ使いへの第一歩

ゾウ使いへの第一歩
Hadoop on Azure 編
伊藤史
@fumito_ito

自己紹介
• 伊藤史
• Twitter: @fumito_ito
• Hadoopの利用状況
– 半年くらい
• １～２週間ほどローカルでいじる
• クラスターを使いたくてHadoop on Azureの利用
開始
• CTPってことはお金かからないんですよね？
– 素のHadoopがメイン

Today’s Goal
• こんな人がHadoop on Azureを使って象使
いへの第一歩を踏み出す
– Hadoopって楽しそう。だけど、Windowsだ
しローカルに環境作るのは面倒くさい…
– Hadoopの分散ノードでいろいろ試してみた
い。だけどLinuxサーバーはとっつきにくい…
– 他のAzureサービスと連携したい

Resources
• http://microsoft.com/bigdata
– Resources/videos
• https://www.windowsazure.com/ja-
jp/home/scenarios/big-data/
• http://weathercookh.hatenablog.com/

Agenda
• Hadoopについて
• Hadoop on Azureについて
• 今後のAzureとHadoop

Hadoopについて（おさらい）

Question.
• Hadoopについて知っていますか？
1. 知っている。
2. 概要は知っているけど、使ったことはな
い。
3. よく知らない。

Hadoop ?
• OSS
– Apache Hadoop Commons, HDFS, MapReduce
• Googleが発表した理論のJava実装
– MapReduce, Jeffrey Dean and Sanjay Ghemawat
• 分散する
– I/O
• 集積する
– Large workloads
– Commodity Service

Hadoopざっくり
2 2

1 1
Shuffle
Map 1 &
Reduce 1
1
2
1

1
2
1
1

2
1
1
3

Hadoopをローカルで動かす
• Linux Machine / Server
– 普通に動く
– 例：Cloudera Ubuntu VM
• Windows Machine / Server
– Cygwin, OpenSSH 必須
– この辺を参考にしてます
• http://www.ne.jp/asahi/hishidama/home/tech/apac
he/hadoop/index.html

HadoopをCloud Serviceで動か
す
New !!

Question.
• Hadoop on Azureを知っていますか？
1. 実際に使っている
2. 存在は知っている
3. 知らない

Hadoop on Azure
https://www.hadooponazure.com/

接続できるMS製品/サービス

Hadoop on Azureざっくり
• Apache Hadoop-based Service on Azure
• CTP
• 4～32Nodes
– 48時間で全ノードおよびHDFSがリセット
• Execute MapReduce by 2-way
– JAR & Console
• Connect with other services
– S3, Data Market ,Blob Storage ,Excel

本日のピックアップ
• Execute Map Reduce by 2-way
• Connect with other services

DEMO
• Execute MapReduce
• Execute MapReduce on Interactive
Console

Execute Map Reduce
• 固定的なものはジョブとして登録
• それ以外のものはInteractive Consoleから
実行
– JavaScriptを記述して実行します
• 他にもHive, Pig, HDFSの操作など
• Hiveには専用のコンソールも
– Promise Objectを返すのでJobの完了をトリ
ガーに色々できる

ところで、学習コストは？
• Azure対応のために学習コストが高くなら
ない？
– 基本的にデータのある場所を変更するだけ
• 例） file:// -> asv://
– DistributedCacheで使うファイルはHDFS上に
ないとダメ、など多少の制限はあり
• 現状、正式なアナウンスはない
• 今後、仕様が変更される可能性あり

JavaScriptでMapReduce
var map = function (key, value, context) {
var words = value.split(/[^a-zA-Z]/);
words.forEach( function (word) {
if (word !== "") {
context.write(word.toLowerCase(), 1);
}
});
};

var reduce = function (key, values, context) {
var sum = 0;
while (values.hasNext()) {
sum += parseInt(values.next());
}
context.write(key, sum);
};

JavaScriptでMapReduce
• いいところ
– お約束的に書かなきゃいけない何やかんやを
省略できる
– 簡単なジョブならこちらのほうが楽
– mainも予約語っぽいので複雑な設定にも対応
できるようになる（？）
• 悪いところ
– ドキュメントが全然ない
– 裏で何が動いているのか分からない

Hadoop on Azure with others

HiveODBC Sqoop
SQL JDBC
Connector for Apache
Hive Add-In
Hadoop

Connect with Storages
• S3,Blob上にあるファイルを直に指定して
MapReduceの入出力先にできる
• asv://, s3://
• HDFSに大きすぎるファイルをアップロー
ドしようとすると失敗する
• データソースはストレージ上に置いとく
のがオススメ

Connect with MS Products
• HiveのテーブルをExcel上に接続したり
– MS Excel Hive Add-In
• SQLServerにドカンと落としたり
– SQLServer Connector for Apache Hadoop
• SQL Azureに流し込んだりできる
– Sqoop
• データ量、用途、お金の具合に応じて使
い分ければいいのでは

おまけDEMO
• Graph on Console デモ

2012 June ?

http://www.zdnet.com/blog/microsoft/wheres-
hadoop-for-microsofts-windows-server/12809

まとめ
• Winユーザーでも分散環境でのM/Rを手軽
に実行できる
• 現在は制限が大きいが、データの永続化
などに注意を払えばテスト用などに活用
できる
• 今後リリースされるHadoop for Windows
Serverに慣れる意味で試してみるのもアリ

ご清聴ありがとうございまし
た

ゾウ使いへの第一歩

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à ゾウ使いへの第一歩

Similaire à ゾウ使いへの第一歩 (20)

ゾウ使いへの第一歩