SlideShare une entreprise Scribd logo
1  sur  35
ゾウ使いへの第一歩
Hadoop on Azure 編
      伊藤史
    @fumito_ito
自己紹介
• 伊藤 史
• Twitter: @fumito_ito
• Hadoopの利用状況
  – 半年くらい
     • 1~2週間ほどローカルでいじる
     • クラスターを使いたくてHadoop on Azureの利用
       開始
     • CTPってことはお金かからないんですよね?
  – 素のHadoopがメイン
Today’s Goal
• こんな人がHadoop on Azureを使って象使
  いへの第一歩を踏み出す
 – Hadoopって楽しそう。だけど、Windowsだ
   しローカルに環境作るのは面倒くさい…
 – Hadoopの分散ノードでいろいろ試してみた
   い。だけどLinuxサーバーはとっつきにくい…
 – 他のAzureサービスと連携したい
Resources
• http://microsoft.com/bigdata
  – Resources/videos
• https://www.windowsazure.com/ja-
  jp/home/scenarios/big-data/
• http://weathercookh.hatenablog.com/
Agenda
• Hadoopについて
• Hadoop on Azureについて
• 今後のAzureとHadoop
Hadoopについて(おさらい)
Question.
• Hadoopについて知っていますか?
 1. 知っている。
 2. 概要は知っているけど、使ったことはな
    い。
 3. よく知らない。
Hadoop ?
• OSS
  – Apache Hadoop Commons, HDFS, MapReduce
• Googleが発表した理論のJava実装
  – MapReduce, Jeffrey Dean and Sanjay Ghemawat
• 分散する
  – I/O
• 集積する
  – Large workloads
  – Commodity Service
Hadoopざっくり
       2             2

       1             1
           Shuffle
 Map   1     &
           Reduce    1
       1
                     2
       1

                     1
       2
       1
                     1

       2
                     1
       1
                     3
Hadoop related projects
Hadoopをローカルで動かす
• Linux Machine / Server
  – 普通に動く
  – 例:Cloudera Ubuntu VM
• Windows Machine / Server
  – Cygwin, OpenSSH 必須
  – この辺を参考にしてます
    • http://www.ne.jp/asahi/hishidama/home/tech/apac
      he/hadoop/index.html
HadoopをCloud Serviceで動か
          す
               New !!
Hadoop on Azureについて
Question.
• Hadoop on Azureを知っていますか?
 1. 実際に使っている
 2. 存在は知っている
 3. 知らない
Hadoop on Azure
 https://www.hadooponazure.com/
Hadoop on Azureのなかみ
接続できるMS製品/サービス
Hadoop on Azureざっくり
• Apache Hadoop-based Service on Azure
• CTP
• 4~32Nodes
  – 48時間で全ノードおよびHDFSがリセット
• Execute MapReduce by 2-way
  – JAR & Console
• Connect with other services
  – S3, Data Market ,Blob Storage ,Excel
Cluster sizeの選択
本日のピックアップ
• Execute Map Reduce by 2-way
• Connect with other services
DEMO
• Execute MapReduce
• Execute MapReduce on Interactive
  Console
Execute Map Reduce
• 固定的なものはジョブとして登録
• それ以外のものはInteractive Consoleから
  実行
 – JavaScriptを記述して実行します
   • 他にもHive, Pig, HDFSの操作など
   • Hiveには専用のコンソールも
 – Promise Objectを返すのでJobの完了をトリ
   ガーに色々できる
ところで、学習コストは?
• Azure対応のために学習コストが高くなら
  ない?
 – 基本的にデータのある場所を変更するだけ
  • 例) file:// -> asv://
 – DistributedCacheで使うファイルはHDFS上に
   ないとダメ、など多少の制限はあり
  • 現状、正式なアナウンスはない
  • 今後、仕様が変更される可能性あり
JavaScriptでMapReduce
var map = function (key, value, context) {
   var words = value.split(/[^a-zA-Z]/);
   words.forEach( function (word) {
     if (word !== "") {
       context.write(word.toLowerCase(), 1);
     }
   });
};

var reduce = function (key, values, context) {
   var sum = 0;
   while (values.hasNext()) {
     sum += parseInt(values.next());
   }
   context.write(key, sum);
};
JavaScriptでMapReduce
• いいところ
 – お約束的に書かなきゃいけない何やかんやを
   省略できる
 – 簡単なジョブならこちらのほうが楽
 – mainも予約語っぽいので複雑な設定にも対応
   できるようになる(?)
• 悪いところ
 – ドキュメントが全然ない
 – 裏で何が動いているのか分からない
Connect with other services
Hadoop on Azure with others




HiveODBC        Sqoop
         SQL JDBC
               Connector for Apache
 Hive Add-In
                    Hadoop
Connect with Storages
• S3,Blob上にあるファイルを直に指定して
  MapReduceの入出力先にできる
• asv://, s3://
• HDFSに大きすぎるファイルをアップロー
  ドしようとすると失敗する
• データソースはストレージ上に置いとく
  のがオススメ
DEMO
• Hive to Excel デモ
Connect with MS Products
• HiveのテーブルをExcel上に接続したり
 – MS Excel Hive Add-In
• SQLServerにドカンと落としたり
 – SQLServer Connector for Apache Hadoop
• SQL Azureに流し込んだりできる
 – Sqoop
• データ量、用途、お金の具合に応じて使
  い分ければいいのでは
おまけDEMO
• Graph on Console デモ
今後のAzureとHadoop
2012 June ?




http://www.zdnet.com/blog/microsoft/wheres-
hadoop-for-microsofts-windows-server/12809
まとめ
• Winユーザーでも分散環境でのM/Rを手軽
  に実行できる
• 現在は制限が大きいが、データの永続化
  などに注意を払えばテスト用などに活用
  できる
• 今後リリースされるHadoop for Windows
  Serverに慣れる意味で試してみるのもアリ
ご清聴ありがとうございまし
      た

Contenu connexe

Tendances

Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
Koichi Fujikawa
 
MapReduceプログラミング入門
MapReduceプログラミング入門MapReduceプログラミング入門
MapReduceプログラミング入門
Satoshi Noto
 
Logをs3とredshiftに格納する仕組み
Logをs3とredshiftに格納する仕組みLogをs3とredshiftに格納する仕組み
Logをs3とredshiftに格納する仕組み
Ken Morishita
 

Tendances (20)

CfnClusterを使って10分強でHPC環境を構築する
CfnClusterを使って10分強でHPC環境を構築するCfnClusterを使って10分強でHPC環境を構築する
CfnClusterを使って10分強でHPC環境を構築する
 
Spark shark
Spark sharkSpark shark
Spark shark
 
Windows Azure HDInsight サービスの紹介
Windows Azure HDInsight サービスの紹介Windows Azure HDInsight サービスの紹介
Windows Azure HDInsight サービスの紹介
 
MapReduceを使った並列化 20111212
MapReduceを使った並列化 20111212MapReduceを使った並列化 20111212
MapReduceを使った並列化 20111212
 
Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
 
FukuokaCloud_Azure
FukuokaCloud_AzureFukuokaCloud_Azure
FukuokaCloud_Azure
 
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
 
Amazon Redshift ことはじめ
Amazon Redshift ことはじめAmazon Redshift ことはじめ
Amazon Redshift ことはじめ
 
Apache Hive 紹介
Apache Hive 紹介Apache Hive 紹介
Apache Hive 紹介
 
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakaltKuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakalt
 
Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編
 
エンジニアのための勉強会 #2 『Public Cloud - AWSの基礎 -』
エンジニアのための勉強会 #2 『Public Cloud - AWSの基礎 -』エンジニアのための勉強会 #2 『Public Cloud - AWSの基礎 -』
エンジニアのための勉強会 #2 『Public Cloud - AWSの基礎 -』
 
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきたJavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
 
MapReduceプログラミング入門
MapReduceプログラミング入門MapReduceプログラミング入門
MapReduceプログラミング入門
 
DynamoDBのまえにキャッシュおく奴
DynamoDBのまえにキャッシュおく奴DynamoDBのまえにキャッシュおく奴
DynamoDBのまえにキャッシュおく奴
 
Kafkaを活用するためのストリーム処理の基本
Kafkaを活用するためのストリーム処理の基本Kafkaを活用するためのストリーム処理の基本
Kafkaを活用するためのストリーム処理の基本
 
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
 
AWS Black Belt Tech シリーズ 2015 - Amazon Redshift
AWS Black Belt Tech シリーズ 2015 - Amazon RedshiftAWS Black Belt Tech シリーズ 2015 - Amazon Redshift
AWS Black Belt Tech シリーズ 2015 - Amazon Redshift
 
Logをs3とredshiftに格納する仕組み
Logをs3とredshiftに格納する仕組みLogをs3とredshiftに格納する仕組み
Logをs3とredshiftに格納する仕組み
 
Capistrano introduction
Capistrano introductionCapistrano introduction
Capistrano introduction
 

Similaire à ゾウ使いへの第一歩

ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
AdvancedTechNight
 
Hadoopのインストール
HadoopのインストールHadoopのインストール
Hadoopのインストール
Noritada Shimizu
 
Hiveハンズオン
HiveハンズオンHiveハンズオン
Hiveハンズオン
Satoshi Noto
 

Similaire à ゾウ使いへの第一歩 (20)

Hadoop事始め
Hadoop事始めHadoop事始め
Hadoop事始め
 
Hadoop loves H2
Hadoop loves H2Hadoop loves H2
Hadoop loves H2
 
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
 
ひしめき合うOpen PaaSを徹底解剖! PaaSの今と未来
ひしめき合うOpen PaaSを徹底解剖! PaaSの今と未来ひしめき合うOpen PaaSを徹底解剖! PaaSの今と未来
ひしめき合うOpen PaaSを徹底解剖! PaaSの今と未来
 
MapReduce 初心者が Hadoop をさわってみた。もちろん C++ から。
MapReduce 初心者が Hadoop をさわってみた。もちろん C++ から。MapReduce 初心者が Hadoop をさわってみた。もちろん C++ から。
MapReduce 初心者が Hadoop をさわってみた。もちろん C++ から。
 
Hadoopのインストール
HadoopのインストールHadoopのインストール
Hadoopのインストール
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
 
Hadoopことはじめ
HadoopことはじめHadoopことはじめ
Hadoopことはじめ
 
Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013
 
Hiveハンズオン
HiveハンズオンHiveハンズオン
Hiveハンズオン
 
最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの
 
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
 
CDH4.1オーバービュー
CDH4.1オーバービューCDH4.1オーバービュー
CDH4.1オーバービュー
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
2014.07.05 Drupal PaaS でASWを活用する(Kyoko Ohtagaki)
2014.07.05 Drupal PaaS でASWを活用する(Kyoko Ohtagaki)2014.07.05 Drupal PaaS でASWを活用する(Kyoko Ohtagaki)
2014.07.05 Drupal PaaS でASWを活用する(Kyoko Ohtagaki)
 
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
 
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
 
JAWS-UG Santo 2014-07-05 Drupal on PaaS Cloud
JAWS-UG Santo 2014-07-05 Drupal on PaaS CloudJAWS-UG Santo 2014-07-05 Drupal on PaaS Cloud
JAWS-UG Santo 2014-07-05 Drupal on PaaS Cloud
 
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltImpala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
 

ゾウ使いへの第一歩