SlideShare une entreprise Scribd logo
1  sur  19
Hadoop / Elastic MapReduceつまみ食い 玉川竜司 tamagawa_ryuji@twitter
本日の内容 自己紹介 なぜHadoop? HadoopとElastic MapReduceの紹介 MapReduce 分散ファイルシステムHDFS ローカル環境の構築 参考資料
自己紹介を少々 本職:ソフトウェア開発者 兼業翻訳者 Hadoop(象本) 7月に2nd Editionでます Data Intensive Text Processing With MapReduce(予定) Silverlightで開発するデータ駆動アプリケーション セマンティックWebプログラミング プログラミングGoogle App Engine プログラミングWindows Azure
なぜHadoop? ‘Big Data’:大量のデータを処理することで価値が生まれる ただし、既存技術ではメリットを出す事が難しかった 高度なアルゴリズム vs単純なアルゴリズム スケールしない高度なアルゴリズムから得られる結果は、単純なアルゴリズムで莫大なデータを処理して得られる結果に及ばない ● ニューヨーク株式市場は、1日ごとに1テラバイトの取引データを生み出しています。 ● Facebookはおよそ100億枚の写真をホストしており、これは1ペタバイトの記憶領域を   占めます。 ● 家系図サイトのAncestry.comは、2.5ペタバイトのデータを保管しています。 ● The Internet Archiveはおよそ2ペタバイトのデータを保管しており、   その容量は1か月あたり20 テラバイトのペースで増加しています。 ● スイスのジュネーブ近郊にある大型ハドロン衝突型加速器は、   年間およそ15ペタバイトのデータを生み出しています。 象本から抜粋
なぜHadoop?(2) 必要なのは、スケールアップ=マシンのパワーアップではない スケールアウト=分散処理こそが必要 多くの場合、スケーラビリティのネックになっているのはI/O 特にディスクのランダムアクセス性能(IOPS)は、この20年でほとんど伸びていない http://www.youtube.com/watch?v=9eMWG3fwiEU In pioneer days they used oxen for heavy pulling,  and when one ox couldn’t budge a log, they didn’t try to grow a larger ox.  We shouldn’t be trying for bigger computers,  but formore systems of computers. —Grace Hopper
Hadoopの紹介 MapReduce/分散ファイルシステムのオープンソース実装 コアはMapReduce/HDFS 安価なハードを大量に並べて、水平分散でデータ処理を行うためのツールキット 大規模並列処理では避けられない、様々な障害に自動的に対処してくれる 開発者は、処理のロジックに集中できる 作成されたプログラムは、数千台まではほぼ台数に対してリニアにスケールする(らしい) 比較的安価なマシンを並べたローカルクラスタや、Amazon EC2/S3上で利用可能(Elastic MapReduce) Hadoop上で動作する各種ツールがあり、分散処理のためのデファクトのフレームワークのようになってきた
Hadoopの構成 青はMapReduceの要素 赤は分散ファイルシステム(HDFS)の要素 インフラは、 Elastic MapReduceに 面倒を見てもらえる! ジョブトラッカーは、タスクトラッカーに対してタスクを依頼します。対象となるデータのありかは、ネームノードとやりとりをして知ります。 障害発生時のリカバリも管理。 マスターノード 分散処理をするのに必要な諸々は、Hadoopが面倒見てくれます。 ,[object Object]
効率の良いネットワーク運用
ジョブの管理
タスクの管理ジョブ トラッカー ネームノード プログラマが書くのはこれだけ! スレーブノード スレーブノード スレーブノード スレーブノード ネームノードは、HDFSのディレクトリと、ファイルを構成するブロックの場所を管理します。 タスク トラッカー データノード タスク トラッカー データノード タスク トラッカー データノード タスク トラッカー データノード タスク タスク タスク タスク タスク タスク タスク タスク タスク タスク タスク タスク タスクトラッカーは、割り当てられたタスクを実行し、結果をジョブトラッカーに報告します。
Elasitc MapReduce Hadoopクラスタを自動的にくみ上げて、ジョブを実行してくれます。データの入出力にはS3を利用します。 簡単なオペレーションはAWSコンソールから、細かなオペレーションはコマンドラインやAPIから行えます。 Javaのジョブ(一応これが基本)、Streaming(標準入出力を使ってスクリプト言語で処理)のジョブ、Pig/Hive(抽象度の高いデータ処理が可能)が使えます。 公式ドキュメント(英語)には一通り目を通しましょう。 http://aws.amazon.com/archives/Elastic%20MapReduce?_encoding=UTF8&jiveRedirect=1 ポートを空けてやれば、標準的なモニタ機能は使えます。デバッグの機能もあります。 それでは動いているところを見てみましょう…
MapReduce すべての処理を、MapとReduceで行う MapもReduceも、入出力共に、キーと値のペアの集合を扱う この「型」に落とし込むと、分散処理にはめ込みやすい アルゴリズム的にベストとは限らない。しかし、水平分散のクラスタに簡単に落とし込める 簡単に力業に持ち込むためのパターン Data files mapper mapper mapper mapper Shuffle & Sort Reducer
ここで宣伝 MapReduceのアルゴリズムの定番教科書でます! オライリージャパンから、8月か9月出版予定。 一部思いっきり数学しているところがありますが、それ以外のところだけでも十分役立ちます。 MapReduceアルゴリズムの「デザインパターン」本としてご活用ください。 Hadoopを念頭において書かれてます。 鋭意校正中! がんばれ俺!
サンプル:Word Count Freebase is an open database of the world’s information, covering millions of topics in hundreds of categories. Drawing from large open data sets like Wikipedia, MusicBrainz, and the SEC archives, it contains structured information on many popular topics, including movies, music, people and locations – all reconciled and freely available. This information is supplemented by the efforts of a passionate global community of users ,[object Object]
Hadoop Streaming(標準入出力。簡単だけど遅い)
Java(これが標準)この他にも状況に応じていろいろなやり方があるので、HadoopConfefence Japan 2009の資料も参考にしてください Hadoopによる入力 (0, Freebase is an open database of the world’s information, covering millions of topics in...) (1, hundreds of categories. Drawing from large open data sets like Wikipedia, MusicBrainz,...) (2, and the SEC archives, it contains structured information on many popular topics,...) (3, including movies, music, people and locations – all reconciled and freely available. This...) (4, information is supplemented by the efforts of a passionate global community of users...) for line in sys.stdin: for word in line.split():    print word + “” + “1” mapタスクによる処理 他のmapタスクによる処理 (Freebase , 1) (is , 1) (an , 1) (open , 1) (database , 1) (MySQL, 1) (is, 1) (not, 1) (proprietary, −5) (database, 119) for aLine in sys.stdin: currentWord= aLine.split()[0]    if currentWord == prevWord: count += 1 else: print "%s%d" % (prevWord, count)     count = 1 prevWord= currentWord Hadoopによるシャッフル (freebase, [1]) (is, [1, 1]) (an, [1]) (open, [1]) (database, [1, 1]) reduceタスクによる処理 (freebase, 1) (is, 2) (an, 1 (open, 1) (database, 2)
分散ファイルシステムHDFS Hadoop Distributed File System 耐障害性(データブロックの複製) ディスクのシークを減らすためのデータブロック(デフォルト64MB) 大量のデータをシーケンシャルアクセスすることを想定している ネットワークトポロジを意識し、効率的に分散処理を行うためのブロック配置を行う
Hadoop/HDFSのいいところ データセンター内のもっとも貴重なリソースは? ネットワーク帯域、次いでディスクの処理能力 「データローカリティ」を意識したデータブロックの複製とタスク配置 複製度3なら、ローカルノード、別ラック内のノード、同一ラック内の別ノードへ タスクはできる限りローカルのデータノード内のデータで処理を行えるように管理される ただし、EMRではラックアウェアネスは実現されない ラックA ラックB ノードA-1 ノードB-1 データノード データノード Data Bloock Data Bloock Data Bloock Data Bloock タスク Data Bloock タスク Data Bloock ノードA-2 ノードB-2 データノード データノード Data Bloock Data Bloock Data Bloock タスク Data Bloock タスク Data Bloock Data Bloock ノードA-3 ノードB-3 データノード データノード Data Bloock Data Bloock Data Bloock タスク Data Bloock タスク Data Bloock Data Bloock
ローカル開発環境を用意してみた Linux(CentOS5)とCDH(Cloudera Distribution including Apache Hadoop) ver 3 https://ccp.cloudera.com/display/SUPPORT/Downloads 疑似分散モード(Psuedo Distribution mode)でインストール Yumやaptを使って簡単にできます https://ccp.cloudera.com/display/CDHDOC/CDH3+Quick+Start+Guide https://ccp.cloudera.com/display/CDHDOC/CDH3+Installation+Guide デモンストレーション Wikipediaでwordcount しょぼいサンプルですみません。 ストリーミングでの実行方法は象本に載ってます

Contenu connexe

Tendances

トレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解するトレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解するTakahiro Inoue
 
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)Hadoop / Spark Conference Japan
 
Hadoop for programmer
Hadoop for programmerHadoop for programmer
Hadoop for programmerSho Shimauchi
 
今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)Toru Takizawa
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料Recruit Technologies
 
Hadoopことはじめ
HadoopことはじめHadoopことはじめ
Hadoopことはじめ均 津田
 
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-Keigo Suda
 
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Amazon Redshift ベンチマーク  Hadoop + Hiveと比較 Amazon Redshift ベンチマーク  Hadoop + Hiveと比較
Amazon Redshift ベンチマーク Hadoop + Hiveと比較 FlyData Inc.
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントNTT DATA OSS Professional Services
 
Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013Cloudera Japan
 
トレジャーデータ流,データ分析の始め方
トレジャーデータ流,データ分析の始め方トレジャーデータ流,データ分析の始め方
トレジャーデータ流,データ分析の始め方Takahiro Inoue
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) hamaken
 
分散グラフデータベース DataStax Enterprise Graph
分散グラフデータベース DataStax Enterprise Graph分散グラフデータベース DataStax Enterprise Graph
分散グラフデータベース DataStax Enterprise GraphYuki Morishita
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明Satoshi Noto
 
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19MapR Technologies Japan
 
FluentdやNorikraを使った データ集約基盤への取り組み紹介
FluentdやNorikraを使った データ集約基盤への取り組み紹介FluentdやNorikraを使った データ集約基盤への取り組み紹介
FluentdやNorikraを使った データ集約基盤への取り組み紹介Recruit Technologies
 
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法Tetsutaro Watanabe
 

Tendances (20)

トレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解するトレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解する
 
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
 
Hadoop for programmer
Hadoop for programmerHadoop for programmer
Hadoop for programmer
 
今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
 
Hadoop loves H2
Hadoop loves H2Hadoop loves H2
Hadoop loves H2
 
Hadoopことはじめ
HadoopことはじめHadoopことはじめ
Hadoopことはじめ
 
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
 
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Amazon Redshift ベンチマーク  Hadoop + Hiveと比較 Amazon Redshift ベンチマーク  Hadoop + Hiveと比較
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
 
はやわかりHadoop
はやわかりHadoopはやわかりHadoop
はやわかりHadoop
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
 
Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013
 
トレジャーデータ流,データ分析の始め方
トレジャーデータ流,データ分析の始め方トレジャーデータ流,データ分析の始め方
トレジャーデータ流,データ分析の始め方
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 
分散グラフデータベース DataStax Enterprise Graph
分散グラフデータベース DataStax Enterprise Graph分散グラフデータベース DataStax Enterprise Graph
分散グラフデータベース DataStax Enterprise Graph
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明
 
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
 
FluentdやNorikraを使った データ集約基盤への取り組み紹介
FluentdやNorikraを使った データ集約基盤への取り組み紹介FluentdやNorikraを使った データ集約基盤への取り組み紹介
FluentdやNorikraを使った データ集約基盤への取り組み紹介
 
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 

Similaire à Hadoop / Elastic MapReduceつまみ食い

【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~Developers Summit
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎Insight Technology, Inc.
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoTreasure Data, Inc.
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介bigt23
 
Googleの基盤クローン Hadoopについて
Googleの基盤クローン HadoopについてGoogleの基盤クローン Hadoopについて
Googleの基盤クローン HadoopについてKazuki Ohta
 
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京Koichiro Sasaki
 
データセンター視点で考えてみるHadoop
データセンター視点で考えてみるHadoopデータセンター視点で考えてみるHadoop
データセンター視点で考えてみるHadoopAtsushi Nakada
 
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...NTT DATA OSS Professional Services
 
[db tech showcase Tokyo 2014] B22: Hadoop Rush!! HDFSからデータを自在に取得、加工するにはどうする? ...
[db tech showcase Tokyo 2014] B22: Hadoop Rush!! HDFSからデータを自在に取得、加工するにはどうする? ...[db tech showcase Tokyo 2014] B22: Hadoop Rush!! HDFSからデータを自在に取得、加工するにはどうする? ...
[db tech showcase Tokyo 2014] B22: Hadoop Rush!! HDFSからデータを自在に取得、加工するにはどうする? ...Insight Technology, Inc.
 
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)Naoki (Neo) SATO
 
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...Insight Technology, Inc.
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
Smart data integration to hybrid data analysis infrastructure
Smart data integration to hybrid data analysis infrastructureSmart data integration to hybrid data analysis infrastructure
Smart data integration to hybrid data analysis infrastructureDataWorks Summit
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16Yifeng Jiang
 
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会KAMURA
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムRecruit Technologies
 
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案Toshiyuki Shimono
 

Similaire à Hadoop / Elastic MapReduceつまみ食い (20)

【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
 
Azure Datalake 大全
Azure Datalake 大全Azure Datalake 大全
Azure Datalake 大全
 
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知るAI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介
 
Googleの基盤クローン Hadoopについて
Googleの基盤クローン HadoopについてGoogleの基盤クローン Hadoopについて
Googleの基盤クローン Hadoopについて
 
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知るMapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
 
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
 
データセンター視点で考えてみるHadoop
データセンター視点で考えてみるHadoopデータセンター視点で考えてみるHadoop
データセンター視点で考えてみるHadoop
 
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
 
[db tech showcase Tokyo 2014] B22: Hadoop Rush!! HDFSからデータを自在に取得、加工するにはどうする? ...
[db tech showcase Tokyo 2014] B22: Hadoop Rush!! HDFSからデータを自在に取得、加工するにはどうする? ...[db tech showcase Tokyo 2014] B22: Hadoop Rush!! HDFSからデータを自在に取得、加工するにはどうする? ...
[db tech showcase Tokyo 2014] B22: Hadoop Rush!! HDFSからデータを自在に取得、加工するにはどうする? ...
 
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
 
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
Smart data integration to hybrid data analysis infrastructure
Smart data integration to hybrid data analysis infrastructureSmart data integration to hybrid data analysis infrastructure
Smart data integration to hybrid data analysis infrastructure
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
 
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
 
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案
 

Plus de Ryuji Tamagawa

20171012 found IT #9 PySparkの勘所
20171012 found  IT #9 PySparkの勘所20171012 found  IT #9 PySparkの勘所
20171012 found IT #9 PySparkの勘所Ryuji Tamagawa
 
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所Ryuji Tamagawa
 
hbstudy 74 Site Reliability Engineering
hbstudy 74 Site Reliability Engineeringhbstudy 74 Site Reliability Engineering
hbstudy 74 Site Reliability EngineeringRyuji Tamagawa
 
PySparkの勘所(20170630 sapporo db analytics showcase)
PySparkの勘所(20170630 sapporo db analytics showcase) PySparkの勘所(20170630 sapporo db analytics showcase)
PySparkの勘所(20170630 sapporo db analytics showcase) Ryuji Tamagawa
 
20170210 sapporotechbar7
20170210 sapporotechbar720170210 sapporotechbar7
20170210 sapporotechbar7Ryuji Tamagawa
 
20161215 python pandas-spark四方山話
20161215 python pandas-spark四方山話20161215 python pandas-spark四方山話
20161215 python pandas-spark四方山話Ryuji Tamagawa
 
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京20161004 データ処理のプラットフォームとしてのpythonとpandas 東京
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京Ryuji Tamagawa
 
20160708 データ処理のプラットフォームとしてのpython 札幌
20160708 データ処理のプラットフォームとしてのpython 札幌20160708 データ処理のプラットフォームとしてのpython 札幌
20160708 データ処理のプラットフォームとしてのpython 札幌Ryuji Tamagawa
 
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのsparkRyuji Tamagawa
 
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquetRyuji Tamagawa
 
Performant data processing with PySpark, SparkR and DataFrame API
Performant data processing with PySpark, SparkR and DataFrame APIPerformant data processing with PySpark, SparkR and DataFrame API
Performant data processing with PySpark, SparkR and DataFrame APIRyuji Tamagawa
 
足を地に着け落ち着いて考える
足を地に着け落ち着いて考える足を地に着け落ち着いて考える
足を地に着け落ち着いて考えるRyuji Tamagawa
 
ヘルシープログラマ・翻訳と実践
ヘルシープログラマ・翻訳と実践ヘルシープログラマ・翻訳と実践
ヘルシープログラマ・翻訳と実践Ryuji Tamagawa
 
BigQueryの課金、節約しませんか
BigQueryの課金、節約しませんかBigQueryの課金、節約しませんか
BigQueryの課金、節約しませんかRyuji Tamagawa
 
You might be paying too much for BigQuery
You might be paying too much for BigQueryYou might be paying too much for BigQuery
You might be paying too much for BigQueryRyuji Tamagawa
 
Google BigQueryについて 紹介と推測
Google BigQueryについて 紹介と推測Google BigQueryについて 紹介と推測
Google BigQueryについて 紹介と推測Ryuji Tamagawa
 
lessons learned from talking at rakuten technology conference
lessons learned from talking at rakuten technology conferencelessons learned from talking at rakuten technology conference
lessons learned from talking at rakuten technology conferenceRyuji Tamagawa
 
丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました
丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました
丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみましたRyuji Tamagawa
 

Plus de Ryuji Tamagawa (20)

20171012 found IT #9 PySparkの勘所
20171012 found  IT #9 PySparkの勘所20171012 found  IT #9 PySparkの勘所
20171012 found IT #9 PySparkの勘所
 
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
 
hbstudy 74 Site Reliability Engineering
hbstudy 74 Site Reliability Engineeringhbstudy 74 Site Reliability Engineering
hbstudy 74 Site Reliability Engineering
 
PySparkの勘所(20170630 sapporo db analytics showcase)
PySparkの勘所(20170630 sapporo db analytics showcase) PySparkの勘所(20170630 sapporo db analytics showcase)
PySparkの勘所(20170630 sapporo db analytics showcase)
 
20170210 sapporotechbar7
20170210 sapporotechbar720170210 sapporotechbar7
20170210 sapporotechbar7
 
20161215 python pandas-spark四方山話
20161215 python pandas-spark四方山話20161215 python pandas-spark四方山話
20161215 python pandas-spark四方山話
 
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京20161004 データ処理のプラットフォームとしてのpythonとpandas 東京
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京
 
20160708 データ処理のプラットフォームとしてのpython 札幌
20160708 データ処理のプラットフォームとしてのpython 札幌20160708 データ処理のプラットフォームとしてのpython 札幌
20160708 データ処理のプラットフォームとしてのpython 札幌
 
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
 
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
 
Performant data processing with PySpark, SparkR and DataFrame API
Performant data processing with PySpark, SparkR and DataFrame APIPerformant data processing with PySpark, SparkR and DataFrame API
Performant data processing with PySpark, SparkR and DataFrame API
 
Apache Sparkの紹介
Apache Sparkの紹介Apache Sparkの紹介
Apache Sparkの紹介
 
足を地に着け落ち着いて考える
足を地に着け落ち着いて考える足を地に着け落ち着いて考える
足を地に着け落ち着いて考える
 
ヘルシープログラマ・翻訳と実践
ヘルシープログラマ・翻訳と実践ヘルシープログラマ・翻訳と実践
ヘルシープログラマ・翻訳と実践
 
Google Big Query
Google Big QueryGoogle Big Query
Google Big Query
 
BigQueryの課金、節約しませんか
BigQueryの課金、節約しませんかBigQueryの課金、節約しませんか
BigQueryの課金、節約しませんか
 
You might be paying too much for BigQuery
You might be paying too much for BigQueryYou might be paying too much for BigQuery
You might be paying too much for BigQuery
 
Google BigQueryについて 紹介と推測
Google BigQueryについて 紹介と推測Google BigQueryについて 紹介と推測
Google BigQueryについて 紹介と推測
 
lessons learned from talking at rakuten technology conference
lessons learned from talking at rakuten technology conferencelessons learned from talking at rakuten technology conference
lessons learned from talking at rakuten technology conference
 
丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました
丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました
丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました
 

Dernier

論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 

Dernier (10)

論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 

Hadoop / Elastic MapReduceつまみ食い

  • 1. Hadoop / Elastic MapReduceつまみ食い 玉川竜司 tamagawa_ryuji@twitter
  • 2. 本日の内容 自己紹介 なぜHadoop? HadoopとElastic MapReduceの紹介 MapReduce 分散ファイルシステムHDFS ローカル環境の構築 参考資料
  • 3. 自己紹介を少々 本職:ソフトウェア開発者 兼業翻訳者 Hadoop(象本) 7月に2nd Editionでます Data Intensive Text Processing With MapReduce(予定) Silverlightで開発するデータ駆動アプリケーション セマンティックWebプログラミング プログラミングGoogle App Engine プログラミングWindows Azure
  • 4. なぜHadoop? ‘Big Data’:大量のデータを処理することで価値が生まれる ただし、既存技術ではメリットを出す事が難しかった 高度なアルゴリズム vs単純なアルゴリズム スケールしない高度なアルゴリズムから得られる結果は、単純なアルゴリズムで莫大なデータを処理して得られる結果に及ばない ● ニューヨーク株式市場は、1日ごとに1テラバイトの取引データを生み出しています。 ● Facebookはおよそ100億枚の写真をホストしており、これは1ペタバイトの記憶領域を   占めます。 ● 家系図サイトのAncestry.comは、2.5ペタバイトのデータを保管しています。 ● The Internet Archiveはおよそ2ペタバイトのデータを保管しており、   その容量は1か月あたり20 テラバイトのペースで増加しています。 ● スイスのジュネーブ近郊にある大型ハドロン衝突型加速器は、   年間およそ15ペタバイトのデータを生み出しています。 象本から抜粋
  • 5. なぜHadoop?(2) 必要なのは、スケールアップ=マシンのパワーアップではない スケールアウト=分散処理こそが必要 多くの場合、スケーラビリティのネックになっているのはI/O 特にディスクのランダムアクセス性能(IOPS)は、この20年でほとんど伸びていない http://www.youtube.com/watch?v=9eMWG3fwiEU In pioneer days they used oxen for heavy pulling, and when one ox couldn’t budge a log, they didn’t try to grow a larger ox. We shouldn’t be trying for bigger computers, but formore systems of computers. —Grace Hopper
  • 6. Hadoopの紹介 MapReduce/分散ファイルシステムのオープンソース実装 コアはMapReduce/HDFS 安価なハードを大量に並べて、水平分散でデータ処理を行うためのツールキット 大規模並列処理では避けられない、様々な障害に自動的に対処してくれる 開発者は、処理のロジックに集中できる 作成されたプログラムは、数千台まではほぼ台数に対してリニアにスケールする(らしい) 比較的安価なマシンを並べたローカルクラスタや、Amazon EC2/S3上で利用可能(Elastic MapReduce) Hadoop上で動作する各種ツールがあり、分散処理のためのデファクトのフレームワークのようになってきた
  • 7.
  • 10. タスクの管理ジョブ トラッカー ネームノード プログラマが書くのはこれだけ! スレーブノード スレーブノード スレーブノード スレーブノード ネームノードは、HDFSのディレクトリと、ファイルを構成するブロックの場所を管理します。 タスク トラッカー データノード タスク トラッカー データノード タスク トラッカー データノード タスク トラッカー データノード タスク タスク タスク タスク タスク タスク タスク タスク タスク タスク タスク タスク タスクトラッカーは、割り当てられたタスクを実行し、結果をジョブトラッカーに報告します。
  • 11. Elasitc MapReduce Hadoopクラスタを自動的にくみ上げて、ジョブを実行してくれます。データの入出力にはS3を利用します。 簡単なオペレーションはAWSコンソールから、細かなオペレーションはコマンドラインやAPIから行えます。 Javaのジョブ(一応これが基本)、Streaming(標準入出力を使ってスクリプト言語で処理)のジョブ、Pig/Hive(抽象度の高いデータ処理が可能)が使えます。 公式ドキュメント(英語)には一通り目を通しましょう。 http://aws.amazon.com/archives/Elastic%20MapReduce?_encoding=UTF8&jiveRedirect=1 ポートを空けてやれば、標準的なモニタ機能は使えます。デバッグの機能もあります。 それでは動いているところを見てみましょう…
  • 12. MapReduce すべての処理を、MapとReduceで行う MapもReduceも、入出力共に、キーと値のペアの集合を扱う この「型」に落とし込むと、分散処理にはめ込みやすい アルゴリズム的にベストとは限らない。しかし、水平分散のクラスタに簡単に落とし込める 簡単に力業に持ち込むためのパターン Data files mapper mapper mapper mapper Shuffle & Sort Reducer
  • 13. ここで宣伝 MapReduceのアルゴリズムの定番教科書でます! オライリージャパンから、8月か9月出版予定。 一部思いっきり数学しているところがありますが、それ以外のところだけでも十分役立ちます。 MapReduceアルゴリズムの「デザインパターン」本としてご活用ください。 Hadoopを念頭において書かれてます。 鋭意校正中! がんばれ俺!
  • 14.
  • 16. Java(これが標準)この他にも状況に応じていろいろなやり方があるので、HadoopConfefence Japan 2009の資料も参考にしてください Hadoopによる入力 (0, Freebase is an open database of the world’s information, covering millions of topics in...) (1, hundreds of categories. Drawing from large open data sets like Wikipedia, MusicBrainz,...) (2, and the SEC archives, it contains structured information on many popular topics,...) (3, including movies, music, people and locations – all reconciled and freely available. This...) (4, information is supplemented by the efforts of a passionate global community of users...) for line in sys.stdin: for word in line.split(): print word + “” + “1” mapタスクによる処理 他のmapタスクによる処理 (Freebase , 1) (is , 1) (an , 1) (open , 1) (database , 1) (MySQL, 1) (is, 1) (not, 1) (proprietary, −5) (database, 119) for aLine in sys.stdin: currentWord= aLine.split()[0] if currentWord == prevWord: count += 1 else: print "%s%d" % (prevWord, count) count = 1 prevWord= currentWord Hadoopによるシャッフル (freebase, [1]) (is, [1, 1]) (an, [1]) (open, [1]) (database, [1, 1]) reduceタスクによる処理 (freebase, 1) (is, 2) (an, 1 (open, 1) (database, 2)
  • 17. 分散ファイルシステムHDFS Hadoop Distributed File System 耐障害性(データブロックの複製) ディスクのシークを減らすためのデータブロック(デフォルト64MB) 大量のデータをシーケンシャルアクセスすることを想定している ネットワークトポロジを意識し、効率的に分散処理を行うためのブロック配置を行う
  • 18. Hadoop/HDFSのいいところ データセンター内のもっとも貴重なリソースは? ネットワーク帯域、次いでディスクの処理能力 「データローカリティ」を意識したデータブロックの複製とタスク配置 複製度3なら、ローカルノード、別ラック内のノード、同一ラック内の別ノードへ タスクはできる限りローカルのデータノード内のデータで処理を行えるように管理される ただし、EMRではラックアウェアネスは実現されない ラックA ラックB ノードA-1 ノードB-1 データノード データノード Data Bloock Data Bloock Data Bloock Data Bloock タスク Data Bloock タスク Data Bloock ノードA-2 ノードB-2 データノード データノード Data Bloock Data Bloock Data Bloock タスク Data Bloock タスク Data Bloock Data Bloock ノードA-3 ノードB-3 データノード データノード Data Bloock Data Bloock Data Bloock タスク Data Bloock タスク Data Bloock Data Bloock
  • 19. ローカル開発環境を用意してみた Linux(CentOS5)とCDH(Cloudera Distribution including Apache Hadoop) ver 3 https://ccp.cloudera.com/display/SUPPORT/Downloads 疑似分散モード(Psuedo Distribution mode)でインストール Yumやaptを使って簡単にできます https://ccp.cloudera.com/display/CDHDOC/CDH3+Quick+Start+Guide https://ccp.cloudera.com/display/CDHDOC/CDH3+Installation+Guide デモンストレーション Wikipediaでwordcount しょぼいサンプルですみません。 ストリーミングでの実行方法は象本に載ってます
  • 20. HadoopとRDB HadoopはRDBをそのまま置き換えるものではない 少なくともレイヤーが異なっている 総合的に見れば、RDBは非常に優れている。極論を言えば、スケールしないだけ Hadoopの上で動作する、抽象度の高いプロジェクトが多く出てきた Hadoop RDB ドライバ SQL クエリ実行エンジン MapReduce メモリバッファ HDFS ファイルI/O OS OS
  • 21. NoSQL – Not Only SQL 正確にはNot Only RDBの方が正しい SQL / RDBがダメ(No SQL)ということではない。RDBはこれからも必須の技術 BigDataの到来と共に、RDBだけで何でも片付けられる時代は終わりつつある 技術者には、取り扱う問題に合わせて、ストレージやデータベースを選択する力が求められる AWSで言えば、RDS・SimpleDB・SQSが用意されている。場合よってはHadoopも考えましょう。 ‘Free lunch’の時代は終わり。勉強しないと…
  • 22. 事例紹介:Cookpad 日本最大のレシピサイト 2010年3月現在の月間ユーザー数は884万人 月間ページビュー数は4億6000万回 実は世界最大級のRuby on Railsサイトでもある Hadoopに関するプレゼンテーション http://techlife.cookpad.com/2010/04/28/urapad_kyoto_presentation/ 7000時間かかっていた処理が30時間に 夏場のカレーはナスらしいです HadoopをAmazon EC2/S3(Elastic MapReduce)で運用 自社でデータセンターは持っていない
  • 23. はじめてみましょう リアルの勉強会(特に関東は非常に活発)と、Twitterでのコミュニケーションが非常に重要 ローカルで遊ぶにはCloudera社のディストリビューション マジで使うならElastic MapReduceは便利そう。 情報源 Publickey( http://www.publickey1.jp/index.html ) 日経コンピュータ 象本・MapReduce本・Hadoop徹底入門で全体像をつかんでおいて、各論へ。各論は英語必須。