Soumettre la recherche
Mettre en ligne
Hadoop Hack Night Vol. 2
•
17 j'aime
•
1,730 vues
Yoji Kiyota
Suivre
新たな情報インフラとしてのHadoopの活用
Lire moins
Lire la suite
Technologie
Signaler
Partager
Signaler
Partager
1 sur 24
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
MapR M7 技術概要
MapR M7 技術概要
MapR Technologies Japan
Hadoopソースコードリーディング8/MapRを使ってみた
Hadoopソースコードリーディング8/MapRを使ってみた
Recruit Technologies
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
Seiichiro Ishida
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR Technologies Japan
AspectJを用いた大規模分散システムHadoopの監視とプロファイリング
AspectJを用いた大規模分散システムHadoopの監視とプロファイリング
Yusuke Shimizu
Hadoop Troubleshooting 101 - Japanese Version
Hadoop Troubleshooting 101 - Japanese Version
Cloudera, Inc.
Hadoop事始め
Hadoop事始め
You&I
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
Cloudera Japan
Recommandé
MapR M7 技術概要
MapR M7 技術概要
MapR Technologies Japan
Hadoopソースコードリーディング8/MapRを使ってみた
Hadoopソースコードリーディング8/MapRを使ってみた
Recruit Technologies
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
Seiichiro Ishida
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR Technologies Japan
AspectJを用いた大規模分散システムHadoopの監視とプロファイリング
AspectJを用いた大規模分散システムHadoopの監視とプロファイリング
Yusuke Shimizu
Hadoop Troubleshooting 101 - Japanese Version
Hadoop Troubleshooting 101 - Japanese Version
Cloudera, Inc.
Hadoop事始め
Hadoop事始め
You&I
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
Cloudera Japan
Osc2012 spring HBase Report
Osc2012 spring HBase Report
Seiichiro Ishida
1台から500台までのMySQL運用(YAPC::Asia編)
1台から500台までのMySQL運用(YAPC::Asia編)
Masahiro Nagano
20分でわかるHBase
20分でわかるHBase
Sho Shimauchi
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
Cloudera Japan
MapReduce解説
MapReduce解説
Shunsuke Aihara
なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013
Cloudera Japan
Log analysis with Hadoop in livedoor 2013
Log analysis with Hadoop in livedoor 2013
SATOSHI TAGOMORI
ROMAについて
ROMAについて
Rakuten Group, Inc.
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
LINE Corporation
OSC2011 Tokyo/Spring Hadoop入門
OSC2011 Tokyo/Spring Hadoop入門
Shinichi YAMASHITA
Hadoop入門
Hadoop入門
Preferred Networks
CLUB DB2 第122回 DB2管理本の著者が教える 簡単運用管理入門
CLUB DB2 第122回 DB2管理本の著者が教える 簡単運用管理入門
Akira Shimosako
Db2 Warehouse Spark利用ガイド データ操作編
Db2 Warehouse Spark利用ガイド データ操作編
IBM Analytics Japan
ストリーミングCDN2001
ストリーミングCDN2001
Masaaki Nabeshima
Db2 Warehouse Spark利用ガイド チュートリアル編
Db2 Warehouse Spark利用ガイド チュートリアル編
IBM Analytics Japan
Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理
Yoji Kiyota
Basic of virtual memory of Linux
Basic of virtual memory of Linux
Tetsuyuki Kobayashi
マイニング探検会#10
マイニング探検会#10
Yoji Kiyota
20111130 10 aws-meister-emr_long-public
20111130 10 aws-meister-emr_long-public
Amazon Web Services Japan
PHPで大規模ブラウザゲームを開発してわかったこと
PHPで大規模ブラウザゲームを開発してわかったこと
Kentaro Matsui
LAMP技術者でも無理なくツカエルWindowsAzureで運営するソーシャルアプリの裏側
LAMP技術者でも無理なくツカエルWindowsAzureで運営するソーシャルアプリの裏側
gipwest
OSC2012 OSC.DB Hadoop
OSC2012 OSC.DB Hadoop
Shinichi YAMASHITA
Contenu connexe
Tendances
Osc2012 spring HBase Report
Osc2012 spring HBase Report
Seiichiro Ishida
1台から500台までのMySQL運用(YAPC::Asia編)
1台から500台までのMySQL運用(YAPC::Asia編)
Masahiro Nagano
20分でわかるHBase
20分でわかるHBase
Sho Shimauchi
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
Cloudera Japan
MapReduce解説
MapReduce解説
Shunsuke Aihara
なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013
Cloudera Japan
Log analysis with Hadoop in livedoor 2013
Log analysis with Hadoop in livedoor 2013
SATOSHI TAGOMORI
ROMAについて
ROMAについて
Rakuten Group, Inc.
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
LINE Corporation
OSC2011 Tokyo/Spring Hadoop入門
OSC2011 Tokyo/Spring Hadoop入門
Shinichi YAMASHITA
Hadoop入門
Hadoop入門
Preferred Networks
CLUB DB2 第122回 DB2管理本の著者が教える 簡単運用管理入門
CLUB DB2 第122回 DB2管理本の著者が教える 簡単運用管理入門
Akira Shimosako
Db2 Warehouse Spark利用ガイド データ操作編
Db2 Warehouse Spark利用ガイド データ操作編
IBM Analytics Japan
ストリーミングCDN2001
ストリーミングCDN2001
Masaaki Nabeshima
Db2 Warehouse Spark利用ガイド チュートリアル編
Db2 Warehouse Spark利用ガイド チュートリアル編
IBM Analytics Japan
Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理
Yoji Kiyota
Basic of virtual memory of Linux
Basic of virtual memory of Linux
Tetsuyuki Kobayashi
マイニング探検会#10
マイニング探検会#10
Yoji Kiyota
Tendances
(18)
Osc2012 spring HBase Report
Osc2012 spring HBase Report
1台から500台までのMySQL運用(YAPC::Asia編)
1台から500台までのMySQL運用(YAPC::Asia編)
20分でわかるHBase
20分でわかるHBase
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
MapReduce解説
MapReduce解説
なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013
Log analysis with Hadoop in livedoor 2013
Log analysis with Hadoop in livedoor 2013
ROMAについて
ROMAについて
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
OSC2011 Tokyo/Spring Hadoop入門
OSC2011 Tokyo/Spring Hadoop入門
Hadoop入門
Hadoop入門
CLUB DB2 第122回 DB2管理本の著者が教える 簡単運用管理入門
CLUB DB2 第122回 DB2管理本の著者が教える 簡単運用管理入門
Db2 Warehouse Spark利用ガイド データ操作編
Db2 Warehouse Spark利用ガイド データ操作編
ストリーミングCDN2001
ストリーミングCDN2001
Db2 Warehouse Spark利用ガイド チュートリアル編
Db2 Warehouse Spark利用ガイド チュートリアル編
Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理
Basic of virtual memory of Linux
Basic of virtual memory of Linux
マイニング探検会#10
マイニング探検会#10
Similaire à Hadoop Hack Night Vol. 2
20111130 10 aws-meister-emr_long-public
20111130 10 aws-meister-emr_long-public
Amazon Web Services Japan
PHPで大規模ブラウザゲームを開発してわかったこと
PHPで大規模ブラウザゲームを開発してわかったこと
Kentaro Matsui
LAMP技術者でも無理なくツカエルWindowsAzureで運営するソーシャルアプリの裏側
LAMP技術者でも無理なくツカエルWindowsAzureで運営するソーシャルアプリの裏側
gipwest
OSC2012 OSC.DB Hadoop
OSC2012 OSC.DB Hadoop
Shinichi YAMASHITA
Web Operations and Perl kansai.pm#14
Web Operations and Perl kansai.pm#14
Masahiro Nagano
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
Hadoop / Spark Conference Japan
Cloudera Impala #pyfes 2012.11.24
Cloudera Impala #pyfes 2012.11.24
Sho Shimauchi
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
SORACOM, INC
Hadoop輪読会第6章
Hadoop輪読会第6章
Akihiro Kuwano
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
Cloudera Impala Seminar Jan. 8 2013
Cloudera Impala Seminar Jan. 8 2013
Cloudera Japan
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
MapR Technologies Japan
Springの今
Springの今
Kazuyuki Kawamura
Windows Azure 基盤を支えるテクノロジー
Windows Azure 基盤を支えるテクノロジー
Kazumi Hirose
Windows Azure
Windows Azure
Microsoft Openness Japan
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Shinpei Ohtani
大規模ソーシャルゲーム開発から学んだPHP&MySQL実践テクニック
大規模ソーシャルゲーム開発から学んだPHP&MySQL実践テクニック
infinite_loop
Kyoto Tycoon Guide in Japanese
Kyoto Tycoon Guide in Japanese
Mikio Hirabayashi
WindowsAzureで女子力アップ
WindowsAzureで女子力アップ
Shinichiro Isago
Similaire à Hadoop Hack Night Vol. 2
(20)
20111130 10 aws-meister-emr_long-public
20111130 10 aws-meister-emr_long-public
PHPで大規模ブラウザゲームを開発してわかったこと
PHPで大規模ブラウザゲームを開発してわかったこと
LAMP技術者でも無理なくツカエルWindowsAzureで運営するソーシャルアプリの裏側
LAMP技術者でも無理なくツカエルWindowsAzureで運営するソーシャルアプリの裏側
OSC2012 OSC.DB Hadoop
OSC2012 OSC.DB Hadoop
Web Operations and Perl kansai.pm#14
Web Operations and Perl kansai.pm#14
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
Cloudera Impala #pyfes 2012.11.24
Cloudera Impala #pyfes 2012.11.24
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
Hadoop輪読会第6章
Hadoop輪読会第6章
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Cloudera Impala Seminar Jan. 8 2013
Cloudera Impala Seminar Jan. 8 2013
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Springの今
Springの今
Windows Azure 基盤を支えるテクノロジー
Windows Azure 基盤を支えるテクノロジー
Windows Azure
Windows Azure
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
大規模ソーシャルゲーム開発から学んだPHP&MySQL実践テクニック
大規模ソーシャルゲーム開発から学んだPHP&MySQL実践テクニック
Kyoto Tycoon Guide in Japanese
Kyoto Tycoon Guide in Japanese
WindowsAzureで女子力アップ
WindowsAzureで女子力アップ
Plus de Yoji Kiyota
テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-
テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-
Yoji Kiyota
「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション
「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション
Yoji Kiyota
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
Yoji Kiyota
LIFULL HOME'Sにおける不動産物件画像解析
LIFULL HOME'Sにおける不動産物件画像解析
Yoji Kiyota
第10回ARG WI2研究会 株式会社LIFULL 技術報告
第10回ARG WI2研究会 株式会社LIFULL 技術報告
Yoji Kiyota
SoC2017 不動産テックの研究課題
SoC2017 不動産テックの研究課題
Yoji Kiyota
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―
Yoji Kiyota
IEEE DSAA 2017投稿呼びかけ
IEEE DSAA 2017投稿呼びかけ
Yoji Kiyota
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-
Yoji Kiyota
ライフイベントの決断を支えるオープンイノベーションの取り組み
ライフイベントの決断を支えるオープンイノベーションの取り組み
Yoji Kiyota
学際領域としての不動産の研究を活性化させるために
学際領域としての不動産の研究を活性化させるために
Yoji Kiyota
「HOME'Sデータセット」を通じた不動産分野の研究活性化
「HOME'Sデータセット」を通じた不動産分野の研究活性化
Yoji Kiyota
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
Yoji Kiyota
Code4Lib JAPANカンファレンス2016 in 大阪
Code4Lib JAPANカンファレンス2016 in 大阪
Yoji Kiyota
人生の意思決定を支える社会インフラとしての図書館
人生の意思決定を支える社会インフラとしての図書館
Yoji Kiyota
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み
Yoji Kiyota
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...
Yoji Kiyota
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
Yoji Kiyota
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜
Yoji Kiyota
JSAI2015 ツイートタイムラインへの階層的クラウドソーシングの適用による住まい探しユーザの背景ニーズ理解
JSAI2015 ツイートタイムラインへの階層的クラウドソーシングの適用による住まい探しユーザの背景ニーズ理解
Yoji Kiyota
Plus de Yoji Kiyota
(20)
テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-
テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-
「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション
「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
LIFULL HOME'Sにおける不動産物件画像解析
LIFULL HOME'Sにおける不動産物件画像解析
第10回ARG WI2研究会 株式会社LIFULL 技術報告
第10回ARG WI2研究会 株式会社LIFULL 技術報告
SoC2017 不動産テックの研究課題
SoC2017 不動産テックの研究課題
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―
IEEE DSAA 2017投稿呼びかけ
IEEE DSAA 2017投稿呼びかけ
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-
ライフイベントの決断を支えるオープンイノベーションの取り組み
ライフイベントの決断を支えるオープンイノベーションの取り組み
学際領域としての不動産の研究を活性化させるために
学際領域としての不動産の研究を活性化させるために
「HOME'Sデータセット」を通じた不動産分野の研究活性化
「HOME'Sデータセット」を通じた不動産分野の研究活性化
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
Code4Lib JAPANカンファレンス2016 in 大阪
Code4Lib JAPANカンファレンス2016 in 大阪
人生の意思決定を支える社会インフラとしての図書館
人生の意思決定を支える社会インフラとしての図書館
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜
JSAI2015 ツイートタイムラインへの階層的クラウドソーシングの適用による住まい探しユーザの背景ニーズ理解
JSAI2015 ツイートタイムラインへの階層的クラウドソーシングの適用による住まい探しユーザの背景ニーズ理解
Dernier
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
sugiuralab
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
sugiuralab
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
Shota Ito
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
osamut
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
Atomu Hidaka
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
iPride Co., Ltd.
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
iPride Co., Ltd.
Dernier
(8)
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
Hadoop Hack Night Vol. 2
1.
技術評論社/ヤフー 共催 Hadoop Hack
Night Vol. 2 2010年8月4日 新たな情報インフラとしての Hadoopの活用 株式会社リッテル 上席研究員 清田 陽司 (兼 東京大学情報基盤センター 学術情報研究部門 助教) Twitter: @kiyota_yoji
2.
Hadoop活用の壁 • 実績がまだまだ少ない • ○○という機能がない
• ファイルシステムとして備えるべき機能(アクセス権制 御など) • マスタサーバの多重化 • Hadoopってよくわからないんだけど • RDBMSとの違いは? • どういう処理でメリットがあるの? • Hadoopってクラウドなの?(←そもそもクラウドって何 よ?)
3.
Agenda • Hadoopをインフラとして理解する • Hadoopの使いどころ
– RDBMS、分散KVSとの使い分け • 開発事例紹介 – Hadoopが効果を発揮する用途 – 開発手法
4.
Hadoopを理解するポイント インフラとして理解する • シンプルなインタフェース+複雑な中身 –
ブラックボックスとしてとらえる • なくてはならない存在 – なぜ必要とされているかを理解する • 現実的な「割り切り」 – ○○という機能がない理由を理解する
5.
ひねる
蛇口 水が出る 課金 請求書 水を捨てる 流し
6.
ひねる
蛇口 メータ 水道管 配水施設 浄水施設 取水施設 水が出る 水漏れの 水圧の 水質の管理 水位の管理 防止 コントロール 河川 水利権の調整 料金集計 メータ 渇水への対処 ダム 課金 請求書 システム 検針 発電・治水との 調整など マン 水を捨てる 流し ホール 下水管 沈砂池 沈殿池 消毒施設 詰まりの防止 除砂 水質の管理 メンテナンス 汚泥処理 河川 インタフェース 中身
7.
Hadoopのインタフェースと中身
データブロックの送受信 Hadoopスレーブサーバ#1 NameNodeへの状態通知 HDFSの全体統括 DataNode HDFS ファイルの データブロックの管理 デーモン ストレージ 書き込み 異常発生時の復元処理 子JVM TaskTracker map/reduce ファイルの Mapタスク/Reduceタスクの起動 HDFS デーモン 子JVM 読み込み JobTrackerへの状態通知 API map/reduce ファイルの 管理 Hadoop Hadoopスレーブサーバ#2 (複製、移動、 マスタサーバ DataNode HDFS NameNode デーモン ストレージ 削除、…) デーモン 子JVM TaskTracker map/reduce JobTracker バッチ処理 デーモン 子JVM デーモン map/reduce ジョブの投入 ・・ バッチ処理 ・ ジョブの Map Reduce Hadoopスレーブサーバ#N 状態取得 API DataNode HDFS バッチ処理 デーモン ストレージ ジョブの 子JVM 管理 バッチ処理ジョブの進行状況管理 map/reduce TaskTracker (キャンセル、 Mapタスク/Reduceタスクの割り振り デーモン 子JVM 異常発生時のバックアップタスク実行指示 優先度 map/reduce 設定、…) インタフェース 中身
8.
ブラックボックスとしてとらえる • インタフェースはシンプル –
ファイルシステム系(HDFS) – ジョブ管理系(MapReduce) • 中身はイメージで理解する&伝える – ファイルシステム系とジョブ管理系が複雑にから みあっている • お互いが連携していることがHadoopの価値 – 1台のマスタサーバ+多数台のスレーブサーバ
9.
なぜ必要とされているか • 定型処理 →
非定型処理 への流れ – 処理すべきデータ量の増大 – スケール・アウトが必然 • 存在の「空気」化 – 水道や電気を使っていることを普段から意識して いる人はいない
10.
○○という機能がない?! • アクセス権制御が不十分 • ファイル追記ができない •
マスタサーバが二重化されていない – SecondaryNameNodeについての誤解 ファイルシステム/バッチ処理システムとして備 えるべき機能という観点ではまだまだ不足
11.
インフラとしての「割り切り」 • 既存のインフラとは目的が異なる –
大量データバッチ処理の高速化に特化した構成 – 組織内システム(インハウス)での利用を想定 • 優先順位が低い機能は潔くあきらめている • 既存のインフラの役割を完全に置き換えるも のではない – 高速道路は一般道路を代替できない
12.
Hadoopの使いどころ • Hadoopは何ができて、何ができないのか? • RDBMSとの使い分けは?
13.
情報インフラとしてのRDBMS • ブラックボックス化 –
あらゆるデータ操作をSQLで標準化 • トランザクション処理 – 複数ユーザによる読み書きが発生する環境で データの矛盾発生を防ぐ cf. 銀行口座間の資金移動 • インデックス – 指定されたデータを一瞬で検索
14.
RDBMSの課題 • データ処理のニーズの変化 –
定型処理から非定型処理へ • スケールアウトしづらい – CAP定理
15.
定型処理と非定型処理 • 定型処理 –
給与計算、売上集計、伝票処理など – 人間が介在しない完全な自動化が可能 – 厳密さが求められる – データ量はせいぜいGbytesオーダー • 非定型処理 – 統計データ作成、検索、データ・マイニングなど – 人間の介在が必要 – 厳密さよりカバレッジ重視 (データ量が重要) – データ量はTbytes~Pbytesオーダーになり得る
16.
ブリュワーのCAP定理 Eric Brewer@UCBが2000年に提唱 以下の3つのシステム要件を同時に満たすのが 不可能であることを証明 •
C: Consistency (一貫性) → トランザクション • A: Availability (可用性) → 耐障害性 • P: Partition Tolerance (分割耐性) → スケール・ アウト性 RDBMS: CAを満たすがPを満たさない Hadoop, 分散KVS: APを満たすがCを満たさない
17.
リアルタイム処理要求
応答 ユーザインタフェース アプリケーションサーバ(リアルタイム処理) RDBMS ログファイル 分散KVS 分散ファイル・システム(HDFS) スレーブ・サーバーのハードディスクを束ねて構成 外部入力ファイル 外部出力ファイル Hadoopクラスタ(バッチ処理)
18.
Hadoopが効果を発揮する用途例 • 検索インデックスの生成 • 大量のテキストデータの継続的解析
– ブログからの急上昇ワード抽出 • 時空間上のバスケット解析 – Webアクセスログを用いたマイニング – 地図情報マイニング
19.
ブログからの急上昇ワード抽出 • クローリングしたブログを1時間ごとに解析し、
急上昇ワードを抽出 • 変化率を計算するため、莫大なデータを毎時 処理する必要がある • Hadoopクラスタ規模 – DataNode 3台 (QuadCore CPU) • 数十Gbytesのデータを20分ほどで解析
20.
Trend Navigator
21.
時空間上のバスケット分析 (例) あるキーワードで検索してから10分以内に
訪れたURLを抽出 キーワード ページ 検索 訪問
22.
時空間上のバスケット分析 (例2) A社のコンビニから半径500m以内にある
他社のコンビニを全て抽出 (例3) 都内で開催されたコンサート会場近辺で 携帯からサイトにアクセスした顧客を抽出 RDBMSでは処理が難しい → MapReduceで効率的に処理可能!
23.
処理ロジックの実装 • MapReduceの直接実装 –
習熟するまでが大変 – コスト高 – 自由度が大きい • HiveやPig Latinなどのメタ言語利用 – 習熟は楽 – コスト安 – 自由度が小さい
24.
まとめ • Hadoopのメリットの伝え方 –
新しいインフラなのでわかりにくくて当然! – 詳しい仕組みよりも、具体的な利用方法を • できることとできないことをきちんと区別する – 他のソリューションで十分なケースもたくさんある – 既存手法と組み合わせることで問題解決可能 • DRBD+Heartbeatによるマスタサーバの多重化 • 埋もれているニーズはまだたくさんある
Télécharger maintenant