More Related Content
Similar to [Japanese Content] Lance Riedel_The App Server, The Hive in Tokyo_Aug29
Similar to [Japanese Content] Lance Riedel_The App Server, The Hive in Tokyo_Aug29 (20)
[Japanese Content] Lance Riedel_The App Server, The Hive in Tokyo_Aug29
- 2. Big Data App Server
ビッグデータアプリケーションサーバー
4つの「V」に向けた新しいアプリケーション
フレームワーク:
• 大量(Volume)の生データ
(ペタバイト級)
• 超高速(Velocity)で生成・取得される
データ
• 多様(Variety)なデータソースとスキーマ
• 価値(Value)を引き出す
最新データサイエンス・分析技術を搭載
- 10. • シャーディングは問題箇所を個別チャンクに分割
• シャーディングはスケールするが、データをまたいで
閲覧すると障害が発生
• 例) シャーディングを使った用語・トップページの重み付けの処理
✓
✓
✓
✓
✓
✓
✓
≠
ストレージおよび計算処理機能:
シャーディング
- 17. データ取得: Apache Flume
• スケーラブル、フォールトトレラント、 コンフィギュラブルトポロジー
Hadoopエコシステムの中で相互に動作する
データ取得用パイプライン
• 安全なデータ転送を設定可能に
-‐
ルーティング、レプリケーション、フェールオーバー
• プラグインデータソース用にソースおよびシンクを拡張可能
• 並列にスケール
–
10万メッセージ/秒
- 22. スキーマ: Avro
• データシリアライゼーションシステム
• Avroはデータとスキーマを一緒に格納
• 同じ名前のフィールド、ミッシングフィール
ド、エキストラフィールド等々の一致は簡
単に解決
• Hadoop資産のほとんどの技術はAvroに
対応
–
相互運用性/データパス
- 25. データアクセス: HBase
• Hadoopデータベース
–
スケーラブルな分
散型ビッグデータストア(ソートマップ)
–
GoogleのBigTableがベース、Hadoop
DFS
がサポート
• モジュラーを追加するとリニアにスケール
• テーブルのシャーディングの自動設定が
可能
• フェールオーバーの自動化
• Apache
HBaseテーブルとMapReduceジョ
ブをバックアップする便利なベースクラス
- 26. データアクセス: SQL – Hive, Impala
• 分散ファイルシステム上の生データに対す
るSQLクエリ
• Impala
–HDFSのファイルに対し、SELECT(選
択)、JOIN(結合)、機能のアグリゲートと
いったクエリを実行
–
リアルタイムに
• Hive
–容易なデータサマライズの実現、アド
ホッククエリの実行、Hadoopと互換性ある
ファイルシステムに格納された大規模デー
タセットを分析
- 29. データ分析: フレームワーク例
• Mahout
• 機械学習、クラスタリング
• PaPern
–
カスケーディングからHadoop用の機械学習
DSL
• 0xData
• ビッグデータ用数学および予測エンジンのオープン
ソース
• サンプルアルゴリズム
• Random
Forest(ランダムフォレスト)アルゴリズム
• K平均法
• 階層クラスタリング
• 線形回帰
• ロジスティック回帰
• サポートベクターマシン
• 人口ニューラルネットワーク
• アソシエーションルール学習
- 32. サービス: 検索 – Solr Cloud
• Hadoop最上部にインデックスを構築
• 並列にスケーラブル、フォールトトレラント機能
• インデックスオプションにおける圧倒的な柔軟性
• トークン化
• フィールドタイプ
• データストレージ
• 同様の柔軟性を持つ検索オプション
• AND,OR,NOT,
ワイルドカード
• ファセット検索(オントロジー(概念体系)の利用)
• 拡張アルゴリズムと重み付けプラグ機能
- 33. サービス: Manas – 機械学習
• The
Hiveの超スケーラブルなマッチング
エンジン
• 100〜1000の機能を照合しながら10
億〜数十億ものドキュメントを効率的に
ハンドリング
• 現在、こうした機能を担当しているオー
プンソースコミュニティ上には存在しな
いエンジン