11. 11
Data Lake
Data Lakeは、あらゆる規模の構造化データおよび⾮構造化
データを 管理、探索、共有、分析できる ⼀元管理された安全
なリポジトリです
• Data Lakeは、データをそのままの形で蓄積する
• Apache Hiveメタストアで構造化データとメタデータの関係を⼀元
管理すると、クエリエンジンによってデータをクエリできる
• Data Lakeは、クエリエンジンや機械学習から利⽤されます
• 機械学習の特徴量エンジニアリングにおいて、そのままの形で蓄積されたデ
ータの⽅が向いている場合があります
13. 13
Data Lakeの課題と解決策
Data Lakeは、DWHのような 分析⼒やトランザクションの
サポート、データ品質の保証がない
• この課題を解決すべく進化した製品やサービスも登場︕
• Apache Hudi
• Databricks Delta Lake
• AWS Lake Formation / Governed tables(Preview)
AWS Lake Formation
(Governed tables)
14. 14
DWHとData Lake の進化 “Lake House”
DWHとData Lakeの両⽅の特⻑を持ち合わせた新しいアーキ
テクチャを Lake House Architecture と呼ぶ
• DWHは、 Data Lakeのようなストレージとコンピューティングを
分離した柔軟かつコスト効率の良いアーキテクチャを採⽤し、デー
タレイク上のデータやOLTPデータベースのライブデータに対して直
接クエリを実⾏してデータ統合できるように進化している
• Data Lakeは、 DWHのようなトランザクションのサポート、デー
タ品質の保証(スキーマバリデーション)、DWHのようにSQLによ
る柔軟なUPSERTが可能
• 実際の Lake House Architecture はベンダーごとに機能が異なる
15. 15
データ分析基盤が担う範囲
• 狭義のデータ分析基盤は、DWHと
ETLツールとBIツールでしたが、現在
は、Data Lakeを含むのが⼀般的
• 分析データの⽤途は、すでにBIツール
から機械学習に拡⼤している
• 欲しいデータの所在や仕様の管理には
データカタログで⼀元管理する
• ソースデータからデータマートまでの
データのトレースにはデータリネージ
が⽤いられる
• 今後、DXの流れで外部データの収集
やシステム連携まで広範囲になりうる
Data Catalog /
Data Lineage
BI Tools &
ML/DL
ETL Tools &
Job Scheduler
Data Lake
DWH &
Data Mart