SlideShare une entreprise Scribd logo
1  sur  86
Télécharger pour lire hors ligne
1Copyright © 2019 BeeX Inc. All Rights Reserved.
デジタル化への第一歩
エンタープライズデータレイク構築事例
ご紹介
2Copyright © 2019 BeeX Inc. All Rights Reserved.
事例プロジェクトの背景
3Copyright © 2019 BeeX Inc. All Rights Reserved.
データドリブンな経営の実現を目指して
文化
データドリブンな経営
勘よりデータ
4Copyright © 2019 BeeX Inc. All Rights Reserved.
データドリブンな経営の実現を目指して
スキル
文化
データドリブンな経営
勘よりデータ
分析できる人
5Copyright © 2019 BeeX Inc. All Rights Reserved.
データドリブンな経営の実現を目指して
データ
スキル
文化
データドリブンな経営
「データ」にフォーカス
勘よりデータ
分析できる人
分析するデータ
6Copyright © 2019 BeeX Inc. All Rights Reserved.
データレイク(Data Lake)
7Copyright © 2019 BeeX Inc. All Rights Reserved.
AWS様ページより引用
データレイクとは
データレイクは、規模にかかわらず、すべての構造化データと非構造
化データを保存できる一元化されたリポジトリ
です。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュ
ボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、
的確な意思決定に役立てることができます。
引用元:https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/
8Copyright © 2019 BeeX Inc. All Rights Reserved.
AWS様ページより引用
データレイクとは
データレイクは、規模にかかわらず、すべての構造化データと非構造
化データを保存できる一元化されたリポジトリ
です。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュ
ボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、
的確な意思決定に役立てることができます。
引用元:https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/
どんな「大きさ」、「種類」のデータも
そのまま入れられ、適宜取り出せる場所
9Copyright © 2019 BeeX Inc. All Rights Reserved.
エンタープライズ・データレイク
構築事例
10Copyright © 2019 BeeX Inc. All Rights Reserved.
「データ」における課題とエンタープライズ・データレイク
多種多様なレガシーシステム企業の中核データ
顧客マスタ
取引伝票
工場毎に異なるライン
事業所固有システム
SAP
11Copyright © 2019 BeeX Inc. All Rights Reserved.
「データ」における課題とエンタープライズ・データレイク
多種多様なレガシーシステム
データを利用したいのは
一般ユーザ
≠データサイエンティスト
企業の中核データ
顧客マスタ
取引伝票
工場毎に異なるライン
事業所固有システム
SAP
12Copyright © 2019 BeeX Inc. All Rights Reserved.
「データ」における課題とエンタープライズ・データレイク
多種多様なレガシーシステム
データを利用したいのは
一般ユーザ
≠データサイエンティスト
企業の中核データ
顧客マスタ
取引伝票
工場毎に異なるライン
事業所固有システム
SAP
13Copyright © 2019 BeeX Inc. All Rights Reserved.
「データ」における課題とエンタープライズ・データレイク
多種多様なレガシーシステム
データを利用したいのは
一般ユーザ
≠データサイエンティスト
組織を跨がる全社データ活用
企業の中核データ
顧客マスタ
取引伝票
工場毎に異なるライン
事業所固有システム
SAP
14Copyright © 2019 BeeX Inc. All Rights Reserved.
「データ」における課題とエンタープライズ・データレイク
多種多様なレガシーシステム
データを利用したいのは
一般ユーザ
≠データサイエンティスト
組織を跨がる全社データ活用
企業の中核データ
顧客マスタ
取引伝票
工場毎に異なるライン
事業所固有システム
SAP
15Copyright © 2019 BeeX Inc. All Rights Reserved.
「データ」における課題とエンタープライズ・データレイク
多種多様なレガシーシステム
データを利用したいのは
一般ユーザ
≠データサイエンティスト
組織を跨がる全社データ活用
企業の中核データ
顧客マスタ
取引伝票
工場毎に異なるライン
事業所固有システム
SAP
16Copyright © 2019 BeeX Inc. All Rights Reserved.
「データ」における課題とエンタープライズ・データレイク
多種多様なレガシーシステム
データを利用したいのは
一般ユーザ
≠データサイエンティスト
組織を跨がる全社データ活用
企業の中核データ
顧客マスタ
取引伝票
工場毎に異なるライン
事業所固有システム
使えるデータが
適切に維持・管理されている
SAP
17Copyright © 2019 BeeX Inc. All Rights Reserved.
「データ」における課題とエンタープライズ・データレイク
データを介して「人」と「サービス」をつなぐ
多種多様なレガシーシステム
データを利用したいのは
一般ユーザ
≠データサイエンティスト
組織を跨がる全社データ活用
企業の中核データ
顧客マスタ
取引伝票
工場毎に異なるライン
事業所固有システム
使えるデータが
適切に維持・管理されている
SAP
18Copyright © 2019 BeeX Inc. All Rights Reserved.
データレイクの実装例
19Copyright © 2019 BeeX Inc. All Rights Reserved.
データレイク データの流れ
データレイク
AWSにおけるデータレイクの中心となるサービス
S3
20Copyright © 2019 BeeX Inc. All Rights Reserved.
データレイク データの流れ
保管する
データレイク
21Copyright © 2019 BeeX Inc. All Rights Reserved.
データレイク データの流れ
保管する
データレイク
入れる
アップロード生データ 変換/整形
生データ
生
22Copyright © 2019 BeeX Inc. All Rights Reserved.
データレイク データの流れ
保管する
データレイク
入れる
アップロード生データ 変換/整形
生データ
使う
読み込み 集計/分析生
23Copyright © 2019 BeeX Inc. All Rights Reserved.
入れる 使う
データレイク データの流れ
アップロード生データ 変換/整形 読み込み 集計/分析
保管する
生データ データレイク
この流れをパイプラインと呼びます
「集計/分析」からパイプラインを遡りながら説明します
生
24Copyright © 2019 BeeX Inc. All Rights Reserved.
「一般ユーザ」が利用できるデータは?
アップロード生データ 変換/整形 読み込み 集計/分析保管
生
25Copyright © 2019 BeeX Inc. All Rights Reserved.
現場での学び
◆ セルフサービスBIが普及
• Tableau、 QlikView、 QuickSight等
• より製造現場に近い人がBIを使いこなしている
26Copyright © 2019 BeeX Inc. All Rights Reserved.
現場での学び
◆ まずは見える化
• 画面を見せることで初めて製造現場側もイメージができる
• 見える化できればあとは創意工夫
◆ セルフサービスBIが普及
• Tableau、 QlikView、 QuickSight等
• より製造現場に近い人がBIを使いこなしている
27Copyright © 2019 BeeX Inc. All Rights Reserved.
「一般ユーザ」が利用できるデータは?
アップロード生データ 変換/整形 読み込み 集計/分析保管
データを利用したいユーザ ≠ データサイエンティスト
少ない
生
28Copyright © 2019 BeeX Inc. All Rights Reserved.
「一般ユーザ」が利用できるデータは?
アップロード生データ 変換/整形 読み込み 集計/分析保管
Jupyter Notebookを使い
Pythonで分析
データを利用したいユーザ ≠ データサイエンティスト
生
29Copyright © 2019 BeeX Inc. All Rights Reserved.
「一般ユーザ」が利用できるデータは?
アップロード生データ 変換/整形 読み込み 集計/分析保管
Jupyter Notebookを使い
Pythonで分析
既存のBIツール、
既存のSQLスキルで分析
データを利用したいユーザ ≠ データサイエンティスト
生
30Copyright © 2019 BeeX Inc. All Rights Reserved.
「一般ユーザ」が利用できるデータは?
アップロード生データ 変換/整形 読み込み 集計/分析保管
Jupyter Notebookを使い
Pythonで分析
既存のBIツール、
既存のSQLスキルで分析
SQLで読み込める形式でデータが保管されていてほしい
データを利用したいユーザ ≠ データサイエンティスト
生
31Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用を想定したデータ保管
アップロード生データ 変換/整形 読み込み 集計/分析保管
SQLで読み込める形式で
データを保管するためには
生
32Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用を想定したデータ保管
DB,テーブル構造・型情報
SQL実行可能な構造
アップロード生データ 変換/整形 読み込み 集計/分析保管
生
33Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用を想定したデータ保管
DB,テーブル構造・型情報
保管コスト、分析パフォーマンス
SQL実行可能な構造
大容量データへの対応
アップロード生データ 変換/整形 読み込み 集計/分析保管
生
34Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用を想定したデータ保管
メタデータ
(データの概要、オーナー、更新日等)
DB,テーブル構造・型情報
保管コスト、分析パフォーマンス
SQL実行可能な構造
大容量データへの対応
どこに、どんなデータがあるか
アップロード生データ 変換/整形 読み込み 集計/分析保管
生
35Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用を想定したデータ保管
メタデータ
(データの概要、オーナー、更新日等)
DB,テーブル構造・型情報
保管コスト、分析パフォーマンス
AWS Glue
Parquet
SQL実行可能な構造
大容量データへの対応
どこに、どんなデータがあるか
アップロード生データ 変換/整形 読み込み 集計/分析保管
生
36Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用を想定したデータ保管
メタデータ
(データの概要、オーナー、更新日等)
DB,テーブル構造・型情報
保管コスト、分析パフォーマンス
AWS Glue
Parquet
SQL実行可能な構造
大容量データへの対応
どこに、どんなデータがあるか
アップロード生データ 変換/整形 読み込み 集計/分析保管
少し説明
生
37Copyright © 2019 BeeX Inc. All Rights Reserved.
Apache Parquet(パーケイ)とは
列指向ファイルフォーマット
ファイル
として扱える
38Copyright © 2019 BeeX Inc. All Rights Reserved.
Apache Parquet(パーケイ)とは
列指向ファイルフォーマット
◆ 列指向(SAP HANAも列指向)
・ 必要な列のみ読み込み(I/O削減)
・ 高圧縮率
◆ データの型情報
・ String、Int、Boolean,Date、 Decimal型など
・ 型毎の最適化 ⇨ 高圧縮率
ファイル
として扱える
男性
女性
男性
02/11
女性
女性
32
45
23
37
28
03/23
11/03
08/06
09/16
男性
女性
男性
02/11
女性
女性
32
45
23
37
28
03/23
11/03
08/06
09/16
行指向
(CSV,JSON等) 列指向(Parquet)
39Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用を想定したデータ保管
メタデータ
(データの概要、オーナー、更新日等)
DB,テーブル構造・型情報
保管コスト、分析パフォーマンス
AWS Glue
Parquet
SQL実行可能な構造
大容量データへの対応
どこに、どんなデータがあるか
アップロード生データ 変換/整形 読み込み 集計/分析保管
変換/整形と
合わせて説明
生
40Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用可能な形式に変換するために
アップロード生データ 変換/整形 読み込み 集計/分析保管
生
41Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用可能な形式に変換するために
アップロード生データ 変換/整形 読み込み 集計/分析保管
簡潔なコードで分散ETL処理記述可能
生
42Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用可能な形式に変換するために
アップロード生データ 変換/整形 読み込み 集計/分析保管
簡潔なコードで分散ETL処理記述可能
AWS Glue
生
43Copyright © 2019 BeeX Inc. All Rights Reserved.
AWS Glue 利用例 (SQL利用可能な形式に変換)
44Copyright © 2019 BeeX Inc. All Rights Reserved.
AWS Glue 利用例 (SQL利用可能な形式に変換)
生データ アップロード
CSVやJSON
など
no, first_name, last_name
1, Hiroki, Masaru
2, Tashiro, Hiroki
3, Yusuke, Otomo
生
45Copyright © 2019 BeeX Inc. All Rights Reserved.
AWS Glue 利用例 (SQL利用可能な形式に変換)
生データ アップロード
CSVやJSON
など
Glueクローラー
DB・テーブル構造
カラム名 型
no 整数
first_name 文字列
last_name 文字列
no, first_name, last_name
1, Hiroki, Masaru
2, Tashiro, Hiroki
3, Yusuke, Otomo
生
46Copyright © 2019 BeeX Inc. All Rights Reserved.
AWS Glue 利用例 (SQL利用可能な形式に変換)
生データ アップロード
CSVやJSON
など
Glueクローラー
DB・テーブル構造
カラム名 型
no 整数
first_name 文字列
last_name 文字列
Glue ETL
Job
参照
サーバーレス
no, first_name, last_name
1, Hiroki, Masaru
2, Tashiro, Hiroki
3, Yusuke, Otomo
生
47Copyright © 2019 BeeX Inc. All Rights Reserved.
AWS Glue 利用例 (SQL利用可能な形式に変換)
生データ アップロード
CSVやJSON
など
Glueクローラー
カラム名 型
no 整数
first_name 文字列
last_name 文字列
Glue ETL
Job
参照
サーバーレス
no, first_name, last_name
1, Hiroki, Masaru
2, Tashiro, Hiroki
3, Yusuke, Otomo
DB・テーブル構造
生
48Copyright © 2019 BeeX Inc. All Rights Reserved.
AWS Glue 利用例 (SQL利用可能な形式に変換)
生データ アップロード
CSVやJSON
など
Glueクローラー
no, first_name, last_name
1, Hiroki, Masaru
2, Tashiro, Hiroki
3, Yusuke, Otomo
カラム名 型
no 整数
first_name 文字列
last_name 文字列
Glue ETL
Job
参照
サーバーレス SQL
Athena
Redshift
Spectrum
参照
DB・テーブル構造
生
49Copyright © 2019 BeeX Inc. All Rights Reserved.
標準化された形式・場所に保管するために
アップロード生データ 変換/整形 読み込み 集計/分析保管
簡潔なコードで分散ETL処理記述可能
AWS Glue
・ 高いスケーラビリティ
・ 1秒単位の従量課金
・ スキーマの自動検出
・ 独自ライブラリでコードを簡素化
・ RedshiftやAthenaとの連携
生
50Copyright © 2019 BeeX Inc. All Rights Reserved.
企業内には色々なデータがありパイプラインが多くなる
アップロード
アップロード
アップロード
データレイク
SAP
・
・
・
・
・
・
標準化された
ディレクトリ構造
Glueによる
変換/整形
生
生
生
51Copyright © 2019 BeeX Inc. All Rights Reserved.
企業内には色々なデータがありパイプラインが多くなる
アップロード
アップロード
アップロード
データレイク
SAP
・
・
・
・
・
・
標準化された
ディレクトリ構造
変換/整形
変換/整形
変換/整形
生
生
生
52Copyright © 2019 BeeX Inc. All Rights Reserved.
標準化された形式・場所に保管するために
アップロード生データ 変換/整形 読み込み 集計/分析保管
簡潔なコードで分散ETL処理記述可能
AWS Glue
課題
・ パイプラインの増加
・ 開発工数の増加
・ 運用者スキルのバラツキ
・ 高いスケーラビリティ
・ 1秒単位の従量課金
・ スキーマの自動検出
・ 独自ライブラリでコードを簡素化
・ RedshiftやAthenaとの連携
生
53Copyright © 2019 BeeX Inc. All Rights Reserved.
企業内の多様なデータを標準化し保管するために
アップロード生データ 変換/整形 読み込み 集計/分析保管
簡潔なコードで分散ETL処理記述可能
AWS Glue
課題
標準化 自動化
・ パイプラインの増加
・ 開発工数の増加
・ 運用者スキルのバラツキ
・ 高いスケーラビリティ
・ 1秒単位の従量課金
・ スキーマの自動検出
・ 独自ライブラリでコードを簡素化
・ RedshiftやAthenaとの連携
生
54Copyright © 2019 BeeX Inc. All Rights Reserved.
EXCEL申請書をマスタとすることで定義の標準化・自動化
利用申請書
兼データ定義書
兼ヒアリングシート
開発ツール
Fluentd
Glue
Redshift
申請書マスターとし
て設定を生成
設定ファイル生成
Crawler登録
ETLジョブ生成・登録
View定義生成
ユーザ
55Copyright © 2019 BeeX Inc. All Rights Reserved.
企業内の多様なデータを標準化し保管するために
アップロード生データ 変換/整形 読み込み 集計/分析保管
利用申請書
簡潔なコードで分散ETL処理記述可能
AWS Glue
課題
ツール
自動設定
・ パイプラインの増加
・ 開発工数の増加
・ 運用者スキルのバラツキ
標準化・自動化の
仕組みを開発
・ 高いスケーラビリティ
・ 1秒単位の従量課金
・ スキーマの自動検出
・ 独自ライブラリでより簡易なコード
・ RedshiftやAthenaとの連携
生
56Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側のアップロード形式と方式の標準化
アップロード生データ 変換/整形 読み込み 集計/分析保管生
変換処理開発の効率化はしましたが
標準化 自動化
57Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側のアップロード形式と方式の標準化
アップロード生データ 変換/整形 読み込み保管
変換処理はシンプルに保ちたい
⇨ 最低限標準化されたフォーマットでアップロード
生 集計/分析
58Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側のアップロード形式と方式の標準化
アップロード生データ 変換/整形 読み込み保管
変換処理はシンプルに保ちたい
⇨ 最低限標準化されたフォーマットでアップロード
ユーザ側がデータをアップロードするハードルは下げたい
生 集計/分析
59Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側のアップロード形式と方式の標準化
アップロード生データ 変換/整形 読み込み保管
文字コード UTF-8 等
改行コード CRLF,LF 等
フォーマット CSV,JSON 等
圧縮 GZIP 等
タイムゾーン UTC、JST 等
変換処理をシンプルに保ちたい
⇨ 標準フォーマット
生 集計/分析
60Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側のアップロード形式と方式の標準化
アップロード生データ 変換/整形 読み込み保管
文字コード UTF-8 等
改行コード CRLF,LF 等
フォーマット CSV,JSON 等
圧縮 GZIP 等
タイムゾーン UTC、JST 等
ア
ッ
プ
ロ
ー
ド
方
式
の
標
準
メ
ニ
ュ
ー
化
変換処理をシンプルに保ちたい
⇨ 標準フォーマット
ユーザ利用のハードルを下げたい
生 集計/分析
61Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側のアップロード形式と方式の標準化
アップロード生データ 変換/整形 読み込み保管
SAP
ETL
文字コード UTF-8 等
改行コード CRLF,LF 等
フォーマット CSV,JSON 等
圧縮 GZIP 等
タイムゾーン UTC、JST 等
CSV
プロジェクト保有
ETLツール
ア
ッ
プ
ロ
ー
ド
方
式
の
標
準
メ
ニ
ュ
ー
化
変換処理をシンプルに保ちたい
⇨ 標準フォーマット
ユーザ利用のハードルを下げたい
生 集計/分析
62Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側のアップロード形式と方式の標準化
アップロード生データ 変換/整形 読み込み保管
SAP
ETL
文字コード UTF-8 等
改行コード CRLF,LF 等
フォーマット CSV,JSON 等
圧縮 GZIP 等
タイムゾーン UTC、JST 等
CSV
DB ETL Parquet
Glueのよる
DBアクセス
プロジェクト保有
ETLツール
ア
ッ
プ
ロ
ー
ド
方
式
の
標
準
メ
ニ
ュ
ー
化
変換処理をシンプルに保ちたい
⇨ 標準フォーマット
ユーザ利用のハードルを下げたい
生 集計/分析
63Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側のアップロード形式と方式の標準化
アップロード生データ 変換/整形 読み込み保管
SAP
ETL
JSON
(GZIP)
文字コード UTF-8 等
改行コード CRLF,LF 等
フォーマット CSV,JSON 等
圧縮 GZIP 等
タイムゾーン UTC、JST 等
CSV等
CSV
DB
ログ
DB ETL Parquet
汎用用途・OSS
Fluentd
Glueのよる
DBアクセス
プロジェクト保有
ETLツール
ア
ッ
プ
ロ
ー
ド
方
式
の
標
準
メ
ニ
ュ
ー
化
変換処理をシンプルに保ちたい
⇨ 標準フォーマット
ユーザ利用のハードルを下げたい
生 集計/分析
64Copyright © 2019 BeeX Inc. All Rights Reserved.
データマート
Fluentd
awscli
WinSCP
ETL
A社様データレイク実装例 アーキテクチャ一部抜粋
CSV、JSON等
一時保管
Parquet
長期保管
変換
Data Lake層 DWH層
Tier1 Tier2
大
規
模
分
析
層
ETL
RDBMS
Tableau
アプリケーション
ツール
Python
Glueジョブ
1日数回
SQLによる
分析・集計
Redshift
spectrum
他AWSサービス
アップロード生データ 変換/整形 読み込み 集計/分析保管
生
65Copyright © 2019 BeeX Inc. All Rights Reserved.
プロジェクトの特徴・進め方
66Copyright © 2019 BeeX Inc. All Rights Reserved.
データドリブンな経営の実現を目指して
データ
スキル
文化
データドリブンな経営
勘よりデータ
分析できる人
分析するデータ
「データ」にフォーカス
67Copyright © 2019 BeeX Inc. All Rights Reserved.
データを介して「人」と「サービス」をつなぐ
多種多様なレガシーシステム
データを利用したいのは
一般ユーザ
≠データサイエンティスト
組織を跨がる全社データ活用
企業の中核データ
顧客マスタ
取引伝票
工場毎に異なるライン
事業所固有システム
使えるデータが
適切に維持・管理されている
SAP
68Copyright © 2019 BeeX Inc. All Rights Reserved.
データレイクは
使ってもらってこそ価値がある
ユーザに使ってもらえる
サービスを作る
69Copyright © 2019 BeeX Inc. All Rights Reserved.
当初のプロジェクトはウォーターフォールを想定していた
情シス
部門
BeeX
企画
要件
定義
設計
開発
納品
検収
運用・保守
事業
部門
70Copyright © 2019 BeeX Inc. All Rights Reserved.
当初のプロジェクトはウォーターフォールを想定していた
情シス
部門
BeeX
特にRedshiftとGlueは開発ペースが早い
ユーザの利便性が大きく改善する新機能が続々リリース
企画
要件
定義
設計
開発
納品
検収
運用・保守
事業
部門
続々追加される新機能
71Copyright © 2019 BeeX Inc. All Rights Reserved.
当初のプロジェクトはウォーターフォールを想定していた
情シス
部門
BeeX
企画
要件
定義
設計
開発
納品
検収
運用・保守
事業
部門
続々追加される新機能
多種多様で形になっていない
要件
ユーザは複数部門、要件が形になっていない場合も
要件は能動的、積極的に引き出す
特にRedshiftとGlueは開発ペースが早い
ユーザの利便性が大きく改善する新機能が続々リリース
72Copyright © 2019 BeeX Inc. All Rights Reserved.
当初のプロジェクトはウォーターフォールを想定していた
情シス
部門
BeeX
企画
要件
定義
設計
開発
納品
検収
運用・保守
事業
部門
続々追加される新機能
進め方を調整
多種多様で形になっていない
要件
ユーザは複数部門、要件が形になっていない場合も
要件は能動的、積極的に引き出す
特にRedshiftとGlueは開発ペースが早い
ユーザの利便性が大きく改善する新機能が続々リリース
73Copyright © 2019 BeeX Inc. All Rights Reserved.
AWSを利用した
サービス
社内プロジェクトだが構図はB2B2Cに近い
B
B
C
74Copyright © 2019 BeeX Inc. All Rights Reserved.
AWSを利用した
サービス
DataLakeを利用した
事業部側プロジェクト
社内プロジェクトだが構図はB2B2Cに近い
B
B
C
75Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側に要件を探しにいく
プロトタイピング
PoC事業部側
プロジェクト
・アジャイル的
・高速
・柔軟
・短期
・見えるモノ
76Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側に要件を探しにいく
プロトタイピング
PoC事業部側
プロジェクト
・アジャイル的
・高速
・柔軟
・短期
・見えるモノ
本当のユーザが更に先にいる場合も
77Copyright © 2019 BeeX Inc. All Rights Reserved.
ウォーターフォールとアジャイルのハイブリット的な進め方
標準化設計環境構築 運用設計
要件定義
プロトタイピング
PoC
対話とフィードバック
DataLake
プロジェクト
事業部側
プロジェクト
・ウォーターフォール的
・着実,正確
・高品質,安定
・標準化,展開
・中長期
・アジャイル的
・高速
・柔軟
・短期
・見えるモノ
本当のユーザが更に先にいる場合も
78Copyright © 2019 BeeX Inc. All Rights Reserved.
データマート
Fluentd
awscli
WinSCP
ETL
A社様データレイク実装例
CSV、JSON等
一時保管
Parquet
長期保管
変換
Data Lake層 DWH層
Tier1 Tier2
大
規
模
分
析
層
ETL
RDBMS
Tableau
アプリケーション
ツール
Python
Glueジョブ
1日数回
SQLによる
分析・集計
Redshift
spectrum
他AWSサービス
79Copyright © 2019 BeeX Inc. All Rights Reserved.
ニアリアルタイム分析
データマート
Fluentd
awscli
WinSCP
ETL
データレイク実装例 ユースケースを元に見える化層を拡張
画像、動画や日誌、非構造化データに関しては別の流れを定義しています
PostgreSQL
一時保管
CSV、JSON等
一時保管
Parquet
長期保管
変換
Data Lake層
Elasticsearch
Service
DWH層
Tier1 Tier2
大
規
模
分
析
層
見
え
る
化
層
ETL
Fluentd
ETL
RDBMS
Tableau
Browser
アプリケーション
ツール
Python
Glueジョブ
1日数回
SQLによる
分析・集計
Redshift
spectrum
他AWSサービス
他AWSサービス
80Copyright © 2019 BeeX Inc. All Rights Reserved.
ウォーターフォールとアジャイルのハイブリット的な進め方
標準化設計環境構築 運用設計
要件定義
プロトタイピング
PoC
対話とフィードバック 展開
ブラッシュアップ
DataLake
プロジェクト
事業部側
プロジェクト
・ウォーターフォール的
・着実,正確
・高品質,安定
・標準化,展開
・中長期
・アジャイル的
・高速
・柔軟
・短期
・見えるモノ
本当のユーザが更に先にいる場合も
本稼働
81Copyright © 2019 BeeX Inc. All Rights Reserved.
データレイクの開発・運用体制
データスチュワードチーム
82Copyright © 2019 BeeX Inc. All Rights Reserved.
テクノロジだけではデータレイクを機能させるのは難しい
このデータは
データレイクにど
う入れれば良
い?
データの内容に
誤りがあったから
調整したい
青システムの
データを使いた
い
他の事業部は
どんな使い方し
てるなかな?
83Copyright © 2019 BeeX Inc. All Rights Reserved.
データスチュワードとは
データスチュワードの主な役割
• 核となるメタデータの作成と管理
• ルールと標準の文書化
• データ品質の問題管理
• データガバナンス運営アクティビティの実施
※DMBOKより引用
データスチュワード(Data Steward)
組織内のデータ統制を保つ責任を負う役割、組織
Data Steward
(執事)
84Copyright © 2019 BeeX Inc. All Rights Reserved.
データスチュワードチームの設置
データスチュワードチーム
データの健全性を保ち「データスワンプ」にしない
利用しやすいサービスに
85Copyright © 2019 BeeX Inc. All Rights Reserved.
まとめ
• エンタープライズデータレイクの特徴
• 「技術の壁」と「組織の壁」
• データレイク実装例
• 入れる・保管する・使う
• SQLでのデータ取得をするためのパイプライン
• プロジェクトの進め方、体制
• B2B2Cのサービスを作る意識
• アジャイルとウォーターフォールのハイブリッド
• データスチュワードチーム
86Copyright © 2019 BeeX Inc. All Rights Reserved.

Contenu connexe

Tendances

浸透するサーバーレス 実際に見るユースケースと実装パターン
浸透するサーバーレス 実際に見るユースケースと実装パターン浸透するサーバーレス 実際に見るユースケースと実装パターン
浸透するサーバーレス 実際に見るユースケースと実装パターンAmazon Web Services Japan
 
20180417 AWS White Belt Online Seminar クラウドジャーニー
20180417 AWS White Belt Online Seminar クラウドジャーニー20180417 AWS White Belt Online Seminar クラウドジャーニー
20180417 AWS White Belt Online Seminar クラウドジャーニーAmazon Web Services Japan
 
[CTO Night & Day 2019] CTO のための一歩進んだコンテナ入門 #ctonight
[CTO Night & Day 2019] CTO のための一歩進んだコンテナ入門 #ctonight[CTO Night & Day 2019] CTO のための一歩進んだコンテナ入門 #ctonight
[CTO Night & Day 2019] CTO のための一歩進んだコンテナ入門 #ctonightAmazon Web Services Japan
 
HashiCorp Corporate Overview
HashiCorp Corporate OverviewHashiCorp Corporate Overview
HashiCorp Corporate Overviewhashicorpjp
 
AWS前線、北上中! (AWS ジャパンツアー 2014 札幌)
AWS前線、北上中! (AWS ジャパンツアー 2014 札幌)AWS前線、北上中! (AWS ジャパンツアー 2014 札幌)
AWS前線、北上中! (AWS ジャパンツアー 2014 札幌)Hiroshi Koyama
 
AWSではじめるMLOps
AWSではじめるMLOpsAWSではじめるMLOps
AWSではじめるMLOpsMariOhbuchi
 
アカウントのセキュリティ (第13回JAWS-UG札幌)
アカウントのセキュリティ (第13回JAWS-UG札幌)アカウントのセキュリティ (第13回JAWS-UG札幌)
アカウントのセキュリティ (第13回JAWS-UG札幌)Hiroshi Koyama
 
AWS Black Belt Online Seminar 2018 re:Invent 2017 Recap Machine Learning / Da...
AWS Black Belt Online Seminar 2018 re:Invent 2017 Recap Machine Learning / Da...AWS Black Belt Online Seminar 2018 re:Invent 2017 Recap Machine Learning / Da...
AWS Black Belt Online Seminar 2018 re:Invent 2017 Recap Machine Learning / Da...Amazon Web Services Japan
 
[CTO Night & Day 2019] グローバルのサービス展開に向けたマルチリージョンアーキテクチャ- #ctonight
[CTO Night & Day 2019] グローバルのサービス展開に向けたマルチリージョンアーキテクチャ- #ctonight[CTO Night & Day 2019] グローバルのサービス展開に向けたマルチリージョンアーキテクチャ- #ctonight
[CTO Night & Day 2019] グローバルのサービス展開に向けたマルチリージョンアーキテクチャ- #ctonightAmazon Web Services Japan
 
あなたの ”Cloud” も ”One” ダフル!トレンドマイクロの新セキュリティ!
あなたの ”Cloud” も ”One” ダフル!トレンドマイクロの新セキュリティ!あなたの ”Cloud” も ”One” ダフル!トレンドマイクロの新セキュリティ!
あなたの ”Cloud” も ”One” ダフル!トレンドマイクロの新セキュリティ!Kwiil Kang
 
20180522 AWS Black Belt Online Seminar 失敗例を成功に変えるアンチパターン
20180522 AWS Black Belt Online Seminar 失敗例を成功に変えるアンチパターン20180522 AWS Black Belt Online Seminar 失敗例を成功に変えるアンチパターン
20180522 AWS Black Belt Online Seminar 失敗例を成功に変えるアンチパターンAmazon Web Services Japan
 
G tech2016 クラウド時代に必要とされる組織と人材育成について
G tech2016 クラウド時代に必要とされる組織と人材育成についてG tech2016 クラウド時代に必要とされる組織と人材育成について
G tech2016 クラウド時代に必要とされる組織と人材育成についてTrainocate Japan, Ltd.
 
20180306 AWS Black Belt Online Seminar 働き方改革を実現するAWSのエンドユーザーコンピューティングサービス
20180306 AWS Black Belt Online Seminar  働き方改革を実現するAWSのエンドユーザーコンピューティングサービス20180306 AWS Black Belt Online Seminar  働き方改革を実現するAWSのエンドユーザーコンピューティングサービス
20180306 AWS Black Belt Online Seminar 働き方改革を実現するAWSのエンドユーザーコンピューティングサービスAmazon Web Services Japan
 
[CTO Night & Day 2019] AWS Database Overview -データベースの選択指針- #ctonight
[CTO Night & Day 2019] AWS Database Overview -データベースの選択指針- #ctonight[CTO Night & Day 2019] AWS Database Overview -データベースの選択指針- #ctonight
[CTO Night & Day 2019] AWS Database Overview -データベースの選択指針- #ctonightAmazon Web Services Japan
 

Tendances (17)

浸透するサーバーレス 実際に見るユースケースと実装パターン
浸透するサーバーレス 実際に見るユースケースと実装パターン浸透するサーバーレス 実際に見るユースケースと実装パターン
浸透するサーバーレス 実際に見るユースケースと実装パターン
 
20180417 AWS White Belt Online Seminar クラウドジャーニー
20180417 AWS White Belt Online Seminar クラウドジャーニー20180417 AWS White Belt Online Seminar クラウドジャーニー
20180417 AWS White Belt Online Seminar クラウドジャーニー
 
[CTO Night & Day 2019] CTO のための一歩進んだコンテナ入門 #ctonight
[CTO Night & Day 2019] CTO のための一歩進んだコンテナ入門 #ctonight[CTO Night & Day 2019] CTO のための一歩進んだコンテナ入門 #ctonight
[CTO Night & Day 2019] CTO のための一歩進んだコンテナ入門 #ctonight
 
20190726 pub sec_Edtech_webiner
20190726 pub sec_Edtech_webiner20190726 pub sec_Edtech_webiner
20190726 pub sec_Edtech_webiner
 
HashiCorp Corporate Overview
HashiCorp Corporate OverviewHashiCorp Corporate Overview
HashiCorp Corporate Overview
 
AWS前線、北上中! (AWS ジャパンツアー 2014 札幌)
AWS前線、北上中! (AWS ジャパンツアー 2014 札幌)AWS前線、北上中! (AWS ジャパンツアー 2014 札幌)
AWS前線、北上中! (AWS ジャパンツアー 2014 札幌)
 
AWSではじめるMLOps
AWSではじめるMLOpsAWSではじめるMLOps
AWSではじめるMLOps
 
Gaming cicd-pipeline gaming-technight-2
Gaming cicd-pipeline gaming-technight-2Gaming cicd-pipeline gaming-technight-2
Gaming cicd-pipeline gaming-technight-2
 
アカウントのセキュリティ (第13回JAWS-UG札幌)
アカウントのセキュリティ (第13回JAWS-UG札幌)アカウントのセキュリティ (第13回JAWS-UG札幌)
アカウントのセキュリティ (第13回JAWS-UG札幌)
 
Machine Learning for Digital Advertising
Machine Learning forDigital AdvertisingMachine Learning forDigital Advertising
Machine Learning for Digital Advertising
 
AWS Black Belt Online Seminar 2018 re:Invent 2017 Recap Machine Learning / Da...
AWS Black Belt Online Seminar 2018 re:Invent 2017 Recap Machine Learning / Da...AWS Black Belt Online Seminar 2018 re:Invent 2017 Recap Machine Learning / Da...
AWS Black Belt Online Seminar 2018 re:Invent 2017 Recap Machine Learning / Da...
 
[CTO Night & Day 2019] グローバルのサービス展開に向けたマルチリージョンアーキテクチャ- #ctonight
[CTO Night & Day 2019] グローバルのサービス展開に向けたマルチリージョンアーキテクチャ- #ctonight[CTO Night & Day 2019] グローバルのサービス展開に向けたマルチリージョンアーキテクチャ- #ctonight
[CTO Night & Day 2019] グローバルのサービス展開に向けたマルチリージョンアーキテクチャ- #ctonight
 
あなたの ”Cloud” も ”One” ダフル!トレンドマイクロの新セキュリティ!
あなたの ”Cloud” も ”One” ダフル!トレンドマイクロの新セキュリティ!あなたの ”Cloud” も ”One” ダフル!トレンドマイクロの新セキュリティ!
あなたの ”Cloud” も ”One” ダフル!トレンドマイクロの新セキュリティ!
 
20180522 AWS Black Belt Online Seminar 失敗例を成功に変えるアンチパターン
20180522 AWS Black Belt Online Seminar 失敗例を成功に変えるアンチパターン20180522 AWS Black Belt Online Seminar 失敗例を成功に変えるアンチパターン
20180522 AWS Black Belt Online Seminar 失敗例を成功に変えるアンチパターン
 
G tech2016 クラウド時代に必要とされる組織と人材育成について
G tech2016 クラウド時代に必要とされる組織と人材育成についてG tech2016 クラウド時代に必要とされる組織と人材育成について
G tech2016 クラウド時代に必要とされる組織と人材育成について
 
20180306 AWS Black Belt Online Seminar 働き方改革を実現するAWSのエンドユーザーコンピューティングサービス
20180306 AWS Black Belt Online Seminar  働き方改革を実現するAWSのエンドユーザーコンピューティングサービス20180306 AWS Black Belt Online Seminar  働き方改革を実現するAWSのエンドユーザーコンピューティングサービス
20180306 AWS Black Belt Online Seminar 働き方改革を実現するAWSのエンドユーザーコンピューティングサービス
 
[CTO Night & Day 2019] AWS Database Overview -データベースの選択指針- #ctonight
[CTO Night & Day 2019] AWS Database Overview -データベースの選択指針- #ctonight[CTO Night & Day 2019] AWS Database Overview -データベースの選択指針- #ctonight
[CTO Night & Day 2019] AWS Database Overview -データベースの選択指針- #ctonight
 

Similaire à デジタル化への第一歩 「エンタープライズデータレイク構築事例のご紹介」

InterBEE 2018 AWS & AWS Elemental Booth Review
InterBEE 2018 AWS & AWS Elemental Booth ReviewInterBEE 2018 AWS & AWS Elemental Booth Review
InterBEE 2018 AWS & AWS Elemental Booth ReviewAmazon Web Services Japan
 
EUREKA MEETUP #8 大規模ユーザデータ可視化との戦い!登壇資料
EUREKA MEETUP #8 大規模ユーザデータ可視化との戦い!登壇資料EUREKA MEETUP #8 大規模ユーザデータ可視化との戦い!登壇資料
EUREKA MEETUP #8 大規模ユーザデータ可視化との戦い!登壇資料Hironori Suzuki
 
Let's BBQ with us!!
Let's BBQ with us!!Let's BBQ with us!!
Let's BBQ with us!!Hironari Ono
 
『多種DBからKafka、Hadoop、S3への対応 データ統合/分析基盤へ簡単連携!』
『多種DBからKafka、Hadoop、S3への対応 データ統合/分析基盤へ簡単連携!』『多種DBからKafka、Hadoop、S3への対応 データ統合/分析基盤へ簡単連携!』
『多種DBからKafka、Hadoop、S3への対応 データ統合/分析基盤へ簡単連携!』株式会社クライム
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也Insight Technology, Inc.
 
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
【IVS CTO Night & Day】AWS re:Invent 2017 振り返りAmazon Web Services Japan
 
101210_データ分析初学者から見たAzure Databricks
101210_データ分析初学者から見たAzure Databricks101210_データ分析初学者から見たAzure Databricks
101210_データ分析初学者から見たAzure DatabricksMasaki Imura
 
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話Kamonohashi
 
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019  #hc...HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019  #hc...
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...Yahoo!デベロッパーネットワーク
 
Effective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターンEffective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターンNoritaka Sekiyama
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopDataWorks Summit
 
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法Amazon Web Services Japan
 
Excel × Google BigQuery CData Driver で BigQuery とのデータ連携を実現
Excel × Google BigQuery  CData Driver で BigQuery とのデータ連携を実現Excel × Google BigQuery  CData Driver で BigQuery とのデータ連携を実現
Excel × Google BigQuery CData Driver で BigQuery とのデータ連携を実現CData Software Japan
 
Unification of the middle scale services by Nuxt.js
Unification of the middle scale services by Nuxt.jsUnification of the middle scale services by Nuxt.js
Unification of the middle scale services by Nuxt.jsHajimeSasanuma
 
AI搭載型IP電話 MiiTel を支える組織とアーキテクチャ
AI搭載型IP電話 MiiTel を支える組織とアーキテクチャAI搭載型IP電話 MiiTel を支える組織とアーキテクチャ
AI搭載型IP電話 MiiTel を支える組織とアーキテクチャRevComm Inc
 
[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓
[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓
[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓Insight Technology, Inc.
 
Datadog monitoring with HashiCorp
Datadog monitoring with HashiCorpDatadog monitoring with HashiCorp
Datadog monitoring with HashiCorpMasatomo Ito
 

Similaire à デジタル化への第一歩 「エンタープライズデータレイク構築事例のご紹介」 (20)

InterBEE 2018 AWS & AWS Elemental Booth Review
InterBEE 2018 AWS & AWS Elemental Booth ReviewInterBEE 2018 AWS & AWS Elemental Booth Review
InterBEE 2018 AWS & AWS Elemental Booth Review
 
EUREKA MEETUP #8 大規模ユーザデータ可視化との戦い!登壇資料
EUREKA MEETUP #8 大規模ユーザデータ可視化との戦い!登壇資料EUREKA MEETUP #8 大規模ユーザデータ可視化との戦い!登壇資料
EUREKA MEETUP #8 大規模ユーザデータ可視化との戦い!登壇資料
 
Let's BBQ with us!!
Let's BBQ with us!!Let's BBQ with us!!
Let's BBQ with us!!
 
SPAを選択した理由とその結果 ~Reactを添えて~
SPAを選択した理由とその結果 ~Reactを添えて~SPAを選択した理由とその結果 ~Reactを添えて~
SPAを選択した理由とその結果 ~Reactを添えて~
 
『多種DBからKafka、Hadoop、S3への対応 データ統合/分析基盤へ簡単連携!』
『多種DBからKafka、Hadoop、S3への対応 データ統合/分析基盤へ簡単連携!』『多種DBからKafka、Hadoop、S3への対応 データ統合/分析基盤へ簡単連携!』
『多種DBからKafka、Hadoop、S3への対応 データ統合/分析基盤へ簡単連携!』
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也
 
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
 
101210_データ分析初学者から見たAzure Databricks
101210_データ分析初学者から見たAzure Databricks101210_データ分析初学者から見たAzure Databricks
101210_データ分析初学者から見たAzure Databricks
 
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
 
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019  #hc...HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019  #hc...
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
 
Effective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターンEffective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターン
 
【2018年3月時点】Oracle Data Visualizaion ご紹介
【2018年3月時点】Oracle Data Visualizaion ご紹介【2018年3月時点】Oracle Data Visualizaion ご紹介
【2018年3月時点】Oracle Data Visualizaion ご紹介
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
 
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
 
Excel × Google BigQuery CData Driver で BigQuery とのデータ連携を実現
Excel × Google BigQuery  CData Driver で BigQuery とのデータ連携を実現Excel × Google BigQuery  CData Driver で BigQuery とのデータ連携を実現
Excel × Google BigQuery CData Driver で BigQuery とのデータ連携を実現
 
Unification of the middle scale services by Nuxt.js
Unification of the middle scale services by Nuxt.jsUnification of the middle scale services by Nuxt.js
Unification of the middle scale services by Nuxt.js
 
AI搭載型IP電話 MiiTel を支える組織とアーキテクチャ
AI搭載型IP電話 MiiTel を支える組織とアーキテクチャAI搭載型IP電話 MiiTel を支える組織とアーキテクチャ
AI搭載型IP電話 MiiTel を支える組織とアーキテクチャ
 
Multiple Dimension Spreadのご紹介
Multiple Dimension Spreadのご紹介Multiple Dimension Spreadのご紹介
Multiple Dimension Spreadのご紹介
 
[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓
[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓
[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓
 
Datadog monitoring with HashiCorp
Datadog monitoring with HashiCorpDatadog monitoring with HashiCorp
Datadog monitoring with HashiCorp
 

デジタル化への第一歩 「エンタープライズデータレイク構築事例のご紹介」

  • 1. 1Copyright © 2019 BeeX Inc. All Rights Reserved. デジタル化への第一歩 エンタープライズデータレイク構築事例 ご紹介
  • 2. 2Copyright © 2019 BeeX Inc. All Rights Reserved. 事例プロジェクトの背景
  • 3. 3Copyright © 2019 BeeX Inc. All Rights Reserved. データドリブンな経営の実現を目指して 文化 データドリブンな経営 勘よりデータ
  • 4. 4Copyright © 2019 BeeX Inc. All Rights Reserved. データドリブンな経営の実現を目指して スキル 文化 データドリブンな経営 勘よりデータ 分析できる人
  • 5. 5Copyright © 2019 BeeX Inc. All Rights Reserved. データドリブンな経営の実現を目指して データ スキル 文化 データドリブンな経営 「データ」にフォーカス 勘よりデータ 分析できる人 分析するデータ
  • 6. 6Copyright © 2019 BeeX Inc. All Rights Reserved. データレイク(Data Lake)
  • 7. 7Copyright © 2019 BeeX Inc. All Rights Reserved. AWS様ページより引用 データレイクとは データレイクは、規模にかかわらず、すべての構造化データと非構造 化データを保存できる一元化されたリポジトリ です。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュ ボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、 的確な意思決定に役立てることができます。 引用元:https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/
  • 8. 8Copyright © 2019 BeeX Inc. All Rights Reserved. AWS様ページより引用 データレイクとは データレイクは、規模にかかわらず、すべての構造化データと非構造 化データを保存できる一元化されたリポジトリ です。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュ ボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、 的確な意思決定に役立てることができます。 引用元:https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/ どんな「大きさ」、「種類」のデータも そのまま入れられ、適宜取り出せる場所
  • 9. 9Copyright © 2019 BeeX Inc. All Rights Reserved. エンタープライズ・データレイク 構築事例
  • 10. 10Copyright © 2019 BeeX Inc. All Rights Reserved. 「データ」における課題とエンタープライズ・データレイク 多種多様なレガシーシステム企業の中核データ 顧客マスタ 取引伝票 工場毎に異なるライン 事業所固有システム SAP
  • 11. 11Copyright © 2019 BeeX Inc. All Rights Reserved. 「データ」における課題とエンタープライズ・データレイク 多種多様なレガシーシステム データを利用したいのは 一般ユーザ ≠データサイエンティスト 企業の中核データ 顧客マスタ 取引伝票 工場毎に異なるライン 事業所固有システム SAP
  • 12. 12Copyright © 2019 BeeX Inc. All Rights Reserved. 「データ」における課題とエンタープライズ・データレイク 多種多様なレガシーシステム データを利用したいのは 一般ユーザ ≠データサイエンティスト 企業の中核データ 顧客マスタ 取引伝票 工場毎に異なるライン 事業所固有システム SAP
  • 13. 13Copyright © 2019 BeeX Inc. All Rights Reserved. 「データ」における課題とエンタープライズ・データレイク 多種多様なレガシーシステム データを利用したいのは 一般ユーザ ≠データサイエンティスト 組織を跨がる全社データ活用 企業の中核データ 顧客マスタ 取引伝票 工場毎に異なるライン 事業所固有システム SAP
  • 14. 14Copyright © 2019 BeeX Inc. All Rights Reserved. 「データ」における課題とエンタープライズ・データレイク 多種多様なレガシーシステム データを利用したいのは 一般ユーザ ≠データサイエンティスト 組織を跨がる全社データ活用 企業の中核データ 顧客マスタ 取引伝票 工場毎に異なるライン 事業所固有システム SAP
  • 15. 15Copyright © 2019 BeeX Inc. All Rights Reserved. 「データ」における課題とエンタープライズ・データレイク 多種多様なレガシーシステム データを利用したいのは 一般ユーザ ≠データサイエンティスト 組織を跨がる全社データ活用 企業の中核データ 顧客マスタ 取引伝票 工場毎に異なるライン 事業所固有システム SAP
  • 16. 16Copyright © 2019 BeeX Inc. All Rights Reserved. 「データ」における課題とエンタープライズ・データレイク 多種多様なレガシーシステム データを利用したいのは 一般ユーザ ≠データサイエンティスト 組織を跨がる全社データ活用 企業の中核データ 顧客マスタ 取引伝票 工場毎に異なるライン 事業所固有システム 使えるデータが 適切に維持・管理されている SAP
  • 17. 17Copyright © 2019 BeeX Inc. All Rights Reserved. 「データ」における課題とエンタープライズ・データレイク データを介して「人」と「サービス」をつなぐ 多種多様なレガシーシステム データを利用したいのは 一般ユーザ ≠データサイエンティスト 組織を跨がる全社データ活用 企業の中核データ 顧客マスタ 取引伝票 工場毎に異なるライン 事業所固有システム 使えるデータが 適切に維持・管理されている SAP
  • 18. 18Copyright © 2019 BeeX Inc. All Rights Reserved. データレイクの実装例
  • 19. 19Copyright © 2019 BeeX Inc. All Rights Reserved. データレイク データの流れ データレイク AWSにおけるデータレイクの中心となるサービス S3
  • 20. 20Copyright © 2019 BeeX Inc. All Rights Reserved. データレイク データの流れ 保管する データレイク
  • 21. 21Copyright © 2019 BeeX Inc. All Rights Reserved. データレイク データの流れ 保管する データレイク 入れる アップロード生データ 変換/整形 生データ 生
  • 22. 22Copyright © 2019 BeeX Inc. All Rights Reserved. データレイク データの流れ 保管する データレイク 入れる アップロード生データ 変換/整形 生データ 使う 読み込み 集計/分析生
  • 23. 23Copyright © 2019 BeeX Inc. All Rights Reserved. 入れる 使う データレイク データの流れ アップロード生データ 変換/整形 読み込み 集計/分析 保管する 生データ データレイク この流れをパイプラインと呼びます 「集計/分析」からパイプラインを遡りながら説明します 生
  • 24. 24Copyright © 2019 BeeX Inc. All Rights Reserved. 「一般ユーザ」が利用できるデータは? アップロード生データ 変換/整形 読み込み 集計/分析保管 生
  • 25. 25Copyright © 2019 BeeX Inc. All Rights Reserved. 現場での学び ◆ セルフサービスBIが普及 • Tableau、 QlikView、 QuickSight等 • より製造現場に近い人がBIを使いこなしている
  • 26. 26Copyright © 2019 BeeX Inc. All Rights Reserved. 現場での学び ◆ まずは見える化 • 画面を見せることで初めて製造現場側もイメージができる • 見える化できればあとは創意工夫 ◆ セルフサービスBIが普及 • Tableau、 QlikView、 QuickSight等 • より製造現場に近い人がBIを使いこなしている
  • 27. 27Copyright © 2019 BeeX Inc. All Rights Reserved. 「一般ユーザ」が利用できるデータは? アップロード生データ 変換/整形 読み込み 集計/分析保管 データを利用したいユーザ ≠ データサイエンティスト 少ない 生
  • 28. 28Copyright © 2019 BeeX Inc. All Rights Reserved. 「一般ユーザ」が利用できるデータは? アップロード生データ 変換/整形 読み込み 集計/分析保管 Jupyter Notebookを使い Pythonで分析 データを利用したいユーザ ≠ データサイエンティスト 生
  • 29. 29Copyright © 2019 BeeX Inc. All Rights Reserved. 「一般ユーザ」が利用できるデータは? アップロード生データ 変換/整形 読み込み 集計/分析保管 Jupyter Notebookを使い Pythonで分析 既存のBIツール、 既存のSQLスキルで分析 データを利用したいユーザ ≠ データサイエンティスト 生
  • 30. 30Copyright © 2019 BeeX Inc. All Rights Reserved. 「一般ユーザ」が利用できるデータは? アップロード生データ 変換/整形 読み込み 集計/分析保管 Jupyter Notebookを使い Pythonで分析 既存のBIツール、 既存のSQLスキルで分析 SQLで読み込める形式でデータが保管されていてほしい データを利用したいユーザ ≠ データサイエンティスト 生
  • 31. 31Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用を想定したデータ保管 アップロード生データ 変換/整形 読み込み 集計/分析保管 SQLで読み込める形式で データを保管するためには 生
  • 32. 32Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用を想定したデータ保管 DB,テーブル構造・型情報 SQL実行可能な構造 アップロード生データ 変換/整形 読み込み 集計/分析保管 生
  • 33. 33Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用を想定したデータ保管 DB,テーブル構造・型情報 保管コスト、分析パフォーマンス SQL実行可能な構造 大容量データへの対応 アップロード生データ 変換/整形 読み込み 集計/分析保管 生
  • 34. 34Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報 保管コスト、分析パフォーマンス SQL実行可能な構造 大容量データへの対応 どこに、どんなデータがあるか アップロード生データ 変換/整形 読み込み 集計/分析保管 生
  • 35. 35Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報 保管コスト、分析パフォーマンス AWS Glue Parquet SQL実行可能な構造 大容量データへの対応 どこに、どんなデータがあるか アップロード生データ 変換/整形 読み込み 集計/分析保管 生
  • 36. 36Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報 保管コスト、分析パフォーマンス AWS Glue Parquet SQL実行可能な構造 大容量データへの対応 どこに、どんなデータがあるか アップロード生データ 変換/整形 読み込み 集計/分析保管 少し説明 生
  • 37. 37Copyright © 2019 BeeX Inc. All Rights Reserved. Apache Parquet(パーケイ)とは 列指向ファイルフォーマット ファイル として扱える
  • 38. 38Copyright © 2019 BeeX Inc. All Rights Reserved. Apache Parquet(パーケイ)とは 列指向ファイルフォーマット ◆ 列指向(SAP HANAも列指向) ・ 必要な列のみ読み込み(I/O削減) ・ 高圧縮率 ◆ データの型情報 ・ String、Int、Boolean,Date、 Decimal型など ・ 型毎の最適化 ⇨ 高圧縮率 ファイル として扱える 男性 女性 男性 02/11 女性 女性 32 45 23 37 28 03/23 11/03 08/06 09/16 男性 女性 男性 02/11 女性 女性 32 45 23 37 28 03/23 11/03 08/06 09/16 行指向 (CSV,JSON等) 列指向(Parquet)
  • 39. 39Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報 保管コスト、分析パフォーマンス AWS Glue Parquet SQL実行可能な構造 大容量データへの対応 どこに、どんなデータがあるか アップロード生データ 変換/整形 読み込み 集計/分析保管 変換/整形と 合わせて説明 生
  • 40. 40Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用可能な形式に変換するために アップロード生データ 変換/整形 読み込み 集計/分析保管 生
  • 41. 41Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用可能な形式に変換するために アップロード生データ 変換/整形 読み込み 集計/分析保管 簡潔なコードで分散ETL処理記述可能 生
  • 42. 42Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用可能な形式に変換するために アップロード生データ 変換/整形 読み込み 集計/分析保管 簡潔なコードで分散ETL処理記述可能 AWS Glue 生
  • 43. 43Copyright © 2019 BeeX Inc. All Rights Reserved. AWS Glue 利用例 (SQL利用可能な形式に変換)
  • 44. 44Copyright © 2019 BeeX Inc. All Rights Reserved. AWS Glue 利用例 (SQL利用可能な形式に変換) 生データ アップロード CSVやJSON など no, first_name, last_name 1, Hiroki, Masaru 2, Tashiro, Hiroki 3, Yusuke, Otomo 生
  • 45. 45Copyright © 2019 BeeX Inc. All Rights Reserved. AWS Glue 利用例 (SQL利用可能な形式に変換) 生データ アップロード CSVやJSON など Glueクローラー DB・テーブル構造 カラム名 型 no 整数 first_name 文字列 last_name 文字列 no, first_name, last_name 1, Hiroki, Masaru 2, Tashiro, Hiroki 3, Yusuke, Otomo 生
  • 46. 46Copyright © 2019 BeeX Inc. All Rights Reserved. AWS Glue 利用例 (SQL利用可能な形式に変換) 生データ アップロード CSVやJSON など Glueクローラー DB・テーブル構造 カラム名 型 no 整数 first_name 文字列 last_name 文字列 Glue ETL Job 参照 サーバーレス no, first_name, last_name 1, Hiroki, Masaru 2, Tashiro, Hiroki 3, Yusuke, Otomo 生
  • 47. 47Copyright © 2019 BeeX Inc. All Rights Reserved. AWS Glue 利用例 (SQL利用可能な形式に変換) 生データ アップロード CSVやJSON など Glueクローラー カラム名 型 no 整数 first_name 文字列 last_name 文字列 Glue ETL Job 参照 サーバーレス no, first_name, last_name 1, Hiroki, Masaru 2, Tashiro, Hiroki 3, Yusuke, Otomo DB・テーブル構造 生
  • 48. 48Copyright © 2019 BeeX Inc. All Rights Reserved. AWS Glue 利用例 (SQL利用可能な形式に変換) 生データ アップロード CSVやJSON など Glueクローラー no, first_name, last_name 1, Hiroki, Masaru 2, Tashiro, Hiroki 3, Yusuke, Otomo カラム名 型 no 整数 first_name 文字列 last_name 文字列 Glue ETL Job 参照 サーバーレス SQL Athena Redshift Spectrum 参照 DB・テーブル構造 生
  • 49. 49Copyright © 2019 BeeX Inc. All Rights Reserved. 標準化された形式・場所に保管するために アップロード生データ 変換/整形 読み込み 集計/分析保管 簡潔なコードで分散ETL処理記述可能 AWS Glue ・ 高いスケーラビリティ ・ 1秒単位の従量課金 ・ スキーマの自動検出 ・ 独自ライブラリでコードを簡素化 ・ RedshiftやAthenaとの連携 生
  • 50. 50Copyright © 2019 BeeX Inc. All Rights Reserved. 企業内には色々なデータがありパイプラインが多くなる アップロード アップロード アップロード データレイク SAP ・ ・ ・ ・ ・ ・ 標準化された ディレクトリ構造 Glueによる 変換/整形 生 生 生
  • 51. 51Copyright © 2019 BeeX Inc. All Rights Reserved. 企業内には色々なデータがありパイプラインが多くなる アップロード アップロード アップロード データレイク SAP ・ ・ ・ ・ ・ ・ 標準化された ディレクトリ構造 変換/整形 変換/整形 変換/整形 生 生 生
  • 52. 52Copyright © 2019 BeeX Inc. All Rights Reserved. 標準化された形式・場所に保管するために アップロード生データ 変換/整形 読み込み 集計/分析保管 簡潔なコードで分散ETL処理記述可能 AWS Glue 課題 ・ パイプラインの増加 ・ 開発工数の増加 ・ 運用者スキルのバラツキ ・ 高いスケーラビリティ ・ 1秒単位の従量課金 ・ スキーマの自動検出 ・ 独自ライブラリでコードを簡素化 ・ RedshiftやAthenaとの連携 生
  • 53. 53Copyright © 2019 BeeX Inc. All Rights Reserved. 企業内の多様なデータを標準化し保管するために アップロード生データ 変換/整形 読み込み 集計/分析保管 簡潔なコードで分散ETL処理記述可能 AWS Glue 課題 標準化 自動化 ・ パイプラインの増加 ・ 開発工数の増加 ・ 運用者スキルのバラツキ ・ 高いスケーラビリティ ・ 1秒単位の従量課金 ・ スキーマの自動検出 ・ 独自ライブラリでコードを簡素化 ・ RedshiftやAthenaとの連携 生
  • 54. 54Copyright © 2019 BeeX Inc. All Rights Reserved. EXCEL申請書をマスタとすることで定義の標準化・自動化 利用申請書 兼データ定義書 兼ヒアリングシート 開発ツール Fluentd Glue Redshift 申請書マスターとし て設定を生成 設定ファイル生成 Crawler登録 ETLジョブ生成・登録 View定義生成 ユーザ
  • 55. 55Copyright © 2019 BeeX Inc. All Rights Reserved. 企業内の多様なデータを標準化し保管するために アップロード生データ 変換/整形 読み込み 集計/分析保管 利用申請書 簡潔なコードで分散ETL処理記述可能 AWS Glue 課題 ツール 自動設定 ・ パイプラインの増加 ・ 開発工数の増加 ・ 運用者スキルのバラツキ 標準化・自動化の 仕組みを開発 ・ 高いスケーラビリティ ・ 1秒単位の従量課金 ・ スキーマの自動検出 ・ 独自ライブラリでより簡易なコード ・ RedshiftやAthenaとの連携 生
  • 56. 56Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側のアップロード形式と方式の標準化 アップロード生データ 変換/整形 読み込み 集計/分析保管生 変換処理開発の効率化はしましたが 標準化 自動化
  • 57. 57Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側のアップロード形式と方式の標準化 アップロード生データ 変換/整形 読み込み保管 変換処理はシンプルに保ちたい ⇨ 最低限標準化されたフォーマットでアップロード 生 集計/分析
  • 58. 58Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側のアップロード形式と方式の標準化 アップロード生データ 変換/整形 読み込み保管 変換処理はシンプルに保ちたい ⇨ 最低限標準化されたフォーマットでアップロード ユーザ側がデータをアップロードするハードルは下げたい 生 集計/分析
  • 59. 59Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側のアップロード形式と方式の標準化 アップロード生データ 変換/整形 読み込み保管 文字コード UTF-8 等 改行コード CRLF,LF 等 フォーマット CSV,JSON 等 圧縮 GZIP 等 タイムゾーン UTC、JST 等 変換処理をシンプルに保ちたい ⇨ 標準フォーマット 生 集計/分析
  • 60. 60Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側のアップロード形式と方式の標準化 アップロード生データ 変換/整形 読み込み保管 文字コード UTF-8 等 改行コード CRLF,LF 等 フォーマット CSV,JSON 等 圧縮 GZIP 等 タイムゾーン UTC、JST 等 ア ッ プ ロ ー ド 方 式 の 標 準 メ ニ ュ ー 化 変換処理をシンプルに保ちたい ⇨ 標準フォーマット ユーザ利用のハードルを下げたい 生 集計/分析
  • 61. 61Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側のアップロード形式と方式の標準化 アップロード生データ 変換/整形 読み込み保管 SAP ETL 文字コード UTF-8 等 改行コード CRLF,LF 等 フォーマット CSV,JSON 等 圧縮 GZIP 等 タイムゾーン UTC、JST 等 CSV プロジェクト保有 ETLツール ア ッ プ ロ ー ド 方 式 の 標 準 メ ニ ュ ー 化 変換処理をシンプルに保ちたい ⇨ 標準フォーマット ユーザ利用のハードルを下げたい 生 集計/分析
  • 62. 62Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側のアップロード形式と方式の標準化 アップロード生データ 変換/整形 読み込み保管 SAP ETL 文字コード UTF-8 等 改行コード CRLF,LF 等 フォーマット CSV,JSON 等 圧縮 GZIP 等 タイムゾーン UTC、JST 等 CSV DB ETL Parquet Glueのよる DBアクセス プロジェクト保有 ETLツール ア ッ プ ロ ー ド 方 式 の 標 準 メ ニ ュ ー 化 変換処理をシンプルに保ちたい ⇨ 標準フォーマット ユーザ利用のハードルを下げたい 生 集計/分析
  • 63. 63Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側のアップロード形式と方式の標準化 アップロード生データ 変換/整形 読み込み保管 SAP ETL JSON (GZIP) 文字コード UTF-8 等 改行コード CRLF,LF 等 フォーマット CSV,JSON 等 圧縮 GZIP 等 タイムゾーン UTC、JST 等 CSV等 CSV DB ログ DB ETL Parquet 汎用用途・OSS Fluentd Glueのよる DBアクセス プロジェクト保有 ETLツール ア ッ プ ロ ー ド 方 式 の 標 準 メ ニ ュ ー 化 変換処理をシンプルに保ちたい ⇨ 標準フォーマット ユーザ利用のハードルを下げたい 生 集計/分析
  • 64. 64Copyright © 2019 BeeX Inc. All Rights Reserved. データマート Fluentd awscli WinSCP ETL A社様データレイク実装例 アーキテクチャ一部抜粋 CSV、JSON等 一時保管 Parquet 長期保管 変換 Data Lake層 DWH層 Tier1 Tier2 大 規 模 分 析 層 ETL RDBMS Tableau アプリケーション ツール Python Glueジョブ 1日数回 SQLによる 分析・集計 Redshift spectrum 他AWSサービス アップロード生データ 変換/整形 読み込み 集計/分析保管 生
  • 65. 65Copyright © 2019 BeeX Inc. All Rights Reserved. プロジェクトの特徴・進め方
  • 66. 66Copyright © 2019 BeeX Inc. All Rights Reserved. データドリブンな経営の実現を目指して データ スキル 文化 データドリブンな経営 勘よりデータ 分析できる人 分析するデータ 「データ」にフォーカス
  • 67. 67Copyright © 2019 BeeX Inc. All Rights Reserved. データを介して「人」と「サービス」をつなぐ 多種多様なレガシーシステム データを利用したいのは 一般ユーザ ≠データサイエンティスト 組織を跨がる全社データ活用 企業の中核データ 顧客マスタ 取引伝票 工場毎に異なるライン 事業所固有システム 使えるデータが 適切に維持・管理されている SAP
  • 68. 68Copyright © 2019 BeeX Inc. All Rights Reserved. データレイクは 使ってもらってこそ価値がある ユーザに使ってもらえる サービスを作る
  • 69. 69Copyright © 2019 BeeX Inc. All Rights Reserved. 当初のプロジェクトはウォーターフォールを想定していた 情シス 部門 BeeX 企画 要件 定義 設計 開発 納品 検収 運用・保守 事業 部門
  • 70. 70Copyright © 2019 BeeX Inc. All Rights Reserved. 当初のプロジェクトはウォーターフォールを想定していた 情シス 部門 BeeX 特にRedshiftとGlueは開発ペースが早い ユーザの利便性が大きく改善する新機能が続々リリース 企画 要件 定義 設計 開発 納品 検収 運用・保守 事業 部門 続々追加される新機能
  • 71. 71Copyright © 2019 BeeX Inc. All Rights Reserved. 当初のプロジェクトはウォーターフォールを想定していた 情シス 部門 BeeX 企画 要件 定義 設計 開発 納品 検収 運用・保守 事業 部門 続々追加される新機能 多種多様で形になっていない 要件 ユーザは複数部門、要件が形になっていない場合も 要件は能動的、積極的に引き出す 特にRedshiftとGlueは開発ペースが早い ユーザの利便性が大きく改善する新機能が続々リリース
  • 72. 72Copyright © 2019 BeeX Inc. All Rights Reserved. 当初のプロジェクトはウォーターフォールを想定していた 情シス 部門 BeeX 企画 要件 定義 設計 開発 納品 検収 運用・保守 事業 部門 続々追加される新機能 進め方を調整 多種多様で形になっていない 要件 ユーザは複数部門、要件が形になっていない場合も 要件は能動的、積極的に引き出す 特にRedshiftとGlueは開発ペースが早い ユーザの利便性が大きく改善する新機能が続々リリース
  • 73. 73Copyright © 2019 BeeX Inc. All Rights Reserved. AWSを利用した サービス 社内プロジェクトだが構図はB2B2Cに近い B B C
  • 74. 74Copyright © 2019 BeeX Inc. All Rights Reserved. AWSを利用した サービス DataLakeを利用した 事業部側プロジェクト 社内プロジェクトだが構図はB2B2Cに近い B B C
  • 75. 75Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側に要件を探しにいく プロトタイピング PoC事業部側 プロジェクト ・アジャイル的 ・高速 ・柔軟 ・短期 ・見えるモノ
  • 76. 76Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側に要件を探しにいく プロトタイピング PoC事業部側 プロジェクト ・アジャイル的 ・高速 ・柔軟 ・短期 ・見えるモノ 本当のユーザが更に先にいる場合も
  • 77. 77Copyright © 2019 BeeX Inc. All Rights Reserved. ウォーターフォールとアジャイルのハイブリット的な進め方 標準化設計環境構築 運用設計 要件定義 プロトタイピング PoC 対話とフィードバック DataLake プロジェクト 事業部側 プロジェクト ・ウォーターフォール的 ・着実,正確 ・高品質,安定 ・標準化,展開 ・中長期 ・アジャイル的 ・高速 ・柔軟 ・短期 ・見えるモノ 本当のユーザが更に先にいる場合も
  • 78. 78Copyright © 2019 BeeX Inc. All Rights Reserved. データマート Fluentd awscli WinSCP ETL A社様データレイク実装例 CSV、JSON等 一時保管 Parquet 長期保管 変換 Data Lake層 DWH層 Tier1 Tier2 大 規 模 分 析 層 ETL RDBMS Tableau アプリケーション ツール Python Glueジョブ 1日数回 SQLによる 分析・集計 Redshift spectrum 他AWSサービス
  • 79. 79Copyright © 2019 BeeX Inc. All Rights Reserved. ニアリアルタイム分析 データマート Fluentd awscli WinSCP ETL データレイク実装例 ユースケースを元に見える化層を拡張 画像、動画や日誌、非構造化データに関しては別の流れを定義しています PostgreSQL 一時保管 CSV、JSON等 一時保管 Parquet 長期保管 変換 Data Lake層 Elasticsearch Service DWH層 Tier1 Tier2 大 規 模 分 析 層 見 え る 化 層 ETL Fluentd ETL RDBMS Tableau Browser アプリケーション ツール Python Glueジョブ 1日数回 SQLによる 分析・集計 Redshift spectrum 他AWSサービス 他AWSサービス
  • 80. 80Copyright © 2019 BeeX Inc. All Rights Reserved. ウォーターフォールとアジャイルのハイブリット的な進め方 標準化設計環境構築 運用設計 要件定義 プロトタイピング PoC 対話とフィードバック 展開 ブラッシュアップ DataLake プロジェクト 事業部側 プロジェクト ・ウォーターフォール的 ・着実,正確 ・高品質,安定 ・標準化,展開 ・中長期 ・アジャイル的 ・高速 ・柔軟 ・短期 ・見えるモノ 本当のユーザが更に先にいる場合も 本稼働
  • 81. 81Copyright © 2019 BeeX Inc. All Rights Reserved. データレイクの開発・運用体制 データスチュワードチーム
  • 82. 82Copyright © 2019 BeeX Inc. All Rights Reserved. テクノロジだけではデータレイクを機能させるのは難しい このデータは データレイクにど う入れれば良 い? データの内容に 誤りがあったから 調整したい 青システムの データを使いた い 他の事業部は どんな使い方し てるなかな?
  • 83. 83Copyright © 2019 BeeX Inc. All Rights Reserved. データスチュワードとは データスチュワードの主な役割 • 核となるメタデータの作成と管理 • ルールと標準の文書化 • データ品質の問題管理 • データガバナンス運営アクティビティの実施 ※DMBOKより引用 データスチュワード(Data Steward) 組織内のデータ統制を保つ責任を負う役割、組織 Data Steward (執事)
  • 84. 84Copyright © 2019 BeeX Inc. All Rights Reserved. データスチュワードチームの設置 データスチュワードチーム データの健全性を保ち「データスワンプ」にしない 利用しやすいサービスに
  • 85. 85Copyright © 2019 BeeX Inc. All Rights Reserved. まとめ • エンタープライズデータレイクの特徴 • 「技術の壁」と「組織の壁」 • データレイク実装例 • 入れる・保管する・使う • SQLでのデータ取得をするためのパイプライン • プロジェクトの進め方、体制 • B2B2Cのサービスを作る意識 • アジャイルとウォーターフォールのハイブリッド • データスチュワードチーム
  • 86. 86Copyright © 2019 BeeX Inc. All Rights Reserved.