SlideShare une entreprise Scribd logo
1  sur  32
Télécharger pour lire hors ligne
Copyright © 2016 Nautilus Technologies, Inc. All rights reserved.
Proprietary & ConfidentialNAUTILUS
株式会社ノーチラス・テクノロジーズ
http://www.nautilus-technologies.com/
mailto:contact@nautilus-technologies.com
Tel: 03-6712-0636 Fax: 03-6712-0664
ビッグデータ活用事例のご紹介
2018年10月16日
Data Works Summit Tokyo 2018
Copyright © 2016 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS Proprietary & Confidential
1
Agenda
◼ 会社紹介
◼ Asakusa Frameworkとは
◼ 分散並列処理(Asakusa Framework)の活用領域と傾向
◼ 導入事例紹介
– 西鉄ストア様 新会計システム
◼ 機械学習による販売予測ソリューション紹介
◼ M³BP紹介
Copyright © 2016 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 2Proprietary & Confidential
– 業務系処理に分散処理を適用して高速化を図る
◼ ミドルウェア/コアSIを行う
– Asakusa FrameworkをOSSで開発・展開サポート
◼ 分散環境上で複雑なバッチ処理を記述し、最適化し、実行するフレームワーク
– 実行基盤としてHadoop・Spark・M³BPを利用
◼ 注)M³BP C++で再実装したDAGの実行エンジン
– 分散処理利用でのレバレッジを目的にする
◼ クラウド基盤上での業務システムのSIも実施している
株式会社ノーチラス・テクノロジーズ
Copyright © 2016 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 3Proprietary & Confidential
◼ 分散環境用高速バッチアプリケーション開発フレームワーク
Asakusa Frameworkとは
開発容易性 低学習コストポータビリティ
• HadoopやSparkの
開発方法を覚えな
くても開発可能
• ローカル環境での
テストが可能
• 開発時のテスト、
チェック機能充実
• 2日間の講習を受講
すれば2週間程度で
プログラムが書け
るレベル
• 一つのソースから
複数環境向けの実
行コードを生成
• バージョンアップ
時の互換性を重視
• オンプレミスでも
クラウドでも動作
3つの特徴
Copyright © 2016 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 4Proprietary & Confidential
Asakusa Frameworkの活用領域
分散処理(データ蓄積分析処理基盤)の活用ケース
今まで時間、データ量的制約で実現が難しかった分析,集計処理が分散処理によ
る高速化で実現可能に。
月次でしか実行出来なかった分析・シミュレーション・確定処理・クレンジン
グ・引当・受発注・在庫管理・予測などを日次や即時実行へ。
IoT/ビッグデータ蓄積/処理基盤
大量データ、計算量が多い新規バッチ処理
・毎日増え続けるログデータの蓄積
・逐次更新される会計データの集計
・データベースでは処理が遅い複雑なデータの処理
・各種センサーログ、利用記録等
・機械学習・AI向け分析対象データの最適生成
基幹バッチ処理高速化モデル
既存バッチ処理リプレース、ホストリプレース
・DISK I/Oボトルネックの解消
・データベースのチューニングも限界
・ハード増強は、費用が高く頭打ち
・ホストからのバッチ移行時の代替え
シュミレーションモデル
業務データの粒度を詳細化してシミュレーション
・詳細な業務データの蓄積
・様々な分析軸の立案
・様々なパターンの検証
・組み合わせ数が爆発する計算処理
DWHオフローディングモデル
既存DWHのオフロード、またはDWHの新規構築
・オンライン処理時間の延長要請
・DWHに投入するデータ量の増加
・DWHの前処理バッチでの高速化
・高価なDWHやBIツールを導入したくない
・高価な、ストレージ製品等を導入したくない
Copyright © 2016 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 5Proprietary & Confidential
AsakusaFramework導入事例
パケット料金計算システム
与信管理シミュレーション
設備巡視計画書作成システム
データセンター原価計算処理
通信キャリア
設備管理系年次バッチ処理
ネット通販
原価計算システム
クラウド高速データ処理基盤
メガバンク
さくらインターネット
◼ 金融業、社会インフラ、製造業、流通業など様々な業界でご採用いただいております
原価計算・生産管理システム 基幹 年次バッチ処理
設備サービス
本部基幹・会計システム
メガバンク
Copyright © 2016 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 6Proprietary & Confidential
西鉄ストア様 導入事例
新会計システム
Asakusa Framework導入事例
Copyright © 2011 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 7Proprietary & Confidential
背景
– システム老朽化
– 処理データ増への対応(流通BMS,新規出店etc)
– 変化する業務への柔軟な対応
– 業務生産性向上のための大幅な機能追加
– データサイズのわりに処理件数が圧倒的に多い
課題
– 計算量が膨大となる
– 追加業務機能による粒度の細かいデータ処理
– 基幹系から情報系へのバッチ処理が遅い
– 継続的な業務深化が予定されており、システム負荷増も見込まれたため
効率的なパフォーマンス/可用性の確保が必要
西鉄ストア様
Copyright © 2011 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 8Proprietary & Confidential
西鉄ストア様 新会計システム
本部バックエンドの勘定系処理すべてと連動する情報系システム群
ー Hadoop/AWS上での基幹系システムでは当時最大規模
システム機能 (導入時点)
– 売上
最大で1億件/dayの 締め処理
– 債権管理
900万件程度の集計処理
– 仕入
2700万件の取り込みクレンジング処理
– 債務処理
日別で300万件のマッチング処理
データサイズ
100GB〜500GB
バッチ処理時間
トータル 8時間
AWS上で24h365dの運用 2013年から本番稼動
– 運用・監視・バックアップ・リストア
POS・
テナントレジ
システム
発注
システム
流通BMS
システム
F/B
システム
人事・給与
システム
固定資産・
リース
システム
発注データ 請求データ
人時・給与
データ
固定資産・
リースデー
タ
売上データ 入金データ
F/B
システム
流通BMS
システム
財務会計
システム
支払データ
支払案内
データ
仕訳データ
新会計システム
買掛・未払
仕入計上 未払計上
未払費用 買掛照合
支払 買掛控除
管理会計
管理会計 予算
棚卸
棚卸
人時
人事
外部システム 仕訳連携
売上
売上計上 売価変更
消化仕入
金券・
クレジット
確認
売掛金管理
売掛管理 売掛入金
リベート管理
リベート
テナント管理
テナント管理
Copyright © 2011 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 9Proprietary & Confidential
売上計上処理
◼ 売上計上処理
- 従来の売上計上処理は、基幹系の締め処理であり情報系とは分離されていた
◼ 基幹系から情報系に渡すバッチ処理が遅すぎる
POS
T-Log
基幹
系
DWH
POS
T-Log
基幹系
DWH的処理も
行ってしまう
移行前 移行後
- 基幹系と情報系の流れを統合することにより「基幹系のデータ」をあたかも情報系のデータのように参照する
◼ データの不整合が発生しない
◼ 確定基幹データをそのまま利用する
◼ 業務系では本来アドホック検索は必要ない
◼ 圧倒的なバッチ処理能力が必要
Copyright © 2011 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 10Proprietary & Confidential
仕入処理について
支払確定処理
– 従来は計上ベースでのみ支払確定処理を実施。請求データとの付け合わせは行わず。
請求データとの付け合わせは伝票明細行単位での処理になるため処理コストが非常に高い
決済は日次ではなく月次で3回処理なのでバッチコストが高い
– かつ差異を明確にするため、ピンポイントではなくオープンな明細を「すべて」取り込む必要がある
毎回40-50m件の明細のフルマッチを行う
– 請求データを電子的に処理することが可能となり、電子データ自体を取り込んで物流からの
検収確定データとライン・バイ・ラインでの突合が可能となった結果、正確な決済を実現
Hadoopの高処理能力による
Copyright © 2016 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 11Proprietary & Confidential
◼ 新システムで求められた高処理要件はHadoop(分散処理)で解決
◼ 出来なかった,あきらめていた処理を実現
◼ 業務深化に伴う継続的なパフォーマンス/可用性確保はクラウドで
◼ 業務生産性の大幅な向上
まとめ
Copyright © 2016 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 12Proprietary & Confidential
◼ 2018年現在の西鉄ストア様の基幹システム
– HadoopからM³BPへプラットフォームを変更
◼MapReduceは利用していない
◼AsakusaFrameworkのポータビリティでコード変更はゼロ
– パフォーマンスは大幅に向上
◼13時間 => 5~6時間
5年経過した西鉄ストア様の基幹システム
Copyright © 2016 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 13Proprietary & Confidential
機械学習による販売予測サービス
Copyright © 2017 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 14Proprietary & Confidential
◼ 販売予測とは
– 店舗において「明日この店で、この天候やコーザルから過去のデータからだ
と、この単品・このカテゴリーがどのくらい売れるのか?」を推定する
◼ 現状の販売予測は人依存
– 現場で経験と勘と過去のデータに基づいて、ある程度販売数を予測している
– その上で、在庫を勘案し、発注数を決定しているが、経験と勘に依存すると
ころが大きく、特に人が変わったタイミングで精度が著しく落ちる(属人化)
– 結果としてロス対策がイタチごっこ
– 人依存になっているため、人が育つ・育てる時間も必要となる
食品スーパーマーケット様向販売予測サービス
Copyright © 2017 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 15Proprietary & Confidential
◼ 課題だった制約を技術が超えてきた
– 新しい技術を組み合わせた販売予測の実現
販売予測サービスの実現
制約1:計算量が膨大
制約2:データ量の限界
制約3:コーザルデータ
クラウドの普及
計算資源のコスト減少
データのオープン化
機械/深層学習の発展
販売予測の
実現
これまでの制約 新しい技術による解決策
Copyright © 2017 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 16Proprietary & Confidential
◼ 販売予測ソリューションの狙い
– ロスの極小化
◼ 60〜80%の精度で予測した数字をもとに、発注数決定をサポート
– ある程度のスキルでも発注業務を可能にする
◼ 発注の経験が少ない担当者でも大外しをしない(発注作業効率向上)
◼ 人手不足対策、属人性排除
◼ 利用シーン
– 発注担当者の業務サポート
◼ 製品の発注時に、予測数字を参考に発注を行う
– 自動発注ソリューションとの連携
◼ 自動発注ソリューションに予測データを発注数として連携
販売予測の使いどころ
Copyright © 2017 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 17Proprietary & Confidential
◼ 予測データ
– 過去のデータから、1週間先までの販売数予測を店舗単位の製品(商品コード)毎に行う
◼ 分析方法【経験と勘の実装】
– 総合的パターン認識
◼ 同じようなコーザルが起きた時に結果を予測する
– 利用するコーザル
◼ 天候・気温・不快指数 など
◼ カテゴリー単位では販売金額のカテゴリー合計
◼ SKU単位では販売数量と販売金額
◼ クラウドサービスでご提供
– システム運用工数無
– すぐに利用可能
– 高コストパフォーマンス
販売予測サービス概要
Copyright © 2017 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 18Proprietary & Confidential
◼ 予測に必要なデータ
– POSデータ
◼ 過去のPOSデータ
◼ 毎日のPOSデータ
– マスタデータ
◼ 商品マスタデータ
◼ 特売・店舗など関連するマスタデータ
◼ 予測のための1週間先の必要となるデータ(販売価格、特売情報など)
– プラスアルファ
◼ 来店数
◼ 商品コードからカテゴリへのマッピング情報
◼ チラシ配布日等の情報
◼ 値引がある場合の値引額の情報
◼ まとめ買いの情報 (成立個数、値引額)
予測に必要なデータ
5年分
Copyright © 2017 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 19Proprietary & Confidential
予測精度について
Copyright © 2017 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 20Proprietary & Confidential
xxxxx xxxxヨーグルト 70gx4
全体:125.29, 超過:3.45, 不足:27.15
Copyright © 2017 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 21Proprietary & Confidential
xxxxx xxxxヨーグルトプレーン 400g
全体:46.58, 超過:5.49, 不足:3.71
Copyright © 2017 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 22Proprietary & Confidential
xxxxx xxxxxxx牛乳 1000ml
全体:323.39, 超過:37.20, 不足:5.95
Copyright © 2017 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 23Proprietary & Confidential
xxxxx xxxx牛乳 1000ml
全体:41.61, 超過:4.19, 不足:2.12
Copyright © 2017 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 24Proprietary & Confidential
xxxxx xxxx絹とうふ 300g
全体:113.19, 超過:9.95, 不足:8.70
Copyright © 2017 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 25Proprietary & Confidential
xxxxx xxxx 絹 150gx3
全体:111.45, 超過:10.97, 不足:5.93
Copyright © 2017 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 26Proprietary & Confidential
Asakusa on M³BP
(エムキューブドビーピー)
Asakusa Framework新機能
Copyright © 2016 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 27Proprietary & Confidential
◼ 分散処理エンジン(M³ for Batch Processing)をFixStars社と共同開発
– マルチコア環境でDAG形式で並列処理をするインメモリエンジンを提供
◼ 小規模データでの複雑な処理を、単一ノード上のマルチコア用に最適化
– Hadoop/Sparkは不要
◼ クラスタの構築・運用する場合の課題が解消され、高い費用対効果を生む
単一ノード・マルチコア・大量メモリで小規模データサイズ
のバッチ処理を高速処理する分散処理エンジン
Asakusa on M³BP
CPU使用率 %
処理時間 秒
Copyright © 2016 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 28Proprietary & Confidential
◼ Hadoop/Spark5ノードとM³ for BPにて性能比較
– Microsoft Azureを利用し、実際の業務バッチで計測
– 入力データサイズは、約5GB
Asakusa on M³BPの性能
MapReduce Spark M³ for BP
バージョン 2.7.2 1.6.1 0.1.0
Java処理系 Java SE Development Kit 8 Update 74
C++コンパイラ N/A GCC 4.8.5
OS CentOS 7.1
インスタンスタイプ Microsoft Azure Virtual Machines D5 v2
16CPUコア、メモリ56GB
計算用ノード数 5 (*) 1
2218.13
229.530
112.277
0.00 500.00 1000.00 1500.00 2000.00 2500.00
MapReduce
(5 nodes)
Spark
(5 nodes)
M³ for BP
(1 node)
処理時間 [秒]
表1 評価環境 * 計算ノードとは別に管理用ノードが1台必要
表2 評価結果
– Sparkの5ノードに対し、M³ for BP
の 1ノードで2倍以上の性能
4時間
以上
RDBMS
20分に
短縮
Hadoop
5分に
短縮
Spark
2分に
短縮
M³BP
Copyright © 2017 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 29Proprietary & Confidential
Asakusa Frameworkは最適な環境で動作
処理時間
(秒)
入力データ量
30
100GB 1PB500GB 1TB
3600
36000
M3BP
360
秒
分
時
1時間
10時間
ユースケースに応じて、最適な実行環境で動作させることが可能
Copyright © 2017 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 30Proprietary & Confidential
Asakusa Frameworkの特徴(ポータビリティ)
クラウド
分散環境 z/OS
分散処理フレームワーク
商用ディストリ
ビューション
少ノード
超並列環境
単ノード
マルチコア
並列処理
フレームワーク
&実行基盤
M³ for BP
クラウドサービス
Amazon EMR
Azure HDInsight
データフロー DSL / コンパイラ
インフラ
ストラクチャ
並列・分散処理
ミドルウェア
開発
フレームワーク
リファレンス実装
様々な分散・並列処理基盤がAsakusa Frameworkにより選択可能に
オンプレミス
Copyright © 2017 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 31Proprietary & Confidential
ご清聴ありがとうございました。
お問い合わせ
株式会社ノーチラス・テクノロジーズ
Haga Shigemi
営業部 芳賀 荘鑑
Tel: 03-6712-0636
haga @nautilus-technologies.com
http://www.nautilus-technologies.com/

Contenu connexe

Plus de DataWorks Summit

Scaling Cloud-Scale Translytics Workloads with Omid and Phoenix
Scaling Cloud-Scale Translytics Workloads with Omid and PhoenixScaling Cloud-Scale Translytics Workloads with Omid and Phoenix
Scaling Cloud-Scale Translytics Workloads with Omid and PhoenixDataWorks Summit
 
Building the High Speed Cybersecurity Data Pipeline Using Apache NiFi
Building the High Speed Cybersecurity Data Pipeline Using Apache NiFiBuilding the High Speed Cybersecurity Data Pipeline Using Apache NiFi
Building the High Speed Cybersecurity Data Pipeline Using Apache NiFiDataWorks Summit
 
Supporting Apache HBase : Troubleshooting and Supportability Improvements
Supporting Apache HBase : Troubleshooting and Supportability ImprovementsSupporting Apache HBase : Troubleshooting and Supportability Improvements
Supporting Apache HBase : Troubleshooting and Supportability ImprovementsDataWorks Summit
 
Security Framework for Multitenant Architecture
Security Framework for Multitenant ArchitectureSecurity Framework for Multitenant Architecture
Security Framework for Multitenant ArchitectureDataWorks Summit
 
Presto: Optimizing Performance of SQL-on-Anything Engine
Presto: Optimizing Performance of SQL-on-Anything EnginePresto: Optimizing Performance of SQL-on-Anything Engine
Presto: Optimizing Performance of SQL-on-Anything EngineDataWorks Summit
 
Introducing MlFlow: An Open Source Platform for the Machine Learning Lifecycl...
Introducing MlFlow: An Open Source Platform for the Machine Learning Lifecycl...Introducing MlFlow: An Open Source Platform for the Machine Learning Lifecycl...
Introducing MlFlow: An Open Source Platform for the Machine Learning Lifecycl...DataWorks Summit
 
Extending Twitter's Data Platform to Google Cloud
Extending Twitter's Data Platform to Google CloudExtending Twitter's Data Platform to Google Cloud
Extending Twitter's Data Platform to Google CloudDataWorks Summit
 
Event-Driven Messaging and Actions using Apache Flink and Apache NiFi
Event-Driven Messaging and Actions using Apache Flink and Apache NiFiEvent-Driven Messaging and Actions using Apache Flink and Apache NiFi
Event-Driven Messaging and Actions using Apache Flink and Apache NiFiDataWorks Summit
 
Securing Data in Hybrid on-premise and Cloud Environments using Apache Ranger
Securing Data in Hybrid on-premise and Cloud Environments using Apache RangerSecuring Data in Hybrid on-premise and Cloud Environments using Apache Ranger
Securing Data in Hybrid on-premise and Cloud Environments using Apache RangerDataWorks Summit
 
Big Data Meets NVM: Accelerating Big Data Processing with Non-Volatile Memory...
Big Data Meets NVM: Accelerating Big Data Processing with Non-Volatile Memory...Big Data Meets NVM: Accelerating Big Data Processing with Non-Volatile Memory...
Big Data Meets NVM: Accelerating Big Data Processing with Non-Volatile Memory...DataWorks Summit
 
Computer Vision: Coming to a Store Near You
Computer Vision: Coming to a Store Near YouComputer Vision: Coming to a Store Near You
Computer Vision: Coming to a Store Near YouDataWorks Summit
 
Big Data Genomics: Clustering Billions of DNA Sequences with Apache Spark
Big Data Genomics: Clustering Billions of DNA Sequences with Apache SparkBig Data Genomics: Clustering Billions of DNA Sequences with Apache Spark
Big Data Genomics: Clustering Billions of DNA Sequences with Apache SparkDataWorks Summit
 
Transforming and Scaling Large Scale Data Analytics: Moving to a Cloud-based ...
Transforming and Scaling Large Scale Data Analytics: Moving to a Cloud-based ...Transforming and Scaling Large Scale Data Analytics: Moving to a Cloud-based ...
Transforming and Scaling Large Scale Data Analytics: Moving to a Cloud-based ...DataWorks Summit
 
Applying Noisy Knowledge Graphs to Real Problems
Applying Noisy Knowledge Graphs to Real ProblemsApplying Noisy Knowledge Graphs to Real Problems
Applying Noisy Knowledge Graphs to Real ProblemsDataWorks Summit
 
Open Source, Open Data: Driving Innovation in Smart Cities
Open Source, Open Data: Driving Innovation in Smart CitiesOpen Source, Open Data: Driving Innovation in Smart Cities
Open Source, Open Data: Driving Innovation in Smart CitiesDataWorks Summit
 
Data Protection in Hybrid Enterprise Data Lake Environment
Data Protection in Hybrid Enterprise Data Lake EnvironmentData Protection in Hybrid Enterprise Data Lake Environment
Data Protection in Hybrid Enterprise Data Lake EnvironmentDataWorks Summit
 
Big Data Technologies in Support of a Medical School Data Science Institute
Big Data Technologies in Support of a Medical School Data Science InstituteBig Data Technologies in Support of a Medical School Data Science Institute
Big Data Technologies in Support of a Medical School Data Science InstituteDataWorks Summit
 
Hadoop Storage in the Cloud Native Era
Hadoop Storage in the Cloud Native EraHadoop Storage in the Cloud Native Era
Hadoop Storage in the Cloud Native EraDataWorks Summit
 
Free Servers to Build Big Data System on: Bing’s Approach
Free Servers to Build Big Data System on: Bing’s ApproachFree Servers to Build Big Data System on: Bing’s Approach
Free Servers to Build Big Data System on: Bing’s ApproachDataWorks Summit
 
IoFMT – Internet of Fleet Management Things
IoFMT – Internet of Fleet Management ThingsIoFMT – Internet of Fleet Management Things
IoFMT – Internet of Fleet Management ThingsDataWorks Summit
 

Plus de DataWorks Summit (20)

Scaling Cloud-Scale Translytics Workloads with Omid and Phoenix
Scaling Cloud-Scale Translytics Workloads with Omid and PhoenixScaling Cloud-Scale Translytics Workloads with Omid and Phoenix
Scaling Cloud-Scale Translytics Workloads with Omid and Phoenix
 
Building the High Speed Cybersecurity Data Pipeline Using Apache NiFi
Building the High Speed Cybersecurity Data Pipeline Using Apache NiFiBuilding the High Speed Cybersecurity Data Pipeline Using Apache NiFi
Building the High Speed Cybersecurity Data Pipeline Using Apache NiFi
 
Supporting Apache HBase : Troubleshooting and Supportability Improvements
Supporting Apache HBase : Troubleshooting and Supportability ImprovementsSupporting Apache HBase : Troubleshooting and Supportability Improvements
Supporting Apache HBase : Troubleshooting and Supportability Improvements
 
Security Framework for Multitenant Architecture
Security Framework for Multitenant ArchitectureSecurity Framework for Multitenant Architecture
Security Framework for Multitenant Architecture
 
Presto: Optimizing Performance of SQL-on-Anything Engine
Presto: Optimizing Performance of SQL-on-Anything EnginePresto: Optimizing Performance of SQL-on-Anything Engine
Presto: Optimizing Performance of SQL-on-Anything Engine
 
Introducing MlFlow: An Open Source Platform for the Machine Learning Lifecycl...
Introducing MlFlow: An Open Source Platform for the Machine Learning Lifecycl...Introducing MlFlow: An Open Source Platform for the Machine Learning Lifecycl...
Introducing MlFlow: An Open Source Platform for the Machine Learning Lifecycl...
 
Extending Twitter's Data Platform to Google Cloud
Extending Twitter's Data Platform to Google CloudExtending Twitter's Data Platform to Google Cloud
Extending Twitter's Data Platform to Google Cloud
 
Event-Driven Messaging and Actions using Apache Flink and Apache NiFi
Event-Driven Messaging and Actions using Apache Flink and Apache NiFiEvent-Driven Messaging and Actions using Apache Flink and Apache NiFi
Event-Driven Messaging and Actions using Apache Flink and Apache NiFi
 
Securing Data in Hybrid on-premise and Cloud Environments using Apache Ranger
Securing Data in Hybrid on-premise and Cloud Environments using Apache RangerSecuring Data in Hybrid on-premise and Cloud Environments using Apache Ranger
Securing Data in Hybrid on-premise and Cloud Environments using Apache Ranger
 
Big Data Meets NVM: Accelerating Big Data Processing with Non-Volatile Memory...
Big Data Meets NVM: Accelerating Big Data Processing with Non-Volatile Memory...Big Data Meets NVM: Accelerating Big Data Processing with Non-Volatile Memory...
Big Data Meets NVM: Accelerating Big Data Processing with Non-Volatile Memory...
 
Computer Vision: Coming to a Store Near You
Computer Vision: Coming to a Store Near YouComputer Vision: Coming to a Store Near You
Computer Vision: Coming to a Store Near You
 
Big Data Genomics: Clustering Billions of DNA Sequences with Apache Spark
Big Data Genomics: Clustering Billions of DNA Sequences with Apache SparkBig Data Genomics: Clustering Billions of DNA Sequences with Apache Spark
Big Data Genomics: Clustering Billions of DNA Sequences with Apache Spark
 
Transforming and Scaling Large Scale Data Analytics: Moving to a Cloud-based ...
Transforming and Scaling Large Scale Data Analytics: Moving to a Cloud-based ...Transforming and Scaling Large Scale Data Analytics: Moving to a Cloud-based ...
Transforming and Scaling Large Scale Data Analytics: Moving to a Cloud-based ...
 
Applying Noisy Knowledge Graphs to Real Problems
Applying Noisy Knowledge Graphs to Real ProblemsApplying Noisy Knowledge Graphs to Real Problems
Applying Noisy Knowledge Graphs to Real Problems
 
Open Source, Open Data: Driving Innovation in Smart Cities
Open Source, Open Data: Driving Innovation in Smart CitiesOpen Source, Open Data: Driving Innovation in Smart Cities
Open Source, Open Data: Driving Innovation in Smart Cities
 
Data Protection in Hybrid Enterprise Data Lake Environment
Data Protection in Hybrid Enterprise Data Lake EnvironmentData Protection in Hybrid Enterprise Data Lake Environment
Data Protection in Hybrid Enterprise Data Lake Environment
 
Big Data Technologies in Support of a Medical School Data Science Institute
Big Data Technologies in Support of a Medical School Data Science InstituteBig Data Technologies in Support of a Medical School Data Science Institute
Big Data Technologies in Support of a Medical School Data Science Institute
 
Hadoop Storage in the Cloud Native Era
Hadoop Storage in the Cloud Native EraHadoop Storage in the Cloud Native Era
Hadoop Storage in the Cloud Native Era
 
Free Servers to Build Big Data System on: Bing’s Approach
Free Servers to Build Big Data System on: Bing’s ApproachFree Servers to Build Big Data System on: Bing’s Approach
Free Servers to Build Big Data System on: Bing’s Approach
 
IoFMT – Internet of Fleet Management Things
IoFMT – Internet of Fleet Management ThingsIoFMT – Internet of Fleet Management Things
IoFMT – Internet of Fleet Management Things
 

Introduction of big data utilization examples

  • 1. Copyright © 2016 Nautilus Technologies, Inc. All rights reserved. Proprietary & ConfidentialNAUTILUS 株式会社ノーチラス・テクノロジーズ http://www.nautilus-technologies.com/ mailto:contact@nautilus-technologies.com Tel: 03-6712-0636 Fax: 03-6712-0664 ビッグデータ活用事例のご紹介 2018年10月16日 Data Works Summit Tokyo 2018
  • 2. Copyright © 2016 Nautilus Technologies, Inc. All rights reserved. NAUTILUS Proprietary & Confidential 1 Agenda ◼ 会社紹介 ◼ Asakusa Frameworkとは ◼ 分散並列処理(Asakusa Framework)の活用領域と傾向 ◼ 導入事例紹介 – 西鉄ストア様 新会計システム ◼ 機械学習による販売予測ソリューション紹介 ◼ M³BP紹介
  • 3. Copyright © 2016 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 2Proprietary & Confidential – 業務系処理に分散処理を適用して高速化を図る ◼ ミドルウェア/コアSIを行う – Asakusa FrameworkをOSSで開発・展開サポート ◼ 分散環境上で複雑なバッチ処理を記述し、最適化し、実行するフレームワーク – 実行基盤としてHadoop・Spark・M³BPを利用 ◼ 注)M³BP C++で再実装したDAGの実行エンジン – 分散処理利用でのレバレッジを目的にする ◼ クラウド基盤上での業務システムのSIも実施している 株式会社ノーチラス・テクノロジーズ
  • 4. Copyright © 2016 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 3Proprietary & Confidential ◼ 分散環境用高速バッチアプリケーション開発フレームワーク Asakusa Frameworkとは 開発容易性 低学習コストポータビリティ • HadoopやSparkの 開発方法を覚えな くても開発可能 • ローカル環境での テストが可能 • 開発時のテスト、 チェック機能充実 • 2日間の講習を受講 すれば2週間程度で プログラムが書け るレベル • 一つのソースから 複数環境向けの実 行コードを生成 • バージョンアップ 時の互換性を重視 • オンプレミスでも クラウドでも動作 3つの特徴
  • 5. Copyright © 2016 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 4Proprietary & Confidential Asakusa Frameworkの活用領域 分散処理(データ蓄積分析処理基盤)の活用ケース 今まで時間、データ量的制約で実現が難しかった分析,集計処理が分散処理によ る高速化で実現可能に。 月次でしか実行出来なかった分析・シミュレーション・確定処理・クレンジン グ・引当・受発注・在庫管理・予測などを日次や即時実行へ。 IoT/ビッグデータ蓄積/処理基盤 大量データ、計算量が多い新規バッチ処理 ・毎日増え続けるログデータの蓄積 ・逐次更新される会計データの集計 ・データベースでは処理が遅い複雑なデータの処理 ・各種センサーログ、利用記録等 ・機械学習・AI向け分析対象データの最適生成 基幹バッチ処理高速化モデル 既存バッチ処理リプレース、ホストリプレース ・DISK I/Oボトルネックの解消 ・データベースのチューニングも限界 ・ハード増強は、費用が高く頭打ち ・ホストからのバッチ移行時の代替え シュミレーションモデル 業務データの粒度を詳細化してシミュレーション ・詳細な業務データの蓄積 ・様々な分析軸の立案 ・様々なパターンの検証 ・組み合わせ数が爆発する計算処理 DWHオフローディングモデル 既存DWHのオフロード、またはDWHの新規構築 ・オンライン処理時間の延長要請 ・DWHに投入するデータ量の増加 ・DWHの前処理バッチでの高速化 ・高価なDWHやBIツールを導入したくない ・高価な、ストレージ製品等を導入したくない
  • 6. Copyright © 2016 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 5Proprietary & Confidential AsakusaFramework導入事例 パケット料金計算システム 与信管理シミュレーション 設備巡視計画書作成システム データセンター原価計算処理 通信キャリア 設備管理系年次バッチ処理 ネット通販 原価計算システム クラウド高速データ処理基盤 メガバンク さくらインターネット ◼ 金融業、社会インフラ、製造業、流通業など様々な業界でご採用いただいております 原価計算・生産管理システム 基幹 年次バッチ処理 設備サービス 本部基幹・会計システム メガバンク
  • 7. Copyright © 2016 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 6Proprietary & Confidential 西鉄ストア様 導入事例 新会計システム Asakusa Framework導入事例
  • 8. Copyright © 2011 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 7Proprietary & Confidential 背景 – システム老朽化 – 処理データ増への対応(流通BMS,新規出店etc) – 変化する業務への柔軟な対応 – 業務生産性向上のための大幅な機能追加 – データサイズのわりに処理件数が圧倒的に多い 課題 – 計算量が膨大となる – 追加業務機能による粒度の細かいデータ処理 – 基幹系から情報系へのバッチ処理が遅い – 継続的な業務深化が予定されており、システム負荷増も見込まれたため 効率的なパフォーマンス/可用性の確保が必要 西鉄ストア様
  • 9. Copyright © 2011 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 8Proprietary & Confidential 西鉄ストア様 新会計システム 本部バックエンドの勘定系処理すべてと連動する情報系システム群 ー Hadoop/AWS上での基幹系システムでは当時最大規模 システム機能 (導入時点) – 売上 最大で1億件/dayの 締め処理 – 債権管理 900万件程度の集計処理 – 仕入 2700万件の取り込みクレンジング処理 – 債務処理 日別で300万件のマッチング処理 データサイズ 100GB〜500GB バッチ処理時間 トータル 8時間 AWS上で24h365dの運用 2013年から本番稼動 – 運用・監視・バックアップ・リストア POS・ テナントレジ システム 発注 システム 流通BMS システム F/B システム 人事・給与 システム 固定資産・ リース システム 発注データ 請求データ 人時・給与 データ 固定資産・ リースデー タ 売上データ 入金データ F/B システム 流通BMS システム 財務会計 システム 支払データ 支払案内 データ 仕訳データ 新会計システム 買掛・未払 仕入計上 未払計上 未払費用 買掛照合 支払 買掛控除 管理会計 管理会計 予算 棚卸 棚卸 人時 人事 外部システム 仕訳連携 売上 売上計上 売価変更 消化仕入 金券・ クレジット 確認 売掛金管理 売掛管理 売掛入金 リベート管理 リベート テナント管理 テナント管理
  • 10. Copyright © 2011 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 9Proprietary & Confidential 売上計上処理 ◼ 売上計上処理 - 従来の売上計上処理は、基幹系の締め処理であり情報系とは分離されていた ◼ 基幹系から情報系に渡すバッチ処理が遅すぎる POS T-Log 基幹 系 DWH POS T-Log 基幹系 DWH的処理も 行ってしまう 移行前 移行後 - 基幹系と情報系の流れを統合することにより「基幹系のデータ」をあたかも情報系のデータのように参照する ◼ データの不整合が発生しない ◼ 確定基幹データをそのまま利用する ◼ 業務系では本来アドホック検索は必要ない ◼ 圧倒的なバッチ処理能力が必要
  • 11. Copyright © 2011 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 10Proprietary & Confidential 仕入処理について 支払確定処理 – 従来は計上ベースでのみ支払確定処理を実施。請求データとの付け合わせは行わず。 請求データとの付け合わせは伝票明細行単位での処理になるため処理コストが非常に高い 決済は日次ではなく月次で3回処理なのでバッチコストが高い – かつ差異を明確にするため、ピンポイントではなくオープンな明細を「すべて」取り込む必要がある 毎回40-50m件の明細のフルマッチを行う – 請求データを電子的に処理することが可能となり、電子データ自体を取り込んで物流からの 検収確定データとライン・バイ・ラインでの突合が可能となった結果、正確な決済を実現 Hadoopの高処理能力による
  • 12. Copyright © 2016 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 11Proprietary & Confidential ◼ 新システムで求められた高処理要件はHadoop(分散処理)で解決 ◼ 出来なかった,あきらめていた処理を実現 ◼ 業務深化に伴う継続的なパフォーマンス/可用性確保はクラウドで ◼ 業務生産性の大幅な向上 まとめ
  • 13. Copyright © 2016 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 12Proprietary & Confidential ◼ 2018年現在の西鉄ストア様の基幹システム – HadoopからM³BPへプラットフォームを変更 ◼MapReduceは利用していない ◼AsakusaFrameworkのポータビリティでコード変更はゼロ – パフォーマンスは大幅に向上 ◼13時間 => 5~6時間 5年経過した西鉄ストア様の基幹システム
  • 14. Copyright © 2016 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 13Proprietary & Confidential 機械学習による販売予測サービス
  • 15. Copyright © 2017 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 14Proprietary & Confidential ◼ 販売予測とは – 店舗において「明日この店で、この天候やコーザルから過去のデータからだ と、この単品・このカテゴリーがどのくらい売れるのか?」を推定する ◼ 現状の販売予測は人依存 – 現場で経験と勘と過去のデータに基づいて、ある程度販売数を予測している – その上で、在庫を勘案し、発注数を決定しているが、経験と勘に依存すると ころが大きく、特に人が変わったタイミングで精度が著しく落ちる(属人化) – 結果としてロス対策がイタチごっこ – 人依存になっているため、人が育つ・育てる時間も必要となる 食品スーパーマーケット様向販売予測サービス
  • 16. Copyright © 2017 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 15Proprietary & Confidential ◼ 課題だった制約を技術が超えてきた – 新しい技術を組み合わせた販売予測の実現 販売予測サービスの実現 制約1:計算量が膨大 制約2:データ量の限界 制約3:コーザルデータ クラウドの普及 計算資源のコスト減少 データのオープン化 機械/深層学習の発展 販売予測の 実現 これまでの制約 新しい技術による解決策
  • 17. Copyright © 2017 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 16Proprietary & Confidential ◼ 販売予測ソリューションの狙い – ロスの極小化 ◼ 60〜80%の精度で予測した数字をもとに、発注数決定をサポート – ある程度のスキルでも発注業務を可能にする ◼ 発注の経験が少ない担当者でも大外しをしない(発注作業効率向上) ◼ 人手不足対策、属人性排除 ◼ 利用シーン – 発注担当者の業務サポート ◼ 製品の発注時に、予測数字を参考に発注を行う – 自動発注ソリューションとの連携 ◼ 自動発注ソリューションに予測データを発注数として連携 販売予測の使いどころ
  • 18. Copyright © 2017 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 17Proprietary & Confidential ◼ 予測データ – 過去のデータから、1週間先までの販売数予測を店舗単位の製品(商品コード)毎に行う ◼ 分析方法【経験と勘の実装】 – 総合的パターン認識 ◼ 同じようなコーザルが起きた時に結果を予測する – 利用するコーザル ◼ 天候・気温・不快指数 など ◼ カテゴリー単位では販売金額のカテゴリー合計 ◼ SKU単位では販売数量と販売金額 ◼ クラウドサービスでご提供 – システム運用工数無 – すぐに利用可能 – 高コストパフォーマンス 販売予測サービス概要
  • 19. Copyright © 2017 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 18Proprietary & Confidential ◼ 予測に必要なデータ – POSデータ ◼ 過去のPOSデータ ◼ 毎日のPOSデータ – マスタデータ ◼ 商品マスタデータ ◼ 特売・店舗など関連するマスタデータ ◼ 予測のための1週間先の必要となるデータ(販売価格、特売情報など) – プラスアルファ ◼ 来店数 ◼ 商品コードからカテゴリへのマッピング情報 ◼ チラシ配布日等の情報 ◼ 値引がある場合の値引額の情報 ◼ まとめ買いの情報 (成立個数、値引額) 予測に必要なデータ 5年分
  • 20. Copyright © 2017 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 19Proprietary & Confidential 予測精度について
  • 21. Copyright © 2017 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 20Proprietary & Confidential xxxxx xxxxヨーグルト 70gx4 全体:125.29, 超過:3.45, 不足:27.15
  • 22. Copyright © 2017 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 21Proprietary & Confidential xxxxx xxxxヨーグルトプレーン 400g 全体:46.58, 超過:5.49, 不足:3.71
  • 23. Copyright © 2017 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 22Proprietary & Confidential xxxxx xxxxxxx牛乳 1000ml 全体:323.39, 超過:37.20, 不足:5.95
  • 24. Copyright © 2017 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 23Proprietary & Confidential xxxxx xxxx牛乳 1000ml 全体:41.61, 超過:4.19, 不足:2.12
  • 25. Copyright © 2017 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 24Proprietary & Confidential xxxxx xxxx絹とうふ 300g 全体:113.19, 超過:9.95, 不足:8.70
  • 26. Copyright © 2017 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 25Proprietary & Confidential xxxxx xxxx 絹 150gx3 全体:111.45, 超過:10.97, 不足:5.93
  • 27. Copyright © 2017 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 26Proprietary & Confidential Asakusa on M³BP (エムキューブドビーピー) Asakusa Framework新機能
  • 28. Copyright © 2016 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 27Proprietary & Confidential ◼ 分散処理エンジン(M³ for Batch Processing)をFixStars社と共同開発 – マルチコア環境でDAG形式で並列処理をするインメモリエンジンを提供 ◼ 小規模データでの複雑な処理を、単一ノード上のマルチコア用に最適化 – Hadoop/Sparkは不要 ◼ クラスタの構築・運用する場合の課題が解消され、高い費用対効果を生む 単一ノード・マルチコア・大量メモリで小規模データサイズ のバッチ処理を高速処理する分散処理エンジン Asakusa on M³BP CPU使用率 % 処理時間 秒
  • 29. Copyright © 2016 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 28Proprietary & Confidential ◼ Hadoop/Spark5ノードとM³ for BPにて性能比較 – Microsoft Azureを利用し、実際の業務バッチで計測 – 入力データサイズは、約5GB Asakusa on M³BPの性能 MapReduce Spark M³ for BP バージョン 2.7.2 1.6.1 0.1.0 Java処理系 Java SE Development Kit 8 Update 74 C++コンパイラ N/A GCC 4.8.5 OS CentOS 7.1 インスタンスタイプ Microsoft Azure Virtual Machines D5 v2 16CPUコア、メモリ56GB 計算用ノード数 5 (*) 1 2218.13 229.530 112.277 0.00 500.00 1000.00 1500.00 2000.00 2500.00 MapReduce (5 nodes) Spark (5 nodes) M³ for BP (1 node) 処理時間 [秒] 表1 評価環境 * 計算ノードとは別に管理用ノードが1台必要 表2 評価結果 – Sparkの5ノードに対し、M³ for BP の 1ノードで2倍以上の性能 4時間 以上 RDBMS 20分に 短縮 Hadoop 5分に 短縮 Spark 2分に 短縮 M³BP
  • 30. Copyright © 2017 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 29Proprietary & Confidential Asakusa Frameworkは最適な環境で動作 処理時間 (秒) 入力データ量 30 100GB 1PB500GB 1TB 3600 36000 M3BP 360 秒 分 時 1時間 10時間 ユースケースに応じて、最適な実行環境で動作させることが可能
  • 31. Copyright © 2017 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 30Proprietary & Confidential Asakusa Frameworkの特徴(ポータビリティ) クラウド 分散環境 z/OS 分散処理フレームワーク 商用ディストリ ビューション 少ノード 超並列環境 単ノード マルチコア 並列処理 フレームワーク &実行基盤 M³ for BP クラウドサービス Amazon EMR Azure HDInsight データフロー DSL / コンパイラ インフラ ストラクチャ 並列・分散処理 ミドルウェア 開発 フレームワーク リファレンス実装 様々な分散・並列処理基盤がAsakusa Frameworkにより選択可能に オンプレミス
  • 32. Copyright © 2017 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 31Proprietary & Confidential ご清聴ありがとうございました。 お問い合わせ 株式会社ノーチラス・テクノロジーズ Haga Shigemi 営業部 芳賀 荘鑑 Tel: 03-6712-0636 haga @nautilus-technologies.com http://www.nautilus-technologies.com/