SlideShare a Scribd company logo
1 of 25
Download to read offline
Hadoop 
Big 
Data 
成功案例分享 
陳育杰 Eric Chen 
Senior AVP. , Etu Business Development 
eric_chen@etusolution.com 
Oct. 8, 2014
2 
Big Data 新應用架構 
RDB 
Business 
Intelligence 
ETL 
Business 
Analy9cs 
Voice file 
Video file 
Image file 
Doc file 
Txt file 
XML file 
Web Logs 
Click event 
Social 
network 
Associated 
map News 
Feeds 
Sensor 
Embedded 
RFID Tags 
Geographic 
GPS 
Event 
Others 
HIVE 
HBase 
MapReduce 
HDFS 
Impala 
Mahout 
Pig
3 
Big Data 新應用架構 
Hadoop as a “Data Store” 
RDB 
Business 
Intelligence 
ETL 
Business 
Analy9cs 
Voice file 
Video file 
Image file 
Doc file 
Txt file 
XML file 
Web Logs 
Click event 
Social 
network 
Associated 
map News 
Feeds 
Sensor 
Embedded 
RFID Tags 
Geographic 
GPS 
Event 
Others 
HIVE 
HBase 
MapReduce 
HDFS 
Impala 
Mahout 
Pig
4 
Big Data 新應用架構 
Hadoop as a “Data Pre-processing 
Platform” 
RDB 
Business 
Intelligence 
ETL 
Business 
Analy9cs 
Voice file 
Video file 
Image file 
Doc file 
Txt file 
XML file 
Web Logs 
Click event 
Social 
network 
Associated 
map News 
Feeds 
Sensor 
Embedded 
RFID Tags 
Geographic 
GPS 
Event 
Others 
HIVE 
QL Pig 
Join, 
Aggrega,on, 
Filter, 
Sor,ng, 
HIVE 
HBase 
Correla,on 
…….. 
HDFS 
Impala 
Mahout 
MapReduce
5 
Big Data 新應用架構 
Hadoop as a “DB” 
RDB 
BI 
ETL 
Business 
Analy9cs 
Voice file 
Video file 
Image file 
Doc file 
Txt file 
XML file 
Web Logs 
Click event 
Social 
network 
Associated 
map News 
Feeds 
Sensor 
Embedded 
RFID Tags 
Geographic 
GPS 
Event 
Others 
HIVE 
HBase 
MapReduce 
HDFS 
Impala 
Mahout 
Pig 
API 
ODBC
Big Data 新應用架構 
Hadoop as a “Data Analytics 
Engine” 
ETL 
RDB 
Business 
Analy9cs 
Business 
Intelligence 
Voice file 
Video file 
Image file 
Doc file 
Txt file 
XML file 
Web Logs 
Click event 
Social 
network 
Associated 
map News 
Feeds 
Sensor 
Embedded 
RFID Tags 
Geographic 
GPS 
Event 
Others 
Mahout 
HIVE 
HBase 
MapReduce 
HDFS 
Pig 
Impala 
6 6
7 
應用案例 
l 精準推薦與消費者洞察 
l DW Offload – 資料載入與查詢 
l 生產良率即時告警
8 
精準推薦與消費者洞察
9 
精準推薦與消費者洞察 
Etu Recommender 
Application 
轉化率分析 
推薦演算法 
客戶相似 
度分析 
資料 
擷 
取 
商品關聯 
性分析 
推薦清 
單 
推薦引擎 
歷史交易資料 
• 訂單資料 
• 購買紀錄 
Web 互動資料 
• 瀏覽 
• 點擊 
• 搜尋 
• 購物車 
• 結帳 
• 跨網域用戶行為 
Mobile Web 
互動資料 
• 瀏覽 
• 點擊 
• 搜尋 
• 購物車 
• 結帳 
• 跨網域用戶行為 
Etu Insight 
User-­‐defined 
Recommenda/on 
Result 
Filter 
廣告關聯 
性分析 
內容關聯 
性分析 
Product 
Recommendation 
商品推薦 
Content 
Recommendation 
內容推薦 
Ad 
Recommendation 
站內廣告推薦
10 
精準推薦與消費者洞察 
Clicks 每一個點擊代表一個動作和意圖 
是訂單資料和會員系統無法告訴你的 
• 瀏覽商品 
• 看廣告 
• 看新聞 
• 看網友評論 
• 按讚 
• 分享 
• 下載表單 
• 兌換優惠券…..
11 
精準推薦與消費者洞察 
場景#2 
哪些人只 
看不買? 
場景#3 
誰愛小米? 
iPhone? 
Etu Recommender 
Application 
轉化率分析 
推薦演算法 
客戶相似 
度分析 
資料 
擷 
取 
商品關聯 
性分析 
推薦清 
單 
推薦引擎 
歷史交易資料 
• 訂單資料 
• 購買紀錄 
場景#1 
誰是我的 
忠實粉絲 
Web 互動資料 
• 瀏覽 
• 點擊 
• 搜尋 
• 購物車 
• 結帳 
• 跨網域用戶行為 
Mobile Web 
互動資料 
• 瀏覽 
• 點擊 
• 搜尋 
• 購物車 
• 結帳 
• 跨網域用戶行為 
User-­‐defined 
Recommenda/on 
Result 
Filter 
廣告關聯 
性分析 
內容關聯 
性分析 
場景#4 
廣告費都 
丟到水裡 
Product 
場景#5 
網站的使 
用者體驗 
如何? 
Recommendation 
商品推薦 
Content 
了? 
Recommendation 
內容推薦 
Ad 
Recommendation 
站內廣告推薦 
Etu Insight 
(Customer Behavior Data Warehouse) 
流量分析 
新客戶 
vs. 
回頭客 
漏斗分析 
每天多少流 
量能轉化為 
訂單 
品牌偏好度 
各商品分類 
最受歡迎品 
牌 
來源網站和 
訂單效益 
關聯性分析 
不同版位效 
益分析,評 
估網站使用 
者體驗
12 
精準推薦與消費者洞察 
Customer 
Behavior 
Recommenda/on 
Etu Recommender 
商品 
內容 
廣告 
Consumer Connect 
List 
Customer 
Behavior 
Recommenda/on 
Etu Recommender 
商品 
內容 
廣告 
Consumer Connect 
List 
DW 
CRM 
Consumer Discovery 
Analytics core 
推薦運算叢集 
3600 
Customer 
View 
Customer Profile Discovery 
Data 
Converter 
Customer Behavior 
Data Warehouse 
HIVE JDBC 
/ODBCDriver 
Analytics core 
推薦運算叢集 
客戶行為分析叢集 
Event 
Collector 
Customer Behavior 
Data Store 
Event 
Collector 
Customer Behavior 
Data Store
13 
消費者洞察,資料策略的第一步
14 
DW Offload – 資料載入與查詢
15 
DW Offload – 資料載入與查詢 
l 客戶 : 某大醫院 
l 需求 : HIS 系統與院際其他系統資料整合 
l 困難與挑戰 : 
ü 原 HIS 系統資料庫支援度差,需先將資料匯出處理 
ü 來源資料量非常龐大, ETL 載入效率非常差 
ü 原資料庫對大量資料的查詢效率不佳,無法應付大量且即時的查詢 
需求 
SSIS 
SQL 
SQL 
Server 
查詢結果 
資料入庫 
時間過長 
資料查詢 
時間過長 
Oracle 
Informix 
SQL 
Server
16 
DW Offload – 資料載入與查詢 
Sqoop 
SQL 
查詢結果 
Impala 
HDFS 
第一期方案 
Informix 
1. 以 Etu Software Appliance 搭配 Sqoop 做資料入檔,解決資料載入 
時間過長問題。 
2. 使用 Impala 查詢 Hadoop 中的資料,解決資料查詢時間過長問題。
17 
DW Offload – 資料載入與查詢 
最終方案 
Sqoop 
ETL 
Impala 
HDFS 
Oracle 
Informix 
SQL 
Server 
EDW 
/ 
DM 
API 
Web 
Service 
1. Hadoop 成為組織內部的 data pool (ODS),所有資料先進行格式統一, 
錯誤資料清洗等轉置工作,並儲存在 HDFS 中。 
3. EDW / DM 或應用系統所有資料需求,皆統一由 Hadoop 提供,解決跨 
來源資料整合問題。
18 
從 RDB 邁向 Big Data BI
19 
生產良率即時告警
20 
生產良率即時告警 
製程資料 
組裝包產線 
SMT產線 
統計分析改善 
統計分析 
製作圖表 
良率低 
主因素 
組裝包產線 
現有技術架構 
RDB 資料儲存、運算與彙整 
RDB 
不及時 
算得慢 
擴充成本高 
N 
hours 
SPC 
SMT 
SFCS 
SMT 
Data 
Files 
SMT產線 
SMT產線 
註: 
SFCS: 
Shop 
Floor 
control 
system; 
SPC: 
Solder 
Paste 
Control 
SPI: 
Solder 
Paste 
Inspec/on 
資料探勘 
特徵規則(傳統運算) 
SPC 
SFCS 
SMT 
SFCS 
SPI 
1. 生產問題無法及時發現: 資料處理與計算時間過長導致生產問題無法及時發現 
2. 運算效能不彰: 採用資料庫進行運算時,產生過多Temp Files與資料轉換,系統資源浪費且效率差 
3. 容量擴充成本高: 因應產線擴充,機台測試資料增加與保存時間延長所需成本過高(Scale Up)
21 
生產良率即時告警 
製程資料 
組裝包產線 
組裝包產線 
SMT產線 
SMT產線 
SMT產線 
SPC 
SFCS 
SMT 
SFCS 
SPI 
新一代 Big Data 技術架構 
統計分析加以確認 
統計分析 
製作圖表 
及時 
算得快 
擴充成本低 
良率低 
資料探勘 
RDB 主因素 
N 
mins 
MPP 
DB 
特徵規則 (平行運算) 
SMT 
No 
SQL 
SMT 
Data 
Files 
HDFS 
SPC 
SFCS 
1. 生產問題及時發現: 資料處理與計算時間大幅縮短,可以提升品質判斷速度,減少產線損失 
2. 運算效能佳: 採用平行運算與分散式檔案系統,減少過多Temp Files與資料轉換,生成統計表提供查詢 
3. 容量擴充成本低: 因應產線擴充,機台測試資料增加與保存時間延長可線性擴充 (Scale out)
22 
生產良率即時告警 
Real-time Big Data 
Data 
Stream 
Spark-­‐ 
Streaming 
Spark 
Impala 
DN 
RS 
Spark-­‐ 
Streaming 
Spark 
Impala 
DN 
RS 
Spark-­‐ 
Streaming 
Spark 
DN 
RS 
Impala 
… 
Data 
Stream 
Data 
Stream 
生產機台資料 
SPI Data 
On-the-fly Pattern 
Matching  Alert 
Real-time Analytics 
- Machine Learning (Rec. Cluster..) 
- Iterative Algorithms 
Near Real-time Query 
- Ad-hoc query 
- Reporting 
Long term data store 
- Batch process 
- Offline analytics 
- Historical Mining Spark  Impala work together
23 
Real-time Big Data
24 
Workshop
Thank 
you 
318, 
Rueiguang 
Rd., 
Taipei 
114, 
Taiwan 
T: 
+886 
2 
7720 
1888 
F: 
+886 
2 
8798 
6069 
www.etusolu/on.com

More Related Content

What's hot

What's hot (20)

DSP 資料科學計畫簡介
DSP 資料科學計畫簡介DSP 資料科學計畫簡介
DSP 資料科學計畫簡介
 
轉兌數據的價值 — 從導購到策購
轉兌數據的價值 — 從導購到策購轉兌數據的價值 — 從導購到策購
轉兌數據的價值 — 從導購到策購
 
資料科學團隊人才培育分享 ─ 以 DSP 為例
資料科學團隊人才培育分享 ─ 以 DSP 為例資料科學團隊人才培育分享 ─ 以 DSP 為例
資料科學團隊人才培育分享 ─ 以 DSP 為例
 
啟程:Data Technology 的待客之道
啟程:Data Technology 的待客之道啟程:Data Technology 的待客之道
啟程:Data Technology 的待客之道
 
何謂大數據
何謂大數據何謂大數據
何謂大數據
 
Big Data Taiwan 2014 Opening: Converge . Discover . Monetize
Big Data Taiwan 2014 Opening: Converge . Discover . MonetizeBig Data Taiwan 2014 Opening: Converge . Discover . Monetize
Big Data Taiwan 2014 Opening: Converge . Discover . Monetize
 
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
 
Big Data Taiwan 2014 Keynote 1: Why and How We Monetize Data – 意圖,讓我們聚在這裡
Big Data Taiwan 2014 Keynote 1: Why and How We Monetize Data  – 意圖,讓我們聚在這裡Big Data Taiwan 2014 Keynote 1: Why and How We Monetize Data  – 意圖,讓我們聚在這裡
Big Data Taiwan 2014 Keynote 1: Why and How We Monetize Data – 意圖,讓我們聚在這裡
 
Track C-2 洞見未來 - Tableau 創造大數據新價值
Track C-2 洞見未來 - Tableau 創造大數據新價值Track C-2 洞見未來 - Tableau 創造大數據新價值
Track C-2 洞見未來 - Tableau 創造大數據新價值
 
2014 年十大商业智能趋势
2014 年十大商业智能趋势2014 年十大商业智能趋势
2014 年十大商业智能趋势
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來
 
Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野
Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野
Big Data Taiwan 2014 Track2-1: SAP 善用足跡,預測未來 - 全方位的行銷視野
 
Postmortem of 'Person of Interest' - Big data rc sharing
Postmortem of 'Person of Interest' - Big data rc sharingPostmortem of 'Person of Interest' - Big data rc sharing
Postmortem of 'Person of Interest' - Big data rc sharing
 
数据的价值和灵魂
数据的价值和灵魂数据的价值和灵魂
数据的价值和灵魂
 
大數據的基本概念(上)
大數據的基本概念(上)大數據的基本概念(上)
大數據的基本概念(上)
 
浅谈数据科学
浅谈数据科学浅谈数据科学
浅谈数据科学
 
大數據的獲利模式
大數據的獲利模式大數據的獲利模式
大數據的獲利模式
 
数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅
 
Track C-1 大數據時代的產品 ─ 創新與洞察決策
Track C-1 大數據時代的產品 ─ 創新與洞察決策Track C-1 大數據時代的產品 ─ 創新與洞察決策
Track C-1 大數據時代的產品 ─ 創新與洞察決策
 
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusHow Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
 

Similar to Hadoop Big Data 成功案例分享

民间秘方
民间秘方民间秘方
民间秘方
dynasty
 
企业系统商务智能设计
企业系统商务智能设计企业系统商务智能设计
企业系统商务智能设计
George Ang
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
锐 张
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
Jazz Yao-Tsung Wang
 
Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnDtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cn
yp_fangdong
 

Similar to Hadoop Big Data 成功案例分享 (20)

選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲
 
Emc keynote 1130 1200
Emc keynote 1130 1200Emc keynote 1130 1200
Emc keynote 1130 1200
 
Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)
 
阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdf阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdf
 
民间秘方
民间秘方民间秘方
民间秘方
 
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
 
Sybase Analytic Appliance
Sybase Analytic ApplianceSybase Analytic Appliance
Sybase Analytic Appliance
 
Actuate presentation 2011
Actuate presentation   2011Actuate presentation   2011
Actuate presentation 2011
 
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能
 
企业系统商务智能设计
企业系统商务智能设计企业系统商务智能设计
企业系统商务智能设计
 
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
 
Easy to recap AWS reinvent 2017
Easy to recap AWS reinvent 2017Easy to recap AWS reinvent 2017
Easy to recap AWS reinvent 2017
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)
ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)
ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)
 
如何快速实现数据编织架构
如何快速实现数据编织架构如何快速实现数据编织架构
如何快速实现数据编织架构
 
Etu Data Lake
Etu Data LakeEtu Data Lake
Etu Data Lake
 
Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnDtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cn
 

More from Etu Solution

More from Etu Solution (20)

終歸:分群消費者x多元商機的實現
終歸:分群消費者x多元商機的實現終歸:分群消費者x多元商機的實現
終歸:分群消費者x多元商機的實現
 
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
 
猜你喜歡:虛實並進,贏在全通路
猜你喜歡:虛實並進,贏在全通路猜你喜歡:虛實並進,贏在全通路
猜你喜歡:虛實並進,贏在全通路
 
投客所好:互聯內外,啟動投信藍海數據戰
投客所好:互聯內外,啟動投信藍海數據戰投客所好:互聯內外,啟動投信藍海數據戰
投客所好:互聯內外,啟動投信藍海數據戰
 
致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡
致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡
致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡
 
Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷
Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷
Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷
 
Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃
Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃
Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃
 
Track B-1 建構新世代的智慧數據平台
Track B-1 建構新世代的智慧數據平台Track B-1 建構新世代的智慧數據平台
Track B-1 建構新世代的智慧數據平台
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
 
Track A-2 基於 Spark 的數據分析
Track A-2 基於 Spark 的數據分析Track A-2 基於 Spark 的數據分析
Track A-2 基於 Spark 的數據分析
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享
 
Cloudera 助力台灣大數據產業的發展
Cloudera 助力台灣大數據產業的發展Cloudera 助力台灣大數據產業的發展
Cloudera 助力台灣大數據產業的發展
 
Opening: Big Data+
Opening: Big Data+Opening: Big Data+
Opening: Big Data+
 
數位媒體的客戶洞察行銷術
數位媒體的客戶洞察行銷術數位媒體的客戶洞察行銷術
數位媒體的客戶洞察行銷術
 
打造一個讓企業賣更多的「氣象大數據平台服務」
打造一個讓企業賣更多的「氣象大數據平台服務」打造一個讓企業賣更多的「氣象大數據平台服務」
打造一個讓企業賣更多的「氣象大數據平台服務」
 
Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案
Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案
Big Data Taiwan 2014 Track1-1: 群體智慧‧想像無限 ─ 精準推薦解決方案
 
Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息
Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息
Big Data Taiwan 2014 Track2-3: QlikView 與 Big Data ─ 從 Big Data 裡獲取重要信息
 
Big Data Taiwan 2014 Track2-2: Informatica Big Data Solution
Big Data Taiwan 2014 Track2-2: Informatica Big Data SolutionBig Data Taiwan 2014 Track2-2: Informatica Big Data Solution
Big Data Taiwan 2014 Track2-2: Informatica Big Data Solution
 
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
 

Hadoop Big Data 成功案例分享

  • 1. Hadoop Big Data 成功案例分享 陳育杰 Eric Chen Senior AVP. , Etu Business Development eric_chen@etusolution.com Oct. 8, 2014
  • 2. 2 Big Data 新應用架構 RDB Business Intelligence ETL Business Analy9cs Voice file Video file Image file Doc file Txt file XML file Web Logs Click event Social network Associated map News Feeds Sensor Embedded RFID Tags Geographic GPS Event Others HIVE HBase MapReduce HDFS Impala Mahout Pig
  • 3. 3 Big Data 新應用架構 Hadoop as a “Data Store” RDB Business Intelligence ETL Business Analy9cs Voice file Video file Image file Doc file Txt file XML file Web Logs Click event Social network Associated map News Feeds Sensor Embedded RFID Tags Geographic GPS Event Others HIVE HBase MapReduce HDFS Impala Mahout Pig
  • 4. 4 Big Data 新應用架構 Hadoop as a “Data Pre-processing Platform” RDB Business Intelligence ETL Business Analy9cs Voice file Video file Image file Doc file Txt file XML file Web Logs Click event Social network Associated map News Feeds Sensor Embedded RFID Tags Geographic GPS Event Others HIVE QL Pig Join, Aggrega,on, Filter, Sor,ng, HIVE HBase Correla,on …….. HDFS Impala Mahout MapReduce
  • 5. 5 Big Data 新應用架構 Hadoop as a “DB” RDB BI ETL Business Analy9cs Voice file Video file Image file Doc file Txt file XML file Web Logs Click event Social network Associated map News Feeds Sensor Embedded RFID Tags Geographic GPS Event Others HIVE HBase MapReduce HDFS Impala Mahout Pig API ODBC
  • 6. Big Data 新應用架構 Hadoop as a “Data Analytics Engine” ETL RDB Business Analy9cs Business Intelligence Voice file Video file Image file Doc file Txt file XML file Web Logs Click event Social network Associated map News Feeds Sensor Embedded RFID Tags Geographic GPS Event Others Mahout HIVE HBase MapReduce HDFS Pig Impala 6 6
  • 7. 7 應用案例 l 精準推薦與消費者洞察 l DW Offload – 資料載入與查詢 l 生產良率即時告警
  • 9. 9 精準推薦與消費者洞察 Etu Recommender Application 轉化率分析 推薦演算法 客戶相似 度分析 資料 擷 取 商品關聯 性分析 推薦清 單 推薦引擎 歷史交易資料 • 訂單資料 • 購買紀錄 Web 互動資料 • 瀏覽 • 點擊 • 搜尋 • 購物車 • 結帳 • 跨網域用戶行為 Mobile Web 互動資料 • 瀏覽 • 點擊 • 搜尋 • 購物車 • 結帳 • 跨網域用戶行為 Etu Insight User-­‐defined Recommenda/on Result Filter 廣告關聯 性分析 內容關聯 性分析 Product Recommendation 商品推薦 Content Recommendation 內容推薦 Ad Recommendation 站內廣告推薦
  • 10. 10 精準推薦與消費者洞察 Clicks 每一個點擊代表一個動作和意圖 是訂單資料和會員系統無法告訴你的 • 瀏覽商品 • 看廣告 • 看新聞 • 看網友評論 • 按讚 • 分享 • 下載表單 • 兌換優惠券…..
  • 11. 11 精準推薦與消費者洞察 場景#2 哪些人只 看不買? 場景#3 誰愛小米? iPhone? Etu Recommender Application 轉化率分析 推薦演算法 客戶相似 度分析 資料 擷 取 商品關聯 性分析 推薦清 單 推薦引擎 歷史交易資料 • 訂單資料 • 購買紀錄 場景#1 誰是我的 忠實粉絲 Web 互動資料 • 瀏覽 • 點擊 • 搜尋 • 購物車 • 結帳 • 跨網域用戶行為 Mobile Web 互動資料 • 瀏覽 • 點擊 • 搜尋 • 購物車 • 結帳 • 跨網域用戶行為 User-­‐defined Recommenda/on Result Filter 廣告關聯 性分析 內容關聯 性分析 場景#4 廣告費都 丟到水裡 Product 場景#5 網站的使 用者體驗 如何? Recommendation 商品推薦 Content 了? Recommendation 內容推薦 Ad Recommendation 站內廣告推薦 Etu Insight (Customer Behavior Data Warehouse) 流量分析 新客戶 vs. 回頭客 漏斗分析 每天多少流 量能轉化為 訂單 品牌偏好度 各商品分類 最受歡迎品 牌 來源網站和 訂單效益 關聯性分析 不同版位效 益分析,評 估網站使用 者體驗
  • 12. 12 精準推薦與消費者洞察 Customer Behavior Recommenda/on Etu Recommender 商品 內容 廣告 Consumer Connect List Customer Behavior Recommenda/on Etu Recommender 商品 內容 廣告 Consumer Connect List DW CRM Consumer Discovery Analytics core 推薦運算叢集 3600 Customer View Customer Profile Discovery Data Converter Customer Behavior Data Warehouse HIVE JDBC /ODBCDriver Analytics core 推薦運算叢集 客戶行為分析叢集 Event Collector Customer Behavior Data Store Event Collector Customer Behavior Data Store
  • 14. 14 DW Offload – 資料載入與查詢
  • 15. 15 DW Offload – 資料載入與查詢 l 客戶 : 某大醫院 l 需求 : HIS 系統與院際其他系統資料整合 l 困難與挑戰 : ü 原 HIS 系統資料庫支援度差,需先將資料匯出處理 ü 來源資料量非常龐大, ETL 載入效率非常差 ü 原資料庫對大量資料的查詢效率不佳,無法應付大量且即時的查詢 需求 SSIS SQL SQL Server 查詢結果 資料入庫 時間過長 資料查詢 時間過長 Oracle Informix SQL Server
  • 16. 16 DW Offload – 資料載入與查詢 Sqoop SQL 查詢結果 Impala HDFS 第一期方案 Informix 1. 以 Etu Software Appliance 搭配 Sqoop 做資料入檔,解決資料載入 時間過長問題。 2. 使用 Impala 查詢 Hadoop 中的資料,解決資料查詢時間過長問題。
  • 17. 17 DW Offload – 資料載入與查詢 最終方案 Sqoop ETL Impala HDFS Oracle Informix SQL Server EDW / DM API Web Service 1. Hadoop 成為組織內部的 data pool (ODS),所有資料先進行格式統一, 錯誤資料清洗等轉置工作,並儲存在 HDFS 中。 3. EDW / DM 或應用系統所有資料需求,皆統一由 Hadoop 提供,解決跨 來源資料整合問題。
  • 18. 18 從 RDB 邁向 Big Data BI
  • 20. 20 生產良率即時告警 製程資料 組裝包產線 SMT產線 統計分析改善 統計分析 製作圖表 良率低 主因素 組裝包產線 現有技術架構 RDB 資料儲存、運算與彙整 RDB 不及時 算得慢 擴充成本高 N hours SPC SMT SFCS SMT Data Files SMT產線 SMT產線 註: SFCS: Shop Floor control system; SPC: Solder Paste Control SPI: Solder Paste Inspec/on 資料探勘 特徵規則(傳統運算) SPC SFCS SMT SFCS SPI 1. 生產問題無法及時發現: 資料處理與計算時間過長導致生產問題無法及時發現 2. 運算效能不彰: 採用資料庫進行運算時,產生過多Temp Files與資料轉換,系統資源浪費且效率差 3. 容量擴充成本高: 因應產線擴充,機台測試資料增加與保存時間延長所需成本過高(Scale Up)
  • 21. 21 生產良率即時告警 製程資料 組裝包產線 組裝包產線 SMT產線 SMT產線 SMT產線 SPC SFCS SMT SFCS SPI 新一代 Big Data 技術架構 統計分析加以確認 統計分析 製作圖表 及時 算得快 擴充成本低 良率低 資料探勘 RDB 主因素 N mins MPP DB 特徵規則 (平行運算) SMT No SQL SMT Data Files HDFS SPC SFCS 1. 生產問題及時發現: 資料處理與計算時間大幅縮短,可以提升品質判斷速度,減少產線損失 2. 運算效能佳: 採用平行運算與分散式檔案系統,減少過多Temp Files與資料轉換,生成統計表提供查詢 3. 容量擴充成本低: 因應產線擴充,機台測試資料增加與保存時間延長可線性擴充 (Scale out)
  • 22. 22 生產良率即時告警 Real-time Big Data Data Stream Spark-­‐ Streaming Spark Impala DN RS Spark-­‐ Streaming Spark Impala DN RS Spark-­‐ Streaming Spark DN RS Impala … Data Stream Data Stream 生產機台資料 SPI Data On-the-fly Pattern Matching Alert Real-time Analytics - Machine Learning (Rec. Cluster..) - Iterative Algorithms Near Real-time Query - Ad-hoc query - Reporting Long term data store - Batch process - Offline analytics - Historical Mining Spark Impala work together
  • 25. Thank you 318, Rueiguang Rd., Taipei 114, Taiwan T: +886 2 7720 1888 F: +886 2 8798 6069 www.etusolu/on.com