SlideShare une entreprise Scribd logo
1  sur  16
Télécharger pour lire hors ligne
IBM Big Data Platform




 王云
 IBM院士
 中国研究院首席技术官
                        DTCC2012
信息是新一轮机遇中的核心…                          企业需要更深入的
                                       远见卓识
未来的10


           44倍
                    2020
年里,数
据和内容
将增长
                    35 zettabytes
                                    1 in 3   商界领袖经常需要以不信任的
                                             或不存在信息为基础进行决策




                                    1 in 2   商界领袖无法获取做好本职
                                             工作所需要的信息




                                             CIO们提到的“商业智能和分析”
                                    83%
2009
800,000 petabytes
                     80%
                     的数据是非结构化的
                                             作为有远见计划的一部分来提高
                                             竞争力



                                             CEO们需要更迅速捕获和了解信息,
                                    60%      以便迅速作出业务决策来做取得更
                                             好的工作成绩




                                                DTCC2012
2
群体和个体之间交互沟通的方式发生了
翻天覆地的变换由此带来的信息量的巨增

    +         + =          A brand new game


       Consumers become increasingly instrumented




    Consumers become increasingly interconnected




      Consumers become increasingly intelligent
                                                                        DTCC2012
                           IBM Institute for Business Value CMO Study
3                          2011
Big Data 的机遇
       从巨大、以无与伦比的速度增长和多样化的数据中
         提取远见卓识,而这些是以前无法做到的




                              DTCC2012
 4
The IBM Big Data Platform




                            DTCC2012
 5
Big Data 平台能够做什么事情?
                  分析多样化的信息
                  基于大范围混合信息的上下文分析,而这种分析
                  此前根本不能执行



                  分析流动中的信息
                  流数据分析
                  针对数据爆炸和ad-hoc模式的分析


                  分析极端大量的数据
                  成本最优化地处理和分析PB量级的信息
                  管理、分析大容量的结构化和关系型数据



                  发掘和探索
                  Ad-hoc模式的分析、数据发现和验证




                  计划和管控
                                   DTCC2012
                  加强数据结构的完整性和控制,以确保可重复查询的
                  一致性
 6
Big Data 丰富了整个信息管理生态系统
                           优化归档成本     通过生活事件、爱好和角色等等使主
                                          数据变得更加丰富




    建立信息即服务                                                审计路线图精减
                                                           了工作和任务




                   优化OLTP                      谁?在什么时候?什
              (SAP, checkout, +++)             么地方?动用了什么
                                                 样的数据?

                                     管理治理过程
                                                         DTCC2012
7
互为补充的分析能力
                        传统的做法                   新的路径
                  结构化,可分析,逻辑性               创造性, 整体思维, 知觉




                                            Hadoop
                             数据仓库           Streams
     事务数据                                                           Web 日志


    来自内部应用的数据      结构化
            Structured                      非结构化         社交网络中的数据
                                               Unstructured
           Repeatable                          Exploratory
    来自主机的数据
                   可重复
                Linear               企业集成    探索性
                                               Iterative   文本数据: emails

                             线性的
           Monthly sales reports
            Profitability analysis           迭代的 strategy
                                                  Brand sentiment
                                               Product
     OLTP 系统中的数据 surveys
             Customer                             Maximum asset utilization 影像
                                                        来自传感器的数据:


        来自ERP的数据
                            传统数据源                                   RFID
                                            新数据源



                                                              DTCC2012
8
Streams 和 BigInsights – 沉淀的数据和流动数据的无缝集成


                                      可视化的实时和历史
                                      的见解




                                               数据集成,数据挖
                                               掘,机器学习,统
                                               计建模
            InfoSphere
            Streams
                         1. 数据注入
     Data
                                         InfoSphere
                         2. 数据反馈         BigInsights,
                                         Database &
                           Control       Warehouse
     数据采集,​ 备,
          准
          ​                flow
     在线分析,模型
     验证

                         3. 自适应分析模型



                                           DTCC2012
 9
InfoSphere BigInsights
  Platform for volume, variety,
    velocity -- V3
   增强的Hadoop方案
  Analytics for V3
   文本分析的工具箱
   机器学习与预测分析
  Usability
   Web console
   集成安装
   可视化工具
   大数据分析的apps,如apps
    Store
  Enterprise Class
   企业存储,安全,集群管理
  Integration
   与DB2,Netezza, JDBC数
    据的互联互通                        DTCC2012
 10
流数据分析
        分析和关联500万市场消息/秒,                以500K/秒的速度,每天分析
        以30微秒的平均延迟执行算法期权                6B+ IPDRs,每年分析 4 PBs.
        交易。                             sustaining 1GBps.



Consider: 数据不用存储, 不用遵循信息生命周期管理,极大量
             的节省存储等资源消耗




                           height:   height:   height:
                             640       1280      640
                           width:    width:    width:
                             480       1024      480
                           data:     data:
                                                  DTCC2012
                                               data:



11
IBM Watson
IBM Watson 是在分析创新
方面的一项重大突破,但它之
所以取得成功,完全得益于它
 处理的信息的速度和质量。

       InfoSphere Streams
 Massively parallel analysis




           InfoSphere BigInsights
      12   “Big Data” analysis (Hadoop)   DTCC2012
 12
基于BigData 平台的预测分析
                                            tokens




                                documents
                                             topics




                    documents
                                                                  words




                                                         topics
                                    V       ≈ W      x              H




                                while (i < max iteration) {
                                  H = H ∗ (WT V / WTWH);
                                  W = W ∗ (V HT / WHHT );

                                }
                                  i = i + 1;DTCC2012
13
各个行业BigData 应用的适用范围和场景
Smarter Healthcare     Multi-channel        Finance         Log Analysis
                           sales




Homeland Security      Traffic Control      Telecom         Search Quality




  Manufacturing      Trading Analytics   Fraud and Risk   Retail: Churn, NBO




                                                          DTCC2012
  14
IBM Big Data Solutions                客户和合作伙伴方案                                                规则 / 业务流程管理

                                                                                                        iLog & Lombardi



                                                                                                          数据仓库

                          Big Data 加速器                                                                  InfoSphere
                                                                                                        Warehouse


       文本        统计数据            财经                地理信息              音频信息                              数据仓库一体机


       影像/视频             挖掘            时间序列                 数学信息                                        IBM & non-IBM



          连接器                          应用                        蓝图                                      主数据管理




                                                                              INTEGRATION
                                                                                                        InfoSphere MDM



                         Big Data 企业引擎                                                                     数据库


                                                                                                        DB2 & non-IBM


                                                                                                          内容分析

          InfoSphere Streams                InfoSphere BigInsights                                         ECM


                                                                                                          业务分析

                           提升和优化生产效率




                                                                                  Information Server
                                                                                                        Cognos & SPSS

     工作负载管理和优化   配置            工作流      工作时间表           作业跟踪         数据摄入                                   营销

                                                                                                        Unica

        管理        管理工具         配置管理器        事件监控      身份和访问管理        数据保护

                                                                            DTCC2012                   数据增长管理


                                                                                                        InfoSphere Optim
15
IBM big data
                 IBM big data   • IBM big data • IBM big data




                       THINK


                                                                      • IBM big data
• IBM big data
IBM big data




                 IBM big data   • IBM big data • IBM big data
                                                                DTCC2012

Contenu connexe

Tendances

Se shang hai_04_cloudybi
Se shang hai_04_cloudybiSe shang hai_04_cloudybi
Se shang hai_04_cloudybi
Tech2IPO
 
Bigdata bizoppor
Bigdata bizopporBigdata bizoppor
Bigdata bizoppor
Accenture
 

Tendances (20)

Hadoop
HadoopHadoop
Hadoop
 
資料倉儲與採礦技術 大葉大學-詹翔霖
資料倉儲與採礦技術 大葉大學-詹翔霖資料倉儲與採礦技術 大葉大學-詹翔霖
資料倉儲與採礦技術 大葉大學-詹翔霖
 
Se shang hai_04_cloudybi
Se shang hai_04_cloudybiSe shang hai_04_cloudybi
Se shang hai_04_cloudybi
 
数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅
 
揭开数据虚拟化的神秘面纱
揭开数据虚拟化的神秘面纱揭开数据虚拟化的神秘面纱
揭开数据虚拟化的神秘面纱
 
Bigdata bizoppor
Bigdata bizopporBigdata bizoppor
Bigdata bizoppor
 
数据库系统设计漫谈
数据库系统设计漫谈数据库系统设计漫谈
数据库系统设计漫谈
 
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusHow Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
 
Emc keynote 1130 1200
Emc keynote 1130 1200Emc keynote 1130 1200
Emc keynote 1130 1200
 
Silf2012lw3
Silf2012lw3Silf2012lw3
Silf2012lw3
 
博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)
 
医药企业的数字化转型 - 逻辑数据结构策略
医药企业的数字化转型 - 逻辑数据结构策略医药企业的数字化转型 - 逻辑数据结构策略
医药企业的数字化转型 - 逻辑数据结构策略
 
数据挖掘理论与实践
数据挖掘理论与实践数据挖掘理论与实践
数据挖掘理论与实践
 
罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计
 
10708
1070810708
10708
 
Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)
 
2014 年十大商业智能趋势
2014 年十大商业智能趋势2014 年十大商业智能趋势
2014 年十大商业智能趋势
 
Exadata best practice on E-commerce area
Exadata best practice on E-commerce area Exadata best practice on E-commerce area
Exadata best practice on E-commerce area
 
Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享
 
Azure HDInsight 介紹
Azure HDInsight 介紹Azure HDInsight 介紹
Azure HDInsight 介紹
 

Similaire à Dtcc ibm big data platform 2012-final_cn

智慧系統服務研究 永鑫 V2
智慧系統服務研究 永鑫 V2智慧系統服務研究 永鑫 V2
智慧系統服務研究 永鑫 V2
Lawrence Huang
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
Jazz Yao-Tsung Wang
 
05 朱近之 ibm云计算解决方案概览 0611
05 朱近之 ibm云计算解决方案概览 061105 朱近之 ibm云计算解决方案概览 0611
05 朱近之 ibm云计算解决方案概览 0611
ikewu83
 
企业系统商务智能设计
企业系统商务智能设计企业系统商务智能设计
企业系统商务智能设计
George Ang
 
04 陈良忠ibm cloud forum ibm experience 0611
04 陈良忠ibm cloud forum  ibm experience 061104 陈良忠ibm cloud forum  ibm experience 0611
04 陈良忠ibm cloud forum ibm experience 0611
ikewu83
 
民间秘方
民间秘方民间秘方
民间秘方
dynasty
 
Big Data For CIO_大數據白皮書_2015
Big Data For CIO_大數據白皮書_2015Big Data For CIO_大數據白皮書_2015
Big Data For CIO_大數據白皮書_2015
Fang-hsun Yeh
 

Similaire à Dtcc ibm big data platform 2012-final_cn (20)

Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构
 
阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdf阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdf
 
智慧系統服務研究 永鑫 V2
智慧系統服務研究 永鑫 V2智慧系統服務研究 永鑫 V2
智慧系統服務研究 永鑫 V2
 
逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产
 
ESD 2012 Keynote: What Is the next Big Data?
ESD 2012 Keynote: What Is the next Big Data?ESD 2012 Keynote: What Is the next Big Data?
ESD 2012 Keynote: What Is the next Big Data?
 
中間件趨勢 與 Red Hat JBoss
中間件趨勢 與 Red Hat JBoss 中間件趨勢 與 Red Hat JBoss
中間件趨勢 與 Red Hat JBoss
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
Modernising Data Architecture for Data Driven Insights (Chinese)
Modernising Data Architecture for Data Driven Insights (Chinese)Modernising Data Architecture for Data Driven Insights (Chinese)
Modernising Data Architecture for Data Driven Insights (Chinese)
 
05 朱近之 ibm云计算解决方案概览 0611
05 朱近之 ibm云计算解决方案概览 061105 朱近之 ibm云计算解决方案概览 0611
05 朱近之 ibm云计算解决方案概览 0611
 
如何快速实现数据编织架构
如何快速实现数据编织架构如何快速实现数据编织架构
如何快速实现数据编织架构
 
企业系统商务智能设计
企业系统商务智能设计企业系统商务智能设计
企业系统商务智能设计
 
Sybase Analytic Appliance
Sybase Analytic ApplianceSybase Analytic Appliance
Sybase Analytic Appliance
 
04 陈良忠ibm cloud forum ibm experience 0611
04 陈良忠ibm cloud forum  ibm experience 061104 陈良忠ibm cloud forum  ibm experience 0611
04 陈良忠ibm cloud forum ibm experience 0611
 
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
 
数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘
 
民间秘方
民间秘方民间秘方
民间秘方
 
借助Denodo实现数据网格架构和数据共享
借助Denodo实现数据网格架构和数据共享借助Denodo实现数据网格架构和数据共享
借助Denodo实现数据网格架构和数据共享
 
Machine Learning, Big Data, Insights
Machine Learning, Big Data, InsightsMachine Learning, Big Data, Insights
Machine Learning, Big Data, Insights
 
Big Data For CIO_大數據白皮書_2015
Big Data For CIO_大數據白皮書_2015Big Data For CIO_大數據白皮書_2015
Big Data For CIO_大數據白皮書_2015
 

Plus de yp_fangdong

开放云平台数据引擎Cmem
开放云平台数据引擎Cmem开放云平台数据引擎Cmem
开放云平台数据引擎Cmem
yp_fangdong
 
Redis大数据之路 dtcc-唐福林
Redis大数据之路 dtcc-唐福林Redis大数据之路 dtcc-唐福林
Redis大数据之路 dtcc-唐福林
yp_fangdong
 
Hbase在淘宝的应用与优化 修改
Hbase在淘宝的应用与优化 修改Hbase在淘宝的应用与优化 修改
Hbase在淘宝的应用与优化 修改
yp_fangdong
 
百度分布式数据实践与进展
百度分布式数据实践与进展百度分布式数据实践与进展
百度分布式数据实践与进展
yp_fangdong
 
百度数据库中间层
百度数据库中间层百度数据库中间层
百度数据库中间层
yp_fangdong
 
Taobao数据库这5年
Taobao数据库这5年Taobao数据库这5年
Taobao数据库这5年
yp_fangdong
 

Plus de yp_fangdong (6)

开放云平台数据引擎Cmem
开放云平台数据引擎Cmem开放云平台数据引擎Cmem
开放云平台数据引擎Cmem
 
Redis大数据之路 dtcc-唐福林
Redis大数据之路 dtcc-唐福林Redis大数据之路 dtcc-唐福林
Redis大数据之路 dtcc-唐福林
 
Hbase在淘宝的应用与优化 修改
Hbase在淘宝的应用与优化 修改Hbase在淘宝的应用与优化 修改
Hbase在淘宝的应用与优化 修改
 
百度分布式数据实践与进展
百度分布式数据实践与进展百度分布式数据实践与进展
百度分布式数据实践与进展
 
百度数据库中间层
百度数据库中间层百度数据库中间层
百度数据库中间层
 
Taobao数据库这5年
Taobao数据库这5年Taobao数据库这5年
Taobao数据库这5年
 

Dtcc ibm big data platform 2012-final_cn

  • 1. IBM Big Data Platform 王云 IBM院士 中国研究院首席技术官 DTCC2012
  • 2. 信息是新一轮机遇中的核心… 企业需要更深入的 远见卓识 未来的10 44倍 2020 年里,数 据和内容 将增长 35 zettabytes 1 in 3 商界领袖经常需要以不信任的 或不存在信息为基础进行决策 1 in 2 商界领袖无法获取做好本职 工作所需要的信息 CIO们提到的“商业智能和分析” 83% 2009 800,000 petabytes 80% 的数据是非结构化的 作为有远见计划的一部分来提高 竞争力 CEO们需要更迅速捕获和了解信息, 60% 以便迅速作出业务决策来做取得更 好的工作成绩 DTCC2012 2
  • 3. 群体和个体之间交互沟通的方式发生了 翻天覆地的变换由此带来的信息量的巨增 + + = A brand new game Consumers become increasingly instrumented Consumers become increasingly interconnected Consumers become increasingly intelligent DTCC2012 IBM Institute for Business Value CMO Study 3 2011
  • 4. Big Data 的机遇 从巨大、以无与伦比的速度增长和多样化的数据中 提取远见卓识,而这些是以前无法做到的 DTCC2012 4
  • 5. The IBM Big Data Platform DTCC2012 5
  • 6. Big Data 平台能够做什么事情? 分析多样化的信息 基于大范围混合信息的上下文分析,而这种分析 此前根本不能执行 分析流动中的信息 流数据分析 针对数据爆炸和ad-hoc模式的分析 分析极端大量的数据 成本最优化地处理和分析PB量级的信息 管理、分析大容量的结构化和关系型数据 发掘和探索 Ad-hoc模式的分析、数据发现和验证 计划和管控 DTCC2012 加强数据结构的完整性和控制,以确保可重复查询的 一致性 6
  • 7. Big Data 丰富了整个信息管理生态系统 优化归档成本 通过生活事件、爱好和角色等等使主 数据变得更加丰富 建立信息即服务 审计路线图精减 了工作和任务 优化OLTP 谁?在什么时候?什 (SAP, checkout, +++) 么地方?动用了什么 样的数据? 管理治理过程 DTCC2012 7
  • 8. 互为补充的分析能力 传统的做法 新的路径 结构化,可分析,逻辑性 创造性, 整体思维, 知觉 Hadoop 数据仓库 Streams 事务数据 Web 日志 来自内部应用的数据 结构化 Structured 非结构化 社交网络中的数据 Unstructured Repeatable Exploratory 来自主机的数据 可重复 Linear 企业集成 探索性 Iterative 文本数据: emails 线性的 Monthly sales reports Profitability analysis 迭代的 strategy Brand sentiment Product OLTP 系统中的数据 surveys Customer Maximum asset utilization 影像 来自传感器的数据: 来自ERP的数据 传统数据源 RFID 新数据源 DTCC2012 8
  • 9. Streams 和 BigInsights – 沉淀的数据和流动数据的无缝集成 可视化的实时和历史 的见解 数据集成,数据挖 掘,机器学习,统 计建模 InfoSphere Streams 1. 数据注入 Data InfoSphere 2. 数据反馈 BigInsights, Database & Control Warehouse 数据采集,​ 备, 准 ​ flow 在线分析,模型 验证 3. 自适应分析模型 DTCC2012 9
  • 10. InfoSphere BigInsights Platform for volume, variety, velocity -- V3  增强的Hadoop方案 Analytics for V3  文本分析的工具箱  机器学习与预测分析 Usability  Web console  集成安装  可视化工具  大数据分析的apps,如apps Store Enterprise Class  企业存储,安全,集群管理 Integration  与DB2,Netezza, JDBC数 据的互联互通 DTCC2012 10
  • 11. 流数据分析 分析和关联500万市场消息/秒, 以500K/秒的速度,每天分析 以30微秒的平均延迟执行算法期权 6B+ IPDRs,每年分析 4 PBs. 交易。 sustaining 1GBps. Consider: 数据不用存储, 不用遵循信息生命周期管理,极大量 的节省存储等资源消耗 height: height: height: 640 1280 640 width: width: width: 480 1024 480 data: data: DTCC2012 data: 11
  • 12. IBM Watson IBM Watson 是在分析创新 方面的一项重大突破,但它之 所以取得成功,完全得益于它 处理的信息的速度和质量。 InfoSphere Streams Massively parallel analysis InfoSphere BigInsights 12 “Big Data” analysis (Hadoop) DTCC2012 12
  • 13. 基于BigData 平台的预测分析 tokens documents topics documents words topics V ≈ W x H while (i < max iteration) { H = H ∗ (WT V / WTWH); W = W ∗ (V HT / WHHT ); } i = i + 1;DTCC2012 13
  • 14. 各个行业BigData 应用的适用范围和场景 Smarter Healthcare Multi-channel Finance Log Analysis sales Homeland Security Traffic Control Telecom Search Quality Manufacturing Trading Analytics Fraud and Risk Retail: Churn, NBO DTCC2012 14
  • 15. IBM Big Data Solutions 客户和合作伙伴方案 规则 / 业务流程管理 iLog & Lombardi 数据仓库 Big Data 加速器 InfoSphere Warehouse 文本 统计数据 财经 地理信息 音频信息 数据仓库一体机 影像/视频 挖掘 时间序列 数学信息 IBM & non-IBM 连接器 应用 蓝图 主数据管理 INTEGRATION InfoSphere MDM Big Data 企业引擎 数据库 DB2 & non-IBM 内容分析 InfoSphere Streams InfoSphere BigInsights ECM 业务分析 提升和优化生产效率 Information Server Cognos & SPSS 工作负载管理和优化 配置 工作流 工作时间表 作业跟踪 数据摄入 营销 Unica 管理 管理工具 配置管理器 事件监控 身份和访问管理 数据保护 DTCC2012 数据增长管理 InfoSphere Optim 15
  • 16. IBM big data IBM big data • IBM big data • IBM big data THINK • IBM big data • IBM big data IBM big data IBM big data • IBM big data • IBM big data DTCC2012