SlideShare a Scribd company logo
1 of 24
Download to read offline
盛大游戏
运维体系
Agenda



         盛大游戏运维体系综述

           分子系统介绍

         游戏运维体系未来展望
Agenda



         盛大游戏运维体系综述

          分子系统介绍

         游戏运维体系展望
盛大游戏运维体系发展历程


                  可管理

       可控制
                 为了更好支持快速发展的业务,运维工作必须朝着规范
                 化、标准化、可管理的方向发展,08年起盛大也逐步引
                 入ITIL、安全标准等理念,打造盛大模式的运维体系
可操作
          随着自动化体系日益丰富,盛大开始建立报警和监控
          系统,快速准确地发现和定位故障,提高运维稳定性


  自2004年开始,随着服务器数量的快速增长,盛大着手建立
  游戏远程操作平台,使运维逐渐摆脱依赖人海战术的模式,
  提高生产效率
盛大游戏运维体系-四大主要部分


   • 服务器虚拟化                  • 盛大监控服务体
   • Octopod                   系
   • Autopatch
   • Uniweb
   • 等等
                 自动化   自动化
                  管理    监控


                 流程管   安全管
                  理     理
   • 事件管理                    • 安全审计
   • 问题管理&知识库                • 应用安全
   • 变更管理                    • 系统安全
   • 配置管理                    • 网络安全
Agenda



         盛大游戏运维体系综述

           分子系统介绍

         游戏运维体系未来展望
服务器远程操作平台--Octopod

                                                      自动化   自动化
 Octopod是盛大自主研发的服务器远                                  管理    监控



  程管理系统,系统管理员无需再服                                     流程管
                                                       理
                                                            安全管
                                                             理


  务器现场即可完成所有操作。

                       Octopod Server
                                                      远
                                                      程
  用户管理   信息管理   操作管理    补丁管理            日志管理   游戏管理
                                                      桌
                                                      面
  基础框架


                           Octopod Client
  通讯层
  基础层
服务器虚拟化软件系统

盛大积极倡导虚拟化技术的运用:        自动化   自动化
                       管理    监控

• 虚拟化软件采用了盛大自主研发的虚拟化
                       流程管   安全管
  操作系统                  理     理



• 虚拟化管理系统和盛大的服务器管理系统
  进行无缝的整合
服务器虚拟化软件系统

盛大自2007年起建设和推广服务器虚拟化软件系统,
实现了以下目标:
       •可将目前一主流台服务器虚拟成独立的多台不等的服务
  高效   器
       •极大地提高了服务器的部署效率



  节地
       •大量节约服务器数量;
       •大量节约机柜数量


  节能
       •大量节约电力
盛大游戏客户端补丁自动更新系统

盛大游戏客户端补丁自动更新系统可实现用户                                            自动化
                                                                管理
                                                                      自动化
                                                                      监控

 管理、版本管理、补丁上传下发及校验等                                             流程管   安全管

 功能。                                                             理     理




                                       ……………
                                                               DLC前台服务器组

                         传奇世界   冒险岛                   彩虹岛
                         英雄年代   泡泡堂                  热血传奇




                  任务信息                          备份             DLC后台服务器组


                                      Master           Slave
 管理系统




        Patch文件

                                               ……………           Autopatch服务器组


 SVN
盛大业务运维监控体系

盛大业务运维监控体系有针对性地对所有可                 自动化   自动化

 能影响游戏运营的因素进行全方位的监控                 管理    监控


 和数据采集、分析,目前能展示10万多条                流程管
                                     理
                                          安全管
                                           理
 再现人数和性能曲线,监控覆盖率达
 100%,报警有效率达70%以上。
        •游戏客户端质量监控
                      游戏客户端

      •游戏服务器端程序监控
                     游戏服务器端应用   游
     •系统日志的收集和分析
                                戏
                                人
                      系统程序      数
   •游戏服务器健康检查                   监
   和性能监控
   •网络设备和流量监控                   控
                     服务器、网络设备
                        硬件
   •IDC网络质量监控
   •IDC机房连通性监控
                      机房、链路
盛大业务运维监控体系


盛大业务运维监控体系的监控范围包括:
  游戏在线人数监控;
  游戏服务器端程序监控;
  游戏服务器健康检查和性能监控;
  系统日志的收集和分析;
  网络设备和流量监控;
  IDC网络质量监控;
  IDC机房连通性监控;
  其他专项业务监控
盛大业务运维监控体系

盛大业务运维监控体系的系统特点如下:
  从客户端到服务器端的完整覆盖;
  支持统一的监控策略配置和完整性检查;
  丰富的监控曲线展示界面;
  海量报警信息的有效关联和过滤;
  与ITIL事件管理紧密结合,报警自动转化为应急响
   应工作平台的事件单
  7*24小时处理。

      玩家            玩家



      玩家             玩家
运维安全体系
                                     自动化   自动化
                                     管理    监控


                                     流程管   安全管
               安全审计                   理     理



 内部用户登录审计、外部用户权限审计、内部用户操作行为审计


  应用安全          系统安全      网络安全

 •Web漏洞扫描      •补丁分发管理
 •Webshell监控   •主机访问控制   •ARP攻击测试
 •渗透性测试        •病毒扫描     •DDOS攻击防御
 •Web代码审计      •漏洞跟踪     •网络访问控制
                         •网络流量分析
运维安全-网络安全

网络安全     ARP攻击检测    DDOS攻击防御    网络访问控制     网络流量分析


 ARP攻击监控       DDOS攻击          网络访问      网络流量分析
    报警             防御           控制
 • 自研开发每3     • 千兆级抗       • 防火墙实现       • 基于Netflow自
   分钟检测一        DDOS设备                     研开发
   次            +ACL过滤常见   • 交换机ACL实     • 实施完成后通
                攻击           现             过快速分析异
                                           常流量
 • 发现攻击及      • 旁路式全局                    • 迅速定位攻击
   时上报至应        DDOS流量清                    类型及时响应
   急响应平台        洗
运维安全体系-系统安全

系统安全     补丁分发管理       主机访问控制       病毒扫描    漏洞跟踪与预警



  补丁管理        主机访问控制            病毒扫描        漏洞跟踪
• 基于Octopod   • Uinx/Linux采用   • 统一的病毒库   • 跟踪国外安全
                iptables实施控      升级策略       机构最新漏洞
• 万台服务器补        制
  丁快速分发安                       • 统一的全网病   • 跟踪黑客群体
  装与检查        • Windows采用        扫描策略       最新动向
                ipsec实施控制
                               • 统一的事件上   • 跟踪最新0day
                                 报应急响应平
                                 台策略      • 及时预警采取
                                            应对方案
运维安全体系-应用安全

应用安全   Web漏洞扫描   Webshell监控   渗透性测试   web代码审计



 Web漏洞扫描   Webshell监控         渗透性测试     网站代码审计

• 发现和消除网   • 自研开发,对       • 定期对内部系     • 通过网站上
  站安全漏洞      公司网站每小         统进行安全性       线前的代码
             时扫描一次          测试           检查机制
• 自动化工具定                  • 查找权限问题
  期扫描      • 统一的网站检       • SQL注入      • 及时处理网
             测策略          • 跨站脚本         站存在安全
                                         漏洞
           • 检测报警上报       • 及时修补安全
             应急响应平台         问题
运维安全体系-安全审计

 安全审计   内部用户登录审计   内部用户权限审计   内部用户操作行为审计



   登录审计            权限审计          操作行为审计

• 实现对服务器登录日    • 实现对用户访问服务    • 实现对windows图形
  志的审计           器权限的审计         环境屏幕录像审计
                              • 实现对Octopod操作
• 实现内部应用系统登    • 实现对用户访问内部      日志的审计
  录日志的审计         应用系统的审计      • 实现内部应用系统操
                                作行为的审计
• 审计登录中存在的异    • 审计出不合理的权限
  常的行为         • 消除安全隐患       • 审计异常和违规的操
                                作行为
运维服务管理体系
                                     自动化   自动化
随着系统、技术的日益复杂,维护水平要求的                 管理    监控


逐步提高,盛大运维团队借鉴业界最佳实践                  流程管
                                      理
                                           安全管
                                            理
ITIL的理念,从人员、流程、技术等各方面着
手,逐步提升管理能力,以有限的人力支持不
断扩展的游戏数量。

  调整组织结构,以适应业
  务和流程的需求,并实现
     量化考核

                    人员        以服务导向取代技
                                 术导向
 通过合适的技术,固化流
 程,以及提升自动化程度        服务
                              参考业界最佳实践,
                               建设规范化流程
               技术        流程
运维服务管理体系
 借鉴ITIL等业界最佳时间,技术保障中心开发实施了事件管理、问题管理、
变更管理、配置管理等流程,通过一系列平台的推广使用,配合相应管理制度、
流程的推行,使得所提供的服务日趋稳定和成熟。
 配合建立的知识库,提供了经验、技能的沉淀模式,有助于人员的培养。


                                                                  IT服务管理体系
                                                                              变更请求



                                                           报警事件   A Group    A Group 变更请求 Group
                                                                                         A
   Service Continuity Management   Information Lifecycle
                                       Management
                                                                   事件管理        问题管理        变更管理


      监控体系



                                                                             设备管理平台/          知识库
                                                            数据采集/校验          配置管理数据库
Agenda



         盛大游戏运维体系综述

           分子系统介绍

         游戏运维体系未来展望
盛大游戏运维体系框架—建设愿景
盛大游戏运维体系框架—建设重点

持续发展体系框架下的各模块:
运维自动化
   服务器自动安装
   服务器虚拟化推广
   系统软件自动安装
   应用软件自动安装和版本管理
   客户端补丁自动更新
监控自动化
  全景监控策略配置和监控展示
流程管理
  服务导向为核心,建设服务保障
  平台
THANK YOU

More Related Content

What's hot

分会场九Windows 7迁移最佳实践
分会场九Windows 7迁移最佳实践分会场九Windows 7迁移最佳实践
分会场九Windows 7迁移最佳实践ITband
 
06.wls ts
06.wls ts06.wls ts
06.wls tsMeng He
 
議題三:政府網站常見弱點與分析
議題三:政府網站常見弱點與分析議題三:政府網站常見弱點與分析
議題三:政府網站常見弱點與分析Nicolas su
 
百度 fuye
百度 fuye百度 fuye
百度 fuyedachmx
 
工业网络安全风险可视化探讨
工业网络安全风险可视化探讨工业网络安全风险可视化探讨
工业网络安全风险可视化探讨Onward Security
 
Bmc+agent介绍
Bmc+agent介绍Bmc+agent介绍
Bmc+agent介绍fm2008
 
使安全成為軟體開發必要部分
使安全成為軟體開發必要部分使安全成為軟體開發必要部分
使安全成為軟體開發必要部分Taien Wang
 
分会场四It 治理、风险管理和法规遵从的一种整体实现方案
分会场四It 治理、风险管理和法规遵从的一种整体实现方案分会场四It 治理、风险管理和法规遵从的一种整体实现方案
分会场四It 治理、风险管理和法规遵从的一种整体实现方案ITband
 

What's hot (8)

分会场九Windows 7迁移最佳实践
分会场九Windows 7迁移最佳实践分会场九Windows 7迁移最佳实践
分会场九Windows 7迁移最佳实践
 
06.wls ts
06.wls ts06.wls ts
06.wls ts
 
議題三:政府網站常見弱點與分析
議題三:政府網站常見弱點與分析議題三:政府網站常見弱點與分析
議題三:政府網站常見弱點與分析
 
百度 fuye
百度 fuye百度 fuye
百度 fuye
 
工业网络安全风险可视化探讨
工业网络安全风险可视化探讨工业网络安全风险可视化探讨
工业网络安全风险可视化探讨
 
Bmc+agent介绍
Bmc+agent介绍Bmc+agent介绍
Bmc+agent介绍
 
使安全成為軟體開發必要部分
使安全成為軟體開發必要部分使安全成為軟體開發必要部分
使安全成為軟體開發必要部分
 
分会场四It 治理、风险管理和法规遵从的一种整体实现方案
分会场四It 治理、风险管理和法规遵从的一种整体实现方案分会场四It 治理、风险管理和法规遵从的一种整体实现方案
分会场四It 治理、风险管理和法规遵从的一种整体实现方案
 

Viewers also liked

盛大游戏运维体系
盛大游戏运维体系盛大游戏运维体系
盛大游戏运维体系Ken Liu
 
阿里巴巴运维自动化的探索与规划
阿里巴巴运维自动化的探索与规划阿里巴巴运维自动化的探索与规划
阿里巴巴运维自动化的探索与规划mysqlops
 
基于Python构建可扩展的自动化运维平台
基于Python构建可扩展的自动化运维平台基于Python构建可扩展的自动化运维平台
基于Python构建可扩展的自动化运维平台liuts
 
Learn BEM: CSS Naming Convention
Learn BEM: CSS Naming ConventionLearn BEM: CSS Naming Convention
Learn BEM: CSS Naming ConventionIn a Rocket
 
How to Build a Dynamic Social Media Plan
How to Build a Dynamic Social Media PlanHow to Build a Dynamic Social Media Plan
How to Build a Dynamic Social Media PlanPost Planner
 
SEO: Getting Personal
SEO: Getting PersonalSEO: Getting Personal
SEO: Getting PersonalKirsty Hulse
 

Viewers also liked (7)

盛大游戏运维体系
盛大游戏运维体系盛大游戏运维体系
盛大游戏运维体系
 
阿里巴巴运维自动化的探索与规划
阿里巴巴运维自动化的探索与规划阿里巴巴运维自动化的探索与规划
阿里巴巴运维自动化的探索与规划
 
基于Python构建可扩展的自动化运维平台
基于Python构建可扩展的自动化运维平台基于Python构建可扩展的自动化运维平台
基于Python构建可扩展的自动化运维平台
 
Learn BEM: CSS Naming Convention
Learn BEM: CSS Naming ConventionLearn BEM: CSS Naming Convention
Learn BEM: CSS Naming Convention
 
How to Build a Dynamic Social Media Plan
How to Build a Dynamic Social Media PlanHow to Build a Dynamic Social Media Plan
How to Build a Dynamic Social Media Plan
 
SEO: Getting Personal
SEO: Getting PersonalSEO: Getting Personal
SEO: Getting Personal
 
Succession “Losers”: What Happens to Executives Passed Over for the CEO Job?
Succession “Losers”: What Happens to Executives Passed Over for the CEO Job? Succession “Losers”: What Happens to Executives Passed Over for the CEO Job?
Succession “Losers”: What Happens to Executives Passed Over for the CEO Job?
 

Similar to 盛大游戏运维体系

baidu fuye
baidu fuyebaidu fuye
baidu fuyedachmx
 
阿里巴巴 肖劲青 阿里巴巴运维自动化的探索与规划
阿里巴巴 肖劲青 阿里巴巴运维自动化的探索与规划阿里巴巴 肖劲青 阿里巴巴运维自动化的探索与规划
阿里巴巴 肖劲青 阿里巴巴运维自动化的探索与规划colderboy17
 
阿里云 张旭 集群运维管理平台
阿里云 张旭 集群运维管理平台阿里云 张旭 集群运维管理平台
阿里云 张旭 集群运维管理平台guiyingshenxia
 
集群运维管理平台
集群运维管理平台集群运维管理平台
集群运维管理平台mysqlops
 
6.web 安全架构浅谈
6.web 安全架构浅谈6.web 安全架构浅谈
6.web 安全架构浅谈Hsiao Tim
 
未来网络技术发展探梦 - 开篇
未来网络技术发展探梦 - 开篇未来网络技术发展探梦 - 开篇
未来网络技术发展探梦 - 开篇Yao-Wei Ou
 
中大型规模的网站架构运维 Saac
中大型规模的网站架构运维 Saac中大型规模的网站架构运维 Saac
中大型规模的网站架构运维 SaacChao Zhu
 
Top100summit 互联网发布与实验体系建设
Top100summit 互联网发布与实验体系建设 Top100summit 互联网发布与实验体系建设
Top100summit 互联网发布与实验体系建设 drewz lin
 
Brochure ahn lab trusguard utm
Brochure ahn lab trusguard utmBrochure ahn lab trusguard utm
Brochure ahn lab trusguard utmahnlabchina
 
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境drewz lin
 
Internet System Security Overview
Internet System Security OverviewInternet System Security Overview
Internet System Security OverviewChinaNetCloud
 
智能车软件设计浅谈 清华-张天雷-上传版本
智能车软件设计浅谈 清华-张天雷-上传版本智能车软件设计浅谈 清华-张天雷-上传版本
智能车软件设计浅谈 清华-张天雷-上传版本ztl2004
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验guiyingshenxia
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验colderboy17
 
分会场二赛门铁克灾备系统项目经验分享
分会场二赛门铁克灾备系统项目经验分享分会场二赛门铁克灾备系统项目经验分享
分会场二赛门铁克灾备系统项目经验分享ITband
 
Network security reesjohnson
Network security reesjohnsonNetwork security reesjohnson
Network security reesjohnsonITband
 
云计算与开源 刘黎明 世纪互联
云计算与开源  刘黎明  世纪互联云计算与开源  刘黎明  世纪互联
云计算与开源 刘黎明 世纪互联Liming Liu
 
Heat在企业中的应用实践
Heat在企业中的应用实践Heat在企业中的应用实践
Heat在企业中的应用实践xuanlangjian
 

Similar to 盛大游戏运维体系 (20)

baidu fuye
baidu fuyebaidu fuye
baidu fuye
 
Mocha Bsm
Mocha BsmMocha Bsm
Mocha Bsm
 
阿里巴巴 肖劲青 阿里巴巴运维自动化的探索与规划
阿里巴巴 肖劲青 阿里巴巴运维自动化的探索与规划阿里巴巴 肖劲青 阿里巴巴运维自动化的探索与规划
阿里巴巴 肖劲青 阿里巴巴运维自动化的探索与规划
 
阿里云 张旭 集群运维管理平台
阿里云 张旭 集群运维管理平台阿里云 张旭 集群运维管理平台
阿里云 张旭 集群运维管理平台
 
集群运维管理平台
集群运维管理平台集群运维管理平台
集群运维管理平台
 
6.web 安全架构浅谈
6.web 安全架构浅谈6.web 安全架构浅谈
6.web 安全架构浅谈
 
未来网络技术发展探梦 - 开篇
未来网络技术发展探梦 - 开篇未来网络技术发展探梦 - 开篇
未来网络技术发展探梦 - 开篇
 
中大型规模的网站架构运维 Saac
中大型规模的网站架构运维 Saac中大型规模的网站架构运维 Saac
中大型规模的网站架构运维 Saac
 
Top100summit 互联网发布与实验体系建设
Top100summit 互联网发布与实验体系建设 Top100summit 互联网发布与实验体系建设
Top100summit 互联网发布与实验体系建设
 
SWsoft_Prim@Telecom
SWsoft_Prim@TelecomSWsoft_Prim@Telecom
SWsoft_Prim@Telecom
 
Brochure ahn lab trusguard utm
Brochure ahn lab trusguard utmBrochure ahn lab trusguard utm
Brochure ahn lab trusguard utm
 
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
 
Internet System Security Overview
Internet System Security OverviewInternet System Security Overview
Internet System Security Overview
 
智能车软件设计浅谈 清华-张天雷-上传版本
智能车软件设计浅谈 清华-张天雷-上传版本智能车软件设计浅谈 清华-张天雷-上传版本
智能车软件设计浅谈 清华-张天雷-上传版本
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
 
分会场二赛门铁克灾备系统项目经验分享
分会场二赛门铁克灾备系统项目经验分享分会场二赛门铁克灾备系统项目经验分享
分会场二赛门铁克灾备系统项目经验分享
 
Network security reesjohnson
Network security reesjohnsonNetwork security reesjohnson
Network security reesjohnson
 
云计算与开源 刘黎明 世纪互联
云计算与开源  刘黎明  世纪互联云计算与开源  刘黎明  世纪互联
云计算与开源 刘黎明 世纪互联
 
Heat在企业中的应用实践
Heat在企业中的应用实践Heat在企业中的应用实践
Heat在企业中的应用实践
 

盛大游戏运维体系

  • 2. Agenda 盛大游戏运维体系综述 分子系统介绍 游戏运维体系未来展望
  • 3. Agenda 盛大游戏运维体系综述 分子系统介绍 游戏运维体系展望
  • 4. 盛大游戏运维体系发展历程 可管理 可控制 为了更好支持快速发展的业务,运维工作必须朝着规范 化、标准化、可管理的方向发展,08年起盛大也逐步引 入ITIL、安全标准等理念,打造盛大模式的运维体系 可操作 随着自动化体系日益丰富,盛大开始建立报警和监控 系统,快速准确地发现和定位故障,提高运维稳定性 自2004年开始,随着服务器数量的快速增长,盛大着手建立 游戏远程操作平台,使运维逐渐摆脱依赖人海战术的模式, 提高生产效率
  • 5. 盛大游戏运维体系-四大主要部分 • 服务器虚拟化 • 盛大监控服务体 • Octopod 系 • Autopatch • Uniweb • 等等 自动化 自动化 管理 监控 流程管 安全管 理 理 • 事件管理 • 安全审计 • 问题管理&知识库 • 应用安全 • 变更管理 • 系统安全 • 配置管理 • 网络安全
  • 6. Agenda 盛大游戏运维体系综述 分子系统介绍 游戏运维体系未来展望
  • 7. 服务器远程操作平台--Octopod 自动化 自动化 Octopod是盛大自主研发的服务器远 管理 监控 程管理系统,系统管理员无需再服 流程管 理 安全管 理 务器现场即可完成所有操作。 Octopod Server 远 程 用户管理 信息管理 操作管理 补丁管理 日志管理 游戏管理 桌 面 基础框架 Octopod Client 通讯层 基础层
  • 8. 服务器虚拟化软件系统 盛大积极倡导虚拟化技术的运用: 自动化 自动化 管理 监控 • 虚拟化软件采用了盛大自主研发的虚拟化 流程管 安全管 操作系统 理 理 • 虚拟化管理系统和盛大的服务器管理系统 进行无缝的整合
  • 9. 服务器虚拟化软件系统 盛大自2007年起建设和推广服务器虚拟化软件系统, 实现了以下目标: •可将目前一主流台服务器虚拟成独立的多台不等的服务 高效 器 •极大地提高了服务器的部署效率 节地 •大量节约服务器数量; •大量节约机柜数量 节能 •大量节约电力
  • 10. 盛大游戏客户端补丁自动更新系统 盛大游戏客户端补丁自动更新系统可实现用户 自动化 管理 自动化 监控 管理、版本管理、补丁上传下发及校验等 流程管 安全管 功能。 理 理 …………… DLC前台服务器组 传奇世界 冒险岛 彩虹岛 英雄年代 泡泡堂 热血传奇 任务信息 备份 DLC后台服务器组 Master Slave 管理系统 Patch文件 …………… Autopatch服务器组 SVN
  • 11. 盛大业务运维监控体系 盛大业务运维监控体系有针对性地对所有可 自动化 自动化 能影响游戏运营的因素进行全方位的监控 管理 监控 和数据采集、分析,目前能展示10万多条 流程管 理 安全管 理 再现人数和性能曲线,监控覆盖率达 100%,报警有效率达70%以上。 •游戏客户端质量监控 游戏客户端 •游戏服务器端程序监控 游戏服务器端应用 游 •系统日志的收集和分析 戏 人 系统程序 数 •游戏服务器健康检查 监 和性能监控 •网络设备和流量监控 控 服务器、网络设备 硬件 •IDC网络质量监控 •IDC机房连通性监控 机房、链路
  • 12. 盛大业务运维监控体系 盛大业务运维监控体系的监控范围包括:  游戏在线人数监控;  游戏服务器端程序监控;  游戏服务器健康检查和性能监控;  系统日志的收集和分析;  网络设备和流量监控;  IDC网络质量监控;  IDC机房连通性监控;  其他专项业务监控
  • 13. 盛大业务运维监控体系 盛大业务运维监控体系的系统特点如下: 从客户端到服务器端的完整覆盖; 支持统一的监控策略配置和完整性检查; 丰富的监控曲线展示界面; 海量报警信息的有效关联和过滤; 与ITIL事件管理紧密结合,报警自动转化为应急响 应工作平台的事件单 7*24小时处理。 玩家 玩家 玩家 玩家
  • 14. 运维安全体系 自动化 自动化 管理 监控 流程管 安全管 安全审计 理 理 内部用户登录审计、外部用户权限审计、内部用户操作行为审计 应用安全 系统安全 网络安全 •Web漏洞扫描 •补丁分发管理 •Webshell监控 •主机访问控制 •ARP攻击测试 •渗透性测试 •病毒扫描 •DDOS攻击防御 •Web代码审计 •漏洞跟踪 •网络访问控制 •网络流量分析
  • 15. 运维安全-网络安全 网络安全 ARP攻击检测 DDOS攻击防御 网络访问控制 网络流量分析 ARP攻击监控 DDOS攻击 网络访问 网络流量分析 报警 防御 控制 • 自研开发每3 • 千兆级抗 • 防火墙实现 • 基于Netflow自 分钟检测一 DDOS设备 研开发 次 +ACL过滤常见 • 交换机ACL实 • 实施完成后通 攻击 现 过快速分析异 常流量 • 发现攻击及 • 旁路式全局 • 迅速定位攻击 时上报至应 DDOS流量清 类型及时响应 急响应平台 洗
  • 16. 运维安全体系-系统安全 系统安全 补丁分发管理 主机访问控制 病毒扫描 漏洞跟踪与预警 补丁管理 主机访问控制 病毒扫描 漏洞跟踪 • 基于Octopod • Uinx/Linux采用 • 统一的病毒库 • 跟踪国外安全 iptables实施控 升级策略 机构最新漏洞 • 万台服务器补 制 丁快速分发安 • 统一的全网病 • 跟踪黑客群体 装与检查 • Windows采用 扫描策略 最新动向 ipsec实施控制 • 统一的事件上 • 跟踪最新0day 报应急响应平 台策略 • 及时预警采取 应对方案
  • 17. 运维安全体系-应用安全 应用安全 Web漏洞扫描 Webshell监控 渗透性测试 web代码审计 Web漏洞扫描 Webshell监控 渗透性测试 网站代码审计 • 发现和消除网 • 自研开发,对 • 定期对内部系 • 通过网站上 站安全漏洞 公司网站每小 统进行安全性 线前的代码 时扫描一次 测试 检查机制 • 自动化工具定 • 查找权限问题 期扫描 • 统一的网站检 • SQL注入 • 及时处理网 测策略 • 跨站脚本 站存在安全 漏洞 • 检测报警上报 • 及时修补安全 应急响应平台 问题
  • 18. 运维安全体系-安全审计 安全审计 内部用户登录审计 内部用户权限审计 内部用户操作行为审计 登录审计 权限审计 操作行为审计 • 实现对服务器登录日 • 实现对用户访问服务 • 实现对windows图形 志的审计 器权限的审计 环境屏幕录像审计 • 实现对Octopod操作 • 实现内部应用系统登 • 实现对用户访问内部 日志的审计 录日志的审计 应用系统的审计 • 实现内部应用系统操 作行为的审计 • 审计登录中存在的异 • 审计出不合理的权限 常的行为 • 消除安全隐患 • 审计异常和违规的操 作行为
  • 19. 运维服务管理体系 自动化 自动化 随着系统、技术的日益复杂,维护水平要求的 管理 监控 逐步提高,盛大运维团队借鉴业界最佳实践 流程管 理 安全管 理 ITIL的理念,从人员、流程、技术等各方面着 手,逐步提升管理能力,以有限的人力支持不 断扩展的游戏数量。 调整组织结构,以适应业 务和流程的需求,并实现 量化考核 人员 以服务导向取代技 术导向 通过合适的技术,固化流 程,以及提升自动化程度 服务 参考业界最佳实践, 建设规范化流程 技术 流程
  • 20. 运维服务管理体系  借鉴ITIL等业界最佳时间,技术保障中心开发实施了事件管理、问题管理、 变更管理、配置管理等流程,通过一系列平台的推广使用,配合相应管理制度、 流程的推行,使得所提供的服务日趋稳定和成熟。  配合建立的知识库,提供了经验、技能的沉淀模式,有助于人员的培养。 IT服务管理体系 变更请求 报警事件 A Group A Group 变更请求 Group A Service Continuity Management Information Lifecycle Management 事件管理 问题管理 变更管理 监控体系 设备管理平台/ 知识库 数据采集/校验 配置管理数据库
  • 21. Agenda 盛大游戏运维体系综述 分子系统介绍 游戏运维体系未来展望
  • 23. 盛大游戏运维体系框架—建设重点 持续发展体系框架下的各模块: 运维自动化  服务器自动安装  服务器虚拟化推广  系统软件自动安装  应用软件自动安装和版本管理  客户端补丁自动更新 监控自动化 全景监控策略配置和监控展示 流程管理 服务导向为核心,建设服务保障 平台