网易游戏系统运维专家黄文宇-云时代下游戏运维

2020-02-27 505浏览

  • 1.G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 2.- G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 3.about me • 网易游戏2005-2016 • 天下、天谕、CC、UU • 乱斗西游、天下手游、率土之滨 • 游戏运维自动化平台负责人 • MongoDB SaaS Team Leader G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 4.Rules of Engagement • 本次分享专注公有云架设游戏业务 • 默认各位已经熟悉主流公有云概念 • 介绍的方案有可能因进度原因尚未上线,但都经过线下验证 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 5.网易游戏在云端 • 触云两年 • 多个云服务商及自建私有云都有涉及 • 在全球各地大约构建了20+游戏 • 对云处于又爱又恨的阶段 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 6.OutLine 资源调度 可用性 一体化维护 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 7.云之初印象 • 即开即有,立等可取 • 合理选择实例,资源利用率上升 • 计算、存储、网络分离,资源快速调整 • 无维护成本 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 8.Can we do better? G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 9.公有云优势 • 开一千台实例算一小时与开一百台算10小时的价格是一样的 • 开着要钱,关掉不要钱 • 以小时为单位的精细资源管理变得有意义 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 10.忙时与闲时 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 11.无包年: 1 x 24 + 1 x 18 + 1 x 12 + 2 x 8 + 1 x 4 = 74h 6 x 24 = 144 h 节约比例:1 - (74 / 144 )= 49% 包年: (1 x 24 + 1 x 18)x 0.6 + 1 x 12 + 2 x 8 + 1 x 4 = 57.2 6 x 24 * 0.6 = 86.4 节约比例:1 - (57.2 / 86.4)= 34% 按需实例随时关闭,不产生费用 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 12.自动动态调整过程 监控在线人数
 触发调整 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 13.自动动态调整要点 • 注意价格的差异 • 业务模式支持 • 各类系统需要通过API打通 • 自动化过程的严格监控 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 14.广告效果vs真实效果 99.95% G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 15.可用性的困扰 • 虚拟机一般标称 99.95% • 游戏架构特殊,基本无法复用常见的SaaS业务 • 可用性随集群的扩大呈指数下降 • 不可抗力的维护 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 16.如何提高可用性? • 云的本质可以认为是在一堆硬件资源上构架一套软件 • 硬件-99.99% • 软件-99.95% G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 17.接受两个事实 • 虚拟机的可用性已经无法提高 • design for failure - 游戏服务器是有状态且分散的,高可用的性价比低 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 18.挖掘可用性潜力 • 不要放过任何可用性 • 充分了解业务模式 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 19.不同部署方式 1 GM Base Cell Cell Base Cell Cell Base Cell Cell 99.8% G O P S 20 6 全 球 运 维 大 会 · 上 海 站 2 GM Base Base Base Cell Cell Cell Cell Cell Cell 99.95%
  • 20.服务快速恢复 • 考虑需要用另一台不同IP主机取替代业务的方案,尽量分离计算与存储 • 避免使用云主机搭建非高可用数据库 • 日志通过rsyslog写到远端 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 21.与产品做好沟通 • 产品并不如你想象的一样了解云 • 他们是真正有能力实现高可用的人 - 如果时机合适的话 • 降低产品心里预期,几率问题或许会让 产品对可用性感受非常明显 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 22.现状 • 至今未能推动出现一个高可用架构的游戏 • 但成功推动程序降低进程单点依赖 • 大部分游戏可用性处在合理范围 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 23.全球资源一体化 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 24.G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 25.G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 26.全球资源管理与成本优化 Account1 Game1 - vnet1 WEB WEB CDN Account2 Other Land account3 Game Game Game Game Game Game Game2 - vnet2 WEB WEB CDN Game Game Game DB DB DB Other cloud account4 Account5 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 27.excel G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 28.商用方案局限 • 需要帐号或云日志的读取权限 • 无法管理私有云资源 • 定制化需求也比较难全部满足 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 29.skyline G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 30.skyline 架构 web web G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 31.小结 • 作为游戏的运维,暂时来说云并没有减轻我们的工作量 • 但进入云时代后,需要关注之前不同的一些技术点 • 不同的云看着不同,用着也会有不同的特点需要针对性熟悉 G O P S 20 6 全 球 运 维 大 会 · 上 海 站
  • 32.G O P S 20 6 全 球 运 维 大 会 · 上 海 站