黄文宇-云时代下的游戏运维-网易

2020-02-27 187浏览

  • 1.云时代下的游戏运维 网易游戏 黄文宇
  • 2.About Me •  网易游戏2005-2016 •  天下、天谕、CC、UU •  乱斗西游、阴阳师 •  游戏运维自动化平台负责人 •  MongoDB SaaS Team Leader
  • 3.Rules of Engagement •  本次分享专注公有云使用 •  默认各位已经熟悉主流公有云概念 •  为方便举例,使用 AWS 作为实例范本
  • 4.网易游戏在云端 •  触云两年 •  多个云服务商以及自建私有云都有涉及 •  在全球各地大约构建了30+游戏 •  对云处于又爱又恨的阶段
  • 5.为什么使用云? 多 大型云商海量服务器资源可供调用 全球资源随意调度,总有一款适合你 快 业务部署时间大幅缩短 在我们设置好的情况下,只需一天就能完成整套业务的部署 好 计算、存储、网络分离,资源按需快速调整。 可以合理选择实例,资源利用率上升 省 不需要机房维护人员,无硬件维护持有成本
  • 6.云可以解放运维的生产力?
  • 7.运维可能需要做的工作 •  机房硬件、网络维护 •  基础软件运行环境维护(包括软硬件调优) •  应用软件集群部署与维护 •  业务资源与性能规划
  • 8.软硬件调优 •  网卡SMP IRQ Affinity调优(TPS 差距5倍) •  时钟调整HPET – TSC(CPU性能差距30%以上) •  电源策略调整Performance (CPU性能差距50%) •  针对硬件类型选择合适的kernel与驱动
  • 9.网络带宽与PPS •  ec2 network performance受诸多因素影响,是否跨 az、是否跨vpc、是否跨region等。 •  这里整理了下同个 AZ 下我们测试的结果: 实例类型 M4.large C4.large C4.xlarge C4.2xlarge 标称带宽 Moderate Moderate High High 测试带宽 447Mb/s 620Mb/s 1.24G/s 2.48G/s 测试pps 5w 5w 7.5w 20w
  • 10.网络带宽与PPS •  为了获取上面表格的最高性能,你还需要做: •  启用 Linux 上的增强联网(SR-IOV) •  内核升级到4.4.34以上(解决 CPU0 %so] 使用率 100%)
  • 11.默认时钟源 •  因为某些未知原因,我们发现在日本的AWS启动的 高配实例默认时钟源是HPET •  导致服务端性能表现非常低下 •  强制设置为TSC后解决
  • 12.Kernel与实例兼容性 •  C4.8xlarge、M4.10xlarge 等 HasWell 架构下的实例 如果使用3.x 的kernel 在压⼒力力负载⼤大时会导致系统 Crash,需要升级到4.7 kernel。 •  虚拟网卡在3.x kernel 下 pps 性能无法打满
  • 13.故障解决时间变长 •  很多参数并不透明 •  需要应用自己测试 •  不知道是业务的问题还是厂商的问题 •  有时定位到故障也需要等厂商上线修复
  • 14.性能瓶颈并没有消失,只是躲起来了。 需要运维人员自己找出来优化~
  • 15.全球资源一体化
  • 16.云实例被攻击
  • 17.接入外部清洗
  • 18.第三方监控
  • 19.多云混合使用 •  把全球公有云看成一个资源池使用,给我们提供了 非常大的灵活性 •  但是不同云从名称、技术细节上的差异也为我们带 来了巨大的工作量 •  资源集庞大后的计费、调度、统计,包括商务洽谈 等都会给使用者提出挑战
  • 20.云可以解放运维的生产力?
  • 21.总结 •  云的趋势不可抗拒 •  云在降低了我们某些工作量的同时,也给我们带了 了很多新的工作量 •  运维的工作价值依然重要,不会被云替代
  • 22.THANKS