黄文宇-云时代下的游戏运维-网易
2020-02-27 187浏览
- 1.云时代下的游戏运维 网易游戏 黄文宇
- 2.About Me • 网易游戏2005-2016 • 天下、天谕、CC、UU • 乱斗西游、阴阳师 • 游戏运维自动化平台负责人 • MongoDB SaaS Team Leader
- 3.Rules of Engagement • 本次分享专注公有云使用 • 默认各位已经熟悉主流公有云概念 • 为方便举例,使用 AWS 作为实例范本
- 4.网易游戏在云端 • 触云两年 • 多个云服务商以及自建私有云都有涉及 • 在全球各地大约构建了30+游戏 • 对云处于又爱又恨的阶段
- 5.为什么使用云? 多 大型云商海量服务器资源可供调用 全球资源随意调度,总有一款适合你 快 业务部署时间大幅缩短 在我们设置好的情况下,只需一天就能完成整套业务的部署 好 计算、存储、网络分离,资源按需快速调整。 可以合理选择实例,资源利用率上升 省 不需要机房维护人员,无硬件维护持有成本
- 6.云可以解放运维的生产力?
- 7.运维可能需要做的工作 • 机房硬件、网络维护 • 基础软件运行环境维护(包括软硬件调优) • 应用软件集群部署与维护 • 业务资源与性能规划
- 8.软硬件调优 • 网卡SMP IRQ Affinity调优(TPS 差距5倍) • 时钟调整HPET – TSC(CPU性能差距30%以上) • 电源策略调整Performance (CPU性能差距50%) • 针对硬件类型选择合适的kernel与驱动
- 9.网络带宽与PPS • ec2 network performance受诸多因素影响,是否跨 az、是否跨vpc、是否跨region等。 • 这里整理了下同个 AZ 下我们测试的结果: 实例类型 M4.large C4.large C4.xlarge C4.2xlarge 标称带宽 Moderate Moderate High High 测试带宽 447Mb/s 620Mb/s 1.24G/s 2.48G/s 测试pps 5w 5w 7.5w 20w
- 10.网络带宽与PPS • 为了获取上面表格的最高性能,你还需要做: • 启用 Linux 上的增强联网(SR-IOV) • 内核升级到4.4.34以上(解决 CPU0 %so] 使用率 100%)
- 11.默认时钟源 • 因为某些未知原因,我们发现在日本的AWS启动的 高配实例默认时钟源是HPET • 导致服务端性能表现非常低下 • 强制设置为TSC后解决
- 12.Kernel与实例兼容性 • C4.8xlarge、M4.10xlarge 等 HasWell 架构下的实例 如果使用3.x 的kernel 在压⼒力力负载⼤大时会导致系统 Crash,需要升级到4.7 kernel。 • 虚拟网卡在3.x kernel 下 pps 性能无法打满
- 13.故障解决时间变长 • 很多参数并不透明 • 需要应用自己测试 • 不知道是业务的问题还是厂商的问题 • 有时定位到故障也需要等厂商上线修复
- 14.性能瓶颈并没有消失,只是躲起来了。 需要运维人员自己找出来优化~
- 15.全球资源一体化
- 16.云实例被攻击
- 17.接入外部清洗
- 18.第三方监控
- 19.多云混合使用 • 把全球公有云看成一个资源池使用,给我们提供了 非常大的灵活性 • 但是不同云从名称、技术细节上的差异也为我们带 来了巨大的工作量 • 资源集庞大后的计费、调度、统计,包括商务洽谈 等都会给使用者提出挑战
- 20.云可以解放运维的生产力?
- 21.总结 • 云的趋势不可抗拒 • 云在降低了我们某些工作量的同时,也给我们带了 了很多新的工作量 • 运维的工作价值依然重要,不会被云替代
- 22.THANKS