阿里巴巴高级技术专家 陈喻(亚松) - 阿里 DevOps 转型实践
2020-02-27 879浏览
- 1.阿里DevOps转型实践 陈喻(亚松)
- 2.目录 1. DevOps实践 2. 运维专家服务 - 2016双11运维备战 3. 研发能力升级 - 应用运维平台(Atom)
- 3.关于我 2014年 入职阿里负责Aone(持续集成,持续交付平台)研发团队 2015年 调入运维团队,负责交易运维、无线运维2个团队,带领团队保障日常运维及 双11大促运维 2016年 负责中间件的DevOps 平台团队,团队主要业务方包括淘宝、天猫和聚划算 等。个人获得2016年双11卓越贡献奖
- 4.PE转型历程 SA -> PE 2009 PE合并 2011 DevOps转型 2016
- 5.DevOps转型实践 组织 文化 人才 工具 重新定义运维 重新定义DevOps
- 6.转型升级思路 – 运维 运维,研发,架构 技术能力 运营,服务,推动 实践能力 创新 影响力 判断力 素质能力 重要原则 1. 单应用运维能力产品化,提升规模化运维能力和架构能力 2. 赋能研发,研发为稳定性Owner,负责单应用运维 3. PE 50% 时间研发,50%时间运维专家服务 4. 工具化,自动化一切重复性工作
- 7.转型升级思路 – 研发 PE 手工+工具化 技术能力 单应用 运维 PE 手工+工具化 规模化 运维 PE 开发 PE 开发 机房裁撤 同城容灾 大促备战 在离线混布 …… 研发 系统化自助运维 单应用运维 产品化 规模化运维 工具化 工具化+专家服务 PE
- 8.运维专家服务 沉淀提升运维专业知识,为业务方提供运维领域服务,赋能研发,协助业务 方提高系统稳定性,降低运营成本,提高运维效率
- 9.DevOps转型阶段性总结 11月份PSP工单统计 对研发赋能 1. 电商单应用研发自助运维,整体自助率达82% 2. 10%的故障研发第一跳 3. PE编写双11Devops作战手册,研发实施 4. 对研发进行运维技能培训,主题培训20+场,培训近 2000人次 PE能力升级 1. 提供专家运维服务,大促备战电商PE人员投入减少60% 2. 资源精细化运营,去超卖,cpu利用率提升,降HT争抢 3. 预算管理,从人工excel收集转变到工具化 4. 一键限流,故障机自动处理
- 10.运维专家服务 -2016双11运维备战 关键指标 双11作战手册 节奏 资源交付 网络容量 链路 限流 压测 监控 容量交付 风险管控 双11权限
- 11.xxxW 机房编号xxx 地域1 业务 业务 业务 业务 业务 业务 业务 机房编号xxx 带宽:xxxG->xxxG 延迟::xxms 2016交易全局视图 地域3 机房编号xxx xxW 带宽:xxxG->xxxG 延迟:xxms xxW 机房编号xxx xxW 机房编号xxx 业务 业务 业务 业务 业务 业务 业务 业务 业务 业务 业务 业务 业务 业务 业务 业务 业务 业务 业务 业务 业务 业务 业务 业务 业务 业务 地域2 机房编号xxx 业务 业务 业务 业务 业务 业务 业务 业务 xxW 机房编号xxx 业务 业务 业务 业务 业务 16W交易创建
- 12.9月23日压测各单元表现 - 6:21:33秒交易创建xxW 地域1 机房编号xxx xxxx笔/s 96% Top 20 CPU xx% xxxW 20% 带宽xxxG 延迟::xxms 带宽:xxxG 延迟:xxms 地域3 机房编号xxx xxxx笔/s 93% Top 20 CPU xx% xx性能 xxxW 25% 机房编号xxx xxxx笔/s 95% Top 20 CPU xx% xxW 15% 地域2 机房编号xxx 机房编号xxx xxxxx笔/s 76% Top 20 CPU xx% xxx限流 xxW 27.5% xxxx笔/s 89% Top 20 CPU xx% xxx调用DB的RT提高 xxW 6.25% 机房编号xxx xxxx笔/s 89% Top 20 CPU xx% xxxW 6.25%
- 13.2016年双11技术指标 16W创建 xxx qps/秒 xxx-qps/秒 统一接入层 xxx-qps/秒 购物车展示 立即购买展示 xxx-qps/秒 确认订单展示 xxx-qps/秒 订单提交 订单创建 xx笔/秒 xxW收银台展现 xxw笔/秒 PC&无线-创建 xxW-qps/秒 无线收银台展现 PC收银台展现 xxx笔/秒 xxx笔/秒 余额 花呗 银行 xxx笔/秒 余额宝 xxx笔/秒 xxw笔/秒 交易 支付
- 14.2016双11节奏把控 9月 周日 28日 周一 29日 周二 30日 周三 31日 4日 5日 6日 7日 周四 1日 G20 8日 周五 2日 G20 9日 周六 3日 G20 10日 G20 G20 G20 99 99 11日 18日 25日 12日 19日 26日 13日 14日 15日 16日 20日 21日 资源交付完 [预算内] 22日 中秋 23日 云站启用 去超卖完成 性能抹平 同城容灾完 成 27日 28日 29日 30日 17日 中秋 24日 断网演练 资源容量评 估终版 国庆 技术监控大 Docker化完 盘定制完成 成 封网 假期 周日 2日 国庆 9日 16日 23日 30日 周一 3日 周二 4日 周三 5日 周四 6日 10月 周五 7日 周六 1日 资源交付完 成 [追加预算] 8日 国庆 国庆 国庆 国庆 国庆 10日 17日 24日 11日 12日 13日 14日 统一限流方 双11核心项 案 目上线 18日 19日 20日 双11大促态 完成 21日 监控大促态 全链路压测 完成 [大规模] 25日 26日 27日 28日 15日 22日 29日 31日 预案验证结 束 全链路压测 双11作战手 [大规模] 册完成 1日 2日 3日 4日 5日 大促资源封 全链路压测 盘 [大规模] 双11
- 15.网络容量预估 CDN容量 同城 统一接入层 ---> 统一接入层 应用 ---> 应用 应用 --> 中间件 应用 ---> 数据库 中间件 ---> 中间件 数据库 ---> 数据库 长传链路 风险 1. 预估模型还需经过全链路压测进一步验证完善 2. 是否存在过于集中的流量热点需进一步排查 同城容灾网络流量分布 统一接入层 应用-->应用 应用-->中间件 应用-->数据库 中间件-->中间件 数据库-->数据库
- 16.全链路压测监控大盘 全局视角-一张图 • 一个应用一张图 à 全链路应用一张图,集群化 管控 • 多个监控视图 à 一张汇总视图,数据多维度: RT、QPS、成功率、CPU、水位、限流 不仅是监控,更是分析 • 根据监控数据表现,判断应用异常状况 • 临场分析à 实时分析
- 17.应用运维平台(Atom) 运 维 平 台 中间件 平台 一键建 站 预算管理 应用管理 资源管理 数据化 运营 容量管理 规模运维 弹性伸缩 容错容灾 Aon e 无线 运维 平台 菜鸟 运维 平台 运维中台(Normandy) 二 级 二层调度 测试环境调度 调 度 一 级 资源调度(Sigma/Fuxi) 调 物理机 度 ODPS ECS 研发定义运维,配置驱动变更
- 18.DevOps转型生态 单应用运维 • 应用上线 • 应用扩容 • 应用维护 • 应用回收 • 网络变更 容量资源闭环 • 预算管理 – 配额 • 容量规划 – 性能 • 资源管理 – 机器 • 弹性伸缩 – 决策 规模化运维 • 一键建站 • 凑框腾挪 • 单元扩缩容 • 机房搬迁
- 19.平台研发案例 - 预算管理90%工具化提升 2016以前 n 年度预算&预算追加全部人肉excel 收集 n 预算流程不可追溯 n 预算逻辑以项目形式驱动,整体拍大 数 n 整体预算驳回后,每个应用可扩资源 到底有多少说不清 2017 n PE抽象业务设计产品,20人日开发 落地,560用户,7500条预算 n 打通研发,PE,财务角色与体系 n 业务线年度预算&预算追加由研发 自行录入 n 数据汇集及审批流程工具化 n 预算逻辑精细化到每个应用
- 20.展望 弹性 预算 资源闭环 资源 容量 决策 生产 数据闭环 反馈 消费 自愈 预防 故障闭环 定位 感知 让资源快速流动 数据支持决策 形成闭环,让价值快速流动 故障自愈
- 21.总结 没有银弹
- 22.与我联系 钉钉 微信
- 23.