美团点评运维中心高级总监钟红军——架构师角度看美团点评运维自动化的发展和思考
2020-02-27 1006浏览
- 1.架构师视角看 美团点评运维自动化的发展和思考 钟红军 美团点评运维中心高级总监
- 2.从一个案例说起 • 运维场景: • 少量应用使用外网IP(出),通过一个NAT设备 • 问题: • 无人知晓有多少这样的应用,这样的IP • 解决方案: • 做一个外网IP管理系统?
- 3.这个方案的问题 • 1,如何知道它的数据是准确的? • 2,设计什么样的流程来保证数据准确? • 3,真的为了每一个问题去开发一个工具吗? • 端口怎么办? • 白名单怎么办? • 其他AD hoc的场景怎么办?
- 4.问一个更本质的问题: • 运维自动化是什么?(美团点评SRE的思考) • 它解决什么问题? • 它用什么思路? • 它的核心要素是什么? • 它的本质目标是什么?
- 5.第一阶段:工具 • 强大的单体工具 • 解决具体的痛点 问题 • Puppet, Zabbix…… • 工具的不懈追求
- 6.第二阶段:工具族 • 工具族或者工具体 系 • 实现完整的运维流 程 • 大量的操作web化 • 前后端分离,API
- 7.这一时期技术上关注的 • 重视总体设计,架构师的作用 • 设计的开放性 • 设计的扩展性(好的设计能自己长大) • 设计的简洁性 • 短周期,快迭代 • 第一版不要太长时间 • 只完成30%的功能 • 最快可以半天发一版 • 平台功能和业务逻辑feature 分离 • 底层平台不能有业务逻辑 • 全API调用
- 8.第三阶段:体系和思想 • 是一个体系,而非简 单的工具组合 • 是一个运维思想,区 别于传统运维 • 自动化是个伪命题 操作 标准 化 操作 可控 • 可追溯 • 可监控 • 可调整 操作 前置 • 运维人 员 • 开发人 员
- 9.最新的思考:运维自动化本质 • 核心要素:数据 + 流程 • 本质目标:是数据 的产生和变化最大 可控 发布系统 TTT(运维 流程系统) Sysop(IDC 管理系统) 数据 (cmdb, 服务树) Puppet(配 置管理)
- 10.再次强调:运维自动化的本质目标 • 使数据的变化最大可控 • 流程的价值是产生和影响数据
- 11.争辩 • 难道不应该是以功能为核心吗? • 功能为是手段,而非目标 • 功能产生垃圾数据 • 难道其目的不是为了提高运维效率吗? • 数据可控就是最好的效率
- 12.举例:一个线上扩容所发生的数据变化 • 结果数据: • 应用的服务器数量及相应属性 • 过程数据: • 操作时间,操作人,操作细节 • 辅助数据: • 监控对象数据,资产数据,预算数据
- 13.数据驱动思想的好处 • 以数据的视角来梳理流程 • 流程的取舍、优化等 • 从结果来看过程,便于制定目标和考核 • 一个自动化工具的目标 • 确保数据准确的自动化体系才是可信的 • 数据为轴不会迷失在众多功能之中 • 提炼数据模型和功能框架
- 14.如何做:回答这三个问题 • 你需要什么数据? • 你如何保证这些数据的准确性和及时更新 • 你是否要对产生数据的过程加以控制 • 比如,当应用负载高时,不允许发布
- 15.举例:以发布系统为例 • 运维自动化是否要include发布系统 • 回答:我是否要关注应用发布所带来的数据变 化 • 再进一步:我是否要对此数据变化进行更多控 制?
- 16.更多的数据带来更多的功能 • 第一步:监控此数据的结果变化 • 不足之处是可能不够及时以及无法影响其变化 • 第二步:要求发布系统提供过程数据 • 解决及时问题 • 第三步:在过程中向发布系统提供数据 • 解决影响问题 • 上面是一个逐步加大数据变化控制的过程
- 17.蜘蛛和它的网 • 我们像一只蜘蛛,坐在数据的核心,驱动着四 面张开的流程之网
- 18.数据思想进一步的好处 • 数据驱动思想有利于建立自动化生态
- 19.运维生态:大运维 • 较大公司不可能一 个人战斗 • 功能为轴容易冲突 • 大运维可更多的触 达业务 SRE 大运维 工具 自动化 体系 云平 台 业务 相关 功能
- 20.分工策略 • 尽量内聚和专注 • 定义清楚其目标和边界 • 可根据数据的产生不同,消费不同来区分
- 21.举例:我们的监控体系 Falcon • 系统监控 • 深入底层 CAT • 应用层监控 • 业务打点 • 调用链 DOM • 质量体系 • 驱动研发质 量改进 • 给领导看 Radar • 故障智能定 位 • 下一步自动 修复
- 22.争辩 • 为何我们不做在一个产品上? • 在架构上,数据的流动路径变得清晰 • 在技术上,专注更便于深挖 • 在管理上,百花齐放,形成生态更有生命力
- 23.再举一个开放生态的例子:事故管理体系 • 打通而非代替 • 根据数据来定义边界 • 良性共生
- 24.数据思想的进一步好处 • 数据驱动可以提供进一步的业务价值
- 25.数据带来的线上环境质量运营 • 公司级别更 关注数据, 而非功能 • 数据价值的 自然延伸 • 数据是世界 通用语言
- 26.思考题:运维自动化的下一个形态会是什么? 第一代 • 工具强大 • 解决功能点 第二代 • 体系强大 • 数据驱动 第三代? • 智能化? • 运维机器人?
- 27.