百度运维部架构师刘俊:百度智能运维实践
2020-02-27 1178浏览
- 1.
- 2.百度智能运维实践 刘俊 百度运维部主任架构师 DevOpsDays Beijing, 2017.3 DevOpsDays 2017•北京站
- 3.自我介绍 DevOpsDays 2017•北京站 刘俊 • 百度运维部主任架构师 • SREcon17 Asia/Australia 联席主席 • 当前方向:AIOps智能运维平台 • 曾负责 • 百度网页搜索爬虫和索引系统运维 • 基础架构运维:分布式存储/计算/调度 • 百度地图、百度糯米在线系统运维
- 4.目录 1 研发型运维团队下一幕—AIOps 2 百度AIOps框架 3 百度AIOps实践 4 迎接AIOps运维新时代 DevOpsDays 2017•北京站
- 5.DevOps、SRE、ChatOps、AIOps • DevOps • ChatOps Culture, Automation, Measurement, Sharing 快回滚 B 回滚 完毕 • SRE 推荐:Melissa Binde @GCP NEXT 2016 Engineering • AIOps 推荐:AIOps @Gartner 2016 算 法 AI/IA B 数据 DevOpsDays 2017•北京站
- 6.百度研发型运维团队的第一幕:基础运维平台 • 基础运维平台的历史阶段 Dev QA • 2007~2012,GUI 交互时代 • 服务树、权限管理、初始化系统、机器管理 • 监控1.0/2.0、部署系统、数据管理 • 任务管理、名字服务… • 基础运维平台的问题 DevOps实践 OP 基 础 运 维 平 台 Manager 1 个性化 DevOpsDays 2017•北京站 基 础 运 维 平 台 通用 2 PaaS 基 础 运 维 平 台
- 7.百度研发型运维团队的第二幕:开放运维平台 • 开放运维平台的历史阶段 Dev QA OP Manager SRE优秀方法实践 • 2012~2014,API 交互时代 • 可配置的监控3.0 • 升级的部署系统 Archer • 开放运维平台的问题 PaaS ChatOps 开 放 运 维 平 台 DevOps成型 垂直场景重复的轮子 分散的数据和运维知识 计算 智能层次 感知 认知 DevOpsDays 2017•北京站
- 8.DevOps实践下运维工作的变化趋势参考 Source:http://stories.visualstudio.com/devops/DevOpsDays 2017•北京站
- 9.百度研发型运维团队的下一幕:AIOps • 智能运维平台 • 2014~今,数据+算法AIOps • 智能 故障管理/变更管理/容量管理/服务咨询 • 三个核心 • 运维知识库 • 开发框架 • 算法平台 Source:Gartner Report IT Operations Analytics Must Be Placed Within an AIOps Context. Will Cappelli (Research VP) 26 August 2016 DevOpsDays 2017•北京站
- 10.目录 1 研发型运维团队下一幕—AIOps 2 百度AIOps框架 3 百度AIOps实践 4 迎接AIOps运维新时代 DevOpsDays 2017•北京站
- 11.百度AIOps 书同文:一致运维“语言” 应用、服务、机房 集群、镜像、机器 车同轨:一致运维“方法” A-PaaS B-PaaS C-PaaS E-Tools D-Tools ... 行同伦:一致运维“模式” • 感知,如异常检测和定位 S O P • 决策,如弹性扩缩容策略、流量调度策略 • 执行,如扩缩容执行、流量切换执行 推荐参考:Winston@Netflix ; FBAR@Facebook;Auxon@Google DevOpsDays 2017•北京站
- 12.百度AIOps要解决的问题场景和思路 助力业务高速发展,持续提升高质、高效的运维能力 减少自身 dirty work,运营能力提升,为服务增值 智能辅助决策 增强(augment)人的能力 复杂 智能决策和执行,经验可迁移 替代(substitute )人的能力 故障管理: 重大故障(outage) 服务架构和 性能优化 Google Auxon 容量管理 低频 资产和服务管理 备份管理 规范化 流程化 DevOpsDays 2017•北京站 Facebook FBAR 机器管理:维修 Netflix Winston 故障管理: 一般故障(disruption) 网络管理 GitHub ChatOps 客服&咨询 部署变更:程序 高频 部署变更:数据 监控管理 自动化(automation) 自助化(self-service) 简单
- 13.百度AIOps框架 SSG FSG EBG IDG AIG 外部客户 解决 方案 故障处理场景 单机房止损 单机自愈 一致性维持 客服场景 FAQ Chatbot 变更场景 持续部署 分级发布 智能 运维 平台 运维开发框架 Agent调度 运行时库 运维操作库 开发工具 运维知识库 查询与 计算 Schema 管理 ETL 存储 容量管理场景 自动压测 容量规划 自动扩缩容 运维策略库 异常检测 止损决策 根因诊断 容量预测 基础架构&基础运维平台 DevOpsDays 2017•北京站
- 14.运维知识库 建立对“运维世界”的统一、数字化描述 统 元数据 状态数据 一 Product Person throughput latency 数 据 App Service Instance cpu mem io 模 Host IDC Network bandwidth rtt 型 ... ... error disk 事件数据 anomaly change root cause remediation ... 查询和视图 数 分类映射 择优计算 据 生 raw 数据 清洗消歧 中间数据 质量控制 核心数据 产 过 关联挖掘 反馈干预 程 服务管理模型和规范 存储:MetaDB,TSDB,EventDB 权限和配额 数 据 管理类平台 源 监控类平台 操作类平台 DevOpsDays 2017•北京站
- 15.百度AIOps框架:运维开发框架 和 运维大脑 运维策略(大脑)研发 垂类运维应用研发 运维平台研发 部署变更 业业业 务务务 ABC 故障处理 配置 参数 模型 数据 其他场景 运维机器人开发框架和运行时 通用组件(通讯、存储、调度等) 运维知识库 其他 运维 应用 软件 调度器 工具 链 DevOpsDays 2017•北京站
- 16.目录 1 研发型运维团队下一幕—AIOps 2 百度AIOps框架 3 百度AIOps实践 4 迎接AIOps运维新时代 DevOpsDays 2017•北京站
- 17.百度AIOps实践 DevOpsDays 2017•北京站
- 18.百度AIOps实践 Anomaly Detection in Infrequently Occurred Patterns Dong Wang, Baidu Inc. DevOpsDays 2017•北京站 5月22日~24日 新加波
- 19.百度AIOps实践:无人值守上线 Dev 自助 (self-service) DevOps 自动化流水线 自助处理 依赖解决 效果确认 暂停点决策 上线通告 ... DevOpsDays 2017•北京站 AIOps 逐渐替 代人来决策 风险控制 时间依赖 任务依赖 可用性影响 性能影响 用户体验影响 上下游影响 失败定位处理 ... 效率优化 并发度 预分发 优先级 流程减免 (esp. 回滚、紧急上线)
- 20.百度AIOps实践:服务咨询 意图识别与服务调用 意图 上线查询 槽位 Time = “十点附近” Product = “xxx” Module = “xxx” 积累人工标注的语料 训练意图和槽位识别模型 应用 实例 xx模块从昨晚到现在有上线么? 今天xx模块有全流量上线么? 意图 上线查询 上线查询 槽位 Module : xx;Time:昨晚到现在 Module : xx; Time : 今天; Stage:全流量 DevOpsDays 2017•北京站
- 21.迎接AIOps新时代 DevOpsDays 2017•北京站
- 22.DevOpsDays 2017•北京站 GOPS 4月深圳 / 7月北京 / 11月上海 EXIN DevOps Master 认证研修 DevOpsDays 3月北京 / 8月上海 DevOps 企业内训 / 咨询服务 DevOps China 全国巡回技术沙龙 其他量身定制服务项目 商务经理:刘静女士 电话 / 微信:13021082989 邮箱:liujing@greatops.com
- 23.DevOpsDays 2017•北京站 Thanks 荣誉出品 高效运维社区 国际最佳实践管理联盟