阿里巴巴故障治理领域的

2020-03-01 305浏览

  • 1.阿里巴巴故障治理领域的   智能运维实践   王肇刚(梓弋)   阿里巴巴集团  GOC事业部  高级技术专家 
  • 2.
  • 3.
  • 4.
  • 5.王肇刚(花名:梓弋)   阿里巴巴集团  GOC事业部  高级技术专家   负责阿里巴巴集团业务指标监控、业务故障管理工作。在时间序列异常检测、业 务故障定位及影响面分析、运维数据仓库和其它相关的智能运维领域有丰富的技 术经验积累和成果产出。   在加入阿里巴巴之前,作为百度智能运维团队的架构师及核心项目负责人,主导 了服务于百度商业广告系统异常发现和故障定位的智能运维产品的设计和研发, 并主导了百度运维数据仓库及百度智能运维平台的设计和研发工作。 
  • 6.• 阿里巴巴故障治理业务流程及挑战   • 引入智能运维的效果   • 实战案例:业务异常发现   • 实战案例:故障智能定级   • 实战案例:故障智能分析的探索   • 智能运维项目落地的建议 
  • 7.双11峰值背后的挑战巨大 
  • 8.业务线的多样和复杂给   服务稳定性带来挑战   业务数量及规模不断增大   业务形态差异较大   业务关联复杂   安全   阿里健康   阿里通信   基础设施   淘宝   阿里妈妈   阿里云   天猫   搜索   AE   飞猪   ICBU   供应链   手淘   菜鸟   盒马鲜生   1688   云零售   优酷   蚂蚁金服   村淘   钉钉   信息平台   …… 
  • 9.线上故障需要统一的治理机制   故障的影响面和根因 需要统一收口和推送   业务故障统一发现   跨BU故障协同处理   故障快速恢复需要     统一的机制 
  • 10.阿里巴巴全局故障治理流程   故障发 现   故障定 级   故障通 告   故障辅 助定位   处理决 策   故障快 速恢复   故障复 盘   故障演 练   业务流程   传统监控系统误报漏 报较多   监控维护成本较大   故障等级定义差异较大   判断条件繁多   千万级别的运维 事件,哪些与业 务故障相关?   跨BU的应用依 赖复杂,如何梳 理追溯   全球运行指挥中心   快速恢复场景稍 纵即逝,如何实 时决策触发切换?   业务痛点 
  • 11.• 阿里巴巴全局故障治理业务流程和挑战   • 引入智能运维的场景和效果   • 实战案例:业务异常发现   • 实战案例:故障智能定级   • 实战案例:故障智能分析的探索   • 智能运维项目落地的建议 
  • 12.引入智能运维的场景和效果   80%   故障发现 准确率   故障发 现   5分钟   故障通告 耗时   40%   故障定 级   智能时间序 列异常检测 算法   系统自动推 荐可疑事件   故障通 告   智能规则   引擎   依赖人的经验   故障辅 助定位   <1分钟   人工收集   故障情报   故障切换 决策时间   根因推荐   <1分钟   ?分钟   系统自动给 出故障情报   处理决 策   故障智能分析   系统   故障快 速恢复   故障复 盘   故障演 练 
  • 13.• 阿里巴巴全局故障治理流程和业务痛点   • 故障治理领域引入智能运维的效果   • 实战案例:业务异常发现   • 实战案例:故障智能定级   • 实战案例:故障智能分析的探索   • 智能运维项目落地的建议 
  • 14.实战案例:业务异常发现   异常发现的业务背景   “淘宝交易量下跌 %X是Pn故障”   “[Pn][淘宝]淘宝交 易创建下跌X%”   …  …   故障等级定义   业务指标监控项   (时间序列)   异常点   故障通告 
  • 15.异常发现的业务痛点—如何确定基线   问题   分段静 态阈值   同环比 /过去 N周分 段均值   “下跌15%是和什么 相比下跌?”   无法应对业务局部趋 势变化   无法应用业务整体起 伏趋势   不同周期整体 趋势的起伏   假日效应 
  • 16.异常发现的业务痛点—如何判定异常   业 务 异 常 的 判 定 尺 度   与曲线本身波动程度 相关   与曲线宏观业务量相 关   与时间点相关   与业务特性相关 
  • 17.时间序列异常检测的方案选择   途径一:端到端分类   分步求解   一步到位   途径二:回归(拟合基线)+  异常 判别   回归   各类时序分解算法   回归   各类机器学习模型   训练样本充足   异常 依赖标注   判别   标准不统一   基于机器学 习/深度学习   基于时间序列 分解   方法可解释性强   异常 简单策略   判别   复合方法 
  • 18.时间序列在线预测:拟合基线   可 选 方 案   分段历史平均   质 量 控 制   量化评估   ARIMA   Holt-Winters   STL   基线质量分   KPI  NAME   HoltWinters   历史数据平滑   ARIMA   STL   淘宝交易创建   0.27   0   1.0   1.7   搜索 广告-主搜店铺   0.27   0.38   0.3   1.68   手淘直充成功量   1.38   0.56   1.2   0.3   聚划算交易与创建   0.57   0.39   0.57   2.72 
  • 19.拟合基线的关键步骤:数据预处理   丢点补全   预测“未来”   日期类型划分   局部趋势反馈 
  • 20.异常判定—X倍-Sigma   时间 片切 分   根据残差分布进行聚合   每个时间片的 X=N+Delta   N     与残差相 关   Delta   与用户反 馈相关 
  • 21.异常判定—用户标注反馈   关于 标注   为运营而生的打标数据   标注数据质量较差   根据 容忍标准误差   标注 调整 Delta   防止参数抖动 
  • 22.异常判定–  误报抑制   冲高回 落时的 误报抑 制   基线 不准 时的 误报 抑制   基线预处理   分段策略   基线质量在 线检查   压测状态   基线长期偏离状态   投票策略   跳变检测   局部特征 
  • 23.异常检测算法及工程演进历程   简易算法实验 平台   人工标注标准 细化和明确   不同曲线异常检 测参数分离   数据预处理方 案优化   增量计算基线 方案优化   STL参数优化   时间区间干预 方案   人工标注自动 反馈方案优化   人工标注自动 反馈方案初版   分解策略分化   冲高、压测抑 制方案   自动划分时间 区间方案   泛化的NSigma   各类误报   分解套餐自动 适配 
  • 24.异常检测系统工程架构   前端WEB展示   展示输出   算法逻辑   API   基线输出   异常检测输出   运行模式   生产者   消费者   功能   拟合基线   异常检测   数据   监控数据源适配   监控项管理   趋势数据存储   报警和用户标注   基础组件   分布式定位调度   TSDB   Redis   算法参数管理   调度任务   基线计算 异常检测   冲高回落 去除压测   对外数据 推送   打标反馈   检测参数 初始化   自动分段   自动分类   清除缓存 
  • 25.异常发现业务效果   80%   故障发现准 确率   40%   80%   故障发现召 回率   30%   每周因误报 而花费的流 程操作时间   29小时   但,异常发现还不等于 故障定级 
  • 26.• 阿里巴巴全局故障治理流程和业务痛点   • 故障治理领域引入智能运维的效果   • 实战案例:业务异常发现   • 实战案例:故障智能定级   • 实战案例:故障智能分析的探索   • 智能运维项目落地的建议 
  • 27.案例实战:故障智能定级   业务流程   [报警]天猫商品详情页展现量下跌   [报警]淘宝商品详情页展现量下跌   [报警]淘宝交易创建量下跌   [报警]天猫交易创建量下跌   10:00   10:05   10:10   10:15   根据故障等级定义综合判断,确定故障级别发 出通告   [故障通告][XX事业部][P2]于10:01,淘宝、天猫交 易创建下跌X%,相关人员正在处理中。[GOC]   10:20 
  • 28.案例实战:故障智能定级   业务痛点   “淘宝交易量下跌%X是Pn 故障”   输入监控项维 度复杂   “淘宝交易量下跌%x且 持续y分钟,同时至少z 各个分机房持续下跌持续 m分钟,是Pn故障。同 时,如果影响多个BU, 则以故障等级严重的定义 为准。”   判断条件复杂   报警聚合收敛 依赖经验   维护成本高   • 理想中的故 障等级定义   • 现实中的故 障等级定义 
  • 29.解法:报警智能收敛和定级   报警纵向收敛   同 业 务 报 警 收 敛   按时间 窗口收 敛   报警横向收敛   跨 业 务 报 警 收 敛   依赖业 务拓扑 收敛   故障级别确定   故 故障等级定义 障 结构化   定 规则引擎定级   级   从重定级   故障通告/更新   通 之前是否有未 告 结束的故障   或 更 当前故障与否 新   与历史故障同 属一个故障 
  • 30.挑战之一:数据结构化   故障   通告   等级定义   监控报警   故障通告结构化   等级定义结构化   监控数据标准化   • 故障影响面结构化   • 故障根因结构化   • 故障处理行为结构化   • 数据来源标准化   • 定级标准统一化   • 联合判断规则化   • 监控对象标准化   • 监控项维度层次梳理   • 异常程度输出标准化 
  • 31.挑战之二:规则引擎   格式化判断输入   格式化判断动作   格式化判断输出   多层逻辑表达式组合 
  • 32.故障智能定级效果   5分钟   首条故障通 告SLA   1分钟   ?分钟   故障快速切 换决策时间   1分钟   异常发现,故障定级,我 们是否还能做得更多? 
  • 33.• 阿里巴巴全局故障治理流程和业务痛点   • 故障治理领域引入智能运维的效果   • 实战案例:业务异常发现   • 实战案例:故障智能定级   • 实战案例:故障智能分析的探索   • 智能运维项目落地的建议 
  • 34.实战案例:故障智能分析   故障自动分析及定位的难点   故障分析定位 的范围及边界 的确定   故障分析定位 的信息收集   故障分析定位 的判断和决策 逻辑 
  • 35.故障分析定位的范围和边界   站点   产品/产品线   业务功能/指标   应用/服务   中间件/基础服务   数据库   触发 条件   业务指标异常   输出   发生在运维实体上的可疑事件   实例   虚拟机   容器   物理服务器   IDC   网络   价值:   快速确定影响范围,锁定怀疑范围   以技术方式对故障作快照 
  • 36.故障分析流程   业务异常发现   如何获取拓扑?   B! D! A!   业务域 产品/产品线   查询纵向拓扑,获 取可疑应用   C! kpi5! kpi3! kpi8! kpi1! kpi3! kpi2! 业务指标   业务功能/指标   kpi7! app4! app1! app3! 应用   应用/服务   app2! 类型! 指标突变! 指标突变! 变更! 查询横向拓扑,获 取邻居可疑应用   kpi6! kpi4! app5! 应⽤用! 淘宝/app1! ⽀支付宝/app2! ⽀支付宝/app3! 如何发现指标 突变?   app8! app6! app13! 什么是运维数据 仓库?   查询运维数据仓 库,获取可疑事件   app14! app9! app15! app7! app12! app10! app16! app11! 事件! RT突增! QPS突降! 发布新版本! app17! 可疑程度! 3! 2! 1! 如何给出合理 的排序?   根据故障定位算 法,给出可疑程度 排序 
  • 37.运维实体及其拓扑   运维实体维度和层次   运维实体拓扑   B! D! A! 业务域   产品/产品线   C! kpi5! kpi3! kpi8! kpi1! kpi3! kpi2! 业务指标   业务功能/指标   kpi7! app4! app1! app3! 应用   应用/服务   app2! kpi6! kpi4! app5! app8! app6! app13! app14! app9! app15! app7! app12! app10! 中间件/基础服务   数据库   app16! app11! app17!
  • 38.如何获取拓扑   横 应用 向 服务   拓 扑   运维实体拓扑   B! D! A! 业务域   产品/产品线   业务 频繁项集发 指标   现   kpi5! kpi8! kpi1! kpi3! kpi2! 业务指标   业务功能/指标   kpi7! app1! app3! 应用   应用/服务   app2! app5! app8! app6! app13! app14! app9! app15! app7! app12! app10! 中间件/基础服务   数据库   手工配置   kpi6! kpi4! app4! 手动配置   应用拓扑汇 聚   C! kpi3! TRACE系统   app16! app11! app17! 纵 监控配置   向 拓 CMDB   扑   手工配置 
  • 39.故障定位信息收集:运维数据仓库   业 务 功 能   技 术 架 构   收集和故障相关的所 有事件信息   提供按运维实体及其 拓扑实时检索的能力   包括但不限于变更/上线,网络异常,系统/应用 服务/业务指标异常,报警,日志异常等   查询层   数据接入层   运维实体元数据管理/ CMDB   拓扑管理   技术化故障快照:   离线存储   自动化检索和故障相关 的所有运维实体及其上 发生的事件   ETL   在线事件存储 
  • 40.如何发现系统/应用指标突变?   异常检 通过算法,自动发现系统/应用级指 标中的跳变   测   按需检测,由业务异常触发   为什么 覆盖率问题   不使用 监控报 报警尺度不统一问题   警? 
  • 41.如何确定可疑程度   对事件分类   • 现象类事件:指标突 变、网络异常、日志 异常   • 操作类事件:服务变 更、网络变更   找到异常现象最显著的 现象事件及对应的应用   • 对突变指标的异常程 度作排序   • 对其它现象加权排序   找到距离最显著现象最 近的操作类操作   • 时间距离   • 拓扑距离 
  • 42.故障智能分析效果展示   全局 业务 状态 监控   相关 可疑 事件 推荐   应用 链路 追踪   影响 面实 时展 现 
  • 43.• 阿里巴巴全局故障治理流程和业务痛点   • 故障治理领域引入智能运维的效果   • 实战案例:业务异常发现   • 实战案例:故障智能定级   • 实战案例:故障智能分析的探索   • 智能运维项目落地的建议 
  • 44.智能运维项目落地的建议   从业务出发 作问题拆解   • 流程问题   • 工程问题   • 算法问题   • 其它问题   重视数据积 累   • 数据结构化   • 标注数据的质量   • 消除数据孤岛   关于算法选 型   • 业务场景   • 数据的质和量   重视运营   • 量化、量化、量 化   • 分类、分段分析   • 从一开始就关注 业务结果 
  • 45.阿里巴巴官方首度分享 几十位工程师倾力总结技术实战经验 本书卖点   技术内容涵盖底层架构到上层业务 NO.1   对互联网企业技术架构设计极具参考价值 本书卖点   详述几十起阿里巴巴技术实战案例 NO.2   揭秘阿里技术人工作思考模式 本书卖点   读书一遍,工作经验积三年 NO.3   技术从业人员的葵花宝典 12月9日 10:30 博文视点展位 现场签售
  • 46.