AIOPS智能监控在阿里巴巴集团的成功实践

2020-03-01 216浏览

  • 1.AIOps专场 AIOPS智能监控在阿里巴巴集团 的成功实践 王肇刚(梓弋) 阿里巴巴高级技术专家
  • 2.1 从Devops到AIOps 2 阿里巴巴集团的智能监控 场景实战 3 阿里巴巴AIOps智能监控 产品体系
  • 3.从DEVOPS到AIOPS是运维技术发展的必然趋势 智能化运维 (AIOPS) 自动化运维 (DEVOPS) 手动运维 • 人工决策 • 人工判断 • 自动判断 • 人工执行 • 自动执行 • 自动执行
  • 4.AIOPS是运维技术的未来发展趋势 50% 2020年AIOps部署率 10% 2017年AIOps部署率
  • 5.AIOps能为我们带来什么?
  • 6.AIOPS科技树 AIOPS 质量 监控 成本 根因分析 故障自愈 容量 时序异常检测 故障类型判定 自动化触发快 恢 指标相关性分 析 历史故障推荐 脚本执行环境 报警收敛 可疑应用/事 件推荐 效率 调度 无人值守 运维机器人 容量预测 资源调度 发布 信息流转 自动熔断 流量调度 值班 任务执行
  • 7.如何孵化AIOps能力?
  • 8.AIOPS技术架构:场景、算法、数据三位一体 智能监控 智能调度 智能问答 异常检测 最优化策略/ 规划&预测 NLP/意图识别 CMDB 运维故障 场景语料 运维场景 算法组件 运维数据 监控/时间序列 数据
  • 9.AIOPS团队架构:运维/研发/算法/产品/运营多位一体
  • 10.阿里巴巴GOC团队的智能监控 场景实战
  • 11.阿里巴巴集团全球运行指挥中心 AIOPS技术倡导者和领先实践者 业务流程 故障发现 故障定级 故障通告 故障辅助 定位 处理决策 故障快速 恢复 故障复盘 故障演练
  • 12.AIOps@GOC团队 运维场景 算法组件 运维数据 团队支持 业务指标监控 故障定级/决策 调度 故障相关 信息流转 智能基线 规则引擎/根因 分析 ChatBot 海量业务指标/ 系统指标数据 故障CMDB/运 维数据仓库 故障信息的结构 化/非结构化记 录 专业智能运维 算法团队 监控中心 运维团队 工程研发团队
  • 13.千锤百炼的”智能基线”
  • 14.用户眼中的阿里集团业务 GOC眼中的阿里集团业务
  • 15.合作伙伴logo位 智能基线之业务指标监控 精准 健壮 高效 普适 准确/全面发现业务异常并触 发报警 长期经受各种外部攻击/爬虫 内部压测干扰的历练 支持秒级/分钟级计算 无需任何人工监控配置 支持各行业业务数据 一键接入各类监控系统数据
  • 16.研发/运维眼中的系统监控数据 针对系统/应用级指标的轻量级异常检测算法
  • 17.合作伙伴logo位 智能基线之系统指标监控 精准 轻量 准确/全面发现系统/应用指 标并触发报警 可支持千万量级系统级别监 控项 便捷 支持直接异常输出或智能水 位推荐功能
  • 18.不断演进的根因分析能力
  • 19.单指标多维下钻分析 • 当业务指标总量异常出现时,准确地智 能定位到出现异常的分量或分量组合
  • 20.多指标相关性分析 • 当指标异常时,动态发现有相似下跌形态的 相关指标,为原因定位提供重要线索 • 通过离线分析,发现业务报警之间的关联规 则,当单业务异常时能够对其它业务进行提 前预警
  • 21.可疑应用/事件分析 • 自动基于运维数据仓库进行相关应用/事件 检索,锁定怀疑范围 • 自动根据指标异常和事件相关性进行推荐 排序,筛掉无关事件
  • 22.AIOps智能监控产品体系
  • 23.AIOps智能监控产品体系 智能监控大盘 智能基线 智能干系人管理 多维下钻 相关事件推送 多指标关联分析 智能报警收敛 可疑应用分析 监控展示 异常发现 报警发现 根因分析 故障处理生命周期 故障信息检索 快速恢复切换 SREBot 信息流转 故障恢复
  • 24.AIOps专场 钉钉扫码加入交流群