基于事件和知识图谱技术的智能运维实践 高科 (1)
2020-03-01 568浏览
- 1.基于事件和知识图谱技术的 智能运维实践 高科 睿象云 CEO
- 2.
- 3.自我介绍 • 睿象云联合创始人兼 CEO • 毕业于国防科技大学计算机系,先后就职于东方通科技、IBM、OneAPM,在基础软件领域拥 有多年的咨询服务和管理经验 • 近十年来,致力于IT运维管理领域的创新和实践,作为国内 APM 的开拓者积极推动应用性能管 理技术在企业级运维管理工作中的落地 • 随着人工智能技术与IT运维管理的不断融合,带领睿象云团队创造性以事件管理为突破口,将自 然语言处理和知识图谱技术运用到运维管理日常实践中,推出国内首个中文运维知识图谱 COKG (Chinese Operation Knowledge Graph),为 AIOps 拓展了新的边界
- 4.• AIOps 面临的挑战 目录 • 指标?还是事件? 算法?还是数据? • 以事件为切入点 • 用好知识图谱 • 打造基于事件和知识图谱的智能运维平台
- 5.当今企业IT环境给运维管理带来了更大的挑战 告警风暴 80% 更多的工具 建转运 定位困难 基础设施云化 50% IT架构重构 -庞大的IT架构意味着 大量的告警和事件,无 法聚焦和分析需要关注 的事件 运行环境容器化 业务系统微服务化 运维难度 更复杂的 规范和流程 提升4-5倍 -在分布式环境下,当 发生致命问题,难以准 确定位根因节点和相关 事件 知识分散 更多的人员 -缺乏将故障手册、厂 商文档、告警处理意见 等知识进行沉淀和检索 的手段
- 6.AIOps 是企业实现精细化高效运营的基石 Gartner 认为, AIOps平台综合了大数据、机器学习和可视化技术,通过可扩展的提取和分析IT不断增 长的数据量、种类和速度来更深入的洞察和增强IT运营 。 AIOps 对于企业运营的核心价值 • 降低噪音(如误报或冗余事件); • 提供更好的因果关系,这有助于确 定事故的可能原因; • 捕获超出静态阈值的异常,以主动 检测异常情况; • 推断未来事件以防止潜在的故障; • 启动解决问题的操作(直接或通过 集成)。
- 7.AIOps的建设路线 AIOps 分级 名称 定义 操作执行 状态理解 /模式识 别 L0 人工运维 完全由运维人员进行IT系统日常运维管理操作。 人 人 人 人 无 L1 辅助运维 系统取代运维人员部分运维操作,实现基于规则 的告警、配置变更、容量变化、故障分析。 人和系统 人 人 人 部分场景 L2 部分智能运维 系统通过智能算法完成部分场景下的状态理解和 模式识别,并交由运维人员进行后续处理。 系统 人和系统 人 人 部分场景 条件智能运维 系统能自动完成状态理解和模式识别工作,并完 成大部分的运维操作,但运维人员还需在进行决 策时随时待命介入。 系统 系统 人和系统 人 部分场景 高度智能运维 在限定运维场景下,系统完成全部的运维管理操 作,运维人员几乎不用参与。 系统 系统 系统 人和系统 部分场景 完全智能运维 在所有运维场景下,系统完成全部的运维管理操 作,运维人员不用参与其中。 系统 系统 系统 系统 所有场景 L3 L4 L5 行动规 划 主动学 习 应用场 景
- 8.基于 Gartner AIOps 技术栈衍生出来的 AIOps 技术派 别 • 算法派: 可视化 以自主算法研发为核心,提供针对运维场景下时 • 多维度,个性化,角色化,场景化展示 机器学习 序指标、文本日志、系统调用链信息、第三方告警、配置文 件等数据处理的算法集,降低用户使用开源算法自行尝试的 • 算法自我修改演进,新算法创建 时间和能力成本。 • 指标派:以传统运维监控工具指标数据采集和加工为基 算法 • 智能化选择,异常检测,异常定位,根因分析 础,结合指标类人工智能算法实现异常检测、关联分析、趋 势预测等能力,重点解决告警阈值设置、容量预测等运维场 分析 景问题。 • 数据建模,模式识别,趋势识别,故障隔离 计算 • 日志派:以日志采集和处理技术为基础,结合文本处理类 人工智能算法对海量日志数据的再加工和分析,降低运维团 • 数据清洗,去重,过滤,关联,生成新数据 大数据 队日志阅读量,解决异常检测、日志聚类、时序预测、根因 分析等运维场景问题。 • 集中统一管理,历史数据存储,实时数据存储 • 事件派:以复杂事件处理和知识图谱技术为基础,从事件 出发解读海量的 IT 运行数据。运用自然语言处理技术,提供 数据源 事件发现、事件分析、事件分类、事件聚类等能力,结合基 • 全量,海量,多样性,复杂性 IT 数据 于运维知识图谱的解决方案推荐和根因分析能力,形成智能 指标 日志 文本 流量 API 社交媒 体情绪 运维闭环。
- 9.何谓事件? 事件,是对事物状态变化或不变状态的描述信息。 ⽇志数据 (Log/Event) 告警(Alert) KPI 指标 ⼯单数据 ⽹络数据包 SNMP Trap 数据库特定字 段的数据 系统输出 (STDOUT) 动环数据 API 输出 消息队列 复杂事件处理 事件数据
- 10.基于事件和知识 生产场景层 基础应用层 核心算法和 数据层 谱的核心算法和典型应用场景 事件分类 事件聚类 事件降噪 异常事件发现 新奇事件发现 事件模式转换路径 事件根因定位 因果推断 应用智能调参 运维知识问答 知识卡片 知识地图 业务影响分析 知识检索 运维知识图谱 聚类 发现 预测 自然语言处理 定位 检索 辅助 双向预训练表征 行业运维知识 知识图谱
- 11.自然语言处理在事件管理中的应用 • 文本聚类 样本数据准备 • 模式发现 • 新奇事件发现 • 异常事件发现 注意力机制 模式识别 • 告警根因分析
- 12.自然语言处理——几种常用的算法 基于距离文本相似度聚类 适合小数据量场景 算法执行效率低 缺少确定的相似度标准 需要人工进行相似度参数调整 基于Hash的相似度聚类 适合大数据量场景 算法执行效率高 需要人工进行参数调整 聚类效果存在不确定性,Hash位的调整 对聚类结果影响较高 基于注意力机制的文本聚类 无需人工参与 没有不确定性 需要积累样本语料数据 算法执行效率高
- 13.自然语言处理——通过文本外观进行聚类 通过文本间的外观进行文本的聚类 • 有 100条 事件 • 聚类成 30条 • 压缩率 70% • 但是 漏掉一条! VS • 有 100条 事件 • 聚类成 50条 • 压缩率 50% • 但是 一条没漏! √
- 14.自然语言处理——通过文本外观进行聚类 为什么表面文本相似度聚类的方法不行? 因为告警文本并不是线性可分的。 content A = 'zabbix sender is busy' content B = 'zabbix process is busy' 这组事件相似吗? content A = 'BJa_VGC-RTM-FBU-QA-DB-MongoDB-Node2Availability_ping:100'>ping:100