擎创信息屈中冷-见微知著 - 海量运维数据分析的价值

2020-02-27 142浏览

  • 1.
  • 2.见微知著 - 海量运维数据分析的价值 亚当 擎创信息 G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 3.目录 1 复杂环境运维的挑战 2 什么是海量运维数据分析 3 运维数据分析能力和价值 4 运维数据分析平台的框架 5 夏洛克SharpLook ITOA 6 ITOA on the World G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 4.运营数据在高速增长 典型的大型企业: 企业的数字化转型 运维规模爆发式增长 服务器数量: “万”级 每日运营数据: “TB” 级 运维指标: “百万”级 G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 5.运维管理的需求与焦点转向敏捷与简洁 海量监控告警 筛选生成Incident 故障管理 严重等级 故障处理 知识库 历史经验 外部资源 ✖ 过滤 ✖ 筛选 升级 ITSM 知识库 监控系统 告警规则 G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 6.运维管理的需求与焦点转向敏捷与简洁 当今IT运维是一种大数据挑战 • Web及移动应用所要求的研发与敏捷开发,产生的数据量则大到难以统计 • APM文摘2012: 75%的高级IT总监对传统的管理方式感到不满意, 30%表示他们无法预测潜在的宕 机威胁 运维和业务线需要洞察 … 可用性? 性能? 使用率? 大数据和机器学习的发展带来运维转型的机遇 • 企业数据的类型和数量正在以指数级速度增长 • IT系统的复杂性不断增加 • 大数据分析和机器学习技术的日趋成熟和商业化 • 数据分析, 已越来越成为业务关注的重点 G O P S 2016 全 球 运 维 大 会 · 上 海 站 关键业务指标? 实际用户体验?
  • 7.目录 1 复杂环境运维的挑战 2 什么是海量运维数据分析 3 运维数据分析能力和价值 4 运维数据分析平台的框架 5 夏洛克SharpLook ITOA 6 ITOA on the World G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 8.运用数据破案 G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 9.破案的方法论 机器数据采集 需要蛛丝马迹 知识/经验总结,自学习,自改进 搜索和索引 可视化/关联分析 根本原因分析 取得洞察力 发现异常行为 找到真凶 故障定位及修复 破案 让监控具备名侦探的洞察力 • 分析运用已有数据,并把服务状态、问题影响分析等可视化 • 自动学习并理解故障的趋势和模式 • 自动发现服务或依赖环境的变更 G O P S 2016 全 球 运 维 大 会 · 上 海 站 9
  • 10.目录 1 复杂环境运维的挑战 2 什么是海量运维数据分析 3 运维数据分析能力和价值 4 运维数据分析平台的框架 5 夏洛克SharpLook ITOA 6 ITOA on the World G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 11.海量运维数据分析所需具备的能力 关联分析 预测,机器学习 分析 展示 ITOA 可视化展现 全局搜索 G O P S 2016 全 球 运 维 大 会 · 上 海 站 采集 多样的数据采集 快速提取
  • 12.全数据采集 大数据运维首先需要通过利用所有数据(结构化和非结构化数据)来全面了解 IT 运维活动,其中包括: 事件、日志、 拓扑结构和任何指标。 •网络流量与事务处理 •日志文件 •警告/报警与事件 •性能指标 •核心文件与内存痕迹 •配置文件 •服务请求 •故障通知单 •变更记录 •CMDB与资产 •用户文档与技术文档 关键能力: 1. 全平台支持能力 - 主流操作系统,数据库,中间件,WEB容器,存储,备份系统以及硬件监控 2. 海量数据实时,高频采集能力(秒采) 3. 自助监控能力扩展能力 - 自定义脚本/模块化的方式扩展监控能力 4. 容错,…流取量得控洞制察,力以及采集端健康…状提况供以洞及察数力据完整性检查。 G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 13.海量全局搜索 大数据运维需要具备通过内置的智能机制实时收集、搜索数以百万计的数据字段,并为这些数据字段编制索引。 需要像Google那样搜索你的数据 • 接近与自然语言的搜寻 • 搜索结果能在海量数据中快速获取 • Schema on Read在搜索过程中提取字段 • 既时的在线查询,立即产生长时间结果 • 用交互比对查询,缩小事件范围 • 用时间、关键词与统计函数,进行事件统计和分析 G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 14.多维度报表 • 对各类运营数据(如,应用日志,交易日志,系统日志)进行多维度、多角度深入分析及可视化展现,以业务视角实 时展示各种业务指标, 以及帮助关联分析 • 报表可从搜索结果中快速提炼 G O P S 2016 全 球 运 维 大 会 · 上 海 站 14
  • 15.快速发现故障, 精准告警 精细化告警,避免传统监控工具因一故障而导致的告警风暴,生成告警噪音 ❶ 合并 ❷ 动态基线 大量告警数据 机器学习,通过历史数据 的挖掘找出一类故障的告 警,并合并 合并的告警 信息 机器学习,运维人员标注 异常,从基于规则到基于 学习 ❸ 关联分析 精准告警 关联分析,根本原因分析, 及故障定位 G O P S 2016 全 球 运 维 大 会 · 上 海 站 15
  • 16.关联分析及故障定位 杂乱不规整的 各系统原始数据 业务场景模型库 G O P S 2016 全 球 运 维 大 会 · 上 海 站 生成特定场景的数据模型 具有最优的模型性能 • 告警关联分析 • 拓扑关联分析 • 统计模式分析 • 文本模式分析 • 配置模式分析
  • 17.故障预测 应用系统各模块 数据间有复杂关联 监控数据正常 没问题? NO! 学习各指标数据间的正常算法关系 一旦正常历史规律被破坏,异常预警信号立即发出 业务服务质量仍处于“好”的区间时,问题被发现 业务响应时间 异常事件 业务影响 坏 业务响应时间 好 早期警告 用户请求 时间 G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 18.自动发现服务或依赖环境的变更 依赖关系发现方式: 1、基于网络层的TCP连接 2、基于配置文件参数 3、基础CMDB发现依赖关系 CMDB 配置管理数据库 加载 G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 19.ITOA下的IT运维方式 从基于规则到基于学习 消除噪音,精细化告警 关联分析,故障定位 日志数据 * IT服务数据 性能数据 ITSM 故障管理 问题管理 变更管理 组织过程资产 预警 历史数据 运维标注 动态规则及基线 机器学习 G O P S 2016 全 球 运 维 大 会 · 上 海 站 知识库 故障诊断树 ITOA系统
  • 20.目录 1 复杂环境运维的挑战 2 什么是海量运维数据分析 3 运维数据分析能力和价值 4 运维数据分析平台的框架 5 夏洛克SharpLook ITOA 6 ITOA on the World G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 21.IT运营大数据平台框架 业务成果 能能力力 ITOA 大数据平台 主动避免服务中断 预判故障 快速解决问题 快速搜索 IT运营大数据分析平台 应用深度监控 决策支持 全局搜索 可视化仪表盘 数据建模 知识库 机器学习 现有ITOM 平台 应用性能管理(APM) 系统监控 & 日志管理 事件/变更/配置管理 运维 环境 应用 系统 工作负载 无线 网络 机房 安全 主机 存储 资产 G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 22.技术示意图 数据持久化 结构化数据 非结构化数据 缓存 数据处理 Stream Engine Data queue 数据采集 数据采集Agent 文件,telnet,rsyslog/syslog,wmi ,http,database,第三方软件 日志服务器 监控数据 流程数据 配置数据 所在服务器 所在服务器 所在服务器 G O P S 2016 全 球 运 维 大 会 · 上 海 站 查询语义 映射引擎 (非结构化数据查询 补充) 查询语法 解释器AST 分析模型 预警模型 机器学习 业务模型 告警生成器 条件管理 查询引擎 分析引擎 告警引擎 图表组件 展现语法 解释器AST 数据归 档 采集/处理 配置 健康管 理 展现引擎 平台管理
  • 23.目录 1 复杂环境运维的挑战 2 什么是海量运维数据分析 3 运维数据分析能力和价值 4 运维数据分析平台的框架 5 SharpLook ITOA 6 ITOA on the World G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 24.夏洛克SharpLook ITOA TB级数据实时处理 自然语言+SQL智能识别 预设丰富行业指标分析 夏洛克 ITOA 机器学习生成动态基线 运营到运维五大数据全覆盖 排障助手解决各种疑难杂症 G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 25.目录 1 复杂环境运维的挑战 2 什么是海量运维数据分析 3 运维数据分析能力和价值 4 运维数据分析平台的框架 5 夏洛克SharpLook ITOA 6 ITOA on the World G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 26.IT Operations Analytics (ITOA) on the World • 来源:http://www.itoa-landscape.org/G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 27.G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 28.EOI擎创信息 E O ITo be the ngine f nnovation • 人工智能(机器深度学习)+IT运维大数据=夏洛克智能运维分析平台 创造具备分析和思考能力的 软件解决方案 改变 明天IT 运维 管理的 G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 29.G O P S 2016 全 球 运 维 大 会 · 上 海 站 Thanks 高效运维社区 开发运维联盟 荣誉出品
  • 30.G O P S 2016 全 球 运 维 大 会 · 上 海 站
  • 31.GOPS2016 全球运维大会更多精彩 G O P S 2016 全 球 运 维 大 会 · 上 海 站