15:30 16:20 付正全 京东物流大规模智能监控的思考与实践

2020-03-01 227浏览

  • 1.
  • 2.京东物流大规模智能监控的思考与实践 付正全 15166419038
  • 3.Agenda: 01 IT运维难在哪 02 业界新趋势 03 智能监控实践 04 AIOPS实践 05 展望
  • 4.IT运维难在哪 机器数量和网络环境变化频繁 运维人数不变,管理机器数翻倍 网络拓扑日益复杂,资源云化,虚拟资 1 过去1:n 现在1:10# 2 L 3 源频繁弹性伸缩。不可靠的CMDB 4 正在消失的运维 运维平台日趋复杂,缺乏统一规划 运维从业者减少,运维专家匮乏 企业内部监控/运维系统繁多,形成数据孤岛
  • 5.01 IT运维难在哪 02 业界新趋势 03 智能监控实践 04 AIOPS实践 05 展望
  • 6.业界新趋势 阶段 7: 智能化、AIOPS 阶段 6: 数据化 演进过程 阶段 5: 自动化、平台化 阶段 4: 服务驱动 阶段 3: 主动的、优化的 阶段 2: 被动的、孤立的 阶段 1: 混乱的、无序的 基于智能算法的监控、运维,挖掘数据价值,智能 处理 将来 精细化、全方位的数据积累,使用大数据处理方式 处理数据资产、全方位的数据分析 现在 问题定位自动化、变更处理流程化,管理操作规范 化 应用关系映射,统一的资产配置数据库实现、服务 流程化 面向业务服务的主动管理,深入的问题诊断 面向IT基础设施的监控 无监视工具,简单手工工具、脚本 过去
  • 7.运维角色转变 背锅侠 被动响应 主动求变 救火员 运维价值凸显 新运维时代来临 产品意识 技术运营 需求提炼 推广落地 产品化开发 业务数据分析 产品化落地 过程改进 业务增值 架构运维 事件处理 架构标准化 业务分析 架构实施 业务预测 架构优化
  • 8.新技术驱动 AIDevOps 区块链 事件驱动 AIOPS 机器学习 算法平台 边缘计算 influxDB serverless 大数据 微服务 Service Mesh APM 可视化
  • 9.运维的实质 三位一体、形成闭环 n 全方位、精细化的监控是运维的基础 控 n 全面的设备管理、配置支持 n 管理层的可控 n 稳定性可控 n 性能可控 n 安全可控 n 交付可控 n 变更可控 n 效率可控 n … 监 管
  • 10.01 IT运维难在哪 02 业界新趋势 03 智能监控实践 04 AIOPS实践 05 展望
  • 11.从监控目标说起 故障在第一时间告警并通知管理员 • 准确性 不漏报、不误报 • 精确性 秒级监控、细粒度 • 兼容性 兼容各服务器、应用、中间件 • 扩展性 插件式、易扩展、不改代码 • 可用性 高可用、无单点故障 与AI技术结合进行故障、性能及容量的预测, 实现监控智能化 使用大数据分析技术挖掘监控数据价值,助力 业务增值 能力成熟度模型 • 及时性 推动规范化、自动化的运维管理流程,提供完 善的故障处理和快速修复机制 实时掌握数据中心整体资产配置使用情况、运 行趋势和健康状况,为决策层提供数据依据 以资产为基础为运维管理提供数据支持 当故障出现时,能快速和准确定位问题根源
  • 12.几个问题 • 主动采集还是被动接收? • 固定阈值还是动态阈值? • agent or no agent ? • 性能数据存取方案 ? • 如何保证水平扩展? • 告警通知策略怎么才能更灵活? • 使用何种高可用方案? • 告警爆炸如何去重? • 如何保证监控数据的实时性? • 告警根本原因如何定位? • 数据可视化如何能更直观? • 监控与AI如何结合?
  • 13.整体架构 数据分析服务 n 系统平台化 n 监控服务化 n 组件模块化 容量预测 故障预测 数据挖掘 大数据分析 聚合分析 趋势分析 智能故障分析 智能报表 深度学习 机器学习 n 脚本插件化 监控服务 客户 端 PC 移动 外部系统 接入服 务 Portal 安全策略 监控 数据 服务 路由 告警过滤 告警 管理 业务 管理 链路跟踪 API网关 阈值预警 性能分析 单点登录 jdmhd jdmrd 用户/权限 管理系统 数据清洗 分发 数据采集 Golang agent 报表 管理 抖动检测 动态阈值 jdalarm open api 策略配置 jdstream jdnotification 校验 监控 配置 事件处理 知识库 通知引擎 告警引擎 可视 化管 理 日志 管理 性能 管理 筛选 snmp trap plugins
  • 14.监控数据处理流程 采集 分析 处理 决策 agent 过滤 使用率统计 业务分析 预设规则 规则管理 通知 jdos api 预处理 实时告警 根因分析 规则匹配 知识库 自动处理 zabbix api 阈值判断 历史数据 趋势分析 回溯分析 异常反馈 人工处理 dbs api 故障预测 数据挖掘 大数据分析 决策树 深度学习 ……
  • 15.监控数据处理架构 历史查询 历史查询 配置接口 历史查询 历史查询 查询服务 历史查询 历史查询 日志分析 历史查询 历史查询 故障预测 历史查询 历史查询 趋势分析 历史查询 历史查询 报表服务 上层业务架构 短信 底层监控架构 redis redis redis redis redis es redis redis mysql 通知模块 通知模块 mail callback 历史数据 知识库 实时数据 监控数据 JMQ 告警模块 告警分析 通知模块 事件处理 自动处理 人工处理 告警处理 redis redis mysql consumer consumer consumer 定时同步 可水平扩展的consumer cluster redis queue tt transfer Heatbea t-server transfer transfer Kafka cluster Kafka 心跳、配置同步 t agent logstash agent logstash agent logstash Trap reciever
  • 16.部署架构 kafka cluster 标签 Jdmrd jimdb cluster agent docker Jimdb Jdrouter Jdmhd Jimdb node 标签 agent kafka node1 docker Jdrouter Jdalarm es Jimdb node 标签 kafka node2 agent Jdrouter Jdreport 物理机 MySQL Jimdb node 标签 Jdnotificati on kafka node3 agent 物理机 jmq logstash front hbs webapp Falconservice 物理机 数据库 数据库 dbcollector cmdb
  • 17.多端数据整合 IDC物理机/Docker 物理机/Docker 整合多端数据,解决数据孤岛问题 库房 机器 IDC 机器 MDC 平台 MDC监控 性能分析、告警分析更加准确 更全面评估应用健康状况 库房Devops Loas 日志分析平台 logbook DBS 平台 统一整合 数据库运维平台 Zabbix 开源平台 Jtrace UMP 方法监控 调用链监控平台 J-one Devops平台
  • 18.可视化 红绿灯 大屏
  • 19.应用维度分析 在UI层面整合各种应用维度的指标分析,提供更全面的应用数据分析和故障诊断 n 系统指标 n 调用链指标 n 日志分析 n 数据库指标 n JVM指标 n 应用拓扑自动探测 应用健康报告
  • 20.资源使用率统计 多维度分析助力企业降本增效 n 多级部门、应用多维度统计 n 日报、周报、同比、环比统计 n 低资源使用率TOP统计 n 低负载应用榜单 n 低资源使用率应用优化建议
  • 21.01 IT运维难在哪 02 业界新趋势 03 智能监控实践 04 AIOPS实践 05 展望
  • 22.AIOPS总体建设思路 采集 上报 api 分析 决策 1. 告警分析; 智能告警 2. 趋势分析; 智能通知 3. 性能分析; 智能处理 4. 事件分析; 5. 日志分析; 主动检测 异常检测 KPI聚类分析 故障树 根因分析 发现问题 处理 预测 性能预测 自动处理 容量预测 人工处理 故障预测 回溯分析 处理报告 趋势分析 知识库 故障快照 扩容建议 异常反馈 预算建议 故障 止损 深度学习 决策树 解决问题 决策 支持 规避问题
  • 23.智能告警分析 ‚告警关联分析 业务关系构建 指标1 指标2 应用1 指标3 指标5 指标4 应用2 应用3 应用5 应用4 应用间 应用内 指标1 指标4 指标5 应用内 可能的原因 故障1 告警1,告警2,告警3,… 原因1,原因2,原因3… 故障2 告警1,告警2,… 原因1,原因2… 故障n 告警2,告警3,… 原因2,原因3… 基于故障知识库的告警关联分析 ƒ可能的告警影响关系 指标1 应用1 根因 指标3 告警 联动分析 „最终的告警影响关系 指标2 故障分类 应用2 应用4 应用3 应用5 应用间 指标2 指标4 指标3 指标5 应用内 应用1 应用2 应用4 应用3 应用5 应用间 知识库
  • 24.智能故障处理 被动故障处理: 传 统 故 障 处 理 1. 事后处理:出先故障后开始处理,易造成业务中断; 2. 人工处理:基于工作流的故障上报和处理,层层通知手工定位故障原因,故障修复时间长; 3. 无计划性:多为突发情况,进行临时处理,难免有疏漏之处; 4. 报警爆炸:随着业务增长,报警越来越多,运维人员不堪其扰 主动故障处理: 智 能 故 障 处 理 1. 事前感知:通过故障预测算法,预测故障类型及发生时间,并提前通知项目负责人; 2. 自动处理:决策引擎根据预设的事件处理策略,自动执行处理指令以及基于机器学习的自动故障处理; 3. 定时巡检:平台化的定时巡检机制,给出应用健康报告,问题早发现早解决; 4. 报警收敛:对告警做告警筛选、过滤、合并操作,大大减少报警数量; 预测 自动化
  • 25.预测之道 预测分类: 故障预测、容量预测、性能预测 预测算法: 多元线性回归、决策树、随机森林、神经网 络、朴素贝叶斯分类、最小二乘法、支持向 量机 … 重点关注: 算法匹配度评分 Kpi自动分类并匹配预测算法 日历适配、基于节假日的机器学习算法 基于业务关联关系的预测算法
  • 26.01 IT运维难在哪 02 业界新趋势 03 智能监控实践 04 AIOPS实践 05 展望
  • 27.AI应用领域扩展 n 智能告警分析 n 故障预测 n 智能故障处理 n 反馈文本聚类 n 应用异常分析 n 咨询客服机器人 n 关联异常分析 n 数据库参数调优 n 性能预测 n……
  • 28.AIOPS路线图 AIOPS应用层 异常检测 根因分析 事件预测 决策支持 智能处理 AIOPS组件层 KPI自动分类聚合 故障树构建 决策树构建 知识库构建 性能预测,故障预测,容量预测 AIOPS算法层 KPI分布预测 KPI聚类 KPI联动分析 KPI事件关联 异常区间比对 日志事件序列提取 日志事件模板提取 机器学习算法 ARIMA,时序数据分解,Holt-winters,CUSUM,奇异谱变换,DiD,DBSCAN,关联分析,因果性分析,逻辑回归,关联关系挖掘,聚类,层次聚类,聚类树,决策树,随机森林,支持向 量机,蒙特卡洛树搜索,马尔科夫链,多示例学习,迁移学习,卷积神经网络,递归神经网络,自然语言处理技术…
  • 29.