海量大数据平台运维智能化实践 徐小飞@阿里巴巴

2020-03-01 601浏览

  • 1.8 海量大数据平台运维智能化实践 1 0 2 C C T D 阿里计算平台事业部 基础工程技术-徐小飞
  • 2.个人介绍 徐小飞 (晟白) 阿里计算平台-大数据基础工程技术 带领团队打造阿里大数据运维解决方案Tesla(包含 SRE中台和SRE应用的分层体系——大中台小前 台),目前该平台体系承载阿里大数据平台及业务 共10w+规模节点的日常运维运营工作。 0 2 C C T D 8 1 曾就职: • 华为,先后在运营商BG的OCS/CBS计费平台、 平台中间件、云运维平台等部门从事产品研发 与规划以及工程交付,在华为工作7年半,经历 过开发、运维、运维开发等岗位,参与过国内/ 海外多个大T局点现场交付,带领团队从传统运 维到云运维的转型。
  • 3.运维新趋势 Ops DevOps DataOps 感知 智能感知设备 无人驾驶 • 立体图像/红外 • 激光测距仪 • 雷达传感器 无人运维 • 立体化监控 • 运维事件 • 异常自动检测 8 1 执行 0 2 智能决策 C C T D 全方位系统感知 决策 AIOps • 视觉识别处理 • 电脑资料库 智能运维决策 • 简单/复杂规则 • 诊断树/图 • 机器学习 智能控制系统 • 自动泊车 • 碰撞预警 • 车道保持系统 自动化执行 • 自愈流程 • 运筹优化 • 容量自动管理
  • 4.目录 运维新趋势 C C DataOps数据化运维 T D 数据价值转化 AIOps征程 8 1 0 2 Tesla运维解决方案
  • 5.阿里大数据运维 T D C C 0 2 8 1
  • 6.我们的客户——大数据核心业务 承载集团 的存储和计算 超大规模几万 台服务器 几十 个集群 0 2 C C T D 服务集团几十 个 用户 8 1 AnalyticDB 承载集团几十 个 实时作业 重要业务 媒体大屏 菜鸟 阿里妈妈 客满 智能服 务实时数仓 承载集团几十 个 算法作业 重要业务 阿里妈妈 、 智能语音 承载集团几 十个 业务
  • 7.运维分层解决方案——Tesla T D C C 0 2 8 1
  • 8.大数据业务运维——SRE应用 T D C C 0 2 8 1
  • 9.目录 运维新趋势 C C DataOps数据化运维 T D 数据价值转化 AIOps征程 8 1 0 2 Tesla运维解决方案
  • 10.数据是一种新能源 通用的数据处理挑战: • • • • • 8 1 算法 有效地收集、清洗 数据实效性、准确性 有序、有结构地分类组织和存储管理 用算法打通、连接,分析这些数据 有效、智能地将价值数据提炼、展示 出来 T D C C 0 2 技术 数据 新能源
  • 11.什么是数据化运维 定义: • 把所有系统运维数据采集起来、真正打通,深度挖 掘运维数据的价值,为运维提供数据决策基础和依 据,从系统“稳定性、成本、效率、安全”多个维 度,驱动自动化、智能化运维运营,真正实现 AIOps。 DataOps -> AIOPS: • T D C C 0 2 8 1 相对于传统运维的改变,就是把传统的使用命令、 人工决策的运维过程,变成使用数据+算法(规则或 机器学习)的模式。进而为AI应用到运维场景提供 铺垫,是AIOps的前奏。 执行 感知 策略
  • 12.怎么做数据化运维 我们的使命:为阿里大数据保驾护航 我们的方法:用阿里大数据运维分析 利用“阿里大数据”来构筑“阿里大 数据”的数据化运维体系 • • • • 运维数据应用 运维数据服务 运维数据计算 运维数据采集 C C T D 数据化运维体系: 0 2 8 1 图出自书《大数据之路》
  • 13.DataOps 数据化一切运维对象,数据驱动运维 T D C C 0 2 8 1
  • 14.数据化运维案例——全链路分析诊断 结果报告 • 提供自助式全链路的诊断视角 • 通过一个作业的入口,关联延伸到整个系统的上下游 • 资源满足/配置检查/数据依赖/历史对比/长尾倾斜.... C C 0 2 T D 毛刺图形 部分长尾 稀疏图形 资源争抢 8 1 任意机器进程 CPU消耗分析
  • 15.数据化运维案例——硬件自愈 1数据采集链 路 8 1 0 2 决策定义 C C 决策 进程影响 进程影响时间 数据影响 数据影响时间 影响范围 重启服务 重新部署 重载配置 内核升级 重启机器 进入无盘 重新克隆 整机维修 机器下线 1 1 0 1 1 1 1 1 1 5 5 0 5400 1200 1200 5400 345600 永久 * * * * * * * * * 5 0 0 0 1200 1200 永久 永久 永久 服务组件 服务组件 服务组件 整机 整机 整机 整机 整机 整机 数据盘维修 0 0disk:'>disk: