10:40 11:30 柯旻 阿里巴巴大数据智能运维实践
2020-03-01 256浏览
- 1.
- 2.阿里巴巴大数据智能运维实践 柯旻(大舞) 阿里巴巴大数据运维总监
- 3.个人介绍 柯旻(大舞) 阿里巴巴大数据运维总监 2007-2010 (中国yahoo) 负责中国yahoo基础运维相关工作 (IDC/网络/硬件/SYS) 2011-至今主要负责整个阿里集团所有离线,流&批计算, 分析型数据库,算法平台等大数据平台公有云以及内部平 台的运维,运维产品开发,架构以及对外输出。支持10W+ 服务器的平台日常运营维护工作。 (hadoop/hbase/jstorm/odps/ads/blink/数据通道/GPU...等大 数据平台产品)
- 4.阿里巴巴运维演进史 通过脚本代替手工维护模式 通过标准化规范化,把组件 监控与运维流程相结合,批 量自动化运维 组件监控模式 流程化运维模式 运维v2.0 运维v1.0 l 脚本替代手工操作 l l l l l 开发维护复杂 扩展性差 不免直观,易用差 进一步固化运维常见场景, 实现一体化监控,提升端到 端运维能力,对运维服务集 中化管理 l l l 具有图形力量面, 交互性好 与流程相结合,实 现一定自动化流程 化 高度自动化,精细化,精准 化,通过大数据机器学习等 技术以提供智能分析决策, 运维能力服务化 平台化运维模式 智能、数据化运维模式 运维v3.0 运维v4.0 l 实现了跨组件和系统化的 一体化监控 l 基础中间件统一提供服务 丰富运维场景 工具种类多,学习成本高 l 各工具自成体系,难以交互 l 覆盖了常用业务运维场景, 无法满足个性化运维需求 自动+开放+智能 仍然需要人工决策 对数据的应用程度不高,复 杂场景难以处理
- 5.规模增长 2009.4 2010.3 2010.7 2012.1 2012.10 2013.7 2014?
- 6.多维度海量数据
- 7.建 立运维 世 界 的 数 字 镜 像 运维数据仓库 Commands/Tools Based Operation -> SQL Based Operation
- 8.常见的运维数据 运行时 元数据 服务器 应用 • 元数据描述了对象的静态属性 • 运行时描述了对象的动态状态 集群 • 两者组合描述了运维世界 服务 网络
- 9.1号交换机故障导致丢包 1号交换机故障导致丢包 运维世界->DB
- 10.数据分层设计 解决: 数据加工难 重复劳动 加工链路长,出错概率高 DWS/ADS层(汇总/应用级数据) DWD层(明细层) ODS层(事实) • • DIM层(维度) 运维场景对数据实时性的要求永远是贪婪的 需要根据真实的场景和需求,选择合适的时效性 • ODS(Operational Data Store) 如从DB、API、日志等系统抽取过来的数据 • DIM(Dimension) 如机器维度表、监控部署维度表等 • DWD(Data Warehouse Detail) 基于ODS层,按照业务领域进行整合的明细数据 层 • DWS(Data Warehouse Summary) 基于DWD的统计层,一般根据DWD的某个维度 来统计 • ADS(Application Data Service) 基于DWS、DWD的应用展示层;直接输出给应 用使用
- 11.书同文(语言) 车同轨(方法) 行同伦(模式)
- 12.异常检测 (Anomaly Detection) 涵盖从业务层到硬件底层几乎所有垂直领域 各种设备的管控,如空调、服务器、硬盘 各种软件应用的监控 各种业务指标的监控 一切需要监控且有监控数据的对象, 都可以使用异常检测来进行智能管控 数据 Streaming data Log data Data in other formats 广义的异常检测包括: 异常检测 异常预测 根因分析 业务层 软件应用层 容器和虚拟机 服务机及部件(如硬盘) 网络 数据中心基础设施(如冷却控制 系统)
- 13.异常检测的类型 Fix 2 dims, and only focus on data in 1 dim – – – • Fix 1 dim, and focus anomalies in 2 dims – – – •T:only consider time dim, 单一对象单一metric(即单个时间序列):spikes & dips、趋势变化、 范围变化M:only consider metric,找出不符合metric之间相互关系的数据O:only consider object,找出与众不同的对象 MT:固定对象,考虑多个时间序列(每个对应一个metric),并找出其相互变化方式不同的作为异常 MO:不考虑时间特性,考虑多个对象且每个对象都可以用多个metric表示,如何从中找出不同的对象 TO:多个对象单一metric,找出变化趋势不同的对象 Find out anomalies in the (metric, object, time) 3d space – MTO:多个对象多个metric在不同时间的数据 我们重点考虑M, T和MT metric • 三个维度按照优先级排列为M>T>O time
- 14.数据化运维案例——全链路分析诊断 结果报告 • 提供自助式全链路的诊断视角 • 通过一个作业的入口,关联延伸到整个系统的上下游 • 资源满足/配置检查/数据依赖/历史对比/长尾倾斜.... 任意机器进程 CPU消耗分析 毛刺图形 部分长尾 稀疏图形 资源争抢
- 15.数据化运维案例—硬件自愈 1数据采集链 路 Ø 10w级的服务器上部署硬件相关信息采集插 件,打印硬件状态日志 Ø 经过数据通道、流计算、OLAP系统,建立起了 一份实时硬件状态表 Ø Center程序通过定时运行SQL任务,使用规则 判断硬件异常 2建模预 测反馈 决策定义 决策 进程影响 进程影响时间 数据影响 数据影响时间 影响范围 重启服务 重新部署 重载配置 内核升级 重启机器 进入无盘 重新克隆 整机维修 机器下线 1 1 0 1 1 1 1 1 1 5 5 0 5400 1200 1200 5400 345600 永久 * * * * * * * * * 5 0 0 0 1200 1200 永久 永久 永久 服务组件 服务组件 服务组件 整机 整机 整机 整机 整机 整机 数据盘维修 0 0disk:'>disk: