DataOps 数据驱动的智能运维 张颖莹
2020-03-01 177浏览
- 1.DataOps-数据驱动的智能运维 张颖莹 阿里巴巴 算法工程师
- 2.在此键入姓名 在此键入tittle
- 3.⾃自我介绍 毕业于上海财经大学 研究领域:数据挖掘、运筹优化和统计分析 现任阿里巴巴计算平台-算法工程师 负责:异常检测、日志聚类、根因分析、资源分 配优化等智能运维场景落地
- 4.对运维的初始印象 >echo >pssh >/usr/local 背锅侠 消防员 7*24守卫 Shell程序员
- 5.阿⾥里里巴巴⼤大数据运维 ⼤大规模 10万+台——世界最⼤大的计算平台 全球布局 单⽇日数据处理理量量超过600PB 实时性 遍布全球19个地理理区域的数据中⼼心 实时产出的双⼗十⼀一⼤大屏 阿⾥里里云⼤大数据计算平台
- 6.阿⾥里里巴巴⼤大数据运维 ⼤大规模 全球布局 2万+ 5000万+ 实时性 海海量量任务 阿⾥里里云⼤大数据计算平台 数据⼯工程师 ⽇日均运⾏行行任务
- 7.数据助⼒力力运维智能化 DataOps 成本 ?效率 稳定性 阿⾥里里云⼤大数据计算平台 世界级 全球布局 海海量量任务 ⼤大规模 实时性 挑战
- 8.01 稳定性 成本 效率 稳定性
- 9.01 稳定性 传统监控 ❌ 噪⾳音多 ❌ 规模化 ❌ 多种异常类型 【GOC】监控告警 ********************* ********************* ********************* 【GOC】监控告警 ********************** ********************** ********************** 【GOC】监控告警 ********************* ********************* *********************
- 10.01 稳定性 稳定准确 ⽆无监督 可解释 实时 配置⻔门槛低 统计分布原理理 智能算法 异常检测 周期性问题 窄脉冲问题 ⼤大⼩小规模问题
- 11.01 稳定性 噪⾳音 ⻩黄⾦金金指标 指标接⼊入 智能算法 异常检测 均值变化 检测尖峰 (深谷) 方差(抖动频率)变化 断崖式跌落 趋势预测 告警线
- 12.01 稳定性 指标接⼊入 智能算法 异常检测 评价反馈 有效率 + 覆盖率
- 13.01 稳定性 根因分析 关联分析 指标接⼊入 评价反馈 实体A 智能算法 异常检测 实体B 实体C 维度下探 指标 事件 ⽇日志
- 14.01 稳定性 根因分析 指标接⼊入 关联分析 智能算法 异常检测 评价反馈 感知 维度下探 决策 ⾃自愈闭环 集群诊断 基于图模型的推断 执⾏行行
- 15.02 成本 成本 效率 稳定性
- 16.02 成本——宏观视⻆角 地域X 集群 资源要素 计算 存储 ⽂文件数 地域Y 带宽资源 集群A 应⽤用A1 应⽤用A2 应⽤用An 数据依赖 跨域带宽资源 集群B 集群C 应⽤用B1 应⽤用C1 应⽤用B2 应⽤用Bn 数据依赖 应⽤用C2 应⽤用Cn 数据依赖
- 17.02 成本——宏观视⻆角 地域X 集群 资源要素 带宽资源 计算 集群A 存储 应⽤用C2 ⽂文件数 地域Y 应⽤用A2 应⽤用An 跨域带宽资源 集群B 应⽤用A1 应⽤用B1 应⽤用B2 应⽤用Bn 数据依赖 集群C 应⽤用C1 应⽤用Cn
- 18.02 成本——宏观视⻆角 运筹优化模型 优化⽬目标 最⼩小化跨域带宽资源消耗 约束条件 集群资源、带宽资源 决策变量量 应⽤用a是否迁往集群X 节省⻓长途带宽 *Tb, 减少*PB存储冗余
- 19.02 成本——微观视⻆角 公共云客户 预付费 ⽤用户满意度 客户资源使⽤用 资源池 各资源组配额分配 ⼆二级资源组的划分 时序预测 运筹优化 等待时⻓长 预付费 满⾜足率 反馈调整 不不公平度
- 20.等待时⻓长 02 成本——微观视⻆角 资源申请量量 资源满⾜足率 资源申请量量 不不公平度 ⽤用户满意度 机器器数
- 21.03 效率 成本 效率 稳定性
- 22.03 效率——运维侧智能答疑提效 ⼈人⼯工答疑 ChatOps机器器⼈人 海海量量作业 报错⽇日志 ⽇日志聚类 解决⽅方案
- 23.03 效率——运维侧智能答疑提效 海海量量作业 报错⽇日志 结构化特征 语义特征 Log Parser 实体提取 Log Clustering ⾃自然语⾔言处理理 实时在线聚类 专家标注解决⽅方案 智能答疑
- 24.03 效率——⽤用户侧同步任务提效 两个BU同步速度分布 占⽐比 参数推荐 ⽤用户经验 参差不不⻬齐 同步任务 属性 平均速度提升7倍 18 算法赋能? 16 14 12 聚类算法 10 8 6 4 2 1 2 同步速度 0 1 2
- 25.03 效率——⽤用户侧同步任务提效 错峰运⾏行行同步任务 流量量尖峰提升 同步速度真的越快越好吗?
- 26.DataOps智能运维实践 宏观 微观 运维侧 跨域 应⽤用排布 公共云 资源管理理 ⽇日志聚类 智能答疑 成本 效率 稳定性 异常检测 根因分析 集群诊断 感知 决策 执⾏行行 ⽤用户侧 任务聚类 参数推荐
- 27.DataOps背后的数据链路路 数据分析算法部署 实时算法——Alink 离线⼤大规模算法——PAI 深度学习——PAI on Tensorflow …… 数据服务 CMDB (实体管理理) 数据规范 DWS/ADS层 (汇总应⽤用级数据) DWD层(明细层) ODS层(度量量) DIM层(维度) PMDB (指标、事件、⽇日志) 知识图谱 (实体+关系) 数据⼯工具 数仓建设 计算 数据地图 离线 质量量管理理 在线 开发IDE MaxCompute RealtimeCompute 数据采集 SLS DataHub TT …… 存储 MaxCompute OSS TSDB RDS AnalyticsDB
- 28.DataOps背后的数据中台 运维业务层 流式计算 通⽤用分析层 异常检测 ⽇日志聚类 通⽤用诊断 运筹优化 … 算法层 运筹优化 统计分析 机器器学习 深度学习 … 数据服务层 CMDB 知识图谱 PMDB ⼤大数据运维中台 作业平台 阿⾥里里云公共服务 Maxcompute 通⽤用计算 流程平台 RealtimeCompute 算法平台 交互式分析 数据⼯工⼚厂 Dataworks 数据规范 统⼀一数仓 ⾃自愈平台 数据通道 ChatOps OTS SLS⽇日志服务 … …
- 29.PD 解决⽅方案产品化 DataOps落地挑战 系统架构设计 架构师 算法性能评估和运作机制 研发流程 研发 ⽤用户 数据服务化 数据ETL 业务理理解鸿沟 算法性能 抽象数学问题 泛化能⼒力力 可解释性 架构稳定性 ⽤用户体验 …… 算法模型 业务需求沟通 数据获取 运维 产品设计 业务落地
- 30.欢迎和我们交流探讨 技术公众号 联系我 congrongzyy@163.com
- 31.
- 32.