弹性容量管理探索 张娟 阿里巴巴

2020-03-01 208浏览

  • 1.智能弹性容量量管理理 by 张娟(希宁)
  • 2.
  • 3.
  • 4.
  • 5.ABOUT ME 2011年年加⼊入阿⾥里里 2016年年~⾄至今,从事集团弹性资源管理理
  • 6.Contents 01 02 03 04 背景 4 智能弹性容量量管理理 9 具体实践 20 未来展望 32
  • 7.01 背景
  • 8.‹#› 成本运维的困境 稳定性 > 效率 > 成本 ⽉月度流量量趋势图 ⽉月度资源保有量量趋势图
  • 9.‹#› 成本运维的困境 多少合适? You never know!
  • 10.‹#› 传统做法 经验预估 压测到⽬目标量量级 等⽐比预估
  • 11.容量量规划的意义 •⽤用更更科学⼿手段做资源运营。 预算规划 1 2 软件迭代容量量评估 峰值流量量应对 3 4 新IDC引流容量量初 始化
  • 12.02 智能弹性容量量管理理
  • 13.概述 W hat W H ow T H T arget W Who “容量量规划”+“弹性伸缩”+“⻛风险 评估” “智能决策” + “⾃自动执⾏行行” “最优利利⽤用” + “容量量⾃自治” “Dev+Ops” + “业务”
  • 14.智能容量量管理理反馈环 01 需求管理理 04 数据分析 容量量预测 02 03 弹性伸缩
  • 15.‹#› 容量量预测公式 抽象成简化公式: ⽬目标机器器数 = 预测流量量 / 应 ⽤用单机能⼒力力(预测)
  • 16.流量量预测 ⾃自然态流量量预测 ⾮非⾃自然态流量量预 测 利利⽤用集群流量量时序特征回归 全链路路流量量模型,基于业务⽬目标的各应⽤用集群流量量预测,线性 回归
  • 17.单机能⼒力力预测 First step 应⽤用特征分析 Second step 提取关键性能指标, 建⽴立算法模型 Third Step 通过⽇日常样本数据回 归预测 Fourth step 压测验证,效果反馈 1 2 3 5 4 Last step 周期性产出单机性能 数据
  • 18.‹#› 线性回归模型 “.” 为真实样本点 “.” 为拟合后的点
  • 19.‹#› 模型校正 残差降噪 局部加权
  • 20.‹#› 效果评估 理理论评估 QPS {CPU(Max) / 2 } 预测 QPS {CPU(Max) } 实际评估 压测验证 1-abs(qps真实 –qps预测)/qps真实
  • 21.‹#› 数据处理理框架 D e D D S / aD S / H D ( ) D / O S D D e D D P D D b
  • 22.‹#› APM应⽤用性能管理理 维护应⽤用性能基线。 性能趋势跟 踪。 发现变更更异 常。 辅助架构演 进。
  • 23.04 具体实践
  • 24.实践场景 01 ⽇日常弹性 02 分时复⽤用 03 边压边弹 01 IDC引流评估 05 其他 02 03 02 04 04 05 04
  • 25.‹#› ⽇日常弹性 锁定 理区间
  • 26.‹#› ⽇日常弹性 备注: 集群⽔水位 = 集群QPS / (单机QPS 极限值 * 机器器数) 单机QPS极限能⼒力力 触发模式:⼿手动、⾃自动、定时 触发策略略
  • 27.‹#› 分时复⽤用背景
  • 28.‹#› 分时复⽤用挑战 服务SLO保证 I II 精准权重调度和容量量预 测 事件模型、QoS监控 和熔断机制 精细化分时调度 全时段精细化削峰填 ⾕谷 资源边界最⼤大化 III IV ⾼高效执⾏行行,快速 恢复 数据分析为前提,多 种执⾏行行策略略
  • 29.分时复⽤用核⼼心模块 ‹#›
  • 30.分时复⽤用效果 ‹#›
  • 31.‹#› 边压边弹 1 2 3 4 5 压测交易量增长趋 6 7 9 8 10 11 12 压测负载预测,容量量评估 易量增长趋势 QPS 700 拟合后与目标负载的交叉点n qps 600 500 400 曲线拟合 300 qps 对数 (qps) 200 100 0 0 20 40 机器学习 60 80 100 CPU
  • 32.‹#› 边压边弹执⾏行行流程
  • 33.‹#› 边压边弹智能决策 TEXT HERE
  • 34.‹#› 边压边弹⽬目标 压测⽆无⼈人值守
  • 35.05 未来展望
  • 36.• 智能化容量量⾃自治。 • 整体集群资源0冗余。
  • 37.F&Q Please Join Us!
  • 38.‹#› Thanks!