华为数据中心网络国内拓展总监刘立峰——数据中心网络运维再思考

2020-02-27 922浏览

  • 1.数据中心网络运维再思考 华为数据中心网络国内拓展总监 刘利锋 1
  • 2.云计算架构成为数据中心资源组织形式 五 大 特 征 云计算是一种能够方便地按需从网络访问共享的可 配置计算资源池(如网络、服务器、存储、应用程 序和服务)的模型,且只需最少的管理或服务提供 方交互即可快速供应和发布该模型。 On-Demand Self Service 按需自服务 Resource Pooling 资源池化 Broad Network Access 广泛网络接入 Rapid Elasticity 快速弹性扩展 Measured Service 可度量的业务
  • 3.云网络:网络归一化,多形态接入 裸机 裸机 裸机 vSwitch VM VM VM vSwitch Docker Docker 服务器 /VM /Docker EN
  • 4.云网络:网络资源虚拟化,按需自助 来源: Comparing Network Virtualization Techniques Available in the Cloud
  • 5.运维对象变化:网络规模越来越大 来源:Facebook data center fabric network topolo • 网络节点越来越多 业务x 按业务分区组网 单分区 1000台服务器 物理服务器接入为主 按集群组网 单集群100,000台服务器 VM/Docker为主 网络规模持续增长引入运维需求:需要有更高性能、更高扩展、更标准的数据采集方式
  • 6.运维对象变化:基于overlay的SDN,全新挑战 网络管理员 物理网络 静态和单层次网 业务调整慢,网络相对静态; 由管理员静态配置 业务1 应用 网络 WE 策略1 AP B1 P1 DB 策略2 1 业务2 WE 策略3 AP B1 P1 DB 策略4 1 网络管理员 逻辑 网络 逻辑网络1 物理 网络 逻辑网络2 动态和多层次网 随着应用快速的弹性伸缩和部署 通过控制器自动下发 网络overlay引入运维需求:需要从网元演进到对网络的运维监控
  • 7.SDN推动网络运维的变革 来源:EMA调研 虚拟网络的 Metrics管理 NFV网元的 Metrics管理 SDN控制器 Metrics管理 动态监控 逻辑资源 网络路径 可视化 SDN流的 控制器和交换机 网络行为对SDN 报表 连接分析 的影响 数十万管理对象 OpenFlow/OVSDB 自动监控 动态路径  秒级监控  实时“状态-策略”联动 传统网管无法管理超大规模、拓扑动态变化、实时监控的网络
  • 8.网络运维的变化 传统网络 基于Underlay 基于轮询 有限物理节点 基于拓扑 Underlay+Overlay 接近实时 海量节点,逻辑网络 基于动态路径 SDN云网络
  • 9.云网络运维思路探讨 9
  • 10.从网络管理员角度看云网络运维全新需求 传统网络做法 SDN云网络新需求 安装部署 手工或者批量ZTP,Puppet等 Underlay零配置 Overlay弹性自动部署 运营 日常维护 业务维护手工配置 业务自动下发 网络手工维护和小工具巡检 平滑升级,即插即用 网络优化 问题驱动或者靠经验 智能预测,自动提醒 维护 监控度量 故障处理 监控静态物理网 分钟级监控 主要靠人工和经验 三层逻辑网络互视 秒级或者毫秒级监控 智能故障定位 网络智能医生 SDN带来了业务自动化业务发放,但同时将网络变成黑盒,故障处理面临严重的挑战
  • 11.他山之石:云网络运维业界做法ECOMP:是Domain 2.0的运维系统。 Enhanced Control, Orchestration, Management & Policy。DCAE:是ECOMP的分析模块。 Data Collection, Analytics and Events。 它收集性能、利用率、配置数据,进行分析。 用于故障处理,发布事件和分析结果。ONUG:Open Network User GroupNSCCA:Network State Collection, Correlation and Analytics 功能点:收集、相关性、状态分析、第三方集成 结论:网络分析器将成为运维的主要部件。
  • 12.面向云网络运维的设计思路 分析器 (大数据分析) 控制器 eSight ENP芯片 打造基于每个 “Packet”的精 细化运维方案 理念: 利用人工智能,使网络规划、运维与 优化上从被动走向主动。 分析器与控制器、网络设备的关系: 分析器是控制器的使能器。 形成采集、分析、控制的闭环运维 系统。 基于ENP可编程芯片
  • 13.华为Fabric Insight应“云”而生 运维应用 大数据分析 数据采集 Fabric Network 网络拥 塞地图 全路径 雷达扫 描 应用可 视化 … 3rd APP 实时数据分析 离线数据分析 Buffer Loss … Delay Flow gRPC SNMP …OVSD B sFlow VM VM VM VM VM VM VM VM VM VM VM VM VM VM VM VM VM VM VM VM VM VM VM VM VM VM VM VM VM VM 三层资源监控 • 应用、逻辑、物理网络 可视 • 资源状态实时可视 全网质量度量 • 全网路径自动探测 • 微突发检测与毫秒级时延统计 快速故障恢复 • 基于大数据的智能分析 • 分钟级故障定位
  • 14.借助“ENP”芯片实时、高清、精准呈现业务状态 Monitor:业务路径智能探测 • 基于OpenFlow精确业务路径探测 • 基于Hash计算全路径探测,设备内置发包 引擎实现分钟级全网路径探测 Metrics:IPCA随流探测,呈现实际应用体验 • 随流检测,直接反映真实业务转发质量,支持 丢包、时延检测; • 不修改现有业务,不新增探测流量,零开销。 Detector:结合1588V2检测精准时延 • 芯片支持报文插入时间戳 • 全网时钟同步实现纳秒级时延测量 Diagnosis:动态负载均衡,自动优化网络流量 • 基于大数据实现业务流量预测 • 动态匹配全网路径流量分布 • 动态下发业务DLB策略实现动态流量均衡
  • 15.从网络故障全生命周期的实现端到端自动化运维 隐患 产生 投诉 解决 Monitor 实时状态呈现 Metrics 应用质量可视化 On-going Detector 网络检测 On-going Monitor 历史性能、告警 Metrics 应用质量可视化 On-demand Detector 网络检测 On-demand Diagnosis 故障检查 On-going Diagnosis 故障定位 故障预警 故障定界 故障定位 ProActive 故障定位 Active 传统故 障处理 模式 Diagnosis 故障智能修复 故障修复 自动化 通过自动化、租户自助运维 减少传统的(投诉->修复)事件, 提升网络故障发现和修复效率
  • 16.三层可视,网络质量高清呈现 看得见 应用网络拓扑 逻辑网络拓扑 物理网络拓扑  网络质量全局可视  毫秒级现象可视 全网路径质量热力图 链路承载的业务可视 业务真实物理路径可视  三层网络互视  疑难故障定位 微突发可视 看得 清
  • 17.智能定位,分钟级故障定界 …网 网 络元 KPI 级级 故 故故 障 障障 定 定定 位 位位 大数据平台 日志/告警/KPI异常 检测算法 故障专家系统 (专家经验库+故障规则) 日志 告警 KPI数据 传统 故障定位 耗时长故障定位时间 人工定位 智能 故障定位 分钟故障定位时间 级 自动定位
  • 18.主动调优,确保高品质业务体验 • 实时检测,智能预警 • 早于业务受损前检测出隐患 Fabric Insight 故障树/日志预测 故障预测 主动优化 自动分析 • DLB实现流量动态负载均衡 • 主动调整,避免业务受损 DLB 动态流量均衡 High Priority Mid Priority Mid Priority Low Priority • 自动关联分析、故障专家系统分析 • 结合经验数据库给出修复方案 A 地 B 导入故障信息 地 经验数据库 日志/告警/KPI异常分析 知识库积累
  • 19.Fabric Insight 应用视图之微突发检测 Fabric Insight 运维应用 微突发 检测应用 数据分析 Buffer 拥塞分析 数据采集 GRPC Server 端口拥塞状态可视(100ms) 端口拥塞影响的业务流(网络与应用深度关联) CE设备 GRPC Client
  • 20.Fabric Insight 应用视图之全路径检测定位 全路径检测 ③ 丢包时延异常位 置定位 ② (精确定位算法) 路径质量检测 ① (时延/丢包率) 广覆盖样本 (最优路径集) 物理网络全局质量监控 链路质量细节(路径时延、丢包) Fabric Network
  • 21.Fabric Insight 应用视图之流量监控 Fabric Insight 运维应用 TCP流量监控应 用 数据分析 流量质量异常分 析 数据采集 TCP 报文解析 应用网络全局质量监控 VM之间TCP流量质量细节(流的时延、丢包) CE设备 Mirror
  • 22.谢谢! 22