优维科技王津银 - 谈谈技术架构的运维治理
2020-02-27 57浏览
- 1.谈谈技术架构下的运维治理 优维科技 王津银
- 2.运维老王 隔壁老王 王津银 优维科技创始人, 致力于DevOps 运维推广 9年运维经验 行业价值 (腾讯5年+YY +UC+某金融) 互联网运维杂 谈作者>2w人 无2年惧开于发开经h发t验t的p,://www.easyops应规.c范用n运组维联标席准组 技术交流和PK 长兼神秘
- 3.目 Contents 录 01 何为运维治理 02 运维治理之过程治理 03 运维治理之服务治理 04 运维治理之平台治理
- 4.为什么需要运维治理 1 业务的互联网化 2 变化是必然,频繁的变化更是必然 3 硬件和软件的开源化 4 Dev和Ops的边界越来越近 5 IT和业务越来越近
- 5.从COBIT看运维治理 2 58 3 6 9 11 1 4 7 10 12
- 6.运维治理的典型框架 业务 需求 业务收益 资源优化 风险控制 治理层 指导 评估 监控 计划/构建 /运营/监 控是全面构 建IT服务管理 流程 管理层 计划 构建 运营 监控 除了IT服务流 程管理,偏 向具体的各 层服务治理 能力 执行层 资源层治理 架构层治理 运维过程治理(流程/规范/方法/持续 交付) 应用层治理 平台层治理
- 7.运维治理的典型过程 运维战略要和业务战略对齐,包括 • 目标/机会 • 业务架构和系统架构 • 资源/服务战略 运维 战略 运维管理平台支撑 • 信息共享化平台 • 持续交付平台 • 数据化平台 运维 平台 运维 价值 运维价值和业务价值转化 • 质量 • 成本 • 效率 • 安全 标准化的运维支撑 • 运维标准化 • 运维规范 • 运维流程 运维 过程 运维 服务 构建服务能力管理 • 面向研发者服务 • 面向运维者服务
- 8.运维治理的目标 可监控 性 服务透 明 容错性、位置透明、名字服务 可运 维性 可管理 性 可视化管理,一切可配置,场景化 服务最终自助化管理,产品化的要求 自服务
- 9.目 Contents 录 01 何为运维治理 02 运维治理之过程治理 03 运维治理之服务治理 04 运维治理之平台治理
- 10.运维治理之流程体系 服务战略 服务设计 服务转换 服务运营 持续服务改进 • 服务组合管理 • 财务管理 • 需求管理 • 服务级别管理 • 服务目录管理 • 供应商管理 • 容量管理 • 可用性管理 • 变更管理 • 配置管理 • 发布管理 • 知识管理 • 突发事件管理 • 问题管理 • 事件管理 • 评估管理 • PDCA过程 • 请求管理 • 评估要衡量的服务 • 收集数据 • 分析数据 • 改进过程
- 11.运维治理之规范体系
- 12.运维治理之标准化 • 组件选型 • 监控 • 容量 • 包管理 • 配置管理 • 测试工具 • 机型 • 命名 • 运营状态 • 重要级别 • 监控 • 资源池 业务层 接入层 逻辑层 数据层 系统资源层 设备资源层 网络资源层 • 架构 • 分布 • 容灾 • 监控 • OS/内核 • 初始化 • 用户/密码管理 • 基础agent • 机房 • 机柜 • 网段规划 • 容灾 • 波分 • 监控 • ……
- 13.目 Contents 录 01 何为运维治理 02 运维治理之过程治理 03 运维治理之服务治理 04 运维治理之平台治理
- 14.服务治理之服务公共化 多组件带来 质量下降 每个组件的可用性 <1,乘积的放大效 应 业务的快速 响应 公共服务让业务的试 错成本越来越低 运维管理的 需要 简化运维管理,提高 可运维性
- 15.服务治理之架构失控 服务间调用:配置、DNS、LVS、链路… 负载均衡 接入层 逻辑层 LVS F5 Haproxy+keepalive Nginx+keepalive Cache服务器 Nginx Tomcat Resin Jetty 自研 文件服务器 私有程序 Tomcat Resin Apache 存储服务器 Memcache Redis Localstorage Ftp Mfs Fastdfs Tfs Mysql Mongodb Cassandra Redis
- 16.架构失控的统计学阐释 失控下组件数量N 可控下组件M(17.运维治理之架构点控制18.运维治理之架构点控制 应用服务层 PaaS+能力层 PaaS能力层 组件及服务 IaaS能力层 基础设施及服务 业务层 应用A 应用B 应用C 应用D 应用E 应用能力SDK层 登录SDk 支付SDK 基于JAE的开发框架 RDS Sdk Cache Sdk RDS Cache PaaS,平台即服务 移动开发 框架 测试框架 File Sdk 文件存 储 队列Sdk 队列 数据sdk NoSql Sdk NoSql IM sdk 定时任务 sdk 定时任务 IaaS,基础设施及服务 计算 存储 网络 物理 多云SP19.运维治理之架构线的控制 服务注册 能够完成服务的人工或 者自动注册 服务发现 服务调用端能够对被调 用端做自动的服务发现 服务调度 还要解决线上服务的动 态调度20.技术架构之名字服务 技术架构运行时应该剔除人的因素21.名字服务中心的服务治理 服务注册 • 服务自动 注册 • 服务自动 下线 • 接口发布 • 实时感知 • 中心注册 服务发现 • 自动发现 • 实时感知 • 双向通知 服务调度 • 软负载均 衡 • 自动降权 • 自动检测 恢复 • 服务路由 • 调用链染 色 服务管理 • 服务 • 实例 • 接口 • 接口黑白 名单 • RPC容器 • 调度授权 • 调度策略 • 集群管理 服务监控 • 调度监控 • 调度链监 控 • 依赖监控 • 故障拓扑 • 质量报告 • 服务自动 分级 • 集群监控22.名字服务的服务治理价值 业务拓扑 01 性能管理 03 基于拓扑的故 02 障定位 04 数据成本低 APM实现 的23.运维治理之架构面控制 一次业务访问流能够很好的容忍其经过的硬件及软 件故障,从而提供高可用的服务。 ——fault tolerance ——high availability24.运维治理之架构面控制 9个技术手段 SET模型 全网调度 灰度升级 过载保护 立体监控 自动部署 柔性可用 数据银行 云中生长 4个意识 大系统做小 先抗住再优化 边重构边生活 干干净净 2个技术价值观 有损服务 动态运营 遵守一致的架构方法论 l 腾讯海量服务之道 l MicroService微服务 l 12factor l CloudNavtive等等25.运维治理之经验分享 强有力的领导 公共架构团队 架构与运维深度融合 一致的方向理解 架构及服务 持续的目标认同及滚动26.目 Contents 录 01 何为运维治理 02 运维治理之过程治理 03 运维治理之服务治理 04 运维治理之平台治理27.Dev和Ops的冲突 2728.Dev和Ops的价值一致性 ABCD 2829.Dev和Ops,统一持续交付流 需求队列 • 用户反馈产生的需求 • 运行持续反馈产生的 需求 持续集成 持续测试 持续交付 持续运营 • 运维标准化 • 运维平台化 • 运维PaaS化 交付队列 • 人工构建库 • 技术架构服务化 • 持续集成与测试 • 用户验收测试驱动研发 • 冒烟测试和探索性测试30.DevOps持续交付平台体系 运营能力层 成本优化能力 故障自愈能力 业务服务优化能力 性能优化能力 质量优化能力 用户体验优化能力 效率提升能力 连续服务能力 OaaS,运维即 服务 平台能力层 持续交付平台 智能监控平台 IT运营分析平台 安全平台 通用能力层 基础设施层 名字服务 GSLB服务 缓存即服务 LB即服务 存储即服务 队列即服务 配置即服务 数据即服务 引擎即服务 资源即服务 作业即服务 应用部署服务 CMDB,基础资源管理和业务信息管理 API Adapter Layer 设施管理 OpenStack VMware CloudStack 物理服务器 PaaS,平台即 服务 IaaS,基础即 服务 l Operation As a Service,运维及服务,是以DevOps平台能力为基础,实现了运维的IT能 力和业务能力的对接。 3031.持续交付平台分层 业务交付层 (服务编排) 应用交付层 (代码部署) 作业交付层 (作业管理) 成 场业自 熟 景务动 度 化化化 不 不不不 断 断断断 提 增明提 升 强显高32.持续交付之持续部署 包/配置、服务、环境等 一键化业务变更能力(灰 资源生命周期管理(发布、 度、部署、启动、停止、 测试、部署、优化) 下线等能力) 持续部署平 台 业务、服务管理(业务/ 持续反馈(用户侧、服务 服务拓扑视图管理) 侧)33.运维平台之数据化平台 l 数据化平台是裂变了告警监控和运营分析两个平台 l 智能监控负责问题处理能力闭环 l 运营分析负责数据化驱动决策和优化闭环34.谢谢 优维科技,DevOps管理专家
- 17.运维治理之架构点控制
- 18.运维治理之架构点控制 应用服务层 PaaS+能力层 PaaS能力层 组件及服务 IaaS能力层 基础设施及服务 业务层 应用A 应用B 应用C 应用D 应用E 应用能力SDK层 登录SDk 支付SDK 基于JAE的开发框架 RDS Sdk Cache Sdk RDS Cache PaaS,平台即服务 移动开发 框架 测试框架 File Sdk 文件存 储 队列Sdk 队列 数据sdk NoSql Sdk NoSql IM sdk 定时任务 sdk 定时任务 IaaS,基础设施及服务 计算 存储 网络 物理 多云SP
- 19.运维治理之架构线的控制 服务注册 能够完成服务的人工或 者自动注册 服务发现 服务调用端能够对被调 用端做自动的服务发现 服务调度 还要解决线上服务的动 态调度
- 20.技术架构之名字服务 技术架构运行时应该剔除人的因素
- 21.名字服务中心的服务治理 服务注册 • 服务自动 注册 • 服务自动 下线 • 接口发布 • 实时感知 • 中心注册 服务发现 • 自动发现 • 实时感知 • 双向通知 服务调度 • 软负载均 衡 • 自动降权 • 自动检测 恢复 • 服务路由 • 调用链染 色 服务管理 • 服务 • 实例 • 接口 • 接口黑白 名单 • RPC容器 • 调度授权 • 调度策略 • 集群管理 服务监控 • 调度监控 • 调度链监 控 • 依赖监控 • 故障拓扑 • 质量报告 • 服务自动 分级 • 集群监控
- 22.名字服务的服务治理价值 业务拓扑 01 性能管理 03 基于拓扑的故 02 障定位 04 数据成本低 APM实现 的
- 23.运维治理之架构面控制 一次业务访问流能够很好的容忍其经过的硬件及软 件故障,从而提供高可用的服务。 ——fault tolerance ——high availability
- 24.运维治理之架构面控制 9个技术手段 SET模型 全网调度 灰度升级 过载保护 立体监控 自动部署 柔性可用 数据银行 云中生长 4个意识 大系统做小 先抗住再优化 边重构边生活 干干净净 2个技术价值观 有损服务 动态运营 遵守一致的架构方法论 l 腾讯海量服务之道 l MicroService微服务 l 12factor l CloudNavtive等等
- 25.运维治理之经验分享 强有力的领导 公共架构团队 架构与运维深度融合 一致的方向理解 架构及服务 持续的目标认同及滚动
- 26.目 Contents 录 01 何为运维治理 02 运维治理之过程治理 03 运维治理之服务治理 04 运维治理之平台治理
- 27.Dev和Ops的冲突 27
- 28.Dev和Ops的价值一致性 ABCD 28
- 29.Dev和Ops,统一持续交付流 需求队列 • 用户反馈产生的需求 • 运行持续反馈产生的 需求 持续集成 持续测试 持续交付 持续运营 • 运维标准化 • 运维平台化 • 运维PaaS化 交付队列 • 人工构建库 • 技术架构服务化 • 持续集成与测试 • 用户验收测试驱动研发 • 冒烟测试和探索性测试
- 30.DevOps持续交付平台体系 运营能力层 成本优化能力 故障自愈能力 业务服务优化能力 性能优化能力 质量优化能力 用户体验优化能力 效率提升能力 连续服务能力 OaaS,运维即 服务 平台能力层 持续交付平台 智能监控平台 IT运营分析平台 安全平台 通用能力层 基础设施层 名字服务 GSLB服务 缓存即服务 LB即服务 存储即服务 队列即服务 配置即服务 数据即服务 引擎即服务 资源即服务 作业即服务 应用部署服务 CMDB,基础资源管理和业务信息管理 API Adapter Layer 设施管理 OpenStack VMware CloudStack 物理服务器 PaaS,平台即 服务 IaaS,基础即 服务 l Operation As a Service,运维及服务,是以DevOps平台能力为基础,实现了运维的IT能 力和业务能力的对接。 30
- 31.持续交付平台分层 业务交付层 (服务编排) 应用交付层 (代码部署) 作业交付层 (作业管理) 成 场业自 熟 景务动 度 化化化 不 不不不 断 断断断 提 增明提 升 强显高
- 32.持续交付之持续部署 包/配置、服务、环境等 一键化业务变更能力(灰 资源生命周期管理(发布、 度、部署、启动、停止、 测试、部署、优化) 下线等能力) 持续部署平 台 业务、服务管理(业务/ 持续反馈(用户侧、服务 服务拓扑视图管理) 侧)
- 33.运维平台之数据化平台 l 数据化平台是裂变了告警监控和运营分析两个平台 l 智能监控负责问题处理能力闭环 l 运营分析负责数据化驱动决策和优化闭环
- 34.谢谢 优维科技,DevOps管理专家