魅族系统运维架构演进之路
2020-02-27 209浏览
- 1.魅族系统运维架构演进之路 2016 覃军
- 2.01 前言 02 发展历程 目录 03 运营现状 04 系统运维的未来
- 3.前言 2015年 100万款应用 应用商店现有超过 100亿 应用总下载量超过 12倍 营收能力同比增长 魅族服务器发展历程 10000 0 5 800 4000 6000 服务器规模 2011 2014 2015 2016 数百到数千 服务器数量
- 4.01 前言 02 目录 发展历程 03 运营现状 04 系统运维的未来
- 5.发展历程 启程 质量 效率 流程 成本 2011 2014.6 2015.12 2016.6 2016.12 填坑,标准化 2011年 第一个IDC在广州 亚太建立,开启 系统运维之路 流程化 自动化 告警平台、CMDB RSA Token-‐堡垒机 机型套餐标准、 OS标准、供应商 管理等 变更管理 自动化装机平台 巡检平台 数据化 生命流 程闭环 、利旧 、 改造,打造运营平台 工单系统实现流程联 动、事件系统 服务器运营 容量系统 营收平台 Flyme内部结算 未来混 合云运 营
- 6.远古 2011-2011.12 l规模 机柜:1个 服务器:5台 业务:2个 人力:开发兼职运维 l问题 机房稳定性 监控缺失 架构单点
- 7.石器时代 2012.1-2014.6 业务架构 APP 接入层 DR LVS 逻辑/展示层 PHP、Java、C 数据存储层 mysql、 mongodb、 MFS文件系统 服务器/VM IDC基础 VPN Nagios, Cacti监控 运维管理 脚本工具实 现自动化运 维 KS+Cobbler iDRAC 网络V1.0 运维架构 Excel资产管 理 IDC管理
- 8.石器时代 2012.1-2014.6 l规模 IDC:1个 机柜: 30个 服务器/VM:800台 业务:>100个 人力:运维12个 l问题 IOE IBM刀箱、EMC存储、Vmware虚拟化、硬件供应商单一 à 去 网络不稳定、活动日流量突增 à 搭建新网络架构,带宽冗余 机房资源不足扩容难 à迁移机房,资源冗余 部分业务架构单点 à去单点,保证可靠性 部署:手工操作,依赖于人 à 自动化运维工具 监控:覆盖率低 à 定时巡检 DB压力 安全性较低
- 9.青铜时代 2014.7-2015.12 业务架构 APP DR LVS 接入层 逻辑/展示层 数据存储层 HAProxy PHP、Java、C、 C++、Golang Mysql、redis、 mongodb、MFS、 FastDFS、HDFS 服务器/KVM VPN+专线多机房 运维架构 运维管理 Zabbix监控 BI监控 告警系统 发布平台 域名平台 自动化运维工具 装机平台 业务树 CMDB资产管理 IDC基础 IDC管理 网络V2.0 事件系统 云管理平台
- 10.青铜时代 2014.7-2015.12 l规模 IDC:多个 机柜: >150个 服务器/VM:>4000台 业务:>200个 人力:运维平台35个 l问题 标准化率低,监控覆盖率低,维护成本高,有效性低 机房扩容难,成本高 IOE、虚拟化方案 部分业务架构单点 à 梳理单点业务,统一高可用架构 故障多样性 规模突增 资源扩容效率低 配置管理,准确性低 业务可用性
- 11.铁器时代 2016.1 业务架构 APP VPN+专线多机 房 运维架构 Fullnat LVS 接入层 逻辑/展示层 数据存储层 IDC基础 router PHP、Java、C、 C++、Golang Mysql、redis、 mongodb、MFS、 FastDFS、HDFS Zabbix监控 BI监控 告警系统 运维管理 发布平台 域名平台 自动化运维工 具 服务器 /KVM/Docker 装机平台 网络V3.0 事件系统 业务树 CMDB资产管理 IDC管理 容量系统 云管理平台
- 12.铁器时代 2016.1 l规模 IDC:多个 机柜: >200个 服务器/VM:>6000台 业务:>200个 人力:运维平台43个 l问题 监控问题:监控指标量化、可视化 机器套餐多,业务需求个性化 运营成本高,各业务ROI量化 工作流程化 资源利用率低 预案管理
- 13.回顾总结 l基础设施规划 (业务爆发式增长) IDC迁移,单个变多个,建设两地三中心 保留足够的机柜预留资源,保证快速部署需求 去IOE,建设以KVM为基础的魅族云平台,引入Docker容器平台,实现微服务 l监控告警与定位 (及时发现与定位) 告警分级:邮件、短信、钉钉 自动化添加监控设备,根据CMDB业务树进行巡检,保证监控覆盖率 BI告警,度量系统 l成本控制 提高资源使用率:监控系统+容量管理平台 容器服务化 供应商管理,引入多家厂商 Flyme内部结算,建立内部营收体系
- 14.回顾总结 l业务同质化与差异性(维护成本) 标准化:OS标准化、硬件标准化、软件标准化、架构标准化、组件标准化、协议标准化 规范:日志规范、部署规范 l手工重复操作,依赖人(效率) 运维自动化、平台化达到快速交付要求 上线流程+标准化打包+自助发布+灰度发布(持续交付) l预案 异地双活+快速切换措施 专线切换演练
- 15.魅族运维整体架构
- 16.魅族运维系统介绍 运维DNA库-‐ 业务信息管 理中心 运维军械库-‐ 虚拟化资源 管理平台 运维大杀器-‐ 自动化管理 平台 ZCMDB ZVM ZOPS 数据中转站-‐ 负载均衡管 理平台 ZLVS 业务指向标-‐ 域名管理平 台 ZDNS ZCMDB ZVM ZOPS ZLVS ZDNS 服务器管理 服务器管理 固件发布 性能报表 系统管理 网络管理 网络管理 CDN发布 LVS管理 域名管理 业务管理 业务管理 运维发布 LVS数据报表 IDC DNS管理
- 17.监控系统 数据采集(主动) 服务状态探测(被动) Client 公共插件 服务状态 自定义脚本 程序状态 监控 评估 用户访问 质量 第三方信息 其他相关 系统 数据处理 复杂计算 API 阈值判别 智能分析 报警与联动 报警策略 联动处理 报警跟踪 问题管理
- 18.监控系统架构 分布式部署
- 19.统一告警平台 监控分级告警机制,提高故障定位效率 基础监控覆盖 率 110% 100% 100% 90% 88% 80% 基础监控覆盖率 Q3 Q4 告警收敛效果:每个业务运维每天少接收322条告警短信,提高了运维效率。
- 20.监控告警平台 告警数据对比 每天告警数 • 监控模板标准化 • 监控自动添加 • 监控的精细化甄别 • 告警分级 • 告警信息收敛 • 告警统计 3542 5129 868 868 zabbix znotice 10000 0 坐标轴标题 mail sms 线性 (mail) 线性 (sms)
- 21.巡检平台确保OS标准化 How to do ? u 系统常规检测 u 系统安全检测 u 内核参数检测 收益: 建立标准体系,提升工作效率,规范运维工作,考核供 应商服务,保证业务稳定性、可用性。 梳理15个组件的标准化,发现问题96个,整改服务器项 目4000+次,有效的避免了因非标准因素导致的风险。
- 22.更安全的堡垒机 R 用户 软件 非法访问IDC事故 R 硬件 RSA认证 4 RSA-Token 2 模式原因 0 2013 审计把控 IDC账号管理平台 华东堡垒机 状态:备 openssh key认证 功能摘要 2015 2016 非法访问IDC事故 数据同步 华南堡垒机 状态:主 2014 JW邮箱被盗 用户中心数据库被拖走 登陆 win堡垒机密码失窃 用户管理 登陆记录 操作记录 …… 分权分配 服务器群 堡垒机 堡垒机 堡垒机 堡垒机
- 23.标准化,是业务可用性的基础 系统标准 网络标准 业务标 准 • 运营中一致性 巡检标准 • 交付一致性巡 检标准 • 服务入场测试 标准 • IDC选址标准 • 基础交付SLA • 机型规范 • IDC网络架构 规范 • IDC网络变更 规范 • 业务上线规 范 • 运维服务目 录与SLA 安全标准 • • • • ISO20007 等级保护 安全基线 SQL执行推 动 如何遵守标准:运维和开发一起定义标准 巡检平台、初始化部署平台、云平台、配 置中心、CMDB、安全漏洞平台 收益:减少运维和发布环节中的故障率,把隐患及时消除 在日常自动化巡检工作中,提高用户体验.
- 24.流程管理实现资产准确率99.9% 引入 退役 生产 服务器生命 周期 运营 利旧 服务器生命周期闭环 资产归属权明确 资产数据质量高
- 25.流程管理 l 资源交付类流程 >2倍 • 资源采购、日常申请、领用、上下线、自动验收检查、自动 部署、预置环境调整 l 资源调度类流程 节省沟通时间 • 服务器搬迁、改造、回收、备件调拨等 l 生命周期末端流程 • 服务器退役、利旧拆解、报废处理、硬盘消磁等 100% 资产准确性
- 26.01 前言 02 发展历程 目录 03 04 运营现状 系统运维的未来
- 27.容量系统 服务器的能力计算方法 f(x)=max (cpu能力、内存能力、网 络能力、IO能力) 业务成本考核 控制不达标服务器数量
- 28.营收平台 对内进行成本核算 5倍 成本关注度提 升
- 29.01 前言 02 发展历程 目录 03 04 运营现状 系统运维的未来
- 30.展望白银时代 监控自 动化 魅族 云 安全管 理 大数 据 服务 质量 开放 平台 流程管 理 运维自 动化
- 31.