唯品会运维架构和流程改造之路

2020-02-27 158浏览

  • 1.www.vip.com 唯品会运维! 架构和流程改造之路
  • 2.⾃自我介绍 www.vip.com • 黎毅敏! • ⼗十多年⼀一线运维经验! • ⻓长期关注⾼高可⽤用性、⾼高可靠性、可扩展性架构和⽅方案! • 2013年4⽉月加⼊入唯品会,负责⺴⽹网站系统运维! • 微博:@Yimin_Li
  • 3.分享主题 www.vip.com • 基础架构优化案例! • 运维流程优化案例! • 运维⾃自动化现状! • 关于DEV和OPS! • 图⽚片系统优化案例! • ⼤大数据对运维的帮助
  • 4.www.vip.com 基础架构优化案例
  • 5.www.vip.com
  • 6.背景 www.vip.com • 公司业务发展快! • 技术团队年轻! • ⺴⽹网络基础架构薄弱
  • 7.优化前⾯面临的挑战 www.vip.com • 交换机之间的流量经常跑满! • ⽆无法接⼊入更多的服务器和机柜! • 内⺴⽹网经常丢包! • 交换机之间⺴⽹网线经常降速! • 运维⼈人员经常踩坑! • ⾮非常多的单点故障点! • 对流量要求⾼高的新业务⽆无法上线
  • 8.原有IDC⺴⽹网络架构缺点 www.vip.com • 千兆⾻骨干! • ⽆无冗余! 10.100.10.* • ⽆无扩展性! • 内外⺴⽹网结构,两套⺴⽹网络,成本⾼高! 服务器 • 对运维不友好! • 安全性差 10.100.11.*
  • 9.重新设计 www.vip.com • 3个⽉月! • 2位⺴⽹网络⼯工程师
  • 10.新的IDC⺴⽹网络结构特点 www.vip.com • ⾼高性能(10G⾻骨干,核⼼心交换机Tb级转发能⼒力)! • 冗余性! • 可扩展性! • ⽆无⽣生成树! • 模块化! • 合理收敛⽐比! • 内外⺴⽹网融合,运维友好! 服务器 • 安全性加强 Bonding 10.100.*.*
  • 11.迁移项⺫⽬目 www.vip.com • 全部4个数据中⼼心! • ⼤大数据平台! • 数据中⼼心迁移! • 持续半年! • ⼈人⼒力投⼊入巨⼤大
  • 12.新架构效果 www.vip.com • 消除了⺴⽹网络单点故障点! • 应⽤用性能提⾼高! • 服务器带宽及可靠性提⾼高! • 可快速扩展! • ⺴⽹网络整体容量提⾼高10倍+
  • 13.好的架构还可以避免 www.vip.com
  • 14.www.vip.com 运维流程优化案例
  • 15.流程优化 www.vip.com • 基于ITIL! • 监控中⼼心负责! • 体系化! • 变更管理! • 事件管理! • 问题管理
  • 16.⺫⽬目标是团队像 www.vip.com
  • 17.⽽而不是 www.vip.com
  • 18.变更管理 www.vip.com • 减少变更对⽣生产系统的影响! • 减少故障定位和发现的时间! • 有助于跨团队和⼤大团队的沟通! • 确保对⽣生产环境的变更都经过审查和审批! • 避免过度审批! • 蝴蝶效应
  • 19.变更流程 www.vip.com
  • 20.变更系统 www.vip.com
  • 21.事件管理 www.vip.com • 监控中⼼心负责! • 多个监控系统(Zabbix,Telescope)! • 统⼀一告警平台! • 标准化故障处理流程! • 电话会议
  • 22.问题管理 www.vip.com • 监控中⼼心驱动! • 重⼤大故障! • 反复发⽣生的故障! • 定位原因! • 解决⽅方案
  • 23.www.vip.com 运维⾃自动化现状
  • 24.运维⾃自动化进展情况 www.vip.com • 还处于初级阶段! • 服务器安装Cobbler! • 配置管理采⽤用Puppet框架! • 在QA、⼤大数据、DBA、移动运维团队已经⽤用Puppet实 现服务器快速部署和系统配置标准化! • 对还没有接⼊入配置管理系统的服务器从流程上要求把 配置和运维操作进⾏行了规范化和标准化
  • 25.www.vip.com 关于DEV和OPS
  • 26.很多⼈人认为开发和运维的关系 www.vip.com
  • 27.但我们认为 www.vip.com
  • 28.所以 www.vip.com • 对外互相补位! • 对内各⾃自发挥所⻓长(运维提需求,开发设计和实现)
  • 29.www.vip.com 图⽚片系统优化案例
  • 30.图⽚片系统优化前情况 www.vip.com • 1亿+图⽚片(不包含移动图⽚片)! • 35T存储空间(3份拷⻉贝)! • 优化前⾼高峰时间平均响应时间⼏几⼗十秒! • (优化前架构) LVS -> Nginx(Cache)->MooseFS! • CDN⼚厂商⽆无法完全预热移动终端的所有URL
  • 31.图⽚片系统优化⼿手段 www.vip.com • LVS->Haproxy-> Nginx(Cache)->MooseFS! • Haproxy URI 哈希负载均衡! • MFS master server扩内存! • MFS chunk server 扩容并采⽤用全裸盘! • 双重预热机制! • 试⽔水Flashcache! • 优化后降到⼏几⼗十ms到⼏几百ms之间
  • 32.图⽚片系统改造⽅方向 www.vip.com • 对象存储! • SWIFT或⾃自⾏行开发?
  • 33.www.vip.com ⼤大数据对运维的帮助
  • 34.⽇日志平台 www.vip.com • Telescope/Logview! • 具体架构参⻅见Qcon上海2013 姚仁捷-唯品会⽇日志平台 建设! • 监控中⼼心和运维最依赖的监控⼯工具之⼀一! • 各个系统的4XX,5XX及访问量,平均响应时间! • 迅速发现⽣生产系统的隐蔽问题! • 变更和代码发布后的校验⼿手段之⼀一
  • 35.基于响应时间的优化 www.vip.com • 优化前后响应时间改变情况! • 响应时间和系统容量密切相关! • ⼤大促前的优化⽅方向! • ⼤大促期间的监控⼿手段
  • 36.⼤大数据对运维的⼀一些其他帮助 www.vip.com • CDN服务质量监控! • 移动图⽚片各分辨率访问⽐比例统计(预热)
  • 37.⼤大数据对运维的⼀一些其他帮助 www.vip.com • CDN服务质量监控! • 移动图⽚片各分辨率访问⽐比例统计(预热)
  • 38.总结 www.vip.com • 设计良好的基础架构可以有效提⾼高⺴⽹网站容量、可靠性和可维护性⽔水平! • 运维流程可以有效提⾼高⺴⽹网站可⽤用性和提供团队效率! • 运维和开发是互补、相互扶持的关系! • 图⽚片系统的优化经验! • ⼤大数据对提⾼高运维⽔水平有很⼤大帮助
  • 39.招聘中。。。 www.vip.com • ⾼高级/资深基础运维⼯工程师! • ⾼高级/资深应⽤用运维⼯工程师! • ⾼高级/资深运维⼯工具开发! • 基础架构软件开发⼯工程师! • 运维架构师! • ⾼高级/资深⺴⽹网络⼯工程师! • 基础运维经理/⾼高级运维经理! • 地点:⼲⼴广州或上海(zhaopin@vipshop.com)
  • 40.Q&A www.vip.com ! ! ! ! Thank You!