趣店集团总架构师徐章健 - 趣店集团金融级系统容灾最佳实践

2020-02-27 721浏览

  • 1.趣店集团金融级系统容灾最佳实践 徐章健 2017-8-11
  • 2.Agenda 自我简介 趣店集团技术架构优化之路 从同城双活到异地多活架构 QUDIAN .COM
  • 3.关于我 • 徐章健:南开大学计算机软件与理论专业硕士研究生, 2016年底加入趣店集团,担任总架构师,总体负责趣店集 团基础架构规划与实施,重点推进趣店集团运维架构体系 建设、核心服务服务化、SOA、业务服务平台化、数据平 台化等基础项目研发管理工作; • 互联网经历:历任人人车业务平台总架构师,百度ksarch 核心研发工程师,360搜索onebox组架构师; • 个人兴趣点:互联网金融、风控反欺诈、大规模web架构、 搜索架构算法、大规模集群基础设施建设,服务治理, SOA, 微服务,O2O业务系统架构等。 QUDIAN .COM
  • 4.关于趣店 QUDIAN .COM
  • 5.两大业务 小 额 信 用 贷 款 平 台 — — 来 分 期 拥有支付宝账户及芝麻分即可申请。专注为 用户提供高效、便捷的现金分期借款,纯线上申请与审核,秒速授信,最快3分钟到 账。 消 费 金 融 电 商 平 台 — — 趣 店 国内面向年轻人提供分期消费的金融服务平台, 购买商品首付月供全网最低,还款超低手续费;主营3C、运动户外、美容美妆、服饰 等类目,可无信用卡与担保享受分期购物。 QUDIAN .COM
  • 6.Agenda 自我简介 趣店集团技术架构优化之路 从同城双活到两地三中心 QUDIAN .COM
  • 7.初期架构 QUDIAN .COM
  • 8.架构演进 QUDIAN .COM
  • 9.问题分析 • 规范问题 - 日志规范 - 错误码规范 - SQL规范等等 • 运维与服务部署发布问题 - 发布回滚方式 - 监控报警 - 上线流程等等 • 重要服务与核心业务设计实现问题 - 项目耦合太紧密,未按功能进行服务化拆分,服务调用关系混乱,难以管理,没有调用约束; - 服务通用库、工具、类未能复用,未提取部署到统一路径独立部署维护; - API分层逻辑不严格,跨层、跃层调用现象明显,业务调用出口不统一,不便于后续维护 ; QUDIAN .COM
  • 10.本质分析 • 架构层面 - 创业初期业务优先,技术架构重视度、投入不够; - 基础技术组件,脚手架等薄弱,不系统,不好用; - 缺少针对痛点的专项治理(或不够); - 流程制度规范欠缺,或执行不到位; • 团队层面 - 团队年轻,技术架构认知上,不知道什么是好的? 完成PM需求就好了吗? - 纯业务开发为主,缺少中间层架构师和高T,缺少技术架构规划; - 积累不够,互联网常见问题容易走偏,高精尖问题,更难搞定; - 时间是最好的老师,团队需要进一步历练与成长; QUDIAN .COM
  • 11.运维服务管理框架 QUDIAN .COM
  • 12.微服务管理框架 QUDIAN .COM
  • 13.数据库存储问题解决:DRDS QUDIAN .COM
  • 14.DRDS改造 QUDIAN .COM
  • 15.趣店平台基础架构体系规划(中长期) QUDIAN .COM
  • 16.重点架构方向 • 基础支撑项目服务化与组件化:重点跟进商品,现金,订单,用户,支付,风控服务 化等基础业务支撑项目;进一步打造基于docker的微服务管理平台; • 基础运维与安全:协同OP一起构建更加方便灵活的运维安全体系; • 持续集成支撑:协同QA团队一起打造从git提交代码开始的自动化流程; • 前端架构分离与服务化:协同FE团队一起打造服务化的前端架构,彻底做到前后端分 离,真正实现前后端数据隔离,进一步打造趣店集团自己的前端开发组件和框架; • 数据存储隔离:协同DBA团队一起构建趣店统一数据访问层,对于底层DB真正做到业 务隔离与上层透明,增强DB数据安全性; • 异地容灾支撑系统:异地多活,基于云服务提供商,构建趣店自有资源定位层,实行 各云服务商之间灾备,同时通过自建proxy服务方式,实现自建服务与云服务之间的 灾备功能; • 服务质量评价体系建立:基于现有的业务系统,构建统一的服务质量评价体系,能够 实现各服务缺陷管理、稳定性度量、稳定性评价指标统一监控等功能; QUDIAN .COM
  • 17.Agenda 自我简介 趣店集团技术架构优化之路 从同城双活到两地三中心 QUDIAN .COM
  • 18.为什么要做这件事? QUDIAN .COM
  • 19.外部-容灾 天灾 • 地震 • 泥石流 “人祸” • 挖断光纤 • 拔错电源 QUDIAN .COM
  • 20.内部-快速恢复服务 恢复 修复 交易额 用户量 订单量 QUDIAN .COM
  • 21.我们自己“享受”过的那些坑 云服务挂掉 第三方机房出问题 上线出问题 其他各种坑。。。 QUDIAN .COM
  • 22.现状分析 QUDIAN .COM
  • 23.先实现“同城双活” 业务侧侵入 运维侧资源 几乎为零 理论上支持 同数据 DB侧升级方 监测功能升 案支持 级成本低 QUDIAN .COM
  • 24.我们的目标 基于来分期实现同城双活 上线实现单区小流量、单区全 量、双区全量的滚动上线模式 上线过程中出现问题,可快速 业务回滚或直接单区工作 QUDIAN .COM
  • 25.拓扑架构 QUDIAN .COM
  • 26.执行:资源整理及准备 开辟新区 • 新增140+台服务器 • 部署应用,内部流量 测试 • 挂到老区,外部测试 QUDIAN .COM 老区资源整理 • 新增60+台服务器 • 确认新区单区承载 流量 • 资源回收
  • 27.目前正在进行: 异地多活架构改造 QUDIAN .COM
  • 28.异地多活基础:VPC网络架构改造 QUDIAN .COM
  • 29.两地三中心 QUDIAN .COM
  • 30.趣店集团招聘 急需:运维总监,高级技 术经理,架构师;其他各 个岗位都欢迎推荐! xuzhangjian@qudian.com QUDIAN .COM
  • 31.THANKS 趣店集团