工商银行开放平台自动化运维的演进之路

2020-02-23 1186浏览

  • 1. Fintech技术沙龙 金融级数据库与运维实践-上海站 工商银行开放平台 自动化运维演进之路 洪伟 1
  • 2. 1.工行自动化运维发展历程 目录 CONTENTS 2.自动化运维流程建设 3.智能运维场景挖掘 2019-9-24
  • 3. 1 工行自动化运维发展历程 2019-9-24
  • 4. 工行自动化运维发展历程 Ø银行业态转型 BANK BANK BANK 1.0时代 传统网点服务客户 历史的、传统的银行模式, 以银行物理网点为基础的 银行业务形态。 2019-9-24 ATM ATM $ BANK 2.0时代 3.0时代 4.0时代 自助化服务客户 移动化服务客户 无所不在智能服务新生态 借助电子技术延伸了物理网点的 随着智能手机等移动技术的出现 随着人工智能、5G、物联网等新技 触点,用户通过ATM、网上银行 而飞速发展,被重新界定为随时 术的发展,已经开始构建全新的开 等进行自助服务。 随地满足需要的银行。 放合作的渠道服务新生态。
  • 5. 工行自动化运维发展历程 1.1 建设背景 Ø金融科技赋能全行转型发展 智慧银行 信息化 银行 电子化 银行 信息化 ECOS 客户服务“智慧”普惠 基础设施 持续提升 金融生态“开放”互联 大机延伸 数据集中 数据中心整合 两地三中心 业务运营“共享”联动 客户视图统一 核算相对独立 产品灵活配置 境外应用一体 管理信息集中 全面风险管理 2019-9-24 创新研发“高效”灵活 业务科技“融合”共建 5
  • 6. 工行自动化运维发展历程 Ø银行业务多元化 传统银行业务 互联网时代的银行业务 ATM POS ETC 电子银行 聚合支付 网银 快捷支付 电话银行 2019-9-24 生态云
  • 7. 工行自动化运维发展历程 Ø数据库转型 业务支撑 运维能力 单库已无法支撑业务规模 传统的基础环境供应以 的增长 及运维模式无法应对开 发的敏捷迭代 控制成本 通过下移主机业务至平台, 使用更廉价的硬件基础设 施;自主可控,解决对商业 产品的过度依赖 2019-9-24 数据库 转型 降低风险 打散数据、解耦各应用 业务层依赖、降低整体 集中式风险
  • 8. 工行自动化运维发展历程 Ø数据库转型 2019-9-24
  • 9. 工行自动化运维发展历程 Ø互联网时代的高并发挑战 2019-9-24
  • 10. 工行自动化运维发展历程 Ø运维方式升级 运维场景从简单到复杂 运维手段从落后到先进 运维数量从成百上千到数以万计 人肉运维 脚本运维 1.0时代 手工运维 靠运气维持,对 运维人员的专业 度依赖大 2.0时代 脚本运维 依托于一套成熟、 复杂的生产运维 脚本,基于hpsa 等产品管控 2019-9-24 服务化 3.0时代 微服务 自主研发智能运 维平台,运维场 景被抽象成为一 系列原子服务 智能运维 4.0时代 智能运维 AIOPS、机器学 习、动态规划......
  • 11. 2 自动化运维流程建设 2019-9-24
  • 12. 自动化运维流程建设 Ø目的:运维流程闭环 报警 应急 处置 答复 申请 巡检 环境搭建 退库 搭建 反馈 变更 变更 复核 2019-9-24 巡检 智能运维平台 实施 整改
  • 13. 自动化运维流程建设 Ø平台选型的难点 1.操作系统种类繁多 2.服务器数量巨大 3.自主可控 4.行内系统兼容 2019-9-24
  • 14. 自动化运维流程建设 Ø自研智能运维平台架构 2019-9-24
  • 15. 自动化运维流程建设 Ø平台成效 • 上万台服务器操作,10分钟 • 全行数万台服务器监控指标采集 • 多操作系统支持 2019-9-24
  • 16. 自动化运维流程建设 Ø平台风险及防范措施 风险 全局性误操作 脚本健壮度 运维技能退化 防范措施 人员权限控制 对象访问控制 高危命令拦截 强制分批执行 脚本自动化测试 操作服务化 2019-9-24
  • 17. 3 智能运维场景挖掘 2019-9-24
  • 18. 智能运维场景挖掘 Ø围绕智能运维平台的自动化开发 • • • • • • • • 同城切换 环境搭建 集中监控 标准变更 业务级故障自愈 动态阈值 服务健康度评估 变更风险智能识别 2019-9-24 同城切换 集中监控 标准变更 故障自愈 智能运维 环境搭建
  • 19. 自动化运维流程建设 Ø运维操作服务化-日常操作 2019-9-24
  • 20. 自动化运维流程建设 Ø运维操作服务化-变更 2019-9-24
  • 21. 自动化运维流程建设 Ø运维操作服务化-应急 2019-9-24
  • 22. 智能运维场景挖掘 Ø故障自愈 2019-9-24
  • 23. 智能运维场景挖掘 Ø巡检平台建设 巡检任务模型 巡检平台 录入任 务 F-DCAP 制定巡检指 标 开发巡检脚本 创建巡检任 务表 脚本下发部署 设定巡检时 间表 定制巡检报 表 巡检任务启 动 巡检任务引 擎 发送邮件通 知 2019-9-24 Ø抽象制定了标准的巡检任务模型,其他各项巡检任务均基 WOP接口 于巡检任务模型进行详细定制 Ø实现了与SD、CMDB、DCAP等应用的交互 Ø实现了以应用、服务器、系统对象等维度的巡检
  • 24. 智能运维场景挖掘 Ø巡检平台建设 2019-9-24
  • 25. 智能运维场景挖掘 Ø巡检平台建设-变更巡检 2019-9-24
  • 26. 智能运维场景挖掘 Ø性能指标的动态阈值评估 Ø Ø 区别于静态阈值的一刀切监控方案,动态阈值评估系统,能够更灵敏的捕捉系统性能的波动 以t日为例,t-7 表示7日前同一时刻 以此类推 X(t)标示t时刻实际值 Y(t)表示预测值 delta() 表示求数据的 标准差 预测值 Y(t)上限 = X(t-7)+3 delta((X(t-7)+X(t-14)+X(t-21)+X(t-28)+X(t-35))) 2019-9-24
  • 27. Ø应用维度系统健康度评价 综合考虑CPU、内存、巡检结果、事件告警等因素,应用健康度评价模型,计算得分 性能容量管理小帮手 2019-9-24
  • 28. THANK YOU! 28