个推系统优化与运维

2020-02-27 245浏览

  • 1.个推系统优化与运维 个推运维主管 乔亚博 国内领先技术推送商
  • 2.
  • 3.目录 系统发展 系统优化 历程 架构 业务系统 网络优化 运维反思 运维体系 日常工作 化繁为简 工 具 运维平台 个巡系统
  • 4.个推 个推所占第三方推送市场份额 118亿SDK 10% 90% 2012 个推 其他 2013 独立终端 2014 日活跃人数 2015 SDK 2016 个推专注消息推送6年,拥有庞大的数据体系和深入的洞察能力。SDK累积安装覆盖量超过 118亿,覆盖超过10亿终端(含海外),已接入应用43万,开发者22万,日活用户近7.5亿, 同时在线3.5亿。
  • 5.系统发展 历程 Data Chart Years 6000 历史每年数据 系统不同阶段的运维工作特点: 萌芽阶段: 服务器数量 系统可维护性差,工作量大; 4500 节点数 成长阶段: 量大引发不可预知的问题以及 人数 稳定性要求,压力山大; 成熟阶段: 2400 防范于未然,获得成就感; 2000 1500 900 当前阶段: 步入正轨,追求工具智能化; 800 300 20 60 6 2012 2013 2014 10 9 8 6 2015 2016
  • 6.系统发展 架构 复杂系统,带来以下挑战 配置繁琐 维护量大 故障排查难 安全隐患多 性能要求高
  • 7.系统优化 业务系统 健壮性 Zookeeper SPD IM 重连 SCH ZK CM 稳定性 隔离 UMP 流控 检测 AS 1、减少了出错概率; 1、系统容错能力更强; 2、提升模块上线的速度; 2、容错能力强了,维护成本得到缓解; 3、支持灰度升级,系统稳定得到保障;
  • 8.系统优化 网络方面 线路故障 影响: 在线数不断下跌,推送接口调用失败; 看法: 问题不可避免,唯一能做的是缩短故障 其它故障 影响: 在线数同比减少和用户频繁登陆; 看法: 定期查看系统的数据变化情况,是发现 时长; 此类问题前提; 原因: 原因: 光纤被挖断,网络设备异常,操作失误; 域名劫持以及长连接断开等问题,无法 方法: 避免; 采用域名的方式,访问系统; 方法: 多线路接入; 丰富 SDK 逻辑,适应运营商网络限制; 服务器配置多个公网地址; 客户端具备网络监测,选取最佳路径;
  • 9.运维体系 运维反思 运维真的苦逼吗? 占用休息时间 夜班多 出错概率大 黑锅专业户 个人观点 心态 成就感 负责任的心态 挑战自我的心态 时间分配:3+2+5 业务运维观:容灾测试应该是运维重点工作,防范于未然次之,这些工作应占50%以上的时间! 防范于未然三个着手点:完善监控系统、运维平台多样化、安全漏洞扫描和修补;
  • 10.运维体系 日常工作 上线前: 上线中: 上线后: 目标: 目标: 目标: 确保程序性能、稳定性、 提高上线后维护效率,添 保证系统高可用,达到3 可维护性符合运维要求; 加监控手段; 个9指标; 工作: 工作: 工作: 参加会议(业务需求讨论 会、开发大会); 整理业务培训文档; 确认新系统监控指标和数据 收集方法; 资源使用评估和申请; 添加业务监控; 集成到运维管理系统,以指 令下发方式完成部署工作; 针对容错性,内容进行逐一 测试验证; 根据上条测试结果,抽取关 键字作为巡检一部分; 关注业务量增长情况; 关注硬件资源损耗情况; 逐步完善监控内容; 安全漏洞的扫描; 异常情况下,记录故障报 告;
  • 11.运维体系 化繁为简 主动性差 责任不明确 流程和制度 随性工作 工作效率低 打造高效的运维团队 日志查询 文件下载 安全对外接口 新产品维护 信息共享 减轻工作量 数据检查 内部分享 资源损耗 业务请求量 多套系统融合 关注点太多 周期性工作 确保心理有数 工具化建设 高效运维 开心运维
  • 12.工具篇 运维平台 需求 内容 要求 难点 支持部署、升级、发 CMDB 数据的准确性 稳定性 布、启停等操作 安全 配置项颗粒度最 资源紧缺 存储资产信息 变更 小化 闭门造车 数据可批量添加 发布 安全:权限控 用户体验 硬件信息可自动收集 资产信息 制、审核机制; 应用映射与可视化 操作有据可查 事件  可追溯性; 自动巡检 问题  系统的健壮性; 信息看板 合同流  数据的可视化; 兼容其他系统,提供 业务测试 开放API接口
  • 13.工具篇 运维平台Chief:维护与Agent的连接; 向Agent发送指令; 接收来自Agent的指令:比如状态汇报;Manager:负责接受来自nodejs的业务请求; 将业务请求转换成内部指令; 处理业务逻辑; 系统扫描;  提供对外的api接口;Agent:每个物理机部署一个agent; 负责执行chief交付的任务; 负责上传机器和service状态到agent;  收集数据同时,进行数据比对,生成问题和事件;
  • 14.工具篇 运维平台
  • 15.工具篇 运维平台
  • 16.工具篇 个巡 首页 系统状态 在线状态信息及在  当前在线状态信 按产品线分类; 告警信息查询; 线数环比差值率; 息详情; 模块节点信息; 注册用户趋势图; 系统告警信息; 各个模块jmx属性  节点监控项; 业务请求量趋势图; 流量使用分布; 信息,包括各个接 登陆数据包趋势图; 业务实时监控; 口请求量以及队列  数据节点信息; 系统状态; 域名检测数据查询; 接口信息; 推送数据状态信息; 域名访问延迟; 情况; 模块信息 数据查询
  • 17.工具篇 个巡
  • 18.感谢您的聆听! 主讲人:乔亚博