小米工程师陈帅 - 《小米监控实践之路》
2020-02-27 713浏览
- 1.小米监控实践P路 陈帅 小米工程师
- 2.
- 3.
- 4.陈帅 小米工程师 l 多年UQR监控系统、部署系统、缓存系统的 研m工作F热衷R自e化运维理念G多次kH中 国移e等竞标缓存系统的设计工作 l 现I注R小米监控的设计r研mFl开源版本 Open-Falcon的维护工作F是N要开m者P一F 对R监控系统的应用场景r实践有较深入的理解
- 5.曾经面L的困境 6000! 5000! 4000! 3000! 2000! 1000! 0! 210! 2011! 800! 2012! ! 2300! 2013! 5000! 2014! ! ! ! !
- 6.!
- 7.• 监控体系设计 • ap期自e化 • 体系持续演进
- 8.监控体系设计 监控架构图
- 9.监控体系设计 aAECh采集 n !
- 10.监控体系设计 m8DBic+DagC HostGroup : miui.apm.nginx! ! Strategy : df.bytes.free.percent all(#3)<80! ! df.bytes.free.percent/mount=/! df.bytes.free.percent/mount=/home! df.bytes.free.percent/mount=/data!
- 11.监控体系设计 策略模板 n ! n !
- 12.• 监控体系设计 • ap期自e化 • 体系持续演进
- 13.ap期自e化 服d树 ! ! ! ! ! ! ! ! n MN机打Dag n 8 Dag定Ou一的服d
- 14.ap期自e化 N机S付
- 15.ap期自e化 产sm布 God Job Monitor common.servicerunning all(#3)!=1!
- 16.ap期自e化 服dne SDK Agent Monitor Job request-failrate all(#3)>5!
- 17.ap期自e化 集群监控 p QPS ! p ! p ! : $(cpu.busy) > 50! : $#!
- 18.ap期自e化 成效 Endpoint 40000+! Counter 16000 +! SRE 0.5 ! 100! 90! QPS / ! 80! 70! 80! 81! 88! 86! 89! 60! 70! 50! 40! 48! 52! 56! 61! 56! 30! 40! 41! 20! 10! 0! 4 ! 5 ! 6 ! 7 ! 8 ! 9 ! 10 ! 11 ! 12 ! 1 ! 2 ! 3 ! 4 ! ! ! 183byte! ! 8byte! ! 157.07M! 6.87M! ! 13.25T! 579.36G! ! 397.58T! 17.38T! ! 4.84P! 211.47T!
- 19.• 监控体系设计 • ap期自e化 • 体系持续演进
- 20.体系持续演进 NodaDaC n !
- 21.体系持续演进 自e配置扩容
- 22.体系持续演进 非连续性报警 n !
- 23.体系持续演进 容器弹性环境 n 去除PING监控F改MJ-B粒度实例数监控 n 容器退c时钩子清理o警Q件 n 平滑daCh5oaBd曲线
- 24.体系持续演进 自e缩扩容 n Falcon自e采集 CPU IDLE +E+ FREE PR-C QPS PR-C DELAY n Hook回调 +aBaDhon API n 最短5C触m伸缩
- 25.体系持续演进 网络监控 n 网络设备监控 n ig、J西流量监控 n Pingm8Cha网连通质量监控
- 26.体系持续演进 o警管理 n o警认领 n o警h级 n 运维成熟度评Y
- 27.体系持续演进 o警管理
- 28.体系持续演进 智能监控 n ! n ! n User Judge Slinker ! Graph Hook
- 29.体系持续演进 o警驱e CDackCDoBm Ø 接收t应报警Q件 ØC haD命令触m自e修复 Ø 故障设计 Ø精 b故障定位 Ø 服d治理框架 Ø 故障自愈
- 30.总结 ü ! ü ! ü !
- 31.
- 32.