小米工程师陈帅 - 《小米监控实践之路》

2020-02-27 713浏览

  • 1.小米监控实践P路 陈帅 小米工程师
  • 2.
  • 3.
  • 4.陈帅 小米工程师 l  多年UQR监控系统、部署系统、缓存系统的 研m工作F热衷R自e化运维理念G多次kH中 国移e等竞标缓存系统的设计工作 l  现I注R小米监控的设计r研mFl开源版本 Open-Falcon的维护工作F是N要开m者P一F 对R监控系统的应用场景r实践有较深入的理解
  • 5.曾经面L的困境 6000! 5000! 4000! 3000! 2000! 1000! 0! 210! 2011! 800! 2012! ! 2300! 2013! 5000! 2014!         ! ! ! !
  • 6.!
  • 7.•  监控体系设计 •  ap期自e化 •  体系持续演进
  • 8.监控体系设计 监控架构图
  • 9.监控体系设计 aAECh采集 n  !
  • 10.监控体系设计 m8DBic+DagC HostGroup : miui.apm.nginx! ! Strategy : df.bytes.free.percent all(#3)<80! ! df.bytes.free.percent/mount=/! df.bytes.free.percent/mount=/home! df.bytes.free.percent/mount=/data!
  • 11.监控体系设计 策略模板 n  ! n  !
  • 12.•  监控体系设计 •  ap期自e化 •  体系持续演进
  • 13.ap期自e化 服d树 ! ! ! ! ! ! ! ! n  MN机打Dag n  8 Dag定Ou一的服d
  • 14.ap期自e化 N机S付
  • 15.ap期自e化 产sm布 God Job Monitor common.servicerunning all(#3)!=1!
  • 16.ap期自e化 服dne SDK Agent Monitor Job request-failrate all(#3)>5!
  • 17.ap期自e化 集群监控 p  QPS ! p  ! p  ! : $(cpu.busy) > 50! : $#!
  • 18.ap期自e化 成效 Endpoint 40000+! Counter 16000 +! SRE 0.5 ! 100! 90! QPS / ! 80! 70! 80! 81! 88! 86! 89! 60! 70! 50! 40! 48! 52! 56! 61! 56! 30! 40! 41! 20! 10! 0! 4 ! 5 ! 6 ! 7 ! 8 ! 9 ! 10 ! 11 ! 12 ! 1 ! 2 ! 3 ! 4 ! ! ! 183byte! ! 8byte! ! 157.07M! 6.87M! ! 13.25T! 579.36G! ! 397.58T! 17.38T! ! 4.84P! 211.47T!
  • 19.•  监控体系设计 •  ap期自e化 •  体系持续演进
  • 20.体系持续演进 NodaDaC n  !
  • 21.体系持续演进 自e配置扩容
  • 22.体系持续演进 非连续性报警 n  !
  • 23.体系持续演进 容器弹性环境 n  去除PING监控F改MJ-B粒度实例数监控 n  容器退c时钩子清理o警Q件 n  平滑daCh5oaBd曲线
  • 24.体系持续演进 自e缩扩容 n  Falcon自e采集 CPU IDLE +E+ FREE PR-C QPS PR-C DELAY n  Hook回调 +aBaDhon API n  最短5C触m伸缩
  • 25.体系持续演进 网络监控 n  网络设备监控 n  ig、J西流量监控 n  Pingm8Cha网连通质量监控
  • 26.体系持续演进 o警管理 n  o警认领 n  o警h级 n  运维成熟度评Y
  • 27.体系持续演进 o警管理
  • 28.体系持续演进 智能监控 n  ! n  ! n  User Judge Slinker ! Graph Hook
  • 29.体系持续演进 o警驱e CDackCDoBm Ø 接收t应报警Q件 ØC  haD命令触m自e修复 Ø 故障设计 Ø精  b故障定位 Ø 服d治理框架 Ø 故障自愈
  • 30.总结 ü  ! ü  ! ü  !
  • 31.
  • 32.