背景
监控一直是服务端掌握应用运行状态的重要手段,经过近几年的发展,阿里虾米服务端目前已经有 100 多个 Java 应用,承担核心业务的应用也有将近 50 个,对于应用的监控配置也是因人而异。有的人配置的监控比较细,有的应用在经历了多人开发阶段以后,监控就逐渐疏于管理,有些应用的监控项最后修改时间只停留到 2 年以前,早已不适应业务的发展。
与大部分团队一样,虾米也有一个报警处理群,将内部的监控报警平台(如 Sunfire 等)的信息通过机器人投递到群中,由于监控项配置不合理、监控粒度较大,每天报警群都被几十条甚至上百条报警通知狂轰乱炸,长此以往大家对报警已经麻木,大部分报警也不会去处理。
基于这样的现状,虾米 SRE 团队(SRE全称Site Reliability Engineering,最早由Google提出。致力于打造高可用、
继续阅读与本文标签相同的文章
下一篇 :
自动化集成工具-jenkins简单安装
-
对话首席架构师|阿里云迁云实战解析(三):电视塔业务中台全解析
2026-05-20栏目: 教程
-
JAVA是否过于复杂,不符合未来编程发展
2026-05-20栏目: 教程
-
物联网新时代--通用物联网平台+传感器在基础设施项目中的应用
2026-05-20栏目: 教程
-
繁星计划支付宝花芝轻会员主题小程序大赛
2026-05-20栏目: 教程
-
对话驻云首席架构师苏炎 | 阿里云迁云实战解析(合辑)
2026-05-20栏目: 教程
