应用场景
- 阿里云的云监控已原生支持 GPU 实例,可参考:云监控实现GPU云服务器的GPU监控和报警
- 小概率场景中,GPU 卡会处于异常状态( 例如因显存校验失败而暂时不可用),导致 GPU 云监控也不可用;但此时业务系统需要感知异常情况,以便快速隔离、迁移业务,重启服务器等等
- 当业务高可用标准高、服务器数量大时,对这种小概率场景的自动监测、报警,就变得尤为重要
- 本文将介绍通过云监控的自定义监控 & OpenApi - PutCustomEvent 来做到对这种小概率事件的自动监测、报警,第一时间精准处理。示例图:

实践步骤
在云监控控制台配置自定义监控
创建报警 联系人 与 联系组
创建应用分组
创建事件报警
- 创建完成后,查看对应
继续阅读与本文标签相同的文章
上一篇 :
与你同行,才能无障碍
下一篇 :
个人音视频常用工具介绍
-
汇编(七)[bx]、 loop指令、debug与masm
2026-05-18栏目: 教程
-
Jvm-Sandbox源码分析--增强目标类
2026-05-18栏目: 教程
-
联华华商,你变了!
2026-05-18栏目: 教程
-
基于宜搭的“设备报修”实践案例
2026-05-18栏目: 教程
-
客服服务除了电话和工单还有哪些服务?阿里云服务方式整理
2026-05-18栏目: 教程




