
作者:大谷
什么是故障
简单来说,当功能或性能不符合预期,就是故障。
故障有两个比较重要的衡量指标:
RPO(Recovery Point ive):主要指的是业务系统能容忍的最大数据丢失量,针对的是数据丢失。对于资金业务来说,一般 RPO 不能大于 0 的。
RTO(Recovery Time ive): 主要指的是所能容忍的所业务停止服务的最长时间,针对的是服务丢失。
从单系统的角度看故障

一个系统,从头到脚,有非常多的故障点,所以,对于一个分布式系统来说,一定要假定故障是随时、而且一定会发生的。
故障隔离的目的
减少故障的方式有多种,包括系统优化、监控、风险扫描、链路分析、变更管控、故障注入演练、故障隔离等。故障隔离是其中一种手段,并且要求在系统设计时就需要考虑清楚。
从系统的角度看
故障隔离是指在系统设计的时候,要尽可能
继续阅读与本文标签相同的文章
-
Netflix 网站性能优化案例学习
2026-05-21栏目: 教程
-
KaiOS - 下一个 Android ?
2026-05-21栏目: 教程
-
日志服务数据加工:错误排查指南
2026-05-21栏目: 教程
-
理解 JavaScript 中的高阶函数
2026-05-21栏目: 教程
-
使用 HTML5 视频代替 GIF 动画,提升性能体验
2026-05-21栏目: 教程
