RTO 与 RPO:故障恢复时间度量

Published: 2022-08-31

Tags: 笔记

本文总阅读量

RTO(Recovery Time Objective)指从故障开始到业务恢复所需要的时间。

不同的业务对 RTO 时间要求差别很大,例如一些服务中断几天影响都不是很大,而金融或实时业务中,秒级甚至分钟级的 RTO 都会有很大影响,应当避免。

RPO(Recovery Point Objective)指故障发生点至上一个数据备份点最长间隔。

恢复点也可以看作损失最大承受能力,即允许的最大数据丢失量,如果业务数据每天进行备份,那么当服务异常,恢复到最近的数据备份点最多损失一天的数据,而发生故障的时间也直接影响着损失的多少,股市交易系统如果故障发生在晚间,损失就可控,而故障出现在工作日的上午,那么即使是一小时,其损失也会难以估量。

特别重要的数据,可以选择降低 RPO 时间,即提升备份的频率。

RTO 与 RPO 异同

  1. 恢复时间和恢复点目标因应用程序和数据优先级而异。即使是最富有的公司也无法为所有应用程序提供接近零的 RTO 或 RPO,也不应该这样做。
  2. 两者都是以时间作为单位来度量。对于 RTO,度量是应用程序故障到完全可用性(包括数据恢复)之间经过的时间量,而对于 RPO,度量是指数据丢失与上次备份之间的时间量。
  3. RPO 和 RTO 提供了不同的目标。RTO 关注应用和系统,该测量包括数据恢复,但主要描述了应用停机时间的时间限制。RPO 关注故障事件后丢失的数据量,损失数重要且不可恢复的数据是灾难性的。

图片引用自:

参考: