更新时间:2024-05-09
深信服超融合从物理层、虚拟化层、数据层、业务层、数据中心容灾方面,针对用户业务高可用采用了大量先进技术,使 RPO接近于0,数据几乎无丢失;同时降低了客户恢复RTO,部分故障情况RTO等于0,极大地提升了客户的业务连续性。
对用户计划内停机以及计划外停机不同场景,我们应用的技术如下表所示。
计划内停机
类别 |
风险类别 |
故障场景 |
应对方案 |
停机时间 (分钟) |
计划停机 |
系统日常维护/升级 |
计划停电 |
容灾 |
<10 |
硬件维修 |
虚拟机主机/存储在线迁移、虚拟机跨集群迁移/热备盘 |
0 |
操作系统版本升级 |
虚拟机快照 |
≈3 |
应用升级 |
虚拟机快照 |
≈3 |
硬件升级 |
虚拟机主机/存储在线迁移、虚拟机跨集群迁移 |
0 |
资源扩容 |
在线扩容主机/在线扩容磁盘 |
0 |
容灾演练 |
定期系统切换或回切演练 |
容灾 |
<10 |
非计划停机
类别 |
风险类别 |
故障场景 |
应对方案 |
RPO (分钟) |
RT0 (分钟) |
非计划停机 |
自然灾害 |
自然灾害 |
容灾 |
5秒 |
<10 |
地质灾害 |
机房环境风险 |
火灾 |
机房结构性损坏 |
供电系统瘫痪 |
硬件单点故障 |
单台服务器故障 |
主机故障HA、虚拟路由器高可用、虚拟机安全设备高可用 |
≈0 |
<5 |
网络单点故障 |
网络架构冗余、服务器网口聚合 |
0 |
0 |
存储单点故障 |
分布式存储多副本、共享存储多路径 |
0 |
0 |
软件故障 |
应用软件故障 |
虚拟机备份 |
60 |
<10(具体时间和备份数据量线性相关) |
超融合平台管理高可用 |
0 |
≈5 |
AD负载均衡 |
0 |
0 |
操作系统故障 |
虚拟机故障HA |
0 |
<5 |
虚拟机备份 |
60 |
<10(具体时间和备份数据量线性相关) |
人为故障 |
人为失误或故意破坏 |
虚拟机备份 |
60 |
<10(具体时间和备份数据量线性相关) |
容灾 |
1秒 |
<10 |
超融合平台回收站恢复 |
0 |
≈0 |
系统性能问题 |
主机、存储、网络、数据库、应用程序等 |
虚拟机资源热添加、动态资源扩容DRX |
N/A |
0 |
名词解释:
RPO(Recovery Point Objective)
是指能容忍的最大数据丢失量,是指当业务恢复后,恢复得来的数据所对应时间点与故障发生的时间差。RPO取决于数据恢复到怎样的更新程度,这种更新程度可以是上一周的备份数据,也可以是昨天的数据,这和数据备份的频率有关,为了改进RPO,必然要增加数据备份的频率。RPO是以时间为单位,反映恢复数据完整性的指标。
RTO(Recovery Time Objective)
即数据恢复时间目标,主要指的是所能容忍的实现数据恢复的时间,也就是从系统故障发生,数据不能访问到业务数据恢复,数据能够备份访问所需要的最短时间。是反映数据恢复的及性的指标,RTO值越小,表示数据恢复能力越强。不同规模的数据备份/恢复及容灾方案,RTO定义是不同的。