更新时间:2023-10-20
平台可用性管理,主要是通过对平台的CPU、内存、存储等资源进行检查,保障业务连续性。
关注超融合平台的CPU使用率,存在以下任意情况应考虑对超融合平台进行扩容:
• CPU的持续使用率超过70%
• 普通集群场景CPU资源的冗余量不满足坏掉一台或两台(两副本、三副本)主机的情况下支撑业务系统的正常运行。
• 延伸集群场景CPU资源的冗余量不满足坏掉一个故障域主机的情况下支撑业务系统的正常运行。
关注超融合平台的内存配置量及内存使用率,存在以下任意情况应考虑对超融合平台进行扩容:
• 内存的持续使用率超过80%
• 普通集群场景内存资源的冗余量不满足坏掉一台或两台(两副本、三副本)主机的情况下支撑业务系统的正常运行。
• 延伸集群场景内存资源的冗余量不满足坏掉一个故障域主机的情况下支撑业务系统的正常运行。
关注超融合平台的存储容量使用率,存在以下任意情况应考虑对存储进行扩容:
• 存储使用率超过90%
• 管理员可以通过存储容量的使用趋势预测超融合平台的剩余的存储容量能够支撑业务系统使用的天数,并根据预测数据调整扩容计划。当预测的剩余的存储容量不足以支撑业务系统使用90天时就必须要考虑对超融合平台的存储资源进行扩容。
关注超融合平台的存储性能,同时通过对重要虚拟机的IOPS进行分析,评估当前超融合平台的存储性能是否能够满足业务系统的需求。当业务系统的IO时延大于20ms时就需要对超融合平台的存储性能进行扩容。
关注超融合平台的业务系统备份和容灾执行情况,在必要时可挑选部分业务系统执行恢复演练,确保业务系统的备份和容灾数据正常,在极端情况下能够通过备份或容灾数据来恢复业务。
具体关注的指标参考下表:
维护项目 | 关注指标 | 具体维护任务 |
CPU使用率 | CPU持续使用率不超过70% | 查看CPU最近一个月的峰值使用率和持续使用率 |
CPU资源冗余量 | 普通集群场景CPU资源的冗余量不满足坏掉一台或两台(两副本、三副本)主机的情况下支撑业务系统的正常运行。 延伸集群场景CPU资源的冗余量不满足坏掉一个故障域主机的情况下支撑业务系统的正常运行。 | 计算当前CPU资源的冗余量是否满足要求 |
内存使用率 | 内存持续使用率不超过80% | 查看内存最近一个月的峰值使用率和持续使用率 |
内存资源冗余量 | 普通集群场景内存资源的冗余量不满足坏掉一台或两台(两副本、三副本)主机的情况下支撑业务系统的正常运行。 延伸集群场景内存资源的冗余量不满足坏掉一个故障域主机的情况下支撑业务系统的正常运行。 | 计算当前内存资源的冗余量是否能够满足要求 |
存储使用率 | 存储使用率不超过90%,预测的剩余的存储容量足以支撑业务系统使用90天以上。 | 查看当前存储资源的使用率以及90天后容量使用率预测 |
业务备份或容灾情况 | 业务备份和容灾任务执行正常。 恢复演练正常 | 查看业务备份和容灾的任务执行情况 执行业务的恢复演练 |