更新时间:2023-12-06
功能说明
超融合平台可自动识别并展示亚健康主机(有假死风险或已处于假死状态下的主机),对于已经判断为亚健康的主机,在进行虚拟机开机或HA时对其进行降级处理。针对集群扩容、主机替换等场景,检测硬件状态,避免硬件故障导致节点频繁宕机或系统假死,降低因硬件问题带来的业务风险。
注意事项
- 仅支持硬件类故障导致主机假死的识别与处置。
- 如果是内存故障导致的假死问题,在主机开启&重启时,如果没有踩到故障内存位置,那么将不会自动释放主机,需用户手动释放。
前提条件
无
操作步骤
- 进入[可靠服务/主机亚健康监控]界面, 若已自动识别到物理主机处于亚健康状态,则会在“亚健康主机列表”中显示。
- 点击进入[亚健康主机设置]界面,可进行亚健康检测相关设置。
• 识别条件:若勾选“主机硬件健康异常”,可对主机进行内存ECC、UECC,系统盘坏道、系统盘只读、系统盘寿命不足,RAID卡故障等硬件检测。同时可手动设置宕机频率,自定义主机宕机满足一定条件时,识别为亚健康主机。
• 检测方式:可选择亚健康主机检测方式。通常情况下,若开启主机亚健康检测,则在主机开机&重启时,会进行自动检测。也可勾选“每XX分钟自动检测”,自定义开机检测频率。
• 通知方式:如检测到亚健康主机后,需要邮件通知检测结果,则可点击[告警通知设置],跳转到设置界面,可参考“配置告警通知”章节进行配置。
• 处理方式:此处置机制只会迁移虚拟机的运行位置。启用后,亚健康主机上的虚拟机会往健康主机迁移。
若该虚拟机已有调度策略,则优先按照调度策略进行调度;
若虚拟机无调度策略时,只会将运行位置迁移到其他相对健康的亚健康主机上。若集群内无健康主机时,此处置机制不会生效,此外此机制也不会对NFV设备生效。
• 恢复方式:勾选后,当亚健康主机恢复健康状态后,会自动从亚健康主机列表中移除。