更新时间:2024-05-24
功能说明
传统HA功能是共享存储上的虚拟机,可以使用“故障迁移”功能,当一台物理机发生故障时,能及时捕获到异常虚拟机,30s内拉起异常虚拟机,保护业务连续性,当探测到主机发生包括5种网路(管理网,存储网,Vxlan网,业务网,终端通信网)中断的虚拟机重启HA、KVM进程异常退出虚拟机、修正状态异常虚拟机、主机离线的虚拟机且持续一定时间时,触发虚拟机HA功能使其从其他主机上恢复运行。深信服超融合HA2.0功能,全面优化检测能力,可以帮助用户发现更多的故障风险(包括硬件、平台、应用),帮助用户提前处置,HA触发由被动变为主动,发现亚健康主机、物理网络异常,可以主动触发迁移机制,将虚拟机迁移到健康的主机上。增加HA效果保障,保障HA机制有效性,虚拟机HA失效有告警和提示。
注意事项
- 故障迁移功能,只针对勾选了HA的虚拟机。
- 存储位置为虚拟存储或外置存储的虚拟机才可以勾选HA选项。
- 大量虚拟机HA场景,当客户集群资源不足时,会导致HA会失败。
- 平台序列号过期后,不支持虚拟机HA。
- 管理网离线 + 存储网离线,两主机场景无法HA。
- 建议核心应用,在[可靠服务/资源预留] 在部分主机上预留一定资源空间,以保证核心业务在发生HA的时候,有足够资源拉起虚拟机。
- HA只能针对集群虚拟机,只迁移运行位置,不迁移存储,本地存储不支持HA迁移。
- 部分虚拟机不支持HA迁移,GPU直通虚拟机,非共享存储虚拟机,CDP虚拟机,快速恢复虚拟机,低时延网口虚拟机,加密虚拟机。
前提条件
多台超融合主机组成集群。
操作步骤
- 在控制台上打开[可靠服务/高可用(HA)]。
- 点击[硬件层保护]页签,支持用户在平台出现主机硬件故障、硬件亚健康场景,选择响应方式。硬件故障、硬件亚健康类型、影响和响应方式请参照上图。针对加密卡故障,GPU故障,可选择“不处理”或“重启切换(通过重启切换至更健康的主机上保障业务)”来进行响应。硬件亚健康响应方式可选择“不处理”或“智能热迁移保障业务”两类。
- 点击[平台层保护]页签,支持用户配置在平台出现网络离线、主机亚健康场景时选择响应方式。可配置网络离线场景下的响应方式,以及网络离线响应检测时间。可配置主机亚健康,如反复宕机,可靠性低等场景下的响应方式。
- 点击<亚健康配置>超链接,可跳转到[可靠服务] > [主机亚健康监控] > [亚健康配置]页面,对主机亚健康配置和网络亚健康配置进行配置,详情见“主机亚健康监控”页面。
- 点击[应用层保护]页签,用户可了解虚拟机出现异常,平台可自动重启虚拟机快速恢复业务。
- 点击[高级选项]页签,用户可设置资源预留、亚健康主机检测方式、智能热迁移响应时间。
- 点击[高可用记录]页签,可查看虚拟机高可用记录。
- 在新建或编辑虚拟机页面,勾选“故障迁移(HA)”,为虚拟机配置开启HA。