超融合HCI

深信服超融合SANGFOR HCI是面向下一代数据中心的软件定义基础架构,通过虚拟化技术融合计算、存储、网络和安全等资源,并提供运维管理、容灾备份、智能监控等高级特性,帮助用户构建极简、稳定、高性能的云化数据中心基石。
点击可切换产品版本
知道了
不再提醒
HCI6.8.0(R1-R2)
{{sendMatomoQuery("超融合HCI","日维护")}}

日维护

更新时间:2023-10-20

每日维护建议在HCI控制台查看对应的告警信息,对于紧急级别的告警应立即着手进行处理,对于普通级别的告警应制定处理计划。具体维护建议参考下表即可:

维护项目

维护场景

维护建议

操作入口

HCI状态查看

HCI主机的硬件资源、组件进行监控,快速发现系统异常

检查实体机状态是否有物理主机离线;

存储状态是否有正常,磁盘状态是正常;

登录HCI控制台首页查看

主机告警监控

主机交换分区占用过高

建议对主机内存进行扩容或者关闭暂时不使用的虚拟机

登录HCI控制台首页查看

主机离线

建议检查主机或网络是否异常,立即进行业务恢复。

主机系统分区异常

可能是系统盘有坏道或者故障,请联系深信服技术支持。

主机GPU占用过高

请关闭部分虚拟机或迁移部分虚拟机到其他主机

主机不能检测到显卡

请登录IPMI查看显卡是否存在异常

主机的显卡温度过高

请检查主机散热或机房温度是否异常

检测到具有多张不同类型显卡硬件

请移除异构显卡,否则GPU虚拟机无法运行在该主机上

主机显存不足

请关闭部分虚拟机或迁移部分虚拟机到其他主机

主机CPU占用过高

建议对主机进行扩容或者关闭暂时不使用的虚拟机

主机CPU温度异常

建议查看机房温度、主机风扇以及制冷设备是否正常

主机CPU降频

如果服务器频繁降频告警,需要通过BMC查看CPU硬件状态是否正常

主机内存占用过高

建议对主机内存进行扩容或者关闭暂时不使用的虚拟机

主机内存降频

建议登录主机的BMC控制台,对主机的内存进行检查

RADI卡状态异常 

RADI卡状态异常 检查磁盘以及存储状态是否正常,不正常请及时联系400 

主机%s的内存条%s故障

请进行排障或者更换内存条

短信功能异常,短信代理模块与发送模块连接异常

请检查短信配置是否正确以及网络连接是否正常。

内存超配告警

建议进行内存扩容

VCPU超配告警

建议进行主机扩容

网口速率过低

建议更换网卡或者网线

网络告警监控

主机网卡工作异常

如果出现频繁告警,建议更换主机网卡

网络丢包率过高

检查物理网络是否异常

主机出现持续丢包错误

检查物理网络是否异常

主机xx和主机xxvxlan口不通

检查vxlan口的配置和vxlan交换机的配置

主机xx的网口掉线

请检查主机的网口连接状态

虚拟网络设备(%s)无响应

检查虚拟网络设备的状态

xx主机到网关不通,请检查网络连接是否异常

建议检查网络是否正常

存储告警监控

存储IO时延过高

建议检查存储网络是否正常

存储占用过高

1、删除不再需要的虚拟机;2、清除回收站的垃圾文件;3、对存储进行扩容

存储与主机断开/存储掉线

及时检查存储与主机网络状况

存储状态异常

及时检查存储是否故障

主机xx访问存储xx持续出现繁忙

建议升级存储或迁移部分虚拟机至其他存储运行。

磁盘状态错误,已重新挂载。

登录服务器BMC控制台,查看硬件相关日志,确认故障原因。

检测到存储存在数据块重用,请尽快联系技术支持协助解决

联系深信服技术支持协助解决

检测到热备盘替换

登录超融合web控制台,查看被替换磁盘的状态

登录服务器BMC控制台,查看硬件相关的日志

检测到硬盘(主机<%s>, 硬盘名称: %s)被拔出,如果是误拨,请尽快把硬盘重新插回原盘位!

登录超融合web控制台,查看磁盘的状态

登录服务器BMC控制台,查看硬件相关的日志

磁盘状态异常

登录超融合web控制台,查看磁盘的状态

登录服务器BMC控制台,查看硬件相关的日志

尝试对磁盘执行插拔操作

磁盘坏道超过阈值

尽快更换磁盘

磁盘IO错误

登录超融合web控制台,查看磁盘的状态

登录服务器BMC控制台,查看硬件相关的日志

存储私网异常

检查存储私网连通性

序列号

序列号过期提醒

建议及时购买新序列号进行恢复

序列号KEY状态异常

建议进行插拔KEY,如果还是不行联系400

授权USB-KEY被拔出,请插入,否则系统可能会有异常

检查授权key是否正常,尝试插拔授权key

虚拟机

自动备份虚拟机失败

检查备份存储是否正常

连接session数过高。当前session连接数为%s,超出阈值%s%s

检查虚拟机的业务session是否正常,尝试调整session阈值

虚拟机的CPU利用率持续过高

检查虚拟机的性能优化工具是否正常。

尝试扩容虚拟机的vCPU配置。

虚拟机镜像文件损坏

检查虚拟机的是否能够正常启动,如无法启动可联系深信服技术支持解决。

虚拟机的内存不足。

检查虚拟机的性能优化工具是否正常。

尝试扩容虚拟机的内存配置。

虚拟机连接的物理出口没有桥接该虚拟机所在主机的网口,这会导致虚拟机与外部网络不通。

将主机的业务网口桥接到物理出口上。

删除备份时发现虚拟机的备份镜像损坏

如果虚拟机还存在请立即对其进行备份,然后联系深信服技术支持!

虚拟机重启CDP失败

请去管理->虚拟机备份与恢复->备份策略页面手动开启CDP

虚拟机开启CDP失败

请去管理->虚拟机备份与恢复->备份策略页面手动开启CDP

虚拟机正在运行,但是其配置的CDP策略被禁用,目前数据处于不受保护状态,请调整CDP策略

请去管理->虚拟机备份与恢复->备份策略页面手动开启CDP

虚拟机无响应/虚拟机故障,已经自动重启恢复

检查虚拟机日志,排查虚拟机无响应原因

虚拟机的GPU利用率持续过高

检查虚拟机GPU负载

扩容虚拟机GPU配置

虚拟机的显存不足。当前使

检查虚拟机GPU负载

扩容虚拟机GPU配置

网口的丢包率过高。

检查虚拟机虚拟网卡配置

虚拟机已使用IO日志备份空间超过告警阈值

请调整虚拟机IO日志备份空间大小。

虚拟机的探测操作系统类型与配置不符,可能导致报表信息不准确

检查虚拟机的操作系统类型与HCIweb控制台配置的是否一致。