更新时间:2023-10-20
功能说明
当业务或平台进程运行在内存 ECC 错误的内存空间上时,内核会收到内存上报的ECC报错信息;深信服超融合平台内存隔离机制将会尝试隔离该内存空间,避免后续业务或者平台进程再次使用该内存空间。
注意事项
内存ECC功能需要服务器CPU支持MCE功能,如涉及到硬件确认,可联系深信服技术支持。
前提条件
无
操作步骤
- 登录超融合HCI平台,当出现内存ECC隔离时,界面会产生告警提示,提示“主机(xxx.xxx.xxx.xxx)的内存条(Px-DIMMxx、Px-DIMMxx)出现内存ECC CE可纠正错误过多且无法进行隔”。
• 单个内存条ECC隔离地址块数量占比超过10%,或1小时内单个内存条出现ECC错误次数超过2000次(无论是否隔离成功)时,会产生普通告警提示;
• 单个内存条ECC隔离地址块数量占比超过25%,可用内存很少,或1小时内单个内存条出现ECC错误次数超过6000次(无论是否隔离成功)时,会产生紧急告警提示。

- 当平台出现告警提示时,建议联系服务商更换内存条。更换内存条时,请将相应主机开启单主机维护模式后再进行更换。
:
告警提示中的内存条地址是内存条的逻辑地址,需要参照服务器的内存布局示意图才能更换内存条。