更新时间:2023-10-20
功能说明
当内存 ECC UE错误的内存空间位于应用层进程时,该物理节点不会宕机,只会杀死该进程,内存隔离机制将会尝试隔离该内存空间;当内存 ECC UE错误的内存空间位于内核层进程时,该物理节点会宕机,重启后超融合平台会收到ECC UE报错信息,内存隔离机制将会尝试隔离该内存空间,避免后续业务或者平台进程再次使用该内存空间。
注意事项
内存UE隔离功能对硬件有相关的要求:
- CPU架构型号:要求为Purley平台。
- BIOS版本要求:BIOS RC code 610D02 (BKC: Purley BKC IPU 2020.2) 及以上版本。
- 服务器厂商固件不能屏蔽扫描出来的UE/CE错误和用户态访问触发的UE/CE错误。
- BIOS功能设置开关:system memory poison -> enabled(UE恢复功能,必须),并开启patrol scrub(内存硬件扫描功能,必须),Patrol Scrub Error Downgrade(错误降级功能,可选)
:
涉及硬件信息确认,可联系深信服技术支持获取。
前提条件
无
操作步骤
登录超融合HCI平台,当出现内存ECC隔离时,界面会产生告警提示,提示“主机(xxx.xxx.xxx.xxx)的内存条(Px-DIMMxx、Px-DIMMxx)出现内存ECC UE错误过多且无法进行隔离”。
