超融合HCI

深信服超融合SANGFOR HCI是面向下一代数据中心的软件定义基础架构,通过虚拟化技术融合计算、存储、网络和安全等资源,并提供运维管理、容灾备份、智能监控等高级特性,帮助用户构建极简、稳定、高性能的云化数据中心基石。
点击可切换产品版本
知道了
不再提醒
HCI6.8.0(R1-R2)
{{sendMatomoQuery("超融合HCI","内存UE错误隔离")}}

内存UE错误隔离

更新时间:2023-10-20

功能说明

当内存 ECC UE错误的内存空间位于应用层进程时,该物理节点不会宕机,只会杀死该进程,内存隔离机制将会尝试隔离该内存空间;当内存 ECC UE错误的内存空间位于内核层进程时,该物理节点会宕机,重启后超融合平台会收到ECC UE报错信息,内存隔离机制将会尝试隔离该内存空间,避免后续业务或者平台进程再次使用该内存空间。

注意事项

内存UE隔离功能对硬件有相关的要求:

  1. CPU架构型号:要求为Purley平台。
  2. BIOS版本要求:BIOS RC code 610D02 (BKC: Purley BKC IPU 2020.2) 及以上版本。
  3. 服务器厂商固件不能屏蔽扫描出来的UE/CE错误和用户态访问触发的UE/CE错误。
  4. BIOS功能设置开关:system memory poison -> enabledUE恢复功能,必须),并开启patrol scrub(内存硬件扫描功能,必须),Patrol Scrub Error Downgrade(错误降级功能,可选)

涉及硬件信息确认,可联系深信服技术支持获取。

前提条件

操作步骤

登录超融合HCI平台,当出现内存ECC隔离时,界面会产生告警提示,提示“主机(xxx.xxx.xxx.xxx)的内存条(Px-DIMMxxPx-DIMMxx)出现内存ECC UE错误过多且无法进行隔离”。