步骤一:确认设备是否可以开机,能开机执行步骤二 ,不能开机执行步骤三 。
步骤二:将DIM100-121槽位的内存和其他内存交叉测试,如和DIM000-021内存交叉,看是跟着槽位走还是内存走,跟着内存走,进一步定位内存问题,跟着槽位走则主板问题,安排原厂带主板上门处理。如不能复现则通过SP测试进下内存压力测试(重启设备,在菜单界面按F6进SP测试,选择内存测试)。
A. 若DIMM100-121区域有内存测试不通过,则主板问题;DIMM000-021区域有内存测试不通过,则更换不通过的内存。
B. 若压力测试期间有异常下电,可根据告警信息是否变化判断是内存故障还是主板故障。若新告警是The power V_VDDQ_ABC failure results abnormal power-off,则是内存故障,可将此区域内存拔插后逐一进行SP内存压力测试来确认故障部件;若告警内容不变,即主板问题。
C. 若压力测试未测试出任何问题,问题较难复现,但已交叉内存,待问题复现后再排查。
步骤三:拔掉DIM100-121槽位的内存,看能否开机,如依然不能开机,再最小化测试,还是不能开机则安排服务器厂商带主板和CPU上门处理,如拔掉DIM100-121槽位的内存后能正常开机,将DIM100-121槽位的内存和DIM000-021槽位内存交叉,现象跟着内存走进一步排查内存问题,跟着槽位走则安排服务器厂商带主板上门处理。
备注:
VDDQ_ABC、VDDQ_DEF、VDDQ_KLM告警排查方法一样。