现象一:WEB报可纠正内存错误数过多
备注:先确认内存型号容量频率是否一致,不一致更换成一致的内存
步骤一:进后台查看ecc实际数量看是否有达到返修标准大于等于15000条
指令:grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*
● 否,执行2
步骤二:检查edac日志,看是否有出现一小时内新增1024条以上数值
日志路径:/sf/log/blackbox/日期/LOG_edac_mc.txt
● 是,定位报错内存返修
● 否,执行3
步骤三:建议观察,如需要消除WEB告警,重启设备(重启设备ecc数值会清零)
现象二:WEB报ecc、ce可纠正错误过多无法进行隔离
步骤一:定位报错内存返修(HCI630R1及以上版本有ecc隔离功能,数值太高无法隔离直接返修内存)
现象三:WEB报存在不可纠正ecc内存错误
步骤一:定位报错内存,进IPMI和后台查看该内存是否有不识别
● 是,执行2
● 否,找研发处理,一般是误报
步骤二:确认内存型号频率容量是否一致
● 是,执行3
● 否,更换内存型号、频率、容量一致内存
步骤三:确认最近一个月内是否有扩容过内存
● 是,执行4
● 否,返修内存
步骤四:将异常内存用干布或者橡皮擦擦下内存金手指位置,给该内存槽位清灰,然后和旁边正常内存交叉测试,看是否复现
● 是,返修内存
● 否,观察一段时间,如有复现,返修内存