一、WEB界面报可纠正内存错误数量过高告警1. 登录告警IP主机后台,输入:grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*,查看ce数量
判修标准:单条数量大于15000 或者 增长率 大于1024/小时
增长率计算:通过edac日志判断问题爆发时间点和爆发期间大概增长速度。
日志路径 /sf/log/blackbox/日期/LOG_edac.txt
备注:
1)如果单根内存出现问题,按参考标准,超过标准的内存,安排返修;
2)未超出标准内存,建议观察使用,或者重启设备将ecc清零继续使用。
3)如果多根内存出现问题, 建议找硬件专家协助判断。
4)重大问题客户:建议找硬件专家评估。
5)有内存扩容且运行在一个月以内设备,出现告警找到告警物理槽位,断电拔下告警内存,给该槽位清灰再插上去上电,后续观察,达到返修标准返修
6)有内存定制且运行在一个月以内设备,出现告警找到告警物理槽位,断电拔下告警内存,后续观察,达到返修标准返修
2.进BMC查看事件日志
1)设备运行一个月以上且单条内存在最近五天内产生5条ce日志可返修,没达到的,建议清除日志,重启BMC消除告警
2)有内存扩容且运行在一个月以内,断电拔出该内存,给该槽位清灰,再插上去上电观察,达到返修标准返修
3)设备有内存定制且运行在一个月以内,断电插拔下该报错内存,再上电观察,达到返修标准返修
二、告警灯闪烁或者亮红
1. 进BMC查看事件日志,关于内存UCE报错(内存被禁用):
1)有报内存UCE日志,且运行超过一个月的设备,直接断电拔出该内存返修(设备运行中出现UCE内存,会宕机重启)
2)有内存扩容且运行在一个月以内,断电拔出该内存,给该槽位清灰,再插上去上电,能正常识别观察,后续再出现UCE报错返修,仍未识别,跟正常内存交换,排除槽位问题,现象跟着内存走返修内存,跟着槽位走,返修主板
3)设备有内存定制且运行在一个月以内,断电插拔下该报错内存,再上电,能正常识别观察,后续再出现UCE报错返修,仍未识别,跟正常内存交换,排除槽位问题,现象跟着内存走返修内存,跟着槽位走,返修主板
2. 进BMC查看事件日志,关于内存CE报错
1)设备运行一个月以上且单条内存在最近一周内产生5条ce日志可返修,没达到的,建议清除日志,重启BMC消除告警
2)有内存扩容且运行在一个月以内,断电拔出该内存,给该槽位清灰,再插上去上电观察,达到返修标准返修
3)设备有定制且运行在一个月以内,断电插拔下该报错内存,再上电观察,达到返修标准返修

三、设备宕机,日志指向内存
1. 此问题现象一般出现在1U设备和9W服务器上,设备宕机,内核报panic,错误类型指向内存error,进BMC查看日志是否有内存报错,如有,找出报错内存返修
2. BMC日志无内存报错,一次递减一条内存测试,看能否找出报错内存,如无法找出,建议做个内存扫描看是否能找到报错内存
3. 设备宕机,MCE日志和宕机日志有指向内存的,定位报错内存返修

四、内存被禁用(槽位插错)
1. 一个内存通道0槽位不插内存去插1槽位,会直接把1槽位内存禁用掉,进BMC查看日志,查看该禁用内存通道的0槽位是否有插内存,如没插,断电,按照内存插法,将1槽位的内存插到0槽位
2. 开机显示器报无可用内存,进BMC查看告警日志,内存全部都插到了1槽位,断电,按照内存插法,将内存插到0槽位(9H、F*H服务器内存槽位颜色一样,容易出现此问题)