建议使用Chrome浏览器访问!
技术支持
互动社区
学习培训
深信服官网
合作伙伴

硬件产品

关注
主要包含硬件产品相关知识
故障案例库
典型场景排查思路

常见问题排查

更新时间:2023-01-05
  • 阅读权限:游客
  • 下载
  • 分享
  • 收藏
所属模块
适用版本 通用
常见问题排查
WEB界面内存告警原理:
后台检测/sys/devices/system/edac/mc下面的ce数量,老版本是1024/天,新版本是1024/小时,当每天达到1024条时,会告警出来,每小时告警一次,OS下的ce数量为累加,重启后会清零,新版本只有达到1024/小时才会告警出来
BMC界面内存告警原理:
1024/小时,BIOS侦测ce数量并反馈给BMC,当单条内存每小时达到1024条时BMC记一条ce日志,达到2048条时记2条ce日志,依次类推,当每小时没有达到1024条时不记日志,下一个小时重新计算(有些厂家按15000/天、500/天,原理相同,单位时间是按天算)
ecc报错内存定位:
WEB界面告警,找到第一次告警时间,然后登录告警IP主机后台,grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*,然后确定设备SN和型号,按照ecc报错内存定位方法和内存槽位图(见内存插法)找到报错内存物理槽位
BMC日志告警,直接显示物理槽位
一、WEB界面报可纠正内存错误数量过高告警
1. 登录告警IP主机后台,输入:grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*,查看ce数量
判修标准:单条数量大于15000 或者 增长率 大于1024/小时
增长率计算:通过edac日志判断问题爆发时间点和爆发期间大概增长速度。
日志路径  /sf/log/blackbox/日期/LOG_edac.txt
备注:
1)如果单根内存出现问题,按参考标准,超过标准的内存,安排返修;
2)未超出标准内存,建议观察使用,或者重启设备将ecc清零继续使用。
3)如果多根内存出现问题, 建议找硬件专家协助判断。
4)重大问题客户:建议找硬件专家评估。
5)有内存扩容且运行在一个月以内设备,出现告警找到告警物理槽位,断电拔下告警内存,给该槽位清灰再插上去上电,后续观察,达到返修标准返修
6)有内存定制且运行在一个月以内设备,出现告警找到告警物理槽位,断电拔下告警内存,后续观察,达到返修标准返修



2.进BMC查看事件日志
1)设备运行一个月以上且单条内存在最近五天内产生5条ce日志可返修,没达到的,建议清除日志,重启BMC消除告警
2)有内存扩容且运行在一个月以内,断电拔出该内存,给该槽位清灰,再插上去上电观察,达到返修标准返修
3)设备有内存定制且运行在一个月以内,断电插拔下该报错内存,再上电观察,达到返修标准返修

二、告警灯闪烁或者亮红
1.  进BMC查看事件日志,关于内存UCE报错(内存被禁用):
1)有报内存UCE日志,且运行超过一个月的设备,直接断电拔出该内存返修(设备运行中出现UCE内存,会宕机重启)
2)有内存扩容且运行在一个月以内,断电拔出该内存,给该槽位清灰,再插上去上电,能正常识别观察,后续再出现UCE报错返修,仍未识别,跟正常内存交换,排除槽位问题,现象跟着内存走返修内存,跟着槽位走,返修主板
3)设备有内存定制且运行在一个月以内,断电插拔下该报错内存,再上电,能正常识别观察,后续再出现UCE报错返修,仍未识别,跟正常内存交换,排除槽位问题,现象跟着内存走返修内存,跟着槽位走,返修主板
2. 进BMC查看事件日志,关于内存CE报错
1)设备运行一个月以上且单条内存在最近一周内产生5条ce日志可返修,没达到的,建议清除日志,重启BMC消除告警
2)有内存扩容且运行在一个月以内,断电拔出该内存,给该槽位清灰,再插上去上电观察,达到返修标准返修
3)设备有定制且运行在一个月以内,断电插拔下该报错内存,再上电观察,达到返修标准返修

三、设备宕机,日志指向内存
1. 此问题现象一般出现在1U设备和9W服务器上,设备宕机,内核报panic,错误类型指向内存error,进BMC查看日志是否有内存报错,如有,找出报错内存返修
2. BMC日志无内存报错,一次递减一条内存测试,看能否找出报错内存,如无法找出,建议做个内存扫描看是否能找到报错内存
3. 设备宕机,MCE日志和宕机日志有指向内存的,定位报错内存返修

四、内存被禁用(槽位插错)
1. 一个内存通道0槽位不插内存去插1槽位,会直接把1槽位内存禁用掉,进BMC查看日志,查看该禁用内存通道的0槽位是否有插内存,如没插,断电,按照内存插法,将1槽位的内存插到0槽位
2. 开机显示器报无可用内存,进BMC查看告警日志,内存全部都插到了1槽位,断电,按照内存插法,将内存插到0槽位(9H、F*H服务器内存槽位颜色一样,容易出现此问题)




五、内存扩容后异常
1. 此问题现象发生在9T、F6T服务器上,设备宕机重启,进BMC查看告警日志有CPU0内存电压过低告警,此为该厂商主板设计问题,出现此问题,整机返修更换主板


本页目录
  • 问题描述
  • 解决方案
您当前处于未登录状态,资料搜索或查找可能会不全面,请登录后以查找更全面的内容注册登录