现象一:IPMI报CPU温度高
步骤一:检查环境温度、风扇转速是否正常,如环境温度高温35℃以上,建议降低到25℃及以下温度,确认每个风扇转速是否正常,如有风扇转速不转或者某个转速很低,排查风扇是否正常,不正常返修风扇模块,正常可尝试手动加大风扇转速,看能否将CPU温度降下来,降不下来执行步骤二。
步骤二:检查2个CPU温度是否都报高温,如只有一个CPU报高温,温度比另一个高几十度,加大转速也降不下来则CPU异常或者散热硅脂不起作用,返修设备。
现象二:IPMI报CPU IERR
步骤一:检查事件日志是否有内存报错,有报错断电拔掉报错内存看是否能恢复,能恢复返修内存,不能恢复和没有内存报错执行步骤二。
步骤二:收集事件日志,一键收集日志(没有一键收集日志收集黑盒日志),给到技术支持同事排查。
步骤三:其他相关CPU报错,收集事件日志,一键收集日志(没有一键收集日志收集黑盒日志),给到技术支持同事排查。