现象一:卡硬件质检(POST质检)
步骤一:断电(拔掉电源线)5分钟,再上电看是否能跳过硬件质检。
● 是,问题解决
● 否,执行2
步骤二:登录IPMI查看是否有硬件报错
● 是,移除故障部件,看是否能跳过硬件质检,是则返修报错部件,否执行3
● 否,执行3
步骤三:查看质检代码是否跟内存有关(常见的内存质检代码:0x76 0x53 0x2B 0x2F 0x37 0x3A 0x3B 0x3E 0x50 0x53 0x54 0x79 0xB0)
● 是,插拔所有内存,用干净的白布或者橡皮擦擦下内存金手指部分,上电看是否能跳过硬件质检,是则问题解决,否则执行4
● 否,执行4
步骤四:拆卸网卡、RAID卡等PCIe设备,查看故 障是否解决
● 是,问题解决
● 否,执行5
步骤五:拔掉主板纽扣电池,等2分钟再插回去,上电看是否能恢复正常。
● 是,问题解决。
● 否,执行6。
步骤六:仅保留服务器最小化配置(CPU一个,安装在第一个CPU槽位,外地不允许拆CPU,保留2颗CPU,内存条一条,安装在第一个CPU的0槽位,其他网卡、PCIE设备都拔掉),查看故障是否解决。
● 是,逐一增加PCIE设备和内存,确认故障部件返修。
● 否,返修(排查主板、CPU问题)。
现象二:卡RAID卡质检
步骤一:进BMC查看是否有关于硬盘、RAID卡、SAS线、背板错误日志
● 是,返修报错部件
● 否,执行2
步骤二:看卡质检界面是否有报RAID组离线
● 是,进RAID卡管理界面重新导入RAID组,看问题是否能解决,是则问题解决,否则执行3
● 否,执行3
步骤三:断电(拔掉电源线)5分钟,再上电看是否能跳过RAID卡质检。
● 是,问题解决
● 否,执行4
步骤四:关机,将前置硬盘拔出上电看能否跳过RAID卡质检
● 是,问题解决
● 否,执行5
步骤五:断电重新插拔下RAID卡和更换槽位,再上电看能否跳过RAID卡质检
● 是,问题解决
● 否,返修RAID卡