现象一:状态为DHCP、PXE界面
步骤一:手动关机,等设备关机后再开机看是否能进系统
● 是,进系统后用smartctl -A /dev/sdX(X为盘符)检查硬盘是否有坏道,有坏道返修系统盘,没坏道,建议观察(掉盘问题为极低概率问题,要彻底解决需要2块系统盘插到前置槽位组RAID1,)
● 否,执行2
步骤二:关机,插拔下系统盘,开机,菜单界面按启动按键进Boot看是否能识别到系统盘
● 是,选择系统盘看是否能进系统,能进恢复正常,不能进则系统挂了,尝试重装系统解决
● 否执行3
步骤三:关机,将系统盘换到隔壁槽位,开机,菜单界面按启动按键进Boot看是否能识别到系统盘
● 是,选择系统盘看是否能进系统,能进恢复正常,不能进则系统挂了,尝试重装系统解决
● 否执行4
步骤四:关机,将系统盘插到前置盘位,开机,进RAID卡管理界面看是否能识别到系统盘
● 是,断电插拔下后置系统盘SATA线,供电线,插回去看是否能识别,不能识别返修背板及SATA线
● 否,硬盘问题,返修硬盘
现象二:状态为在后台界面,接键盘无信号(假死)
步骤一:登录IPMI查看事件日志、黑盒日志看是否有硬件报错
● 是,定位报错部件返修
● 否,执行2
步骤二:重启设备,进系统后找产品线开发排查看是否能定位问题
● 是,软件解决
● 否,执行3
步骤三:收集以下日志给到硬件技术支持同事排查,看能否定位问题
b. 系统下收集:
1>内核日志(路径:/sf/log/日期/kernel.log)
2>宕机日志(设备有宕机日志生成需收集,路径:/sf/log/kdump/)
3>Mce日志(与内存相关需收集,路径:/sf/log/blackbox/日期/LOG_mcelog.txt)
4>Edac日志(与内存相关需收集,路径:blackbox/日期/LOG_edac_mc.txt)
5>RAID卡日志(与RAID卡相关需收集,工具路径:典型场景排查/硬件问题排查/服务器问题排查/十一、常用操作类文档10-12)
● 是,返修报错部件
● 否,执行4
步骤四:找研发上IPMI串口监控工具,下次出现问题时可以有日志排查
现象三:状态为文件系统错误,只读
步骤一:重启设备,进系统,检查系统盘smart是否存在坏道
● 是,返修系统盘
● 否,执行2
步骤二:检查kernel日志看是否有系统盘io错误日志
● 是,返修系统盘
● 否,观察(客户不接受也可返修系统盘)
现象三:状态为后台界面,接键盘有信号输出
步骤一:登录IPMI,打开KVM进设备后台排查管理口是否link
● 是,执行2
● 否,插拔管理口网线,看能否恢复正常,恢复不了,换条网线测试
步骤二:找研发排查离线原因
现象四:离线自动恢复,设备有宕机重启
步骤一:登录IPMI,查看事件日志、黑盒日志是否有硬件报错
● 是,返修报错部件(内存报错最近有扩容需排查内存)
● 否,执行2
步骤二:检查kernel日志,宕机日志(有生成宕机日志则查看),看是否有硬件报错
● 是,定位报错部件返修
● 否,执行3
步骤三:找产品线开发排查
现象五:状态为黑屏
步骤一:查看设备是否为关机状态(前置电源按钮灯不亮或者亮橙灯,后置电源模块指示灯绿灯闪烁)
● 是,执行2
● 否,执行2再执行3
步骤二:登录IPMI,查看事件日志、黑盒日志是否有硬件报错
● 是,返修报错部件
● 否,确认是主动关机还是异常关机,异常关机找硬件技术支持同事定位
步骤三:尝试断电5分钟上电,看能否进系统
● 是,问题解决
● 否,执行4
步骤四:拔掉主板纽扣电池,等2分钟再插回去,上电看是否能恢复正常。
● 是,问题解决。
● 否,执行5。
步骤五:拆卸网卡、RAID卡等PCIe设备。查看故 障是否解决。
● 是,问题解决。
● 否,执行6。
步骤六:仅保留服务器最小化配置(CPU一个,安装在第一个CPU槽位,外地不允许拆CPU,保留2颗CPU,内存条一条,安装在第一个CPU的0槽位,其他网卡、PCIE设备都拔掉),查看故障是否解决。
● 是,逐一增加PCIE设备和内存,确认故障部件返修。
● 否,返修(排查主板、CPU问题)。