建议使用Chrome浏览器访问!
技术支持
互动社区
学习培训
深信服官网
合作伙伴

硬件产品

关注
主要包含硬件产品相关知识
故障案例库
典型场景排查思路

【硬件排查】硬盘不调度或掉盘问题排查

更新时间:2024-12-10
  • 阅读权限:游客
  • 下载
  • 分享
  • 收藏
所属模块 网安设备硬件排查
适用版本 通用

场景一:硬盘识别异常或BIOS引导盘序异常,开机直接进入到BIOS界面,或者提示"Reboot and Select proper Boot device or Insert Boot Media in selected Boot device and press a key"硬盘没有正常启动,或者硬盘没有安装正确的系统。

 

场景二:硬盘坏道或插写寿命耗尽,现象体现BIOS界面/开机alarm常亮串口显示无法进入系统,一直打印硬盘I/O报错或者文件系统报错。

 

场景三:链路问题或硬盘CRC有异常数值导致一直打印硬盘扇区报错或ATA链路报错-硬盘反复重置硬盘响应延迟。

 

场景四:客户设备异常重启,重启后系统后台smartctl参数读取正常,查看系统日志记录与客户业务感知异常时间存在差异,硬盘掉盘或疑是掉盘

 

场景五:常用硬盘厂商已知问题,JBL寿命问题,市场还存在老固件V1.30.6及以下版本/海康低128G/256G卡死问题固件版本D5Na2A11/创见128G 硬盘CRC低固件版本FW: 02J0TSXF

 

场景六:硬盘只读导致系统服务异常,多见是硬盘分区满了,无法write,系统日志一般会有read_only只读的打印,或者系统文件异常记录。

 

场景七:双盘设备数据盘掉盘案列,messages存储在系统盘,blackbox存储在数据盘。

 

场景八:设备iowait延迟,硬盘I/O异常

 

 

 

 

 

 

 

 

 

 

场景一:硬盘识别异常或BIOS引导盘序异常,开机直接进入到BIOS界面,或者提示"Reboot and Select proper Boot device or Insert Boot Media in selected Boot device and press a key"硬盘没有正常启动,或者硬盘没有安装正确的系统。

现象排查:设备ALRM常亮,串口或者VGA显示器接入BIOS界面查看硬盘识别及盘序,设置系统盘作为第一启动项,如确认启动项是正确的,需进一步确认设备ghost信息

解决方案:BIOS设置正确启动项,确认设备系统安装信息

 

场景二:硬盘坏道或插写寿命耗尽,现象体现BIOS界面/开机alarm常亮串口显示无法进入系统,一直打印硬盘I/O报错或者文件系统报错

现象排查:设备ALARM常亮,查看串口或者VGA输出,重复打印bad target异常,设备重启无法恢复。

解决方案:硬盘坏道,需要返修更换硬盘

 

场景三:链路问题或硬盘CRC有异常数值导致一直打印硬盘扇区报错或ATA链路报错-硬盘反复重置硬盘响应延迟

现象排查:查看串口输出或者dmesg日志,ATA报错重启可能会恢复,CRC重启设备无法恢复,可以通过smart查看硬盘CRC异常数值

解决方案:设备需要返修更换硬盘

 

场景四:客户设备异常重启,重启后系统后台smartctl参数读取正常,查看系统日志记录与客户业务感知异常时间存在差异,硬盘掉盘或疑是掉盘

现象排查:设备已自动重启恢复,无明显物理故障状态,向客户了解重启前设备指示灯情况及设备恢复方式(手动重启or自动重启),进系统后台查看messages和blackbox的dmesg的日志记录信息,结合设备重启时间和客户感知业务异常时间存在差异,如无相关日志记录可查看对端设备网口记录的信息,可怀疑是掉盘了

如以下案列,设备重启前日志记录15:14:01,到15:54:13设备重启,客户感知业务中断时间是设备重启的时间戳,可以判断为硬盘掉盘引起设备重启,掉盘后设备不会立即重启,设备面板指示灯也不会有异常,设备业务还会正常运行,到54分内存缓存的跑完才会重启

解决方案:如确认硬盘是smart数值硬盘读写速率均正常,首次可沟通观察使用,建议KA客户进行返修更换硬盘

 

场景五:常用硬盘厂商已知问题,JBL寿命问题,市场还存在老固件V1.30.6及以下版本/海康低128G/256G卡死问题固件版本D5Na2A11/创见128G 硬盘CRC低固件版本FW: 02J0TSXF

现象排查:系统后台smartcl -a /dev/sd*读取厂商及硬盘FW信息

解决方案:JBL硬盘低固件问题市场还有,常见寿命耗尽,海康盘产品线均已出固件补丁包,创见低固件问题案列较少,如已出现异常异常,可建议返修更换

 

场景六:硬盘只读导致系统服务异常,多见是硬盘分区满了,无法write,系统日志一般会有read_only只读的打印,或者系统文件异常记录

现象排查:设备面板指示灯alarm常亮,读取硬盘smart正常,dmesg日志记录中断,不是掉盘,查看硬盘分区是否有异常,后台手动无法编辑写入文件

解决方案:此现象一般是系统软件功能问题,出现大量异常日志记录把分区写满了,需协调研发查看

 

场景七:双盘设备数据盘掉盘案列,messages存储在系统盘,blackbox存储在数据盘,如下图

现象排查:数据盘掉盘设备运行正常,面板指示灯无异常,先查看lsblk设备硬盘排序情况,确认双盘是否在位,查看messages与dmesg日志记录对比,是否存在中断

解决方案:查看数据盘smart 健康情况,无smart报错数值可观察使用,ka客户建议返修更换

 

场景八:设备iowait延迟,硬盘I/O异常

 

现象排查:系统后台查看设备CPU内存等使用率信息,排除硬盘坏道,客户设备负载情况,排除以上可能如持续报硬盘iowiat高的情况,可以进一步确认硬盘固件版本信息,读取读写速率的异常,问题可以升级进一步确认

解决方案:确认硬盘存在异常,沟通返修,无异常问题升级处理

 

本页目录
  • 问题描述
  • 解决方案
您当前处于未登录状态,资料搜索或查找可能会不全面,请登录后以查找更全面的内容注册登录