建议使用Chrome浏览器访问!
技术支持
互动社区
学习培训
深信服官网
合作伙伴

硬件产品

关注
主要包含硬件产品相关知识
故障案例库
典型场景排查思路

【硬件排查】超融合一体机报磁盘全部被拔出,重启后有盘识别不到的情况

更新时间:2024-08-01
  • 阅读权限:游客
  • 下载
  • 分享
  • 收藏
所属模块 网安设备硬件排查服务器硬件知识库
适用版本 通用
超融合一体机,有台主机一直提示0 1 2三块磁盘被拔出,查看硬盘smart值没有坏道,但是内核日志有持续的i/o error报错,重启后发现后台只能识别到0,2号盘 ,1号盘识别不到。

附storcli64工具(如系统无此工具,解压后丢到后台root目录)

storcli64.zip ( 2.43M  )

控制台中出现拔盘警告,1号盘无法识别,注意此台一体机总计只有三块盘均出现了拔出告警情况。
可定位异常现象的特征是全盘均出现拔出告警,基本上同时出现,且有单盘离线情况,关于硬盘的复杂故障情况下需要优先收集raid卡日志。
(收集方法:./storcli64 /c0 show alilog logfile=raid.alilog)
根据收集出来的raid.event日志可以看到有raid卡温度超过阈值的事件。

event日志中多次出现此报警,怀疑是raid卡温度过高报警,需要到Alilog中找相关证据,检查发现Alilog日志中有raid卡日志已达到110度高温,已严重偏离正常值,需要加强服务器散热。后续现场散热调节后,拔插硬盘恢复。


服务器散热不良导致raid卡高温。
现场笔记本连接IPMI接口,登录BMC web界面查看实际风扇转速百分比设置在25%,手动提高至50%,以改善服务器的散热情况,需要同时观察机房温度是否有异常(机房中的服务器运行温度一般在20度左右);掉线盘需要进行拔插,并观察拔插后是否恢复,磁盘上线后查看smart值确认硬盘本体情况。
多盘告警/掉线的复杂情况,需要优先收集raid卡日志给到硬件部分析,同时提升问题支持前需要了解清楚现场机器的配置情况做一并提升反馈。

 

本页目录
  • 问题描述
  • 告警信息
  • 有效排查步骤
  • 根因
  • 解决方案
  • 建议与总结