建议使用Chrome浏览器访问!
技术支持
互动社区
学习培训
深信服官网
合作伙伴

硬件产品

关注
主要包含硬件产品相关知识
故障案例库
典型场景排查思路

【硬件排查】AD产品线WEB控制台电源告警问题处理

更新时间:2024-07-16
  • 阅读权限:游客
  • 下载
  • 分享
  • 收藏
所属模块 网安设备硬件排查
适用版本 通用

AD web界面提示电源告警,日志有打印电源丢失情况。


  1.  单电源/双电源,持续告警。5秒告警一次,无恢复提示
  2.  单电源/双电源,持续告警。5秒告警一次,有恢复提示
  3.  单电源/双电源,间歇性告警。

1、检查电源模块接电源线位置指示灯情况。

1)如果电源指示灯亮橙色,或者不亮。则需要检查供电线路,

           尝试更换电源线,或者更换插排,重新插拔电源线,

           如果这些都无法解决,重新插拔一下异常模块,

           如果依旧亮橙色,判断电源模块问题,安排返修更换电源模块。

2)如果电源指示灯绿色常亮。初步判断是误报,需要升级专家,检查2-6项。

2、后台检查电源监控值,以及监控方式,通过SN 查是否为BMC设备。

sh -x get_power_state_raw.sh

3、后台检查设备平台信息,以及补丁包信息。

dmidecode_ex 中family值 判断平台信息

 

sangfor~#dmidecode_ex
Manufacturer:SANGFOR
ProductName:MONA001
Family:SXF_MONA_000_6_2

--C246平台值是MONA --C3000 平台值是 TINA、 NUMA、DOTA
SerialNumber:W2YCCC0043
UUID:564D9E81444756453233303030363831
MotherboardVersion:SXF-MONA-v2.0

C246平台 --V2.0和V1.2是BMC设备 1.0是 SIO设备
ProductDate:20220524001
MotherboardDate:20220505001
PcbDate:20220401001
MotherboardManufacturer:YANXIANG-
ProductModel:AD-1000-B2400

 

cat /app/appversion 查看设备补丁信息:

4、后台检查dmesg日志是否有报错信息

cat /aclog/blackbox/xx(日期)/sin**(tab键补齐)/dmesg 日志

检查是否有 PMbus faild 、 SMbus busy 之类字眼,有则用i2c脚本重置。

5、检查设备IPMI口是否能正常ping,以及访问,以及后台是否能执行ipmitool指令。

设备有ipmi口 ,可以直连ping包验证,或者登陆访问。

默认IP是192.168.2.5 默认用户名:root 密码:SangFor_BMC&2020!!

后台执行 ipmitool mc info判断是否有回显

6、尝试拔出其中一个电源模块,确认电源模块型号。

冗余电源模块都是绿色常亮时,拔掉其中一个,设备不会掉电。

7、检查电源I2C驱动,读取状态。此项建议联系硬件专家 。

根因与解决方案见表格:

进一步排查情况

当前判断原因

处理方案

涉及型号

DSD设备

dmesg 日志无异常

显示0x00

欧陆通电源

21年8月之前设备

判断步骤二:SIO监控方式 ,值是0x08或者0x10,非BMC设备

判断步骤三: dmi信息判断是C3000平台,且是DSD设备

 

供应商提前使用了BMC主板。 但低版本没有打BMC补丁

建议软件规避,或者返厂更换主板(同等新旧其他设备)

 

 

 

 

AD-1000-B2200

判断步骤二:SIO监控方式 ,值是异常值,非BMC设备

判断步骤三: dmi信息判断是C3000平台,或者是表格备注型号。  且未打对应补丁。

 

判断步骤七:该动作需要找研发或者硬件部支持

电源显示0x2008,初步判断是输入电压出现,短暂性掉电。

环境供电出现短暂掉电,电源0X79记录状态0x2008,此状态具有保存功能,AD读取0X79状态出现误告警

临时解决方案:

在设备不断电情况下,依次插拔2个电源模块

长期解决方案:

软件提供补丁,SP_AD_C3000_POWER_01_708R7(2023-09
-04).ssu

AD-1000-S120

AD-1000-B2300

AD-1000-B2200

AD-1000-B1800

判断步骤二:SIO监控方式 ,值是Ox00,非BMC设备

判断步骤三: Family信息判断是yanxiang_C246或者SXF_MONA平台,且otherboard Manufacturer: YANXIANG。  未打对应补丁。

 

 

AD读取电源温度,电源,功率等参数超出阈值产生电源告警失效【此前遇到是温度超过引起告警】

打补丁,补丁用于判断原因。

AD 出软件包debug包,出问题时打印具体错误信息,根据具体问题解决问题。优化包

AD-1000-S210

AD-1000-B2400

AD-1000-B2500

AD-1000-B2650

判断步骤二:BMC监控方式

判断步骤三:dmi信息判断是yanxiang_C246平台,或者是表格备注型号。  且未打对应补丁。

判断步骤六:

正常电源模块型号U1A-D10350-DRB

异常电源模块型号U1A-D10350-DRB-H

电源型号差异导致

打补丁,软件已出相关补丁:

SP_AD_C246_POWER_BMC_UPDATE_01

AD-1000-S210

AD-1000-B2400

AD-1000-B2500

AD-1000-B2650

判断步骤二:SIO监控方式 .带BMC设备

判断步骤三: Family信息判断是SXF_MONA平台,且Manufacturer: YANXIANG。  未打对应补丁。

判断步骤五: ipmitool 指令无正常回显,BMC 界面可以登陆。

 

电源监控方式变动

打补丁,软件已出相关补丁

带BMC 设备,监控方式由SIO变为BMC监控需要打补丁:

SP_AD_C246_BMC_O1_708R4-721_fixed

判断步骤二:BMC监控方式

判断步骤三:Family信息判断是SXF_MONA平台,

且Manufacturer: YANXIANG。   

未打对应补丁。

判断步骤五:

ipmitool指令无法正常使用,BMC界面可登陆。

执行:ipmitool sdr 无回显 ,卡住。

 

 

 

判断是BMC驱动加载未完成

打补丁,软件已出相关补丁

BMC驱动启动延迟补丁:

SP_AD_C246_BMC_RELOAD_02_708R4-721_fixed

 

判断步骤二:BMC监控方式

判断步骤三:Family信息判断是SXF_MONA平台,

且Manufacturer: LIHUA  未打对应补丁。

判断步骤五:

ipmitool指令无法正常使用,BMC界面可登陆。

执行:ipmitool sdr 无回显 ,卡住。

判断是BMC驱动加载未完成

 

打补丁,软件已出相关补丁:

SP AD C246 BIC SUPPORT 03 742R1-726R1

AD-1000-S210

AD-1000-B2400

AD-1000-B2500

AD-1000-B2650

判断步骤二:SIO监控方式,非BMC设备

判断步骤三:dmi信息判断是YANXIANG_C600平台,或者是表格备注型号。  且未打对应补丁。

判断步骤四:

dmesg日志提示 PMbus faild

判断步骤六:

正常电源模块型号U1A-D10550-DRB

异常电源模块型号U1A-D10550-DRB-H

电源型号差异导致

更换新固件电源

走返修申请新电源

AD-1000-B3100

判断步骤二:SIO监控方式,非BMC设备

判断步骤三:dmi信息判断是LIHUA_C610平台,或者是表格备注型号。  且未打对应补丁。

判断步骤四:

dmesg日志提示 SMbus busy

电源驱动问题

电源信息获取异常(电源频繁告警,内核大量打印SMBUS BUSY日志)

APPD在固定CPU核上不断死锁core

打补丁,软件已出相关补丁:

SP_AD_FANS_KER_01-7.4.2R1-7.4.3

AD-1000-B3130

AD-1000-S220

判断步骤二:BMC监控方式

判断步骤三:family值是LEYAN_HG

判断步骤五: ipmitool指令无法正常使用,该平台无bmc口登陆。

BIOS启动过快,导致BMC获取信息失败

更新BIOS 和BMC (返厂),

重要客户考虑更换机器(专项处理,有备12台设备用于替换)

软件已出补丁规避,推荐返厂刷bios

AD-1000-GA320

AD-1000-GA220

 
 

7026 版本替换电源驱动  ,lihuaC600平台

 

1. lsmod |grep power 检查驱动信息 ,如果是power_Common 为 新驱动,需要替换
2. rmmod power_Common
3.dmidecode_ex 检查设备平台 family :LiHua_C610_xxxxx ,则平台为LiHuaC610,需要加载对应驱动
4.insmod /lib/modules/`uname -r`/kernal/ad/power_LiHuaC610.ko

 

5. 修改默认文件避免重启后驱动恢复 vi /etc/rc2.d/S03HardwareMonitorDrv.sh
在文件S03HardwareMonitorDrv.sh中找到 型号对应语句
列如 LiHua_C610_xxxxx
#insmod /lib/modules/`uname -r`/kernal/ad/power_LiHuaC610.ko
insmod /lib/modules/`uname -r`/kernal/ad/power_Common ***********************************
改为
insmod /lib/modules/`uname -r`/kernal/ad/power_LiHuaC610.ko
# insmod /lib/modules/`uname -r`/kernal/ad/power_Common ***********************************

 

 

 

7026 版本替换电源驱动,lihuaH110平台

 

1. lsmod |grep power 检查驱动信息 ,如果是power_Common 为 新驱动,需要替换
2. rmmod power_Common
3.dmidecode_ex 检查设备平台 family :LiHua_H110_xxxxx ,则平台为LiHuaH110,需要加载对应驱动
4.insmod /lib/modules/`uname -r`/kernal/ad/power_LiHuaH110.ko

 

5. 修改默认文件避免重启后驱动恢复 vi /etc/rc2.d/S03HardwareMonitorDrv.sh
在文件S03HardwareMonitorDrv.sh中找到 型号对应语句
列如 LiHua_C610_xxxxx
#insmod /lib/modules/`uname -r`/kernal/ad/power_LiHuaCH110.ko
insmod /lib/modules/`uname -r`/kernal/ad/power_Common ***********************************
改为
insmod /lib/modules/`uname -r`/kernal/ad/power_LiHuaCH110.ko
# insmod /lib/modules/`uname -r`/kernal/ad/power_Common ***********************************

 

 

操作影响范围

  1.  插拔电源模块动作,注意保持一个电源模块是绿色常亮才能操作,否则容易引起设备掉电。
  2.  重置I2C 驱动,这项联系硬件专家协助。
  3.  检查设备是否是BMC设备,提供SN,找硬件支持协助。
 

是否是临时解决方

正式解决方案。

 

检查步骤1 ,可以有一线对接,直接判断。

检查步骤2-6,建议联系AD专家岗,后台获取信息。
检查步骤7 ,需要联系硬件专家协助。
排查2-6时, 优先确认步骤1,电源灯情况。
绿色常亮,持续告警,多是误报,不同平台原因不一样。
   

排查内容

  1.  电源情况是否正常
  2.  供电环境是否正常
  3.  设备是否是BMC监控设备。
  4.  设备采用的监控方式是什么。
  5.  是否有打对应补丁。
  6.  Dmesg日志是否有报错提示。

 

本页目录
  • 问题描述
  • 告警信息
  • 处理过程
  • 解决方案
  • 建议与总结
您当前处于未登录状态,资料搜索或查找可能会不全面,请登录后以查找更全面的内容注册登录