1、检查电源模块接电源线位置指示灯情况。
1)如果电源指示灯亮橙色,或者不亮。则需要检查供电线路,
尝试更换电源线,或者更换插排,重新插拔电源线,
如果这些都无法解决,重新插拔一下异常模块,
如果依旧亮橙色,判断电源模块问题,安排返修更换电源模块。
2)如果电源指示灯绿色常亮。初步判断是误报,需要升级专家,检查2-6项。
2、后台检查电源监控值,以及监控方式,通过SN 查是否为BMC设备。
sh -x get_power_state_raw.sh
3、后台检查设备平台信息,以及补丁包信息。
dmidecode_ex 中family值 判断平台信息
sangfor~#dmidecode_ex
Manufacturer:SANGFOR
ProductName:MONA001
Family:SXF_MONA_000_6_2
--C246平台值是MONA --C3000 平台值是 TINA、 NUMA、DOTA
SerialNumber:W2YCCC0043
UUID:564D9E81444756453233303030363831
MotherboardVersion:SXF-MONA-v2.0
C246平台 --V2.0和V1.2是BMC设备 1.0是 SIO设备
ProductDate:20220524001
MotherboardDate:20220505001
PcbDate:20220401001
MotherboardManufacturer:YANXIANG-
ProductModel:AD-1000-B2400
cat /app/appversion 查看设备补丁信息:
4、后台检查dmesg日志是否有报错信息
cat /aclog/blackbox/xx(日期)/sin**(tab键补齐)/dmesg 日志
检查是否有 PMbus faild 、 SMbus busy 之类字眼,有则用i2c脚本重置。
5、检查设备IPMI口是否能正常ping,以及访问,以及后台是否能执行ipmitool指令。
设备有ipmi口 ,可以直连ping包验证,或者登陆访问。
默认IP是192.168.2.5 默认用户名:root 密码:SangFor_BMC&2020!!
后台执行 ipmitool mc info判断是否有回显
6、尝试拔出其中一个电源模块,确认电源模块型号。
冗余电源模块都是绿色常亮时,拔掉其中一个,设备不会掉电。
7、检查电源I2C驱动,读取状态。此项建议联系硬件专家 。
根因与解决方案见表格:
进一步排查情况 |
当前判断原因 |
处理方案 |
涉及型号 |
DSD设备 dmesg 日志无异常 显示0x00 欧陆通电源 21年8月之前设备 判断步骤二:SIO监控方式 ,值是0x08或者0x10,非BMC设备 判断步骤三: dmi信息判断是C3000平台,且是DSD设备 |
供应商提前使用了BMC主板。 但低版本没有打BMC补丁 |
建议软件规避,或者返厂更换主板(同等新旧其他设备) |
AD-1000-B2200 |
判断步骤二:SIO监控方式 ,值是异常值,非BMC设备 判断步骤三: dmi信息判断是C3000平台,或者是表格备注型号。 且未打对应补丁。
判断步骤七:该动作需要找研发或者硬件部支持 |
电源显示0x2008,初步判断是输入电压出现,短暂性掉电。 环境供电出现短暂掉电,电源0X79记录状态0x2008,此状态具有保存功能,AD读取0X79状态出现误告警 |
临时解决方案: 在设备不断电情况下,依次插拔2个电源模块 长期解决方案: 软件提供补丁,SP_AD_C3000_POWER_01_708R7(2023-09 |
AD-1000-S120 AD-1000-B2300 AD-1000-B2200 AD-1000-B1800 |
判断步骤二:SIO监控方式 ,值是Ox00,非BMC设备 判断步骤三: Family信息判断是yanxiang_C246或者SXF_MONA平台,且otherboard Manufacturer: YANXIANG。 未打对应补丁。 |
AD读取电源温度,电源,功率等参数超出阈值产生电源告警失效【此前遇到是温度超过引起告警】 |
打补丁,补丁用于判断原因。 AD 出软件包debug包,出问题时打印具体错误信息,根据具体问题解决问题。优化包 |
AD-1000-S210 AD-1000-B2400 AD-1000-B2500 AD-1000-B2650 |
判断步骤二:BMC监控方式 判断步骤三:dmi信息判断是yanxiang_C246平台,或者是表格备注型号。 且未打对应补丁。 判断步骤六: 正常电源模块型号U1A-D10350-DRB 异常电源模块型号U1A-D10350-DRB-H |
电源型号差异导致 |
打补丁,软件已出相关补丁: SP_AD_C246_POWER_BMC_UPDATE_01 |
AD-1000-S210 AD-1000-B2400 AD-1000-B2500 AD-1000-B2650 |
判断步骤二:SIO监控方式 .带BMC设备 判断步骤三: Family信息判断是SXF_MONA平台,且Manufacturer: YANXIANG。 未打对应补丁。 判断步骤五: ipmitool 指令无正常回显,BMC 界面可以登陆。
|
电源监控方式变动 |
打补丁,软件已出相关补丁 带BMC 设备,监控方式由SIO变为BMC监控需要打补丁: SP_AD_C246_BMC_O1_708R4-721_fixed |
|
判断步骤二:BMC监控方式 判断步骤三:Family信息判断是SXF_MONA平台, 且Manufacturer: YANXIANG。 未打对应补丁。 判断步骤五: ipmitool指令无法正常使用,BMC界面可登陆。 执行:ipmitool sdr 无回显 ,卡住。 |
判断是BMC驱动加载未完成 |
打补丁,软件已出相关补丁 BMC驱动启动延迟补丁: SP_AD_C246_BMC_RELOAD_02_708R4-721_fixed |
|
判断步骤二:BMC监控方式 判断步骤三:Family信息判断是SXF_MONA平台, 且Manufacturer: LIHUA 未打对应补丁。 判断步骤五: ipmitool指令无法正常使用,BMC界面可登陆。 执行:ipmitool sdr 无回显 ,卡住。 |
判断是BMC驱动加载未完成 |
打补丁,软件已出相关补丁: SP AD C246 BIC SUPPORT 03 742R1-726R1 |
AD-1000-S210 AD-1000-B2400 AD-1000-B2500 AD-1000-B2650 |
判断步骤二:SIO监控方式,非BMC设备 判断步骤三:dmi信息判断是YANXIANG_C600平台,或者是表格备注型号。 且未打对应补丁。 判断步骤四: dmesg日志提示 PMbus faild 判断步骤六: 正常电源模块型号U1A-D10550-DRB 异常电源模块型号U1A-D10550-DRB-H |
电源型号差异导致 |
更换新固件电源 走返修申请新电源 |
AD-1000-B3100 |
判断步骤二:SIO监控方式,非BMC设备 判断步骤三:dmi信息判断是LIHUA_C610平台,或者是表格备注型号。 且未打对应补丁。 判断步骤四: dmesg日志提示 SMbus busy |
电源驱动问题 电源信息获取异常(电源频繁告警,内核大量打印SMBUS BUSY日志) APPD在固定CPU核上不断死锁core |
打补丁,软件已出相关补丁: SP_AD_FANS_KER_01-7.4.2R1-7.4.3 |
AD-1000-B3130 AD-1000-S220 |
判断步骤二:BMC监控方式 判断步骤三:family值是LEYAN_HG 判断步骤五: ipmitool指令无法正常使用,该平台无bmc口登陆。 |
BIOS启动过快,导致BMC获取信息失败 |
更新BIOS 和BMC (返厂), 重要客户考虑更换机器(专项处理,有备12台设备用于替换) 软件已出补丁规避,推荐返厂刷bios |
AD-1000-GA320 AD-1000-GA220 |
7026 版本替换电源驱动 ,lihuaC600平台
1. lsmod |grep power 检查驱动信息 ,如果是power_Common 为 新驱动,需要替换
2. rmmod power_Common
3.dmidecode_ex 检查设备平台 family :LiHua_C610_xxxxx ,则平台为LiHuaC610,需要加载对应驱动
4.insmod /lib/modules/`uname -r`/kernal/ad/power_LiHuaC610.ko
5. 修改默认文件避免重启后驱动恢复 vi /etc/rc2.d/S03HardwareMonitorDrv.sh
在文件S03HardwareMonitorDrv.sh中找到 型号对应语句
列如 LiHua_C610_xxxxx
#insmod /lib/modules/`uname -r`/kernal/ad/power_LiHuaC610.ko
insmod /lib/modules/`uname -r`/kernal/ad/power_Common ***********************************
改为
insmod /lib/modules/`uname -r`/kernal/ad/power_LiHuaC610.ko
# insmod /lib/modules/`uname -r`/kernal/ad/power_Common ***********************************
7026 版本替换电源驱动,lihuaH110平台
1. lsmod |grep power 检查驱动信息 ,如果是power_Common 为 新驱动,需要替换
2. rmmod power_Common
3.dmidecode_ex 检查设备平台 family :LiHua_H110_xxxxx ,则平台为LiHuaH110,需要加载对应驱动
4.insmod /lib/modules/`uname -r`/kernal/ad/power_LiHuaH110.ko
5. 修改默认文件避免重启后驱动恢复 vi /etc/rc2.d/S03HardwareMonitorDrv.sh
在文件S03HardwareMonitorDrv.sh中找到 型号对应语句
列如 LiHua_C610_xxxxx
#insmod /lib/modules/`uname -r`/kernal/ad/power_LiHuaCH110.ko
insmod /lib/modules/`uname -r`/kernal/ad/power_Common ***********************************
改为
insmod /lib/modules/`uname -r`/kernal/ad/power_LiHuaCH110.ko
# insmod /lib/modules/`uname -r`/kernal/ad/power_Common ***********************************
操作影响范围
是否是临时解决方
正式解决方案。