步骤一:进后台查看告警时间段的CPU频率是否存在降频(Bzy_MHz有出现小于等于TSC_MHz 70%,WEB会告警出来),日志路径:/sf/log/checkitem/
● 是,执行3
● 否,执行2
步骤二:查看实时频率是否出现降频,指令:turbostat -i 1或者echo $$ > /mnt/cgroup/cpu/tasks;turbostat
● 是,执行3
● 否,观察一段时间,将实时频率重定向txt文件检查频率:turbostat -i 1 >turbostat.txt
步骤三:检查IPMI事件日志、内核日志(/sf/log/日期/kernel.log)、mce日志(/sf/log/blackbox/日期/LOG_mcelog.txt)、edac日志(/sf/log/blackbox/日期/LOG_edac_mc.txt),看是否有内存报错
● 是,返修报错内存
● 否,执行4
步骤四:进IPMI检查环境温度、CPU温度是否高温
● 是,调整风扇转速,降低环境温度
● 否,执行5
步骤五:检查双电源服务器是否有接2条电源线
● 是,执行6
● 否,接双电源线
步骤六:重启设备,进BIOS检查节能模式是否已开启
● 是,关闭节能模式,观察是否还会出现CPU降频
● 否,联系硬件技术支持同事排查