【HCI－OS】计算内存不足告警，虚拟机运行卡顿，后续出现虚拟机所在主机离线

更新时间：2025-03-15

阅读权限：游客
下载
分享本内容
微博

QQ

QQ 空间

复制链接
分享
收藏

所属模块服务器硬件集群维护 | 主机安装、离线

适用版本通用

前台告警计算内存不足，虚拟机运行卡顿

一段时间后，主机出现离线告警

无

1. 后台查看grep -i begin /sf/log/boot.log 在离线时间点并未出现主机重启
2. 在离线时间点前，CPU，内存压力都很大，环境负载很高，CPU主要是io wait高导致，这种情况会发生虚拟机卡顿，离线判定是管理网ping不通，和环境负载之间关系也有关联。
离线告警时间段，主机的可用内存不足

3. swap使用持续增高的影响：

a）系统性能下降：当系统内存不足时，系统需要频繁地将内存中的数据移动到swap空间，这会导致系统性能下降。
b）系统响应速度变慢：由于系统需要频繁地从硬盘读取swap空间中的数据，这会导致系统响应速度变慢。iostat看到当时系统盘有较多IO。

内存压力过大，swap 持续增高，影响平台稳定性

1:提醒客户注意内存、swap使用（使用率大于90%前台也会有告警）.

2:如有必要，可考虑布置下监控，定时参看每个进程swap空间的情况.

a）将swap_monitor.sh复制到/sf/data/local下，然后执行下面脚本

b）nohup watch -n 10 bash /sf/data/local/swap_monitor.sh &

swap_monitor.sh脚本内容：

#!/bin/bash

# 定义输出文件路径
output_file="/sf/data/local/swap_monitor.txt"

# 记录当前日期
date >> "$output_file"

# 获取每个进程的交换空间使用信息，并按交换空间使用量降序排序，取前几行
for file in /proc/*/status; do
    awk '/^Name:/ { name = $2 } /^Pid:/ { pid = $2 } /^VmSwap:/ { vmswap = $2 " " $3; found=1 } END { if (found) print "Name:" name, "Pid:" pid, "VmSwap:" vmswap }' "$file"
done | sort -k 5,5n -r | head >> "$output_file"

# 输出分隔线
echo "--------------------------------------" >> "$output_file"

# 检查文件大小是否超过 100M
file_size=$(du -m "$output_file" | cut -f 1)
if [ "$file_size" -gt 100 ]; then
    # 获取当前日期作为压缩包文件名的一部分
    current_date=$(date +%Y%m%d%H%M%S)
    tar_file="/sf/data/local/swap_monitor_${current_date}.tar.gz"
    # 压缩文件
    tar -czf "$tar_file" "$output_file"
    # 清空原文件
    > "$output_file"
fi

无

是

定期需要做检查

主机资源

{{contentObj.name||'--'}}

{{contentObj.name||'--'}}

深信服自助服务平台

超融合HCI

【HCI－OS】计算内存不足告警，虚拟机运行卡顿，后续出现虚拟机所在主机离线