建议使用Chrome浏览器访问!
技术支持
互动社区
学习培训
深信服官网
合作伙伴

超融合HCI

关注
深信服超融合SANGFOR HCI是面向下一代数据中心的软件定义基础架构,通过虚拟化技术融合计算、存储、网络和安全等资源,并提供运维管理、容灾备份、智能监控等高级特性,帮助用户构建极简、稳定、高性能的云化数据中心基石。
故障案例库
典型场景排查思路

【HCI-OS】计算内存不足告警,虚拟机运行卡顿,后续出现虚拟机所在主机离线

更新时间:2025-03-15
  • 阅读权限:游客
  • 下载
  • 分享
  • 收藏
所属模块 服务器硬件集群维护 | 主机安装、离线
适用版本 通用
前台告警计算内存不足,虚拟机运行卡顿

一段时间后,主机出现离线告警
1. 后台查看grep -i begin /sf/log/boot.log 在离线时间点并未出现主机重启
2. 在离线时间点前,CPU,内存压力都很大,环境负载很高,CPU主要是io wait高导致,这种情况会发生虚拟机卡顿,离线判定是管理网ping不通,和环境负载之间关系也有关联。
离线告警时间段,主机的可用内存不足

3. swap使用持续增高的影响:


a)系统性能下降:当系统内存不足时,系统需要频繁地将内存中的数据移动到swap空间,这会导致系统性能下降。
b)系统响应速度变慢:由于系统需要频繁地从硬盘读取swap空间中的数据,这会导致系统响应速度变慢。iostat看到当时系统盘有较多IO。



内存压力过大,swap 持续增高,影响平台稳定性

1:提醒客户注意内存、swap使用(使用率大于90%前台也会有告警).

2:如有必要,可考虑布置下监控,定时参看每个进程swap空间的情况.

a)将swap_monitor.sh复制到/sf/data/local下,然后执行下面脚本

b)nohup watch -n 10 bash /sf/data/local/swap_monitor.sh &

swap_monitor.sh脚本内容:

#!/bin/bash

# 定义输出文件路径
output_file="/sf/data/local/swap_monitor.txt"

# 记录当前日期
date >> "$output_file"

# 获取每个进程的交换空间使用信息,并按交换空间使用量降序排序,取前几行
for file in /proc/*/status; do
    awk '/^Name:/ { name = $2 } /^Pid:/ { pid = $2 } /^VmSwap:/ { vmswap = $2 " " $3; found=1 } END { if (found) print "Name:" name, "Pid:" pid, "VmSwap:" vmswap }' "$file"
done | sort -k 5,5n -r | head >> "$output_file"

# 输出分隔线
echo "--------------------------------------" >> "$output_file"

# 检查文件大小是否超过 100M
file_size=$(du -m "$output_file" | cut -f 1)
if [ "$file_size" -gt 100 ]; then
    # 获取当前日期作为压缩包文件名的一部分
    current_date=$(date +%Y%m%d%H%M%S)
    tar_file="/sf/data/local/swap_monitor_${current_date}.tar.gz"
    # 压缩文件
    tar -czf "$tar_file" "$output_file"
    # 清空原文件
    > "$output_file"
fi
定期需要做检查
主机资源

 

本页目录
  • 问题描述
  • 告警信息
  • 有效排查步骤
  • 根因
  • 解决方案
  • 操作影响范围
  • 是否是临时解决方案
  • 建议与总结
  • 排查内容