建议使用Chrome浏览器访问!
技术支持
互动社区
学习培训
深信服官网
合作伙伴

超融合HCI

关注
深信服超融合SANGFOR HCI是面向下一代数据中心的软件定义基础架构,通过虚拟化技术融合计算、存储、网络和安全等资源,并提供运维管理、容灾备份、智能监控等高级特性,帮助用户构建极简、稳定、高性能的云化数据中心基石。
故障案例库
典型场景排查思路

【KB:330426518】虚拟机异常挂起,重启电源后依然挂起

更新时间:2024-11-28
  • 阅读权限:游客
  • 下载
  • 分享
  • 收藏
所属模块 虚拟机内部 | 虚拟机挂起、无响应
适用版本 HCI 6.3.0R2HCI 6.3.0R1HCI 6.3.0HCI 6.2.3HCI 6.2.0HCI 6.1.0HCI 6.0.1HCI 6.7.0HCI 6.3.0R3HCI 6.3.20PHCI 6.7.0R1HCI 6.7.0R2HCI6.7.0R3HCI 6.0.0及以下版本HCI6.8.0

HCI页面多个虚拟机异常挂起,重启虚拟机电源后仍然挂起。

  1. 进入HCI后台,查看虚拟机监控信息显示“xxxmsgxxx无响应,请稍后重试或重启!...“,qemu无响应,怀疑qemu卡死。
    HCI 6.8.0及以上版本需执行以下命令进入ASV容器
    container_exec -n asv-c
    qm monitor [vmid]​
    qm> info status
    qm> io cont
    qm> info block

  2. 根据最初挂起的时间点分析,磁盘中报错磁盘空间不足。

  3. 根据【系统管理】-【操作日志】可以看出,挂起时间段有批量删除快照的动作,快照删除原理涉及到数据合并, 数据合并过程会申请大量空间去合并数据,合并完毕后才会释放空间,所以导致业务申请空间失败虚拟机异常挂起。

  4. 根据qemu日志分析,qemu 的主线出现异常,还在等待上一次请求。
    # cat /sf/log/[日期]/sfvt_qemu_[vmid].log​

批量删除快照有大量数据合并会申请大量空间,导致qemu卡死,虚拟机异常挂起。

临时解决办法

联系研发在后台重启NFS,然后重启qemu服务,以恢复虚拟机业务。(高危操作务必联系研发操作)

  • 重启服务会短暂影响正常在用的业务。
  • 建议HCI 6.8.0R1以下版本关于存储的批量操作分开多次执行,防止大快照等文件突然申请过多空间。

彻底解决办法

HCI 6.8.0R1及以上版本对批量操作申请存储空间问题进行了优化,建议将环境升级至HCI最新版本。

本页目录
  • 问题描述
  • 有效排查步骤
  • 根因
  • 解决方案
您当前处于未登录状态,资料搜索或查找可能会不全面,请登录后以查找更全面的内容注册登录