建议使用Chrome浏览器访问!
技术支持
互动社区
学习培训
深信服官网
合作伙伴

超融合HCI

关注
深信服超融合SANGFOR HCI是面向下一代数据中心的软件定义基础架构,通过虚拟化技术融合计算、存储、网络和安全等资源,并提供运维管理、容灾备份、智能监控等高级特性,帮助用户构建极简、稳定、高性能的云化数据中心基石。
故障案例库
典型场景排查思路

HCI5.8.5 主机和虚拟机报表数据无法展示

更新时间:2024-02-02
  • 阅读权限:游客
  • 下载
  • 分享
  • 收藏
所属模块 集群维护
适用版本

HCI 进入主机详情页和虚拟机详情页中主机流速趋势,CPU,内存,IO速率等报表数据显示全部为0,下图是虚拟机报表页面展示。

 

1、根据kb排查

根据kb http://tskb.sangfor.com/forum.php?mod=viewthread&tid=17272 进行排查,发现环境中现象与kb中一致,使用kb中修复工具进行修复后发现并未起作用,排查发现此脚本编写的是针对6.0.0 以上的版本,5.8.5版本不适用,原因如下。

1.1、修复脚本(fix-all-rrd.sh)中rrdtool工具路径与5.8.5版本不匹配,如下图所示,5.8.5 版本rrd_tool 工具的路径是: /usr/bin/rrd_tool

 

1.2、查看采集到的数据间隔,使用rrd_tool info hostname 查看,如下图,采集间隔是10S

 

1.2、5.8.5版本rrd_tool 工具较老,没有 rrdtool tune 功能,所以无法完成对db文件的采集间隔修改。

老版本rrd_tool 没有 rrt_tool tune 功能,所以无法修改rrd文件的心跳间隔。如下图所示。

综上两项kb中修复工具对5.8.5版本不适用。

 

2、代码排查

由于老版本rrd_tool 工具限制,无法使用工具完成修改,只能通过排查代码来分析,具体是什么地方采集耗时超过10S导致。对代码进行分析和测试,最终发现是采集虚拟机已使用内存的信息耗时较长,单独获取一个虚拟机的已使用内存信息耗时接近0.5S,且每台主机上运行虚拟机个数超过20台,导致单次获取主机上所有虚拟机信息超时,所有的采集信息都无法使用,最终体现在外部就是查看所有数据都是0(null)。

以上问题具体代码位置请咨询研发获得进一步信息。

采集虚拟机已使用内存脚本耗时较长,一个主机上的虚拟机运行个数较多的情况下就会导致获取所有虚拟机数据超过10S,导致整个采集数据不可用。

尝试将采集虚拟机已使用内存的代码注释掉,然后重新启动服务,发现主机,虚拟机所有数据都已恢复。

具体如何操作需要咨询研发获得。

 

由于是老版本,无法通过其他方法彻底修复此问题,所以当前采取舍弃一定数据的方式保证绝大部分数据。

主机报表数据采集与展示,虚拟机报表数据采集与展示。

缺陷

恢复数据的方法是将耗时较长的部分去掉,会导致采集的数据减少,当前只有一项内容被去掉,影响较小。

老版本HCI(5.8.5及以前)报表中心异常一般都是采集数据超时导致,且无法使用rrdtool工具修改rrd数据库文件采集间隔,只有临时修改方案,若想彻底解决问题建议客户升级新版本。

报表采集模块

 

 

 

本页目录
  • 问题描述
  • 有效排查步骤
  • 根因
  • 解决方案
  • 操作影响范围
  • 是否是临时解决方案
  • 建议与总结
  • 排查内容