更新时间:2023-06-06
通过VMP管理平台,可对平台集群、主机及存储等状态、告警日志及配置信息等情况进行监测,了解平台目前健康状况并对异常进行及时处理。
7.1.1.1.集群运行状态 监测
状态监测
在VMP管理平台[首页]页面下,管理员可查看集群主机运行状态,如下图所示,包括:
• 集群内主机数量与在线情况;
• 2D/3D虚拟机数量及运行情况;
• 内置/外置存储数量;
• 集群总CPU/内存/存储使用率,包括总资源及已使用情况。
7.1.1.2.单主机运行状态监测
在VMP管理平台[首页]或[实体机/物理主机]页面下,管理员可查看集群内各主机运行主要状态,如下图所示,包括:
• 主机卡片运行状态:关机为灰色显示,开机正常蓝色显示,告警红色显示;
• CPU、内存、I/O繁忙率等状态。
• 说明:
1.已分配内存为已开机的虚拟机配置内存之和,实际运行内存为已开机的虚拟机实际占用内存之和;
2. 3D主机在实体机图标上加了个GPU的图标。
当鼠标悬浮至主机卡片上,卡片会显示快捷操作按钮,可点击“主机卡片中主机名称(IP)”或者<详情>,跳转至主机详情页面,其中包含更为详细的主机运行状态等信息,如下图所示。
其中:
• 运行状态:包括CPU、内存、I/O繁忙率等状态,同时管理员可在页面右侧关注指定网口的流速趋势、CPU/内存趋势;
• 基本信息与硬件配置:管理员可查看主机基本信息及硬件配置。
指标说明与处理建议
指标项 |
处理优先级 |
处理建议 |
主机CPU/内存使用率 |
高 |
如发现主机CPU/内存使用率超过90%且相比其他主机负载不均衡,可手动热迁移部分虚拟机至其他主机,释放计算资源,避免出现虚拟机卡慢问题 说明:热迁移会短暂出现画面中断等问题,具体操作请参考“存储及运行位置迁移”章节 |
CPU/内存趋势 |
低 |
可按最近24小时/一周进行趋势总览,对异常波动进行关注 |
流速趋势 |
低 |
可对终端与主机通信网口、虚拟机业务口、存储私网口及管理口进行流速趋势总览,对持续高吞吐进行关注,识别是否需要进行带宽扩宽 |
7.1.1.3.存储状态监测
存储状态监测包括总览、虚拟存储及其他存储状态。
存储状态总览
在[存储/总览]页面,管理员可对平台对接所有存储的情况与指标进行总体查看并对存储整体情况进行评估与异常处置。
- 存储状态与虚拟存储使用率
管理员可在总览页面对虚拟存储卷、其他存储的状态和任务告警进行概览,同时可查看虚拟存储的使用率、总容量及使用容量等信息,如下图所示。
其中:
• 虚拟存储卷/其他存储:需关注存储是否处于正常状态,对异常进行及时处理,管理员可点击相应数字跳转至对应类型存储页面进一步查看;
• 未读告警数/虚拟存储任务:包括未读告警及正在进行的数据同步/数据平衡任务,管理员可点击对应数字跳转至[管理/告警日志]及[存储/数据同步和平衡任务执行状态]进一步进行分析。
- 存储实时状况
管理员可在总览页面,查看平台关联所有存储的存储信息、使用率、IO速率及运行虚拟机数量等信息,如下图所示。
- 虚拟存储性能状况
管理员可在总览页面查看各卷的存储读写性能指标,同时管理员在右上角对时间范围进行指定或自定义,如下图所示。
其中:
• IO次数/速率趋势:虚拟存储在IO方面读写次数和速率趋势。
• 缓存命中率趋势:展示的是缓存命中率。发生读操作时,如果SSD里面缓存了,就从SSD读,称之为缓存命中,如果SSD里没有缓存,就得从数据盘读,称之为未命中。命中的读次数除以总的读次数,就是缓存的命中率。
• 主机命中率:展示的主机开机以来的平均缓存命中率,通过柱状图可以形象对比不同主机命中率的差别。
• 虚拟存储使用趋势:虚拟存储以天为单位的使用率趋势,方便管理对容量使用进行了解,进而评估扩容需求与计划。
- 未读告警日志
管理员可在总览页面,查看存储相关的未读告警日志,包括告警对象、时间与内容,同时管理员可点击<查看历史告警>会跳转至[管理/告警日志]页面,对历史告警进行查看,如下图所示。
- 数据同步和平衡任务执行状态
管理员可在总览页面,查看存储相关的数据同步和平衡任务执行状态,包括状态、对象名称、动作、所属卷及剩余大小等信息,同时管理员可点击<查看全部任务>跳转至[存储/数据同步和平衡任务执行状态]页面,查看全部任务,如下图所示。
虚拟存储状态
在[存储/虚拟存储]页面,管理员可对所有存储卷和虚拟存储包含的所有磁盘进行状态查看。
- 存储卷
各存储卷状态信息主要包括名称、状态、总容量、使用率、IO读写速率、副本数等信息,如下图所示。
其中:
• 状态:正常情况则会显示“正常”,如状态非正常请优先处理。
• 容量使用率:需关注容量使用率,如占用超80%,则建议进行扩容操作。
• 虚拟机总数:该存储卷上的所有虚拟机数量。
• 管理员可点击存储<名称>跳转至存储卷详情页面,查看容量信息、基本信息及运行状态信息,如下图所示。
- 硬盘管理
各硬盘状态信息主要包括名称、状态、所属卷、硬盘类型、使用率、IO读写速率/延迟等信息,如下图所示。
管理员可在菜单栏,指定存储卷显示相应硬盘信息,也可对主机、状态、硬盘用途、硬盘类型等关键词进行搜索筛选,如下图所示。
同时,管理员可点击硬盘<名称>跳转至磁盘详情页面,查看状态、基本信息,如下图所示。
其他存储状态
在[存储/其他存储]页面,管理员可对平台对接的FC/iSCSI/NFS/本地存储信息进行查看,包括状态、名称、存储类型、容量情况、IO情况及连接的主机数等,如下图所示。
管理员可点击<存储名称>跳转至存储详情页面查看存储信息、承载虚拟机及连接的主机等信息,如下图所示。
7.1.1.4.监测指标处理建议
集群运行状态 |
指标项 |
处理优先级 |
处理建议 |
主机离线 |
极高 |
如发现主机离线台数非0,需优先进行处理进行业务恢复 |
CPU/内存使用率 |
中 |
CPU/内存使用率持续处于80%及以上,建议进行主机扩容 |
存储使用率 |
中 |
CPU/内存使用率持续处于80%及以上,建议进行存储/主机扩容操作 |
单主机运行状态 |
指标项 |
处理优先级 |
处理建议 |
主机CPU/内存使用率 |
高 |
如发现主机CPU/内存使用率超过90%且相比其他主机负载不均衡,可手动热迁移部分虚拟机至其他主机,释放计算资源,避免出现虚拟机卡慢问题 说明:热迁移会短暂出现画面中断等问题,具体操作请参考“存储及运行位置迁移”章节 |
CPU/内存趋势 |
低 |
可按最近24小时/一周进行趋势总览,对异常波动进行关注 |
流速趋势 |
低 |
可对终端与主机通信网口、虚拟机业务口、存储私网口及管理口进行流速趋势总览,对持续高吞吐进行关注,识别是否需要进行带宽扩宽 |
存储状态监测-总览 |
指标项 |
处理优先级 |
处理建议 |
虚拟存储卷/其他存储状态 |
极高 |
[存储状态]如出现非正常状态,请优先处理 |
未读告警数 |
高 |
[存储状态]关注存储未读告警,并及时处理 |
虚拟存储任务 |
中 |
[存储状态]关注执行中任务是否有异常(如卡住/停止等),并及时处理 |
存储使用率 |
中 |
[存储实时状况]当存储使用率超80%,需考虑扩容计划 |
IO读写速率 |
低 |
[存储实时状况]用于展示存储实时的IO读写速率 |
IO次数趋势 |
低 |
[虚拟存储性能状况] 展示的是虚拟存储每秒发生读和写的次数,对应于业界术语IOPS 值,展示的是虚拟存储的并发 IO 次数趋势,反映了虚拟存储的随机 IO 能力。 |
IO速率趋势 |
低 |
[虚拟存储性能状况] 展示的是虚拟存储每秒读写的字节数,即每秒读 xxx MB,写 xx MB,展示的是虚拟存储的并发 IO 吞趋势,通过 IO 速率趋势可以反映了虚拟存储的顺序IO 能力。 |
IO时延趋势 |
极高 |
[虚拟存储性能状况]展示的是虚拟存储平均每次读和写需要的时间,通过IO时延趋势可以看出存储的IO负载,如果IO时延一直持续在50ms以上,就会导致虚拟机卡慢等,需优先处理。 |
虚拟存储使用趋势 |
低 |
[虚拟存储性能状况]用于展示虚拟存储已使用容量的趋势 |
缓存命中率趋势 |
中 |
[虚拟存储性能状况]用于展示当发生读操作时,如果SSD里面缓存了,就从SSD读,称为缓存命中;建议是在70%以上,如果持续小于70%,需要及时处理。 |
主机命中率 |
低 |
[虚拟存储性能状况]用于展示主机开机以来的平均缓存命中率 |
存储状态监测-虚拟存储 |
指标项 |
处理优先级 |
处理建议 |
磁盘状态 |
极高 |
如出现非正常状态,请优先处理 |
磁盘容量使用率 |
中 |
如出现数据盘的使用率都超过80%,需要及时尽快扩容处理 |
磁盘IO速率 |
低 |
用于展示磁盘的实时IO读写速率 |
磁盘IO次数 |
低 |
用于展示磁盘的实时IO读写次数 |
磁盘IO时延 |
低 |
用于展示磁盘的实时IO时延情况 |
存储状态监测-其他存储 |
指标项 |
处理优先级 |
处理建议 |
磁盘状态 |
极高 |
如出现非正常状态,请优先处理 |
磁盘IO速率 |
低 |
用于展示其他存储最大的IO读写速率 |