超融合HCI

深信服超融合SANGFOR HCI是面向下一代数据中心的软件定义基础架构,通过虚拟化技术融合计算、存储、网络和安全等资源,并提供运维管理、容灾备份、智能监控等高级特性,帮助用户构建极简、稳定、高性能的云化数据中心基石。
点击可切换产品版本
知道了
不再提醒
HCI6.8.0(R1-R2)
{{sendMatomoQuery("超融合HCI","告警监控")}}

告警监控

更新时间:2023-10-20

操作场景

适用于超融合HCI平台的运维和监控场景,管理员可在超融合控制台首页查看平台的告警信息,并根据告警信息及时进行问题的闭环。

操作步骤

  1. 设置合理的告警选项和阈值是告警监控的前提条件,HCI平台的告警选项和阈值建议按照下表进行设置,具体设置方法可参考“告警设置”章节。

告警模块

监控项

普通告警

紧急告警

主机

主机交换分区占用

持续10分钟,交换分区占用超过10%

主机CPU占用

持续10分钟CPU占用超过90%

主机CPU温度

温度异常持续10分钟

主机CPU频率

主机CPU降频

主机内存占用

持续10分钟内存占用超过90%

内存频率

内存降频

物理网络

主机网口错包

持续10分钟错包率超过10%

主机网口状态

主机网口掉线

集群主机状态

主机离线

数据通信网口(VXLAN)状态

数据通信网口(VXLAN)不通

主机网卡工作状态

主机网卡工作异常持续10分钟

主机网卡流量状态

主机网卡流量持续10分钟达到流量上限的90%

网卡驱动固件兼容性

网卡驱动固件不兼容

网卡状态

网卡损坏

网卡光模块状态

网卡光模块异常

存储

存储IO状态

存储IO繁忙持续10分钟

备份存储状态

备份存储IO繁忙

存储IO时延状态

存储IO时延高持续10分钟

存储与主机连接状态

存储与主机连接断开

存储状态

存储状态异常

RAID卡状态

RAID卡状态异常

存储占用阈值

超过90%

存储备份池占用阈值

超过90%

虚拟机

虚拟机内存占用

持续10分钟内存占用超过90%

虚拟机CPU占用

持续10分钟CPU占用超过90%

虚拟机镜像文件

虚拟机镜像文件损坏

虚拟机备份状态

虚拟机备份失败

虚拟机与外部网络连通性

虚拟机与外部网络不通

虚拟机单网口session连接数

持续3分钟,session超过100000

虚拟机状态

虚拟机非法关机或重启

虚拟网络

虚拟网络设备CPU占用

持续10分钟CPU占用超过90%

虚拟网络设备镜像文件

虚拟网络设备镜像文件损坏

路由器运行状态

路由器运行失败

虚拟网络设备ALG使用率

持续30ALG使用超过90%

虚拟网络设备与外部网络连通性

虚拟网络设备与外部网络不通

集群

提醒定期巡检频率

一月一次

序列号状态

序列号过期

序列号key状态

序列号key状态异常

  1. 建议设置邮件告警或短信告警,提高获取告警的效率。告警通知的具体配置可参考“配置告警通知”章节。
  2. 登录HCI控制台,在控制台首页点告警按钮,进入告警日志界面。

电脑萤幕画面

中度可信度描述已自动生成

  1. 在告警日志界面,可以查看告警日志的级别、时间、对象类型、告警对象、事件、描述、未确认告警数/总数。发现告警信息后,应及时进行处理并消除告警信息。

电脑屏幕截图

描述已自动生成

  1. 在告警日志界面,还可以查看全部告警、过滤告警、搜索告警。