更新时间:2022-07-25
操作场景
适用于超融合HCI平台的运维和监控场景,管理员可在超融合控制台首页查看平台的告警信息,并根据告警信息及时进行问题的闭环。
操作步骤
设置合理的告警选项和阈值是告警监控的前提条件,HCI平台的告警选项和阈值建议按照下表进行设置,具体设置方法可参考“告警设置”章节。
告警模块 | 监控项 | 普通告警 | 紧急告警 |
主机 | 主机交换分区占用 | 持续10分钟,交换分区占用超过10% | |
主机CPU占用 | 持续10分钟CPU占用超过90% | |
主机CPU温度 | 温度异常持续10分钟 | |
主机CPU频率 | 主机CPU降频 | |
主机内存占用 | 持续10分钟内存占用超过90% | |
内存频率 | 内存降频 | |
物理网络 | 主机网口错包 | 持续10分钟错包率超过10% | |
主机网口状态 | | 主机网口掉线 |
集群主机状态 | | 主机离线 |
数据通信网口(VXLAN)状态 | | 数据通信网口(VXLAN)不通 |
主机网卡工作状态 | | 主机网卡工作异常持续10分钟 |
主机网卡流量状态 | | 主机网卡流量持续10分钟达到流量上限的90% |
网卡驱动固件兼容性 | | 网卡驱动固件不兼容 |
网卡状态 | | 网卡损坏 |
网卡光模块状态 | | 网卡光模块异常 |
存储 | 存储IO状态 | 存储IO繁忙持续10分钟 | |
备份存储状态 | 备份存储IO繁忙 | |
存储IO时延状态 | 存储IO时延高持续10分钟 | |
存储与主机连接状态 | | 存储与主机连接断开 |
存储状态 | | 存储状态异常 |
RAID卡状态 | | RAID卡状态异常 |
存储占用阈值 | | 超过90% |
存储备份池占用阈值 | | 超过90% |
虚拟机 | 虚拟机内存占用 | 持续10分钟内存占用超过90% | |
虚拟机CPU占用 | 持续10分钟CPU占用超过90% | |
虚拟机镜像文件 | | 虚拟机镜像文件损坏 |
虚拟机备份状态 | | 虚拟机备份失败 |
虚拟机与外部网络连通性 | | 虚拟机与外部网络不通 |
虚拟机单网口session连接数 | | 持续3分钟,session超过100000 |
虚拟机状态 | | 虚拟机非法关机或重启 |
虚拟网络 | 虚拟网络设备CPU占用 | 持续10分钟CPU占用超过90% | |
虚拟网络设备镜像文件 | | 虚拟网络设备镜像文件损坏 |
路由器运行状态 | | 路由器运行失败 |
虚拟网络设备ALG使用率 | | 持续30秒ALG使用超过90% |
虚拟网络设备与外部网络连通性 | | 虚拟网络设备与外部网络不通 |
集群 | 提醒定期巡检频率 | 一月一次 | |
序列号状态 | | 序列号过期 |
序列号key状态 | | 序列号key状态异常 |
建议设置邮件告警或短信告警,提高获取告警的效率。告警通知的具体配置可参考“配置告警通知”章节。
登录HCI控制台,在控制台首页点告警按钮,进入告警日志界面。

在告警日志界面,可以查看告警日志的级别、时间、对象类型、告警对象、事件、描述、未确认告警数/总数。发现告警信息后,应及时进行处理并消除告警信息。

在告警日志界面,还可以查看全部告警、过滤告警、搜索告警。
