更新时间:2024-05-09
操作场景
适用于超融合平台的运维和监控场景,管理员可在超融合控制台首页查看平台的告警信息,并根据告警信息及时进行问题的闭环。
操作步骤
- 设置合理的告警选项和阈值是告警监控的前提条件,sCloud_HCI平台的告警选项和阈值建议按照下表进行设置,具体设置方法可参考“告警设置”章节。
告警模块 |
监控项 |
普通告警 |
紧急告警 |
主机 |
主机交换分区占用 |
持续10分钟,交换分区占用超过10% |
|
主机CPU占用 |
持续10分钟CPU占用超过90% |
|
主机CPU温度 |
温度异常持续10分钟 |
|
主机CPU频率 |
主机CPU降频 |
|
主机内存占用 |
持续10分钟内存占用超过90% |
|
内存频率 |
内存降频 |
|
物理网络 |
主机网口错包 |
持续10分钟错包率超过10% |
|
主机网口状态 |
|
主机网口掉线 |
集群主机状态 |
|
主机离线 |
数据通信网口(VXLAN)状态 |
|
数据通信网口(VXLAN)不通 |
主机网卡工作状态 |
|
主机网卡工作异常持续10分钟 |
主机网卡流量状态 |
|
主机网卡流量持续10分钟达到流量上限的90% |
网卡驱动固件兼容性 |
|
网卡驱动固件不兼容 |
网卡状态 |
|
网卡损坏 |
网卡光模块状态 |
|
网卡光模块异常 |
存储 |
存储IO状态 |
存储IO繁忙持续10分钟 |
|
备份存储状态 |
备份存储IO繁忙 |
|
存储IO时延状态 |
存储IO时延高持续10分钟 |
|
存储与主机连接状态 |
|
存储与主机连接断开 |
存储状态 |
|
存储状态异常 |
RAID卡状态 |
|
RAID卡状态异常 |
存储占用阈值 |
|
超过90% |
存储备份池占用阈值 |
|
超过90% |
虚拟机 |
虚拟机内存占用 |
持续10分钟内存占用超过90% |
|
虚拟机CPU占用 |
持续10分钟CPU占用超过90% |
|
虚拟机镜像文件 |
|
虚拟机镜像文件损坏 |
虚拟机备份状态 |
|
虚拟机备份失败 |
虚拟机与外部网络连通性 |
|
虚拟机与外部网络不通 |
虚拟机单网口session连接数 |
|
持续3分钟,session超过100000 |
虚拟机状态 |
|
虚拟机非法关机或重启 |
虚拟网络 |
虚拟网络设备CPU占用 |
持续10分钟CPU占用超过90% |
|
虚拟网络设备镜像文件 |
|
虚拟网络设备镜像文件损坏 |
路由器运行状态 |
|
路由器运行失败 |
虚拟网络设备ALG使用率 |
|
持续30秒ALG使用超过90% |
虚拟网络设备与外部网络连通性 |
|
虚拟网络设备与外部网络不通 |
集群 |
提醒定期巡检频率 |
一月一次 |
|
序列号状态 |
|
序列号过期 |
序列号key状态 |
|
序列号key状态异常 |
- 建议设置邮件告警或短信告警,提高获取告警的效率。告警通知的具体配置可参考“配置告警通知”章节。
- 登录超融合控制台,在控制台首页点告警按钮,进入告警日志界面。
- 在告警日志界面,可以查看告警日志的级别、时间、对象类型、告警对象、事件、描述、未确认告警数/总数。发现告警信息后,应及时进行处理并消除告警信息。
- 在告警日志界面,还可以查看全部告警、过滤告警、搜索告警。