建议使用Chrome浏览器访问!
技术支持
互动社区
学习培训
深信服官网
合作伙伴

云运维订阅

关注
深信服云运维订阅(原云端智能大脑)是适用于深信服超融合信服云平台的智能运维管理组件。通过镜像模板的方式快速部署于超融合基础设施上,可以将业务环境中的故障告警及潜在环境风险加密传输到云端智能大脑。基于深信服自研天工智能引擎帮助用户快速闭环故障,提前预测环境风险并提供处置建议。
故障案例库
典型场景排查思路
主模块:
全部
默认
版本标签:
全部
为您筛选24条结果
【云端代理】HCI对接云端代理后,HCI的虚拟机没有同步到云端代理和信服云
使用HCI对接云端代理之后,云端代理上以及信服云上,看不到虚拟机   对接了3个HCI,其中一个同步上来了,两位2个没有同步上来 查看对接信息发现,同步上来的使用的admin对接的,另外2个,使用的其它管理员对接的,没有获取HCI云主机列表的权限,返回了空列表 未同步上来的2个集群,使用admin对接后同步上来了          
【云端代理】【信服云】信服云告警,磁盘分区/sf/data/sys_backup_merge_tmp使用率告警
信服云产生告警,磁盘分区/sf/data/sys_backup_merge_tmp使用率告警       忽略告警即可;属于误报,待项目组优化 不影响      
【云端代理】接入数据库报错:validation error : hosts[0].ips:ips cannot be empty [ips]
信服云上给云主机接入数据库,云主机IP为空,点击下一步,报错: validation error : hosts[0].ips:ips cannot be empty [ips]     查看对接云端代理的SCP版本,如果低于6.10.0是不支持的,IP字段是从6.10.0开始支持的   推荐客户升级到6.10.0R1版本(R1是当前最新版本,后续如果有更新的版本,直接升级最新的版本,升级打快照)          
【云端代理】云端代理,对接SCP,提示:系统异常
      对接SCP时候,不要勾选服务器和云主机的自动安装agent;内部已知问题,2.7.0的下个版本解决          
【云端代理】信服云上存储磁盘分区/mnt/huge使用率告警
云端代理对接HCI后,登陆信服云查看,存在/mnt/huge磁盘分区使用率告警   查看触发条件策略 /mnt/huge在HCI上的使用率一直都是100%,云端代理未剔除该分区的检查 临时规避:把【服务器磁盘分区使用率默认触发策略】触发策略禁用;策略禁用之后,把对应的告警也确认掉就行了 云端代理2.5.2版本已经优化这个问题   是        
【云端代理】HCI告警云端代理虚拟机报表异常
HCI上的云端代理虚拟机告警:虚拟机报表异常   进入云端代理虚拟机后台,df -h查看发现是 /dev/vda3满了 k3s默认是有轮转的,10M就会新建一个文件,但是skyops是会自动关闭k3s,导致这个功能失效。colreport中gorm的操作日志打到了控制台,没有打到/sf/log目录下,被容器的日志文件接收了,所以导致磁盘被占满 重启云端代理即可解决 内部已经记录TD修改:2024110500298          
【云端代理】云端代理高级版授权知识点(持续更新)
描述云端代理高级版授权知识点 授权流程图: https://support.sangfor.com.cn/productDocument/read?product_id=150&version_id=923&category_id=303089   授权要求: 252版本及以下: 要求云端智能大脑部署实施时,集群软件升级需在有效期内。如果软件服务过期,即使授权了高级版,也是无效。基础版:告警上报 (按集群维度),也就是说如果某个集群的软件升级服务过期,则该集群的告警无法上报高级版:告警上报,内网拨测,服务器,云主机和数据库监控,硬件的风险预测,内存泄漏预测(按租户维度) 270版本及以上: 不关注软件升级服务,只需要有高级版授权,就是高级版基础版:告警数据,服务器和集群的监控数据,硬件的风险预测;(按集群维度),也就是说如果某个集群的软件升级服务过期,则该集群的告警数据,服务器和集群的监控数据,硬件的风险预测无法上报。高级版:基础版所有功能及内网业务拨测,云主机和数据库监控,内存泄漏预测(按集群维度),也就是说如果某个集群的高级版过期,则该集群里云主机和数据库监控,内存泄漏预测无法上报。只要还有平台是高级版授权,就能用内网拨测,也就是当云端代理纳管的所有平台没有一个是高级版授权,内网拨测就会被停用 授权场景: 授权同步逻辑:云端代理定期10分钟获取接入平台的授权模式(云管或者独立授权),软件升级时间和授权ID,同步到SCC信服云,信服云5分钟定期根据授权ID从云图同步授权数据。(立即同步感知授权结果的需求已经排期,预计12月份发布) 云端代理同步授权逻辑:1)云端代理接入的是SCP云端代理获取SCP云管的软件升级时间和授权ID,同步到SCC; 如果云管纳管的HCI有独立授权的,云端代理会额外获取独立授权HCI的软件升级时间和授权ID,同步到SCC; 说明:HCI被云管纳管后,不能单独对接云端代理 2)云端代理接入的是HCI云端代理获取接入的HCI平台的软件升级时间和授权ID,同步到SCC;   高级版的判断逻辑: 252版本及以下: 高级版授权关联功能按租户维度划分前提1:该租户下所有私有云平台的软件升级服务都在有效期内;前提2: 至少有一个平台授权了有效期内的高级版公网拨测次数赠送逻辑:一年高级版授权赠送 100W次 270版本及以上: 高级版授权关联功能按集群维度划分:只要有平台授权为高级版,则SCC平台上显示是高级版。 公网拨测次数赠送逻辑:不管基础版还是高级版,根据asv计算服务授权的CPU核数计算,1C赠送50w次 高级版支持的版本:  SCPVKEY: SCP6.8.1,SCP6.9.0, SCP6.9.1 及以后版本UKEY: SCP6.9.0 SCP6.9.1 及以后版本 HCI:VKEY: HCI6.8.0 HCI6.8.1 HCI6.9.1 及以后版本UKEY: HCI6.3.0 HCI6.7.0 HCI6.8.0 HCI6.9.1 及以后版本       见排查步骤          
【云端代理】购买了云端代理高级版,信服云显示基础版排查思路(持续更新)
客户购买了云端代理的高级版授权,登录信服云查看还是基础版   查看授权文件是否存在CABS这个授权项;如果不存在,查看订单是否下了云端智能大脑; 确认对接的是HCI还是SCP以及对应的版本;授权文件开的是HCI还是SCP,检查授权是否开错或者授权导入错误; 如果SCP是681版本,暂时不支持云端智能大脑的授权;规避方案:升级SCP或者联系储运(黄建正/荣腾)使用SCP 690的授权模板; 如果对接的是HCI,并且版本是680如果是HCI 680的版本,HCI存在已知问题(TD:2024081400430);规避方案:HCI的授权开具体的时间(使用2037年代替,已和黄建正/荣腾达成一致),不要使用无限制; 以上确认没有问题后,导入授权后至少等待10分钟,最多半个小时,如果还没有显示高级版,联系技术支持,并提供:Todesk远程,授权文件,云端代理后台(SSH方式进入),登陆信服云;   见排查步骤          
【云端智能大脑】磁盘故障预警
云端智能大脑出现“磁盘故障预警”的告警,一般预示告警磁盘存在潜在故障,可能会在近期失效。   告警描述一般如下: 通过云端智能预测引擎检测到磁盘(磁盘序列号)近期可能出现故障的概率为99.21%,建议及时更换,具体检测值如下 smart_187_normalized: 无法校正的错误数,分数1偏低(满分100) smart_187_raw: 无法校正的错误数,当前值294偏高(原始值0) smart_197_raw: 当前待映射扇区计数,当前值8偏高(原始值0) smart_198_raw: 脱机无法校正的扇区计数,当前值8偏高(原始值0) smart_5_raw: 重映射扇区计数,当前值48偏高(原始值0)   1. 根据告警描述的异常smart信息,重点关注以下属性 ID 5 Reallocated sector count,重新映射的扇区数:由于反复发生的软错误或硬错误,驱动器会重新将受损扇区重新映射到一个新的物理扇区(从备用扇区而来),完成重新分配。这个属性反映了重新映射发生的次数。如果它的值增加,这表示是机械硬盘或固态硬盘不断收到磨损。 ID 197 Current Pending Sector Count,当前待映射扇区计数:这个参数的数据表示了“不稳定的”扇区数,即等待被映射的扇区(也称“被挂起的扇区”)数量。如果不稳定的扇区随后被读写成功,该扇区就不再列入等待范围,数据值就会下降。SMART的算法对这一特定属性的理解有好有坏,因为它有时并不令人信服。尽管如此,它还是可以提供可能出现问题的早期预警。   ID 182 Erase Fail Count,擦写失败计数:硬盘自启用后块擦写失败的次数。这是翻译固态硬盘寿命的一个很好的指标。它计算失败的数据删除尝试的次数,并且一个增加的值告诉您 SSD 中的闪存已接近报废。   ID 177 Wear Leveling Count,磨损平衡操作次数(平均擦写次数):所有好块的平均擦写次数。这对于 SSD 也特别有用。制造商在其 SMART 的DATA中设置 SSD 的预期寿命。磨损均衡计数是对您的驱动器的健康状况的估计。它是使用一种算法计算的,该算法考虑了预定义的预期生存期和每个内存闪存块在到达其生存期结束之前可以执行的周期数(写、擦除等)。   ID 194 Disk temperature,磁盘温度:是一个备受争议的参数。不过,人们认为,摄氏60度以上的温度会减少硬盘驱动器或固态硬盘的使用寿命,增加损坏的可能性。我们建议使用风扇来降低驱动器的温度,并希望延长其使用寿命。 最好不要超过60摄氏度   ID 187 Reported Uncorrectable Errors,无法校正的错误:报告给操作系统的无法通过硬件ECC校正的错误。如果数据值不为零,就应该备份硬盘上的数据了。且这个值在所有硬盘制造商的定义里都是含义一致的 如果VALUE不为0 ,就应该备份数据并更换硬盘了   ID 198 Offline Uncorrectable Sector Count,脱机无法校正的扇区计数:这个参数的数据累计了读写扇区时发生的无法校正的错误总数。数据值上升表明盘片表面介质或机械子系统出现问题,有些扇区肯定已经不能读取,如果有文件正在使用这些扇区,操作系统会返回读盘错误的信息。下一次写操作时会对该扇区执行重映射。     阈值参考:   关键项 正常值 判修标准 5 0 >=50 197 0 >=50 198 0 >=50 199 0 不做直接判修标准,看增长情况,24小时内有持续增加数值可返修,但是不能直接记录为硬盘故障 1 0 >=10 7 0 >=10 187(希捷) 0 >=10 可能有以下原因: 硬盘老化:硬盘可能已经使用了很长时间,接近或超过了其设计寿命。 物理损坏:硬盘可能受到了物理冲击或环境因素(如温度过高或过低)的影响,导致内部组件损坏。 电子故障:硬盘的电子元件可能出现了故障,如控制器芯片或电源管理电路。 读写头问题:硬盘的读写头可能出现了问题,导致无法正确读取或写入数据。 磁盘表面损坏:硬盘的磁盘表面可能出现了坏道或其他形式的损坏,影响了数据的完整性。 固件问题:硬盘的固件可能存在bug或损坏,导致S.M.A.R.T.功能无法正常工作。 数据线或接口问题:连接硬盘的数据线或接口可能存在问题,导致硬盘无法正常工作。 1.建议立即备份重要数据,并考虑更换硬盘,以避免数据丢失。若该设备为深信服一体机,深信服将自动唤起硬件质保服务,在确认后会尽快为您寄送新磁盘,您收到磁盘后可以进行更换。 2.若该设备为第三方服务器,建议您联系硬件供应商在预测故障时间内更换磁盘,避免对您的平台稳定性和业务可用性造成影响。 如果以上处置建议不能解决问题,可联系400-630-6430或深信服技术支持协助解决。                          
【云端智能大脑】磁盘IO使用率告警
SCC出现磁盘IO使用率告警,这是阈值告警,表示磁盘IO使用率在给定时间内,超过设定阈值 告警描述如下:在180秒内,磁盘IO使用率>=95%,当前告警值:96%   业务影响评估 业务连续性:评估磁盘IO使用率告警是否影响了业务的连续性。如果业务仍然正常运行,没有出现数据丢失、系统崩溃或服务中断等问题,可以认为对业务影响较小。 关键任务性能:检查关键任务的性能是否受到影响。如果关键任务仍然可以正常执行,且没有出现延迟或错误,可以认为对业务影响较小。 用户反馈:收集用户反馈,了解是否有用户报告了与磁盘IO使用率相关的异常情况,如系统响应慢、应用程序卡顿等。如果没有用户反馈,可以认为对业务影响较小。   系统性能监控 性能指标:监控系统的性能指标,如CPU使用率、内存使用率、磁盘I/O、网络带宽等。如果这些指标没有出现异常波动,可以认为对业务影响较小。 日志分析:分析系统日志和应用程序日志,查找是否有与磁盘IO使用率相关的错误或警告信息。如果没有发现异常,可以认为对业务影响较小。   资源使用情况 磁盘性能:检查磁盘性能,如读写速度、响应时间等指标是否有异常,确保没有磁盘故障或性能瓶颈。   风险评估 风险等级:评估磁盘IO使用率告警的风险等级。如果系统有冗余配置(如RAID、分布式存储),且其他磁盘正常工作,风险等级较低。 故障概率:评估磁盘IO使用率过高的概率。如果IO使用率过高是暂时的,且没有持续增加的趋势,故障概率较低。 系统稳定性:检查系统稳定性,确保在磁盘IO使用率过高的情况下系统不会崩溃或出现其他严重问题。   长期策略 存储优化:考虑使用更快的存储设备(如SSD)、优化数据库查询、减少不必要的I/O操作等,以降低磁盘IO使用率。 负载均衡:考虑使用负载均衡技术,将负载分散到多个磁盘或节点,提高系统可靠性。 性能优化:持续优化系统性能,减少不必要的磁盘I/O,提高资源利用率。 监控优化:优化磁盘IO使用率的监控策略,设置合理的告警阈值,避免频繁的误报。   临时放宽:如果经过上述评估,认为磁盘IO使用率告警对业务影响较小,可以临时放宽告警限制,可以编辑该告警的触发策略,增加持续时长,或者提高告警阈值等,但需要密切监控磁盘IO使用率和系统性能。 定期检查:设定定期检查计划,确保在放宽告警限制期间,定期检查磁盘IO使用率和系统性能,及时发现潜在问题。 资源优化:优化系统资源使用,如调整进程优先级、优化代码、增加磁盘资源(如使用SSD)等,以降低磁盘IO使用率。 风险通知:向相关人员通知告警,并告知风险和应对措施。                        
【云端智能大脑】磁盘平均IO等待时间告警
SCC出现磁盘平均IO等待时间告警,这是阈值告警,表示磁盘平均IO等待时间在给定时间内,超过设定阈值 告警描述如下:在180秒内,磁盘平均IO等待时间>=2000ms,当前告警值:2100ms   业务影响评估 业务连续性:评估磁盘平均IO等待时间过长告警是否影响了业务的连续性。如果业务仍然正常运行,没有出现数据丢失、系统崩溃或服务中断等问题,可以认为对业务影响较小。 关键任务性能:检查关键任务的性能是否受到影响。如果关键任务仍然可以正常执行,且没有出现延迟或错误,可以认为对业务影响较小。 用户反馈:收集用户反馈,了解是否有用户报告了与磁盘IO等待时间相关的异常情况,如系统响应慢、应用程序卡顿等。如果没有用户反馈,可以认为对业务影响较小。   系统性能监控 性能指标:监控系统的性能指标,如CPU使用率、内存使用率、磁盘I/O、网络带宽等。如果这些指标没有出现异常波动,可以认为对业务影响较小。 日志分析:分析系统日志和应用程序日志,查找是否有与磁盘IO等待时间相关的错误或警告信息。如果没有发现异常,可以认为对业务影响较小。   资源使用情况 磁盘性能:检查磁盘性能,如读写速度、响应时间等是否有告警,确保没有磁盘故障或性能瓶颈。   风险评估 风险等级:评估磁盘平均IO等待时间过长告警的风险等级。如果系统有冗余配置(如RAID、分布式存储),且其他磁盘正常工作,风险等级较低。 故障概率:评估磁盘IO等待时间过长的概率。如果IO等待时间过长是暂时的,且没有持续增加的趋势,故障概率较低。 系统稳定性:检查系统稳定性,确保在磁盘IO等待时间过长的情况下系统不会崩溃或出现其他严重问题。   长期策略 存储优化:考虑使用更快的存储设备(如SSD)、优化数据库查询、减少不必要的I/O操作等,以降低磁盘IO等待时间。 负载均衡:考虑使用负载均衡技术,将负载分散到多个磁盘或节点,提高系统可靠性。 性能优化:持续优化系统性能,减少不必要的磁盘I/O,提高资源利用率。 监控优化:优化磁盘IO等待时间的监控策略,设置合理的告警阈值,避免频繁的误报。   临时放宽:如果经过上述评估,认为磁盘平均IO等待时间过长告警对业务影响较小,可以临时放宽告警限制,可以编辑该告警的触发策略,增加持续时长,或者提高告警阈值等,但需要密切监控磁盘IO等待时间和系统性能。 定期检查:设定定期检查计划,确保在放宽告警限制期间,定期检查磁盘IO等待时间和系统性能,及时发现潜在问题。 资源优化:优化系统资源使用,如调整进程优先级、优化代码、增加磁盘资源(如使用SSD)等,以降低磁盘IO等待时间。 风险通知:向相关人员通知告警,并告知风险和应对措施。                        
【云端智能大脑】操作系统重启告警
SCC出现操作系统重启告警,告警描述如下:在300秒内,发生了操作系统重启    业务影响评估 业务连续性:评估操作系统重启告警是否影响了业务的连续性。如果业务仍然正常运行,没有出现数据丢失、系统崩溃或服务中断等问题,可以认为对业务影响较小。 用户反馈:收集用户反馈,了解是否有用户报告了与操作系统重启相关的异常情况,如系统响应慢、应用程序卡顿等。如果没有用户反馈,可以认为对业务影响较小。   系统性能监控 性能指标:监控系统的性能指标,如CPU使用率、内存使用率、磁盘I/O、网络带宽等。如果这些指标没有出现异常波动,可以认为对业务影响较小。 日志分析:分析系统日志和应用程序日志,查找是否有与操作系统重启相关的错误或警告信息。如果没有发现异常,可以认为对业务影响较小。   资源使用情况 硬件状态:检查硬件状态,如CPU、内存、磁盘、电源等监控指标,确保没有硬件故障导致系统重启。   风险评估 风险等级:评估操作系统重启告警的风险等级。如果系统有冗余配置(如负载均衡、集群),且其他节点正常工作,风险等级较低。 故障概率:评估系统重启的概率。如果重启是暂时的,且没有持续增加的趋势,故障概率较低。 系统稳定性:检查系统稳定性,确保在重启后系统能够正常恢复,且没有数据丢失或服务中断。   长期策略 系统更新:确保操作系统和应用程序是最新版本,修复已知的漏洞和问题。 硬件维护:定期进行硬件维护,确保硬件状态良好,避免硬件故障导致系统重启。 监控优化:优化系统监控策略,设置合理的告警阈值,避免频繁的误报。 备份策略:加强数据备份策略,确保在系统重启时可以快速恢复业务。   临时放宽:如果经过上述评估,认为操作系统重启告警对业务影响较小,可以临时放宽告警限制,可以编辑该告警的触发策略,增加持续时长,或者提高告警阈值等,但需要密切监控系统状态和性能。 定期检查:设定定期检查计划,确保在放宽告警限制期间,定期检查系统状态和性能,及时发现潜在问题。 故障排查:进行详细的故障排查,找出导致系统重启的根本原因,并进行修复。 风险通知:向相关人员通知告警,并告知风险和应对措施。                      
【云端智能大脑】CPU steal告警
SCC出现cpu steal告警,这是阈值告警,表示cpu steal在给定时间内,超过设定阈值 告警描述如下:在180秒内,虚拟CPU等待物理CPU的时间百分比>=20%,当前告警值:26%   业务影响评估 业务连续性:评估CPU steal告警是否影响了业务的连续性。如果业务仍然正常运行,没有出现系统崩溃、响应时间显著增加或服务中断等问题,可以认为对业务影响较小。 关键任务性能:检查关键任务的性能是否受到影响。如果关键任务仍然可以正常执行,且没有出现延迟或错误,可以认为对业务影响较小。 用户反馈:收集用户反馈,了解是否有用户报告了与CPU steal相关的异常情况,如系统响应慢、应用程序卡顿等。如果没有用户反馈,可以认为对业务影响较小。   系统性能监控 性能指标:监控系统的性能指标,如CPU使用率、内存使用率、磁盘I/O、网络带宽等。如果这些指标没有出现异常波动,可以认为对业务影响较小。 日志分析:分析系统日志和应用程序日志,查找是否有与CPU steal相关的错误或警告信息。如果没有发现异常,可以认为对业务影响较小。   资源使用情况 虚拟化环境:检查虚拟化环境(如VMware、KVM、Docker等)中的资源分配情况,确保当前虚拟机或容器获得了合理的CPU资源。   风险评估 风险等级:评估CPU steal告警的风险等级。如果系统有冗余配置(如负载均衡、集群),且其他节点正常工作,风险等级较低。 故障概率:评估CPU steal过高的概率。如果CPU steal过高是暂时的,且没有持续增加的趋势,故障概率较低。 系统稳定性:检查系统稳定性,确保在高CPU steal情况下系统不会崩溃或出现其他严重问题。   长期策略 资源扩展:根据业务需求,适时扩展宿主机的CPU资源,以应对高CPU steal情况。 负载均衡:考虑使用负载均衡技术,将负载分散到多个宿主机,提高系统可靠性。 性能优化:持续优化系统性能,减少不必要的CPU使用,提高资源利用率。 虚拟化管理:优化虚拟化环境的管理策略,确保虚拟机或容器获得合理的CPU资源,避免资源争用。   临时放宽:如果经过上述评估,认为CPU steal告警对业务影响较小,可以临时放宽告警限制,可以编辑该告警的触发策略,增加持续时长,或者提高告警阈值等,但需要密切监控CPU steal和系统性能。 定期检查:设定定期检查计划,确保在放宽告警限制期间,定期检查CPU steal和系统性能,及时发现潜在问题。 资源优化:优化系统资源使用,如调整虚拟机或容器的CPU配额、优化代码、增加宿主机的CPU资源等,以降低CPU steal。 风险通知:向相关人员通知告警,并告知风险和应对措施。                      
【云端智能大脑】inode使用率告警
SCC出现inode使用率告警,这是阈值告警,表示inode使用率在给定时间内,超过设定阈值 告警描述如下:在180秒内,磁盘分区inode使用率>=95%,当前告警值:96%   业务影响评估 业务连续性:评估inode使用率告警是否影响了业务的连续性。如果业务仍然正常运行,没有出现无法创建新文件、系统崩溃或服务中断等问题,可以认为对业务影响较小。 关键数据访问:检查关键数据的访问是否受到影响。如果关键数据仍然可以正常读取和写入,且没有出现延迟或错误,可以认为对业务影响较小。 用户反馈:收集用户反馈,了解是否有用户报告了与inode使用率相关的异常情况,如无法创建新文件、系统响应慢等。如果没有用户反馈,可以认为对业务影响较小。   系统性能监控 性能指标:监控系统的性能指标,如CPU使用率、内存使用率、磁盘I/O等。如果这些指标没有出现异常波动,可以认为对业务影响较小。 日志分析:分析系统日志和应用程序日志,查找是否有与inode使用率相关的错误或警告信息。如果没有发现异常,可以认为对业务影响较小。   资源使用情况 临时文件清理:检查是否有临时文件或日志文件占用了大量inode,并进行清理。如果清理后inode使用率恢复正常,可以认为对业务影响较小。   风险评估 风险等级:评估inode使用率告警的风险等级。如果系统有冗余配置(如分布式文件系统),且其他节点正常工作,风险等级较低。 故障概率:评估inode耗尽的概率。如果inode使用率是暂时的,且没有持续增加的趋势,故障概率较低。 系统稳定性:检查系统稳定性,确保在inode不足的情况下系统不会崩溃或出现其他严重问题。   长期策略 存储优化:根据业务需求,优化存储策略,减少不必要的文件创建,如合并小文件、使用数据库等。 inode扩展:如果文件系统支持,考虑扩展inode数量(如调整文件系统参数),以应对高inode使用率情况。 监控优化:优化inode使用率的监控策略,设置合理的告警阈值,避免频繁的误报。 自动化管理:使用自动化工具进行inode管理,如自动清理临时文件、自动归档数据等,以提高管理效率。   临时放宽:如果经过上述评估,认为inode使用率告警对业务影响较小,可以临时放宽告警限制,可以编辑该告警的触发策略,增加持续时长,或者提高告警阈值等,但需要密切监控inode使用情况和系统性能。 定期检查:设定定期检查计划,确保在放宽告警限制期间,定期检查inode使用情况和系统性能,及时发现潜在问题。 数据清理:定期清理不必要的文件和数据,释放inode,以降低inode使用率。 风险通知:向相关人员通知告警,并告知风险和应对措施。                    
【云端智能大脑】磁盘空间使用率告警
磁盘空间使用率告警是阈值告警,表示磁盘空间使用率在给定时间内,超过设定阈值 问题描述: SCC出现磁盘空间使用率告警,告警描述如下:在180秒内,磁盘空间使用率>=95%,当前告警值:XX%   业务影响评估 业务连续性:评估磁盘空间使用率告警是否影响了业务的连续性。如果业务仍然正常运行,没有出现数据丢失、系统崩溃或服务中断等问题,可以认为对业务影响较小。 关键数据访问:检查关键数据的访问是否受到影响。如果关键数据仍然可以正常读取和写入,且没有出现延迟或错误,可以认为对业务影响较小。 用户反馈:收集用户反馈,了解是否有用户报告了与磁盘空间相关的异常情况,如文件无法保存、系统响应慢等。如果没有用户反馈,可以认为对业务影响较小。   资源使用情况 临时文件清理:检查是否有临时文件或日志文件占用了大量空间,并进行清理。如果清理后磁盘空间恢复正常,可以认为对业务影响较小。   风险评估 风险等级:评估磁盘空间使用率告警的风险等级。如果系统有冗余配置(如RAID、分布式存储),且其他磁盘正常工作,风险等级较低。 故障概率:评估磁盘空间耗尽的概率。如果磁盘空间使用率是暂时的,且没有持续增加的趋势,故障概率较低。 系统稳定性:检查系统稳定性,确保在磁盘空间不足的情况下系统不会崩溃或出现其他严重问题。   长期策略 存储扩展:根据业务需求,适时扩展存储空间(如增加磁盘、使用分布式存储),以应对高磁盘空间使用率情况。 数据归档:考虑将不常用的数据归档到其他存储介质(如磁带、云存储),以释放磁盘空间。 监控优化:优化磁盘空间使用率的监控策略,设置合理的告警阈值,避免频繁的误报。 自动化管理:使用自动化工具进行磁盘空间管理,如自动清理临时文件、自动归档数据等,以提高管理效率。   临时放宽:如果经过上述评估,认为磁盘空间使用率告警对业务影响较小,可以临时放宽告警限制,可以编辑该告警的触发策略,增加持续时长,或者提高告警阈值等,但需要密切监控磁盘空间使用情况和系统性能。 定期检查:设定定期检查计划,确保在放宽告警限制期间,定期检查磁盘空间使用情况和系统性能,及时发现潜在问题。 数据清理:定期清理不必要的文件和数据,释放磁盘空间,以降低磁盘空间使用率。 风险通知:向相关人员通知告警,并告知风险和应对措施。                        
【云端智能大脑】CPU iowait告警
SCC出现CPU  iowait告警,这是阈值告警,表示cpu iowait在给定时间内,超过设定阈值 告警描述如下:在180秒内,CPU IO 等待使用率>=20%,当前告警值:21%   业务影响评估 业务连续性:评估CPU iowait告警是否影响了业务的连续性。如果业务仍然正常运行,没有出现系统崩溃、响应时间显著增加或服务中断等问题,可以认为对业务影响较小。 用户反馈:收集用户反馈,了解是否有用户报告了与CPU iowait相关的异常情况,如系统响应慢、应用程序卡顿等。如果没有用户反馈,可以认为对业务影响较小。   系统性能监控 性能指标:监控系统的性能指标,如CPU使用率、内存使用率、磁盘I/O、网络带宽等。如果这些指标没有出现异常波动,可以认为对业务影响较小。 日志分析:分析系统日志和应用程序日志,查找是否有与CPU iowait相关的错误或警告信息。如果没有发现异常,可以认为对业务影响较小。   资源使用情况 I/O瓶颈:检查是否存在I/O瓶颈,如磁盘读写速度慢、网络带宽不足等。如果I/O瓶颈是暂时的,且没有持续增加的趋势,可以认为对业务影响较小。   风险评估 风险等级:评估CPU iowait告警的风险等级。如果系统有冗余配置(如负载均衡、集群),且其他节点正常工作,风险等级较低。 故障概率:评估CPU iowait过高的概率。如果iowait过高是暂时的,且没有持续增加的趋势,故障概率较低。 系统稳定性:检查系统稳定性,确保在高iowait情况下系统不会崩溃或出现其他严重问题。   长期策略 I/O优化:考虑使用更快的存储设备(如SSD)、优化数据库查询、减少不必要的I/O操作等,以降低CPU iowait。 负载均衡:考虑使用负载均衡技术,将负载分散到多个节点,提高系统可靠性。 性能优化:持续优化系统性能,减少不必要的CPU使用,提高资源利用率。 资源扩展:根据业务需求,适时扩展硬件资源(如增加磁盘、网络带宽),以应对高iowait情况。   临时放宽:如果经过上述评估,认为CPU iowait告警对业务影响较小,可以临时放宽告警限制,可以编辑该告警的触发策略,增加持续时长,或者提高告警阈值等,但需要密切监控CPU iowait和系统性能。 定期检查:设定定期检查计划,确保在放宽告警限制期间,定期检查CPU iowait和系统性能,及时发现潜在问题。 资源优化:优化系统资源使用,如调整进程优先级、优化代码、增加硬件资源(如磁盘、网络带宽)等,以降低CPU iowait。 风险通知:向相关人员通知告警,并告知风险和应对措施。                      
【云端智能大脑】cpu负载告警
SCC出现15分钟cpu负载告警,这是阈值告警,表示cpu load在给定时间内,超过设定阈值 告警描述如下:在180秒内,系统整体负载均值>=2.00,当前告警值:2.16   业务影响评估 业务连续性:评估CPU负载告警是否影响了业务的连续性。如果业务仍然正常运行,没有出现系统崩溃、响应时间显著增加或服务中断等问题,可以认为对业务影响较小。 用户反馈:收集用户反馈,了解是否有用户报告了与CPU负载相关的异常情况,如系统响应慢、应用程序卡顿等。如果没有用户反馈,可以认为对业务影响较小。   系统性能监控 性能指标:监控系统的性能指标,如CPU使用率、内存使用率、磁盘I/O、网络带宽等。如果这些指标没有出现异常波动,可以认为对业务影响较小。 日志分析:分析系统日志和应用程序日志,查找是否有与CPU负载相关的错误或警告信息。如果没有发现异常,可以认为对业务影响较小。   资源使用情况 资源限制:检查是否有资源限制(如CPU配额、内存限制)导致CPU负载过高。如果资源限制合理,且没有影响业务,可以认为对业务影响较小。   风险评估 风险等级:评估CPU负载告警的风险等级。如果系统有冗余配置(如负载均衡、集群),且其他节点正常工作,风险等级较低。 故障概率:评估CPU负载过高的概率。如果CPU负载过高是暂时的,且没有持续增加的趋势,故障概率较低。 系统稳定性:检查系统稳定性,确保在高负载情况下系统不会崩溃或出现其他严重问题。   长期策略 负载均衡:考虑使用负载均衡技术,将负载分散到多个节点,提高系统可靠性。 性能优化:持续优化系统性能,减少不必要的CPU使用,提高资源利用率。 资源扩展:根据业务需求,适时扩展硬件资源(如增加CPU、内存),以应对高负载情况。   临时放宽:如果经过上述评估,认为CPU负载告警对业务影响较小,可以临时放宽告警限制,可以编辑该告警的触发策略,增加持续时长,或者提高告警阈值等,但需要密切监控CPU负载和系统性能。 定期检查:设定定期检查计划,确保在放宽告警限制期间,定期检查CPU负载和系统性能,及时发现潜在问题。 资源优化:优化系统资源使用,如调整增加硬件资源(如CPU、内存)等,以降低CPU负载。 风险通知:向相关人员通知告警,并告知风险和应对措施。                          
【云端智能大脑】SSD寿命预警
云端智能大脑出现“SSD寿命预警”的告警,表示SSD的读写磨损次数即将达到预期寿命。 告警描述如下:SSD(磁盘序列号)寿命即将耗尽,当前剩余寿命10%,小于等于阈值10%,严重情况下会影响您的业务,如虚拟机挂起。    业务影响评估 业务连续性:评估SSD寿命预警是否影响了业务的连续性。如果业务仍然正常运行,没有出现数据丢失、系统崩溃或性能下降等问题,可以认为对业务影响较小。 关键数据访问:检查关键数据的访问是否受到影响。如果关键数据仍然可以正常读取和写入,且没有出现延迟或错误,可以认为对业务影响较小。 用户反馈:收集用户反馈,了解是否有用户报告了与SSD相关的异常情况,如文件无法打开、系统响应慢等。如果没有用户反馈,可以认为对业务影响较小。   系统性能监控 性能指标:查看系统的性能指标,如CPU使用率、内存使用率、磁盘I/O等。如果这些指标没有出现异常波动,可以认为对业务影响较小。 日志分析:分析系统日志和应用程序日志,查找是否有与SSD相关的错误或警告信息。如果没有发现异常,可以认为对业务影响较小。   数据备份 备份状态:检查数据备份的状态,确保最新的数据备份是完整的。如果备份正常,即使SSD出现问题,也可以通过恢复备份来恢复业务。   风险评估 风险等级:评估SSD寿命预警的风险等级。如果SSD是冗余的(如RAID配置),且其他SSD正常工作,风险等级较低。 故障概率:评估SSD故障的概率。如果SSD是新安装的,且没有其他硬件问题,故障概率较低。   建议 临时放宽:如果经过上述评估,认为SSD寿命预警对业务影响较小,可以临时放宽告警限制,但需要密切监控SSD状态和系统性能。 定期检查:设定定期检查计划,定期检查SSD状态和系统性能,及时发现潜在问题。 备份策略:加强数据备份策略,确保在SSD出现问题时,可以快速恢复业务。 风险通知:向相关人员通知告警,并告知风险。   长期策略 更换计划:制定SSD更换计划,确保在SSD寿命接近耗尽时及时更换。 性能优化:优化系统性能,减少不必要的写入操作,延长SSD寿命。 冗余配置:考虑使用RAID或其他冗余配置,提高系统可靠性。        硬盘老化/读写磨损达到寿命预期:硬盘可能已经使用了很长时间,接近或超过了其设计寿命。   1.建议立即备份重要数据,并考虑更换硬盘,以避免数据丢失。若该设备为深信服一体机,深信服将自动唤起硬件质保服务,在确认后会尽快为您寄送新磁盘,您收到磁盘后可以进行更换。 2.若该设备为第三方服务器,建议您联系硬件供应商在预测故障时间内更换磁盘,避免对您的平台稳定性和业务可用性造成影响。 如果以上处置建议不能解决问题,可联系400-630-6430或深信服技术支持协助解决。                    
【云端智能大脑】磁盘SMART自检失败告警
云端智能大脑出现 磁盘SMART自检失败告警。 告警描述如下:磁盘(序列号)SMART自检失败,自检结果显示不是“PASSED”,说明硬盘存在潜在问题或已经发生故障   业务影响评估 业务连续性:如果业务仍然正常运行,没有出现数据丢失、系统崩溃或性能下降等问题,可以认为对业务影响较小。 关键数据访问:检查关键数据的访问是否受到影响。如果关键数据仍然可以正常读取和写入,且没有出现延迟或错误,可以认为对业务影响较小。 用户反馈:收集用户反馈,了解是否有用户报告了与磁盘相关的异常情况,如文件无法打开、系统响应慢等。如果没有用户反馈,可以认为对业务影响较小。   系统性能监控 性能指标:监控系统的性能指标,如CPU使用率、内存使用率、磁盘I/O等。如果这些指标没有出现异常波动,可以认为对业务影响较小。 日志分析:分析系统日志和应用程序日志,查找是否有与磁盘相关的错误或警告信息。如果没有发现异常,可以认为对业务影响较小。   数据备份 备份状态:检查数据备份的状态,确保最新的数据备份是完整的。如果备份正常,即使磁盘出现问题,也可以通过恢复备份来恢复业务。   风险评估 风险等级:评估磁盘SMART自检失败的风险等级。如果磁盘是冗余的(如RAID配置),且其他磁盘正常工作,风险等级较低。 故障概率:评估磁盘故障的概率。如果磁盘是新安装的,且没有其他硬件问题,故障概率较低。   建议 临时放宽:如果经过上述评估,认为磁盘SMART自检失败对业务影响较小,可以临时放宽告警限制,但需要密切监控磁盘状态和系统性能。 定期检查:设定定期检查计划,确保在放宽告警限制期间,定期检查磁盘状态和系统性能,及时发现潜在问题。 备份策略:加强数据备份策略,确保在磁盘出现问题时,可以快速恢复业务。 风险通知:向相关人员通知放宽告警限制的决定,并告知风险和应对措施。 可能存在以下原因导致磁盘自检失败: 硬盘老化:硬盘可能已经使用了很长时间,接近或超过了其设计寿命。 物理损坏:硬盘可能受到了物理冲击或环境因素(如温度过高或过低)的影响,导致内部组件损坏。 电子故障:硬盘的电子元件可能出现了故障,如控制器芯片或电源管理电路。 读写头问题:硬盘的读写头可能出现了问题,导致无法正确读取或写入数据。 磁盘表面损坏:硬盘的磁盘表面可能出现了坏道或其他形式的损坏,影响了数据的完整性。 固件问题:硬盘的固件可能存在bug或损坏,导致S.M.A.R.T.功能无法正常工作。 数据线或接口问题:连接硬盘的数据线或接口可能存在问题,导致硬盘无法正常工作。 1.建议立即备份重要数据,并考虑更换硬盘,以避免数据丢失。若该设备为深信服一体机,深信服将自动唤起硬件质保服务,在确认后会尽快为您寄送新磁盘,您收到磁盘后可以进行更换。 2.若该设备为第三方服务器,建议您联系硬件供应商在预测故障时间内更换磁盘,避免对您的平台稳定性和业务可用性造成影响。 如果以上处置建议不能解决问题,可联系400-630-6430或深信服技术支持协助解决。                    
【云端代理】给HCI安装agent,提示版本不支持
使用SCP接入的了云端代理,给SCP纳管的HCI安装agent,提示版本不支持   681版本的SCP,不支持给纳管的HCI安装agent; 同时:如果HCI没有打需要的补丁,也会提示这个版本不支持,具体需要的补丁参考用户手册 升级SCP到最新版本;          
  • 1
  • 2
到第
确定
您当前处于未登录状态,资料搜索或查找可能会不全面,请登录后以查找更全面的内容注册登录