更新时间:2023-08-23
故障处理流程大体可分为四个步骤,即故障信息收集、故障类型判断、故障原因定位以及故障问题排除。故障排除流图如下所示。
- 故障信息收集
作为故障排除的开始,故障信息收集是否全面、客观、精准会直接影响故障原因定位难度及后续故障问题排除及时性。因此,在故障信息收集阶段,应客观、全面及精准对故障信息进行有效收集,切勿掺杂主观或不精准信息。
- 故障类型判断
针对收集到的故障信息,IT运维人员应首先对故障类型进行判断,再根据不同的故障类型进行相应处理。故障类型主要可分为常见故障及重大故障两类。
• 说明:
重大故障:所谓重大故障,是指故障发生突然、影响范围广并可对平台的安全运行与服务质量造成严重后果的故障,如服务器宕机,VDC服务异常造成大面积连接中断等。
在处理重大故障前,请先联系技术支持处理,以最短时间内进行故障排除、业务恢复或设备正常运行为第一要务,尽量挽回或减少事故损失。
- 故障原因定位
故障原因定位是指通过有效的排查方法与手段,逐步缩小故障原因的范围,最终确定故障发生的真实原因。
- 故障问题排除
故障问题排除是指根据故障原因定位,采取相应的有效措施进行故障清除,措施包括检修网络、修改配置项,重启相关进程或重启服务器等。
- 确认故障是否被排除
通过检测设备状态,服务状态等操作确认平台已恢复正常运行。
- 故障处理记录
故障成功排除后,应将故障处理分析及解决要点详实地进行记录,避免同类故障再次发生。