控制台查看集群中有主机离线,但是接离线主机的显示器查看会显示正常的界面,如下图,一般情况下认为下图所示代表主机正常,但是也有一个例外的情况,主机触发selfcheck自我隔离导致主机离线。
在这种情况下,离线主机存储口,管理口都无法被ping通,无法使用22端口进入后台,可以尝试通过22345端口看是否可以进入离线主机后台,如果通过22345端口能ssh到离线主机后台,那基本可以确认是主机selfcheck离线,可以在离线主机后台执行echo -n "nicdown_disable" > /dev/watch_reboot命令恢复;(这个命令不影响业务,直接复制执行即可,最好重启主机恢复,echo命令可以恢复,但可能会触发其它问题)
主机触发selfcheck离线,重启主机电源也可以恢复正常,恢复后可以在/sf/log/$data($data为变量,是主机具体的离线日期)目录下看是否有生成sfvt_selfcheck.log日志,如果有这个日志,也可以说明主机是触发了selfcheck离线;