1.概述
在XXX年X月XX日,早上发现card_ejb被管服务出现异常,在管理工程师对该服务进行重启时,发现无法重启该服务,下面详细叙述本次故障情况
2.故障描述
2.1NodeManager错误
在启动card_ejb被管服务时,在AdminServer日志中发现如下错误:
####<2013-4-26 上午08时01分59秒 GMT+08:00> <Error> <NodeManager> <tyjk1> <AdminServer> <[ACTIVE] ExecuteThread: '0' for queue: 'weblogic.kernel.Default (self-tuning)'> <weblogic> <> <> <1366934519205> <BEA-300033> <Could not execute command "getNMLog" on the node manager. Reason: "不能够分配所要求的地址 (errno:227). Couldn't connect to NodeManager. Check that it is running at 133.224.218.162:15556".>
####<2013-4-26 上午08时01分59秒 GMT+08:00> <Error> <NodeManager> <tyjk1> <AdminServer> <[ACTIVE] ExecuteThread: '0' for queue: 'weblogic.kernel.Default (self-tuning)'> <weblogic> <> <> <1366934519977> <BEA-300033> <Could not execute command "getVersion" on the node manager. Reason: "不能够分配所要求的地址 (errno:227). Couldn't connect to NodeManager. Check that it is running at 133.224.218.162:15556".>
上述错误信息为无法连接NodeManager, AdminServer可以检查到NodeManager的运行,但是在无法与AdminServer进行连接,怀疑NodeManager服务出现异常,关闭NodeManager进行重启后,还是会出现该问题,检查NodeManager状态时发现状态为Inactive,对c服务进行重启时,问题依旧。
而AdminServer与NodeManager在同一台机器,但是出现无法连接的错误,怀疑主机网络服务出现问题。
2.2.启动card_ejb
为了尽快恢复业务,使用脚本命令启动card_ejb被管服务,出现验证失败问题,导致重启失败。
在删除boot.properties后使用帐号密码启动该被管服务,依然报验证失败问题。
2.3.重启主机网络服务
各位工程师在故障排除期间发现无法telnet到其他主机,怀疑主机网络出现问题,在联系主机工程师后,主机工程师进行了网络服务的重启,在重启后发现NodeManager状态正常。
2.4.再次重启card_ejb
在NodeManager状态恢复后,对card_ejb再次进行重启,发现该服务正常启动,未出现上述网络异常信息,但是应用状态不正常,如下所示:
查看该服务启动日志时发现如下错误:
<2013-4-26 上午09时25分12秒 GMT+08:00> <Warning> <WTC> <BEA-180160> <Failed to create listening endpoint for
local access point CARD_TDOMAIN on address (//133.224.218.162:28,539), no more address to try.>
UIP_HOME:/ngbss/webapp/deploy/card-decode
发现CARD_TDOMAIN无法创建该本地调用接口,在WTC server查看该WTC服务状态时,发现已经建立了域连接,在重启动该应用后应用状态正常。验证后业务恢复。
3.问题说明
在故障初期,就是应用调用ejb不正常,而重启ejb服务时依然出现网络连接问题,而XXX工程师在对网络进行测试时发现很多的CLOSE_WAIT的端口,如下所示:
而手动脚本重启card_ejb服务时报验证失败错误,也可以看作连接AdminServer失败导致。
在重启网络服务后,发现CLOSE_WAIT的端口依然成上升趋势,逐渐增多,而在同集群的164主机并未发现该错误。
从上述可以看到CLOSE_WAIT状态的端口呈上升趋势。
在故障描述阶段时所作的每次尝试都出现网络问题,那么可以认为网络服务异常是本次故障的根本原因。
该贴被funny编辑于2014-2-21 14:47:19该贴被funny编辑于2014-2-24 9:31:04