[原创]网络异常导致的Weblogic服务异常实例_Tomcat, WebLogic及J2EE讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  Tomcat, WebLogic及J2EE讨论区 »
总帖数
1
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 5802 | 回复: 0   主题: [原创]网络异常导致的Weblogic服务异常实例        下一篇 
funny
注册用户
等级:中校
经验:1529
发帖:111
精华:4
注册:2013-3-13
状态:离线
发送短消息息给funny 加好友    发送短消息息给funny 发消息
发表于: IP:您无权察看 2014-2-21 14:45:39 | [全部帖] [楼主帖] 楼主


1.概述

在XXX年X月XX日,早上发现card_ejb被管服务出现异常,在管理工程师对该服务进行重启时,发现无法重启该服务,下面详细叙述本次故障情况

2.故障描述


2.1NodeManager错误

在启动card_ejb被管服务时,在AdminServer日志中发现如下错误:

####<2013-4-26 上午08时01分59秒 GMT+08:00> <Error> <NodeManager> <tyjk1> <AdminServer> <[ACTIVE] ExecuteThread: '0' for queue: 'weblogic.kernel.Default (self-tuning)'> <weblogic> <> <> <1366934519205> <BEA-300033> <Could not execute command "getNMLog" on the node manager. Reason: "不能够分配所要求的地址 (errno:227). Couldn't connect to NodeManager. Check that it is running at 133.224.218.162:15556".> 

####<2013-4-26 上午08时01分59秒 GMT+08:00> <Error> <NodeManager> <tyjk1> <AdminServer> <[ACTIVE] ExecuteThread: '0' for queue: 'weblogic.kernel.Default (self-tuning)'> <weblogic> <> <> <1366934519977> <BEA-300033> <Could not execute command "getVersion" on the node manager. Reason: "不能够分配所要求的地址 (errno:227). Couldn't connect to NodeManager. Check that it is running at 133.224.218.162:15556".>

上述错误信息为无法连接NodeManager, AdminServer可以检查到NodeManager的运行,但是在无法与AdminServer进行连接,怀疑NodeManager服务出现异常,关闭NodeManager进行重启后,还是会出现该问题,检查NodeManager状态时发现状态为Inactive,对c服务进行重启时,问题依旧。

而AdminServer与NodeManager在同一台机器,但是出现无法连接的错误,怀疑主机网络服务出现问题。

2.2.启动card_ejb

为了尽快恢复业务,使用脚本命令启动card_ejb被管服务,出现验证失败问题,导致重启失败。

在删除boot.properties后使用帐号密码启动该被管服务,依然报验证失败问题。

2.3.重启主机网络服务

各位工程师在故障排除期间发现无法telnet到其他主机,怀疑主机网络出现问题,在联系主机工程师后,主机工程师进行了网络服务的重启,在重启后发现NodeManager状态正常。

2.4.再次重启card_ejb

在NodeManager状态恢复后,对card_ejb再次进行重启,发现该服务正常启动,未出现上述网络异常信息,但是应用状态不正常,如下所示:

北京联动北方科技有限公司

查看该服务启动日志时发现如下错误:

<2013-4-26 上午09时25分12秒 GMT+08:00> <Warning> <WTC> <BEA-180160> <Failed to create listening endpoint for 

local access point CARD_TDOMAIN on address (//133.224.218.162:28,539), no more address to try.> 

UIP_HOME:/ngbss/webapp/deploy/card-decode

发现CARD_TDOMAIN无法创建该本地调用接口,在WTC server查看该WTC服务状态时,发现已经建立了域连接,在重启动该应用后应用状态正常。验证后业务恢复。

3.问题说明

在故障初期,就是应用调用ejb不正常,而重启ejb服务时依然出现网络连接问题,而XXX工程师在对网络进行测试时发现很多的CLOSE_WAIT的端口,如下所示:

北京联动北方科技有限公司

而手动脚本重启card_ejb服务时报验证失败错误,也可以看作连接AdminServer失败导致。

在重启网络服务后,发现CLOSE_WAIT的端口依然成上升趋势,逐渐增多,而在同集群的164主机并未发现该错误。

北京联动北方科技有限公司

北京联动北方科技有限公司

从上述可以看到CLOSE_WAIT状态的端口呈上升趋势。

在故障描述阶段时所作的每次尝试都出现网络问题,那么可以认为网络服务异常是本次故障的根本原因。

该贴被funny编辑于2014-2-21 14:47:19

该贴被funny编辑于2014-2-24 9:31:04



赞(0)    操作        顶端 
总帖数
1
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论