第一章 摘要
此文档详细记录了XXX人资系统在2013年10月19日16:00左右发生的应用访问异常问题,以及整个问题的分析处理全过程。
第二章 故障分析
2.1 故障系统
系统名称 人资系统
IP地址 ...
域名 Base_domain
集群server AdminServer(admin)
监听地址、端口 ...:7001
Jvm配置 -Xms4096m -Xmx8192m
2.2 故障表象描述
根据客户描述,营销系统是在2013年10月17日下午4点分左右应用访问缓慢,局方重启后,weblogic一直停留在启动应用的状态,不能进入running状态。
2.3 故障处理过程
时间点
过程描述
2013年10月17日
16:00左右
客户访问人资系统时,系统访问缓慢。
17:00左右
局方重启weblogic,weblogic一直停留在启动应用的状态,不能进入running状态。
18:10左右
接到客户反映,远程查看系统信息。
22:00左右
在解决weblogic由于权限不足,引起的启动问题后,weblogic仍然不能进入running状态,判断以远程方式不能解决此问题。
2013年10月18日
9:00左右
到达现场,开始分析人资问题。
10:30左右
在解决一个报错信息后,系统仍然停留在应用包启动状态,无法进入running状态,通过查看以前的日志后,发现此错误此前就已经存在。
12:00左右
通过部署其他应用,判断weblogic可正常启动应用,与应用厂家沟通,希望应用厂家判断应用包是否存在问题。
14:00左右
经厂家测试应用包,可以在weblogic上正常启动,与厂家沟通,希望厂家上传应用包,判断主机上的应用包是否受损。
15:00左右
厂家重新上传应用包,问题依然存在,建议重启主机,判断是否由于主机某些系统参数异常导致,希望通过重启恢复默认配置。
17:00左右
重启后问题仍然存在,未了尽快排出weblogic组件可能存在的问题,重装weblogic。
18:00左右
重装weblogic后问题仍然存在,排出中间件问题。分析其他原因。
21:45左右
经多方排查,发现数据库主机存(10.151.146.64)储存在问题。重启主机。
3:00
主机可以启动,但磁盘挂载出现异常。
2013年10月19日
9:00左右
磁盘挂载仍然存在问题。
10:00左右
数据库主机正常重启,启动数据库后,中间件可以正常加载应用包。
2.4 故障影响
此故障涉及系统为人资系统,系统使用较少,但故障持续时间较长,对使用造成一定影响。
2.5 分析过程
通过产看日志并未发现报错,为进一步查看weblogic故障时的状态,查看weblogic后台日志,如下
通过查看故障时后台日志,判定weblogic一直停留在应用初始化阶段。
在删除应用后,weblogic可以正常启动。进一步证实问题存在与应用加载过程中。
日志如下:
<Oct 18,2013 11:54:27 AM GMT+8:00 > <Notice> <WebLogicServer> <AdminServer> <main> <<WLS Kernel>> <> <> <1382346967167> <BEA-000365> <Server state changed to RUNNING>
<Oct 18,2013 11:54:27 AM GMT+8:00 > <Notice> <WebLogicServer> <AdminServer> <main> <<WLS Kernel>> <> <> <1382346967167> <BEA-000360> <Server started in RUNNING mode>
通过在weblogic上成功部署其他应用,排除weblogic启动应用功能存在问题,断定故障存在于应用包对某些文件或功能的调用,需要应用厂家来判断该功能具体调用那些文件或功能。
由于应用厂家不能提供该阶段应用所调用的功能,只能通过排除法来确定故障原因。
过程如下,
1、应用包自身问题
通过厂家验证,该应用包在汕尾可以正常使用。排除应用包自身问题。
2、应用包已损坏
为了排除此可能性,上传最新应用包,但故障仍然存在,排除应用包损坏的可能性。
3、weblogic某些文件已损坏
为了排除此可能性,重装weblogic,但故障仍然存在,排除weblogic自身文件损坏的可能性。
4、主机系统默认参数出现异常。
为了排除此可能性,重启了weblogic主机(10.151.146.65),排除主机默认参数异常的可能性。
经排除法,排除以上原因,调用文件或功能可能存在与数据库中,经多方查看,发现数据库主机的存储存在问题。
第三章 故障原因
故障主要由于应用包在初始化时,会调用数据库的某些功能,由于存储问题,这些功能出现了异常,导致应用包停留在调用这些功能的阶段,最终导致weblogic等待应用包初始化,无法进入running状态。
第四章 解决方案
1、建议应存储厂家对存储故障进行排查,保证存储的正常使用。
2、重新启动应用包所调用的功能,保证应用能正常调用这些功能。
第五章 总结
Weblogic停留在应用包初始化状态,通常是由于应用包在调用一些功能或文件时,由于某些原因导致调用超时。在本例中,该问题是由于在初始化应用包时,调用数据库某些功能失败导致的。
通常在应用中,会对这类问题进行异常抛出,为故障分析提供依据,但在本例中,应用包并未把这些连接超时认定为异常,最终导致无法对故障进行深入分析。建议应用厂家添加一些应用包初始化信息输出,并对初始化异常进行异常抛出。
该贴被funny编辑于2014-3-3 14:53:30