此文档详细记录了XXX局YYY系统节点yxserver01应用不能访问故障问题、进行排查及故障处理过程,并针对目前的运行状况,提出相应解决方案。
2.1 相关设备信息
系统相关:
操作系统:Linux 2.6.18-164.el5
weblogic版本:WebLogic Server 9.2 MP3
JDK版本:jrockit1.5.0_12
实例名:yxserver01 IP: XXX
(其和XXX、YYY中的单示例server组成集群,F5做分发)
内存相关:
-Xms 6144m
-Xmx 8192m
局方客户反应YYY系统XXX节点应用突然不能访问,平台维护人员对该故障现象进行排查分析。
1. 应用不能访问告警时间段节点日志信息
####<2013-7-18 上午10时42分52秒 CST> <Error> <Kernel> <zhyxwl01> <yxserver01> <[ACTIVE] ExecuteThread: '28' for queue: 'weblogic.kernel.Default (self-tuning)'> <<WLS Kernel>> <> <> <1374115372060> <BEA-000802> <ExecuteRequest failed
java.lang.OutOfMemoryError: nativeGetNewTLA.
java.lang.OutOfMemoryError: nativeGetNewTLA
at java.util.TreeMap.put(TreeMap.java:460)
at weblogic.timers.internal.TimerManagerImpl.add(TimerManagerImpl.java:589)
atweblogic.timers.internal.TimerManagerImpl.complete(TimerManagerImpl.java:723)
at weblogic.timers.internal.TimerImpl.run(TimerImpl.java:277)
atweblogic.work.ServerWorkManagerImpl$WorkAdapterImpl.run(ServerWorkManagerImpl.java:518)
at weblogic.work.ExecuteThread.execute(ExecuteThread.java:209)
at weblogic.work.ExecuteThread.run(ExecuteThread.java:181)
>
####<2013-7-18 上午10时52分28秒 CST> <Error> <Kernel> <zhyxwl01> <yxserver01> <[STUCK] ExecuteThread: '7' for queue: 'weblogic.kernel.Default (self-tuning)'> <<WLS Kernel>> <> <> <1374115948246> <BEA-000802> <ExecuteRequest failed
java.lang.OutOfMemoryError.
java.lang.OutOfMemoryError
>
####<2013-7-18 上午10时51分46秒 CST> <Error> <Kernel> <zhyxwl01> <yxserver01> <[ACTIVE] ExecuteThread: '16' for queue: 'weblogic.kernel.Default (self-tuning)'> <<WLS Kernel>> <> <> <1374115906712> <BEA-000802> <ExecuteRequest failed
java.lang.OutOfMemoryError.
java.lang.OutOfMemoryError
>
根据上述探查,发现是典型的OOM错误,并针对报错细节发现是TLA区域内存不足导致的,官网描述如下:
故给出如下建议:
Ø 调整TLA默认区域大小,最大修正到216k;
Ø 由于营销系统是前端F5分发到多节点的应用,建议尽量让前端F5的分发合理化,做到最大程度的“均衡”;
Ø 尽量避免非必要的多线程业务(例如:在日志中发现数据源初始容量不足,导致按10的步长增长,可以适当增加初始数据源容量);
2. 相关参数的设置
在对应域中的setDomainEnv中JAVA_OPTION中加上如下参数:
-XXtlasize:min=8k,preferred=216k;
3. 结果分析
结果:调整了TLA参数之后、并针对日志报错调整jdbc数据源初始容量。通过一晚上的观察,就没有出现OOM现象,仍需继续观察。
根据oracle官方文档提供的相关信息,对珠海局营销系统中间件异常情况,后续将从以下方面进行操作及观察:
1)尝试调整F5分发方式,尽量让各server示例请求均衡;
2)已调整-XXtlasize:min=8k,preferred=216k,需持续观察是否还有OOM异常发生;
3)从应用开发角度,尽量合理化限制业务系统没必要的多线程操作;
该贴被funny编辑于2014-2-27 15:58:13
该贴被funny编辑于2014-2-27 16:01:59该贴被funny编辑于2014-2-27 16:02:56