[原创]Tuxedo中间件健康检查_MQ, Tuxedo及OLTP讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  MQ, Tuxedo及OLTP讨论区 »
总帖数
3
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 7275 | 回复: 2   主题: [原创]Tuxedo中间件健康检查        下一篇 
匿名用户
发表于: IP:您无权察看 2014-4-2 16:19:32 | [全部帖] [楼主帖] 楼主

1.概述

    对某系统中的Tuxedo中间件进行健康检查,从整体上看Tuxedo运行良好,各系统出现的错误都属于运行时调用失败,根本上不会影响到整个系统的健康和稳定,比如Domain之间的调用有一些失败的情况,某些系统的Server被关闭等;一般由Tuxedo自身的容错性来说,这些Error都不会影响到系统的整体运行。如果影响到了个别业务,请及时与开发商协商检查代码及时调试解决

2.NGBOSS系统


2.1 系统环境

北京联动北方科技有限公司

    2.2 运行状态分析

     首先检查了主机资源CPU/RAM/IO负载等情况,执行”top”命令观察了一段时间,12颗CPU的利用率都达到了50%左右,利用率分配得比较平均,整体性能良好,没有出现性能问题和明显资源紧缺的症状。

北京联动北方科技有限公司

     执行”sysdef”查看主要的内核参数,然后与”tmloadcf -c”进行对比,系统设置的内核参数中与IPC有关的设置都能满足应用需求。

     应用配置主要UBB参数如下:

北京联动北方科技有限公司

    从主要参数和统计的情况来看,UBB文件配置正常。

接下来分析ULOG中出现最频繁的几个ERROR:

WSNAT_CAT:1042: ERROR: tpcall() call failed, tperrno = 6


分析:WSH调用tpcall时找不到Service所致,此Error不影响系统健康,如果想进一步追踪是找不到哪个Service,就需要在环境变量中��加TMULOGUSINGSERVICENAME=YES

LIBGW_CAT:1029: ERROR: Service request not forwarded to remote site:"TPENOENT - no entry found" gwerrno(402017)


分析: 当前Domain试图执行一个由远程Domain请求调用的Service,然后由于找不到Service Entry导致调用失败了;与前一个Error是相关联的,具体原因也要监控检查配置,也不影响系统健康运行。

LIBTUX_CAT:666: ERROR: Message operation failed because the queue was removed
LIBTUX_CAT:669: ERROR: Message operation failed because of the invalid message queue identifier


分析:请检查UNIX主机的Message Queue(使用msgrcv, msgsnd等函数),此Error无全局影响

LIBTUX_CAT:751: ERROR: semop system call failure for semaphore 210976, errno = 22
LIBTUX_CAT:271: ERROR: System lock semop failure, key = 58851 (errno = 22)


分析:此Error也是由于之前发生了Message Queue的失效而导致系统IPC资源报错

LIBTUX_CAT:268: ERROR: Failed to stop serving


分析:此Error说明有Server不恰当的被关闭了。具体原因要由之前的几个错误来推断。

2.3诊断结论

     从ULOG中没有发现会影响到系统运行稳定和健康的错误出现,错误集中表现在个别Server被关闭,由于UBB中已配置了RESTART=Y,被关闭的Server稍后也会再次启动继续工作,所以不会影响对外服务。

3.NGCRM系统

3.1 系统��境

北京联动北方科技有限公司     

  
3.2 运行状态分析

     首先检查了主机资源CPU/RAM/IO负载等情况,执行”top”命令观察了一段时间,16颗CPU的利用率都达到了30%左右,利用率分配得比较平均,整体性能良好,没有出现性能问题和明显资源紧缺的症状。

北京联动北方科技有限公司

     执行”sysdef”查看主要的内核参数,然后与”tmloadcf -c”进行对比,系统设置的内核参数中与IPC有关的设置都能满足应用需求。     

     应用配置主要UBB参数如下:

北京联动北方科技有限公司

     从主要参数和统计的情况来看,UBB文件配置正常。

接下来分析ULOG中出现最频繁的几个ERROR:

WSNAT_CAT:1042: ERROR: tpcall() call failed, tperrno = 6


分析:WSH调用tpcall时找不到Service所致,此Error不影响系统健康,如果想进一步追踪是找不到哪个Service,就需要在环境变量中添加TMULOGUSINGSERVICENAME=YES

LIBTUX_CAT:752: ERROR: semop system call failure for semaphore 278560, errno 22


分析:此Error也是由于运行期间发生了Message Queue的失效而导致系统IPC资源报错 LIBTUX_CAT:666: ERROR: Message operation failed because the queue was removed

LIBTUX_CAT:669: ERROR: Message operation failed because of the invalid message queue identifier


分析:请检查UNIX主机的Message Queue(使用msgrcv, msgsnd等函数),此Error无全局影响

3.3 诊断结论 

     从ULOG中没有发现会影响到系统运行稳定和健康的错误出现,如果发现有Service失效而影响到了服务,请及时检查或重启与之相关的Server。

  4.渠道管理、资源管理、PRM系统

           4.1 系统环境

北京联动北方科技有限公司

      4.2 ��行状态分析

     首先检查了主机资源CPU/RAM/IO负载等情况,执行”top”命令观察了一段时间,16颗CPU的利用率都达到了30%左右,利用率分配得比较平均,整体性能良好,没有出现性能问题和明显资源紧缺的症状。

     执行”sysdef”查看主要的内核参数,然后与”tmloadcf -c”进行对比,系统设置的内核参数中与IPC有关的设置都能满足应用需求。  

     应用配置主要UBB参数如下:

北京联动北方科技有限公司

     从主要参数和统计的情况来看,UBB文件配置正常。

接下来分析ULOG中出现最频繁的几个ERROR: LIBGW_CAT:1023: ERROR: Service request <CHDPTA33> from remote site <NGCHNL_WTC_CLIENT> failed:"TPENOENT - no entry found"

分析: 当前Domain试图执行一个由远程Domain请求调用的Service,然后由于找不到Service Entry导致调用失败了;与前一个Error是相关联的,具体原因也要监控检查配置,也不影响系统健康运行。

LIBTUX_CAT:248: ERROR: System init function failed, Uunixerr =


分析:此Error表示Server执行tpsvrinit失败了,具体原因请检查代码。

4.3 诊断结论

     从整体上看Tuxedo运行良好,只有Domain之间的调用有一些失败的情况,一般由Tuxedo自身的容错性来说,这些Error都不会影响到系统的整体运行。如果影响到了个别业务,请及时与开发商协商检查代码及时调试解决。



赞(0)    操作        顶端 
koei
版主
等级:大校
经验:4186
发帖:7
精华:0
注册:2011-7-21
状态:离线
发送短消息息给koei 加好友    发送短消息息给koei 发消息
发表于: IP:您无权察看 2014-4-18 5:42:04 | [全部帖] [楼主帖] 2  楼

这个匿名怎么出来的?

北京联动北方科技有限公司



赞(0)    操作        顶端 
_chen
版主
等级:中校
经验:2139
发帖:39
精华:0
注册:2013-8-23
状态:离线
发送短消息息给_chen 加好友    发送短消息息给_chen 发消息
发表于: IP:您无权察看 2014-4-18 9:35:33 | [全部帖] [楼主帖] 3  楼

北京联动北方科技有限公司貌似发帖的时间比较长,提交的时候session过期了



赞(0)    操作        顶端 
总帖数
3
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论