1.概述 对某系统中的Tuxedo中间件进行健康检查,从整体上看Tuxedo运行良好,各系统出现的错误都属于运行时调用失败,根本上不会影响到整个系统的健康和稳定,比如Domain之间的调用有一些失败的情况,某些系统的Server被关闭等;一般由Tuxedo自身的容错性来说,这些Error都不会影响到系统的整体运行。如果影响到了个别业务,请及时与开发商协商检查代码及时调试解决。
2.NGBOSS系统 2.1 系统环境 2.2 运行状态分析
首先检查了主机资源CPU/RAM/IO负载等情况,执行”top”命令观察了一段时间,12颗CPU的利用率都达到了50%左右,利用率分配得比较平均,整体性能良好,没有出现性能问题和明显资源紧缺的症状。
执行”sysdef”查看主要的内核参数,然后与”tmloadcf -c”进行对比,系统设置的内核参数中与IPC有关的设置都能满足应用需求。
应用配置主要UBB参数如下:
从主要参数和统计的情况来看,UBB文件配置正常。
接下来分析ULOG中出现最频繁的几个ERROR:
WSNAT_CAT:1042: ERROR: tpcall() call failed, tperrno = 6
分析:WSH调用tpcall时找不到Service所致,此Error不影响系统健康,如果想进一步追踪是找不到哪个Service,就需要在环境变量中��加TMULOGUSINGSERVICENAME=YES
LIBGW_CAT:1029: ERROR: Service request not forwarded to remote site:"TPENOENT - no entry found" gwerrno(402017)
分析: 当前Domain试图执行一个由远程Domain请求调用的Service,然后由于找不到Service Entry导致调用失败了;与前一个Error是相关联的,具体原因也要监控检查配置,也不影响系统健康运行。
LIBTUX_CAT:666: ERROR: Message operation failed because the queue was removed
LIBTUX_CAT:669: ERROR: Message operation failed because of the invalid message queue identifier
分析:请检查UNIX主机的Message Queue(使用msgrcv, msgsnd等函数),此Error无全局影响
LIBTUX_CAT:751: ERROR: semop system call failure for semaphore 210976, errno = 22
LIBTUX_CAT:271: ERROR: System lock semop failure, key = 58851 (errno = 22)
分析:此Error也是由于之前发生了Message Queue的失效而导致系统IPC资源报错
LIBTUX_CAT:268: ERROR: Failed to stop serving
分析:此Error说明有Server不恰当的被关闭了。具体原因要由之前的几个错误来推断。
2.3诊断结论
从ULOG中没有发现会影响到系统运行稳定和健康的错误出现,错误集中表现在个别Server被关闭,由于UBB中已配置了RESTART=Y,被关闭的Server稍后也会再次启动继续工作,所以不会影响对外服务。
3.NGCRM系统
3.1 系统��境
3.2 运行状态分析 首先检查了主机资源CPU/RAM/IO负载等情况,执行”top”命令观察了一段时间,16颗CPU的利用率都达到了30%左右,利用率分配得比较平均,整体性能良好,没有出现性能问题和明显资源紧缺的症状。
执行”sysdef”查看主要的内核参数,然后与”tmloadcf -c”进行对比,系统设置的内核参数中与IPC有关的设置都能满足应用需求。
应用配置主要UBB参数如下:
从主要参数和统计的情况来看,UBB文件配置正常。
接下来分析ULOG中出现最频繁的几个ERROR:
WSNAT_CAT:1042: ERROR: tpcall() call failed, tperrno = 6
分析:WSH调用tpcall时找不到Service所致,此Error不影响系统健康,如果想进一步追踪是找不到哪个Service,就需要在环境变量中添加TMULOGUSINGSERVICENAME=YES
LIBTUX_CAT:752: ERROR: semop system call failure for semaphore 278560, errno 22
分析:此Error也是由于运行期间发生了Message Queue的失效而导致系统IPC资源报错 LIBTUX_CAT:666: ERROR: Message operation failed because the queue was removed
LIBTUX_CAT:669: ERROR: Message operation failed because of the invalid message queue identifier
分析:请检查UNIX主机的Message Queue(使用msgrcv, msgsnd等函数),此Error无全局影响
3.3 诊断结论
从ULOG中没有发现会影响到系统运行稳定和健康的错误出现,如果发现有Service失效而影响到了服务,请及时检查或重启与之相关的Server。
4.渠道管理、资源管理、PRM系统
4.1 系统环境
4.2 ��行状态分析
首先检查了主机资源CPU/RAM/IO负载等情况,执行”top”命令观察了一段时间,16颗CPU的利用率都达到了30%左右,利用率分配得比较平均,整体性能良好,没有出现性能问题和明显资源紧缺的症状。
执行”sysdef”查看主要的内核参数,然后与”tmloadcf -c”进行对比,系统设置的内核参数中与IPC有关的设置都能满足应用需求。
应用配置主要UBB参数如下:
从主要参数和统计的情况来看,UBB文件配置正常。
接下来分析ULOG中出现最频繁的几个ERROR: LIBGW_CAT:1023: ERROR: Service request <CHDPTA33> from remote site <NGCHNL_WTC_CLIENT> failed:"TPENOENT - no entry found"
分析: 当前Domain试图执行一个由远程Domain请求调用的Service,然后由于找不到Service Entry导致调用失败了;与前一个Error是相关联的,具体原因也要监控检查配置,也不影响系统健康运行。
LIBTUX_CAT:248: ERROR: System init function failed, Uunixerr =
分析:此Error表示Server执行tpsvrinit失败了,具体原因请检查代码。
4.3 诊断结论
从整体上看Tuxedo运行良好,只有Domain之间的调用有一些失败的情况,一般由Tuxedo自身的容错性来说,这些Error都不会影响到系统的整体运行。如果影响到了个别业务,请及时与开发商协商检查代码及时调试解决。