[转帖]Tuxedo 超时控制（一）_MQ, Tuxedo及OLTP讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛

总帖数

每页帖数

1/1页

返回列表

发起投票

查看: 5542 | 回复: 0

主题： [转帖]Tuxedo 超时控制（一）

zhou

注册用户

等级：中校
经验：2210
发帖：125
精华：6
注册：2012-11-19
状态：离线
发送短消息息给zhou

加好友发送短消息息给zhou

发消息

发表于：

2012-11-30 11:00:02 | [全部帖] [楼主帖]

楼主

Tuxedo 超时控制（转贴）

原帖发于DEV2DEV，现转贴在此。

                                                  TUXEDO超时控制全功略

摘要：

  本《功略》集中了TUXEDO应用中，可能涉及到的所有时间参数，并分别对其进行详细描述，不但对其出处、取值等基本属性进行查证，而且，通过分析其内在的控制机制，给出设置建议，以期能够达到透彻理解、方便查阅、准确使用的目的。

1 前言

  金融、电信等众多行业的综合营业系统中，广泛使用了TUXEDO交易中间件，用来处理大量并发的联机事务处理（OLTP）业务。典型的OLTP业务，每笔业务的信息量较小，而且，具有一定的实时性，对时间的要求非常严格。

  TUXEDO，联系着DATABASE和客户端软件，凭借其多层次的超时控制机制，达到客户端快速响应，服务器端稳定可靠的效果。

  TUXEDO的多层次的超时控制机制中，涉及到的时间参数不少于10个，再加上与之紧密联系的DATABASE中的几个超时参数，确实比较复杂。遗憾的是，目前还没有的专门的文档对它们进行详细说明，而是分散在不同的专题中分别说明，而且，不同的专题中，解释的详细程度也不一样，在查阅过程中，多有不便。

  本文试图将这些参数集中起来，对每一个都加以详细说明，并试图解释每个参数存在的原因。大部分参数时间长短的设置，除个别外，基本没有固定的模式，只要了解它们的具体含义，并结合具体应用系统的实际要求，相信大家都能够作出合理的配置。

2 全功略解读

2.1 SCANUNIT

2.1.1 参数出处

  UBBCONFIG配置文件 -> RESOURCES -> SCANUNIT 。

2.1.2 时间单位

  秒,且必须为5的倍数。

2.1.3 取值范围

  大于0小于等于60中5的倍数，即｛5，10，15，20，25，30，35，40，45，50，55，60｝。

2.1.4 默认取值

10 。

2.1.5 用途解释 ⑴

  这个参数大家都会用，比较好理解，TUXEDO中，BBL是用来对Bulletin Board进行管理和监控的系统进程，它基于时间片的轮询方式，时间片的大小就是SCANUNIT的值，SCANUNIT是Tuxedo对系统进行管理的最基本时间单位。每隔SCANUNIT，BBL对Bulletin Board进行一次检查，看看有没有超时的事务或阻塞的服务请求。后面讲到的很多时间参数都是以SCANUNIT为单位。

2.1.6 超时后果

  仅仅是个轮询时间单位而已，到时间就轮询，如此而已。

2.1.7 设置考虑

  作为一个涉及到整个TUXDO系统的基本单位时间，如果业务需要，对时间参数控制比较严格，设置为5也不算小。如果系统业务对时间要求不严格，那就大点儿，60也没什么不可以；毕竟频繁轮询是要耗费更多系统资源的，而任何对资源的不必要的消耗都是浪费。

2.2 SANITYSCAN

2.2.1 参数出处

  UBBCONFIG配置文件 -> RESOURCES -> SANITYSCAN 。

2.2.2 时间单位

SCANUNIT 。

2.2.3 取值范围

1 ～32767 。

2.2.4 默认取值

  大约120/SCANUNIT。

2.2.5 用途解释 ⑵

  进行系统健全性检查，主要包括Server进程状态和Bulletin Board数据结构，检查Server进程是否存活，如果已经不存在，会清理Bulletin Board中相应的数据项及IPC资源，并根据参数配置决定是否重新启动，如果设了RESTART=Y，所占的Message Queue不会被清除，Queue中的Request得到保留，仍会被处理。如果是MP模式，BBL还会给DBBL发状态消息。

2.2.6 超时后果

  仅仅是个系统健康检查的间隔时间而已，到时间就检查，如此而已。

2.2.7 设置考虑

  作为一个涉及到整个TUXDO系统健康检查的间隔时间，如果系统处在一个稳定的运行环境中，网络、数据库、应用都很稳定，那这个参数可以大一些；如果运行环境不稳定，系统繁忙，而且Server进程经常因异常（如超时）而死掉，那就设置小一些。设置的原则和SCANUNIT一样：不要随意浪费系统资源。

2.3 BBLQUERY

2.3.1 参数出处

  UBBCONFIG配置文件 -> RESOURCES -> BBLQUERY。

2.3.2 时间单位

SCANUNIT

2.3.3 取值范围 ⑶

  BBLQUERY必须大于等于SANITYSCAN，tmloadcf 时会强制检查，如果设的值小于SANITYSCAN，tmloadcf会自动调整为SANITYSCAN。

2.3.4 默认取值

  大约300/SCANUNIT。

2.3.5 用途解释 ⑷

  BBL检查，在MP模式下，BBL会每隔一段时间都发送了" I am ok "心跳信息给DBBL，这个间隔就是BBLQUERY。

2.3.6 超时后果 ⑸

  如果DBBL在规定时间间隔内没有收到某个BBL的信息，DBBL它会主动发送Request给那个BBL，判断其是否正常。（如果等了DBBLWAIT后仍然没有回复，DBBL会认为那台机器有问题，然后，将其隔离。）

2.3.7 设置考虑

  此设置仅仅在MP模式下才起作用。

  在MP模式下，如果TUXEDO系统需要对不稳定的运行环境可能发生的故障作出快速的反应，那么BBLQUERY要设置小一些，让系统快速的自我检查。考虑网络传输时间、系统反应速度等因素，网络速度越慢，系统负载越重，取值越大；反之亦然。

  如果系统运行环境很稳定，利用其默认值即可，甚至可以更大数值。

2.4 DBBLWAIT

2.4.1 参数出处

  UBBCONFIG配置文件 -> RESOURCES -> DBBLWAIT。

2.4.2 时间单位

SCANUNIT。

2.4.3 取值范围

  大于0。

2.4.4 默认取值

  1和20/SCANUNIT中的较大者。

2.4.5 用途解释 ⑹

  如果DBBL在规定时间间隔BBLQUERY内没有收到某个BBL的"I AM OK"信息，它会发Request给那个BBL，其等待回复的时间就是DBBLWAIT。

2.4.6 超时后果 ⑺

  DBBL等了DBBLWAIT后仍然没有回复，DBBL会认为相关BBL的机器有问题，然后，将其隔离（partation）。

2.4.7 设置考虑

  此设置仅仅在MP模式下才起作用。

  在MP模式下，考虑网络传输时间、系统反应速度等因素，网络速率越大，系统负载越轻，此数值越小；反之亦然。

2.5 BLOCKTIME

2.5.1 参数出处

  UBBCONFIG配置文件 -> RESOURCES -> BLOCKTIME。

2.5.2 时间单位

SCANUNIT。

2.5.3 取值范围

  大于0。

2.5.4 默认取值

  大约60/SCANUNIT。

2.5.5 用途解释

  Client端阻塞请求（Blocking call）服务的超时值，BBL发现有超时的Request时，会给相应的Client端发超时信息。

  此参数仅仅在"阻塞请求"的情况下起作用，因此，理解它，关键要理解什么是阻塞请求（Blocking call）？习惯上，我们将"阻塞请求"理解为"同步请求"，将"异步请求"理解为"非阻塞请求"，是源于将"<发送请求－得到结果>"这一过程看成为一个整体。如果是整体的同步操作，就认为是"阻塞请求"；如果是分开异步的操作，就认为是"非阻塞请求"。

  其实，异步操作中，同样存在"阻塞请求"，tuxedo中，tpacall和tpgetrply这两个异步操作各自本身就是"阻塞请求"，tpacall是将请求发送到请求队列，tpgetrply是将从结果队列中取出结果，如果没有特殊的设置，这两��操作本身都是阻塞的，BLOCKTIME将起作用。

  以Request/Reply方式为例，将成功发送请求的时长设置为T1，将请求处理的时长(含排队等待)设置为T2,将成功取得结果的时长设置为T3，那么在下面不同的情况下，将触发BLOCKTIME，引起超时：

  （1） tpcall（）不在transaction中，flag为0，当T1+T2+T3 > BLOCKTIME时，发生超时 ;

  （2） tpcall（）不在transaction中，flag为TPNOBLOCK，只有当一次调用即成功完成T1阶段发送请求的任务后，T2+T3 > BLOCKTIME时，发生超时 ;

  （3） tpacall（）不在transaction中，flag为0，当T1 > BLOCKTIME时，发生超时 ;

  （4） tpgetrply（）不在transaction中，flag为0，当T2+T3 > BLOCKTIME时，发生超时 ;

  （5） tpcall，tpacall,tpgetrply,在其他任何情况，BLOCKTIME都将不起作用。

  （6）如果请求处于事务交易（transaction）中，此参数不起作用，取代它的是 TransactionTimeOut。

2.5.6 超时后果

  在上面描述的四种情况下，Server端 BBL返回Client端超时错误：tperrno ＝ 13 （TPETIME）。同时，client端和Server端已经建立的联接不受任何影响，继续保持联接。

2.5.7 设置考虑

  此参数涉及整个TUXEDO系统，不能够直接适应业务系统中不同场合的不同时间等待要求，而且在应用过程中，存在误差，不适合进行精确到秒的时间控制。

  准确有效的使用这个参数，需要考虑好以下几个问题：

  （1）应用中是否完全依赖这个参数进行时间控制？

  （2）有哪些业务依赖这个参数进行时间控制？

  （3）平衡各种业务，此参数设置为多少？

  （4）除此参数外，是否需要利用其他的超时控制机制？

2.6 WSL CLOPT [-T Client_timeout]

2.6.1 参数出处

  UBBCONFIG配置文件 -> SERVERS -> WSL -> CLOPT "-T"。

2.6.4 默认取值

  0 ，意味着无限等待时间。

2.6.5 用途解释 ⑻

  系统允许的Client静默时长，即Client和WSH建立联接后，如果在此指定的时间内客户端没有发送任何请求，WSH会自动回收与此Client端相关的资源。

2.6.6 超时后果 ⑼

  WSH会自动释放和这个Client端的联接，并将此Client在Bulletin Board中的数据项清空，RollBack它未完成的事务。

2.6.7 设置考虑

  此参数的设置目的，主要是从Server的角度进行考虑，防止在Client端意外失效的情况下仍然耗费Server端的资源。

  如果设置太小，那么频繁的检测同样要消耗Server端一定的资源，而且，在使用长联接的系统中，系统空闲时，容易造成已经建立的长联接频繁的释放，影响正常业务的提供。

  如果设置为0，不管发生什么状况，哪怕是Client端系统真的崩溃了，也不会触发此超时，这将造成Server端资源的无谓浪费。

  建议：在业务负载不均衡的长联接业务系统中，根据业务实际空闲时间，适当加大此数值。

2.7 WSL CLOPT [-t timeout]

2.7.1 参数出处

  UBBCONFIG配置文件 -> SERVERS -> WSL -> CLOPT "-t"。

2.7.2 时间单位

SCANUNIT。

2.7.3 取值范围

  大于0。

2.7.4 默认取值

  非安全应用为3，安全应用为6 。

2.7.5 用途解释

  建立联接时长，指workstation Client建立与server端WSH建立联接允许的最长时间，因为非安全应用建立联接时不需要进行用户校验等步骤，因此，建立联接需要的时间较短。同理，安全应用需要的时间较长。

2.7.6 超时后果

  建立联接失败。

2.7.7 设置考虑

  设置此参数，要分析业务系统中，网络带宽因素、用户验证的复杂程度等。

2.8 WSL CLOPT [-I init_timeout]

2.8.1 参数出处

  UBBCONFIG配置文件 -> SERVERS -> WSL -> CLOPT "-I"。

2.8.2 时间单位

  秒。

2.8.3 取值范围

  大于0。

2.8.4 默认取值

60 。

2.8.5 用途解释 ⑽

  WorkStation Client端和后台建立联接的超时参数值。

  （注：感觉上此参数和 WSL CLOPT [-t timeout]功能类似）

2.8.6 超时后果

  不确定，现有的文档没有一点儿解释。按照字面解释，应该是tpinit的超时时间，但是，在tpinit所有的错误中，只有TPESYSTEM可能承担这个超时后果，而且仅仅是可能。

2.8.7 设置考虑

  在使用过程中，没有感觉到这个参数的存在，也从来没有专门设置过。

本版精华
热门帖子

操作引用/回复

总帖数

每页帖数

1/1页

返回列表

用户登录

Tuxedo 超时控制（转贴）

Weblogic中间件技术论坛

Tuxedo中间件技术论坛

数据库论坛

Java论坛

Linux/unix论坛

网站地图