NFS客户端锁的延时恢复可能会导致HA-NFS的启动失败_VMware, Unix及操作系统讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛

总帖数

每页帖数

1/1页

返回列表

发起投票

查看: 6028 | 回复: 0

主题： NFS客户端锁的延时恢复可能会导致HA-NFS的启动失败

第五种族

注册用户

等级：列兵
经验：103
发帖：78
精华：0
注册：2011-11-3
状态：离线
发送短消息息给第五种族

加好友发送短消息息给第五种族

发消息

发表于：

2011-11-29 10:10:14 | [全部帖] [楼主帖]

楼主

产品: Solaris 9 Operating System Solaris 10 Operating System Bug 编号 SUNBUG：4634519 影响 NFS客户端的锁延时恢复可能会导致服务启动，故障转移和切换期间的HA-NFS代理超时。如果受影响资源组的”Failover_Mode”属性设置为”HARD”（默认），受影响的节点可能会自动重新启动。成因该问题可能会出现在以下版本中： SPARC Platform Solaris 9 without patch 113278-12 or 116502-03 or 121194-01 Solaris 10 without patch 123336-01 x86 Platform Solaris 9 without patch 116503-03 or 119439-04 or 121195-01 Solaris 10 without patch 123337-01 注释： Solaris 7和Solaris 8不会受到该问题的影响。该问题只会发生在下面两个条件下 1. 一个”IPV6”地址被配置了一个或多个接口。可以使用”ifconfig(1M)”命令的”-a”选项来确定一个IPV6地址是否配置了接口： % ifconfig -a lo0: flags=2000849 mtu 8252 index 1 inet6 ::1/128 ce3: flags=2008841 mtu 1500 index 3 ether 0:3:ba:95:ff:9f inet6 fe80::203:baff:fe95:ff9f/10 如果一个IPV6的地址前面有“inet6”的关键字证明他被配置了接口。注释： Sun Cluster 3.1 9/04 或者更高版本(包括SPARC的117949-01补丁或更高版本，x86的117909-01补丁或更高版本)在集群互联和loopback接口会自动配置IPV6地址。 2.一个或多个无法访问的NFS客户端将会被statd(1M)恢复。被statd(1M)恢复的客户端包括： Contents of the "/var/statmon/sm" and "/var/statmon/sm.bak" directories on each of the cluster nodes that could host the resource groups containing HA-NFS resources. Contents of the statmon subdirectory of all HA-NFS administrative directories NFS客户端锁的延时恢复可能会导致HA-NFS的启动失败这样的目录可以使用下面的命令： % scrgadm -pvv | awk \ '/refix:/ { p=$5 } /rce type:.*SUNW.nfs/ { print p "/SUNW.nfs/statmon/sm.bak" }' 注释：从上面的命令中列出的目录，可以被配置为驻留在整个系统或是故障转移文件。在后一种情况下，每一个这样的目录都会被当前主机节点的错误转移文件检查。出现的症状：如果该问题出现，可能在”/var/adm/messages”文件中出现以下信息： host SC[SUNW.nfs:3.1,rg,rs,nfs_svc_start]: [ID 948424 daemon.notice] Stopping NFS daemon /usr/lib/nfs/statd. host SC[SUNW.nfs:3.1,rg,rs,nfs_svc_start]: [ID 828140 daemon.notice] Starting statd and lockd. host SC[SUNW.nfs:3.1,rg,rs,nfs_svc_start]: [ID 530938 daemon.notice] Starting NFS daemon /usr/lib/nfs/statd. host SC[SUNW.nfs:3.1,rg,rs,nfs_svc_start]: [ID 906922 daemon.notice] Started NFS daemon /usr/lib/nfs/statd. host SC[SUNW.nfs:3.1,rg,rs,nfs_svc_start]: [ID 530938 daemon.notice] Starting NFS daemon /usr/lib/nfs/lockd. host statd[246]: [ID 859811 daemon.warning] statd: host ipv4.x.x.x.x is not responding ... host statd[2578]: [ID 766906 daemon.warning] statd: cannot talk to statd at x.x.x.x, RPC: Remote system error(12) host statd[2578]: [ID 766906 daemon.warning] statd: cannot talk to statd at x.x.x.x, RPC: Remote system error(12) host Cluster.RGM.rgmd: Method on resource , resource group , is_frozen=<0>: Method timed out. 在上述消息中注意：”Started NFS daemon /usr/lib/nfs/locked”的启动超时，随后启动方法失败，集群将会尝试完全停止HA-NFS服务。解决方法： 1. 保存一个”/ect/netconfig”文件。按照下列编辑”/ect/netconfig”文件的”udp6”和“tcp6”： udp tpi_clts v inet udp /dev/udp - tcp tpi_cots_ord v inet tcp /dev/tcp - udp6 tpi_clts v inet6 udp /dev/udp6 - tcp6 tpi_cots_ord v inet6 tcp /dev/tcp6 – 2. 从客户端列表中手动删除被statd(1M)恢复的客户端(见该列表目录的”Contributing Factor”),只有”sm.bak”目录会保留失效的客户端。在目录中，这些被命名为NFS客户端的主机名或文件会与客户端的IP地址名称或符号链接。(连接到客户端的主机名。) 例如： % ls -l sm.bak lrwxrwxrwx 1 daemon daemon 11 Jan 24 11:38 ipv4.129.147.4.37 -> sr1-ubrm-19 lrwxrwxrwx 1 daemon daemon 8 Dec 30 2003 ipv4.129.152.180.21 -> goldwing lrwxrwxrwx 1 daemon daemon 6 Jul 23 2004 ipv4.129.153.229.34 -> quazar lrwxrwxrwx 1 daemon daemon 8 Jan 24 11:38 ipv4.129.154.156.160 -> ultimate 注释：应该考虑去清除那些失效一段时间或没有响应的客户端或文件。该问题已经在以下本版中： SPARC Platform Solaris 9 with patch 113278-12 or 116502-03 or 121194-01 or later Solaris 10 with patch 123336-01 or later x86 Platform Solaris 9 with patch 116503-03 or 119439-04 or 121195-01 or later Solaris 10 with patch 123337-01 or later

本版精华
热门帖子

操作引用/回复

总帖数

每页帖数

1/1页

返回列表

用户登录

Weblogic中间件技术论坛

Tuxedo中间件技术论坛

数据库论坛

Java论坛

Linux/unix论坛

网站地图