[转帖]HP-UNIX系统宕机_VMware, Unix及操作系统讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  VMware, Unix及操作系统讨论区 »
总帖数
1
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 2978 | 回复: 0   主题: [转帖]HP-UNIX系统宕机        下一篇 
ulee@land
注册用户
等级:上尉
经验:769
发帖:55
精华:1
注册:2012-12-17
状态:离线
发送短消息息给ulee@land 加好友    发送短消息息给ulee@land 发消息
发表于: IP:您无权察看 2012-12-17 17:42:22 | [全部帖] [楼主帖] 楼主

HP-UNIX系统宕机 .


早上进行db例行巡检的时候发现一个节点2宕机。

首先检查检点2的alter,没有任何发现,而且crs各项资源也offline状态,可以判断应该是系统宕机导致没有任何记录。

通过查看系统登录日志发现有过重启记录:

# last | grep Dec
root     pts/1        Mon Dec 17 10:08   still logged in
root     pts/0        Mon Dec 17 09:33   still logged in
reboot   system boot  Sun Dec 16 08:16   still logged in
reboot   system boot  Sat Dec 15 23:59 - 08:16  (08:16)


但是就是不知道系统重新信息会不会也记录到这里,而且看第3条记录,还still logged in这个只能交给HP工程师来处理了。

检查/etc/shutdownlog发现如下新:

00:03  Sun Dec 16 2012.  Reboot after panic: MCA, IIP:0xe0000000008a1a40 IFA:0xc000000006dae000
08:18  Sun Dec 16 2012.  Reboot after panic: MCA, IIP:0xe000000000d650a0 IFA:0x20000000777db0cc


检查节点1的alter日志发现如下信息:

Sat Dec 15 23:55:30 2012
Errors in file /opt/oracle/product/admin/xxx/udump/xxx1_ora_4074.trc:
Sat Dec 15 23:55:31 2012
Errors in file /opt/oracle/product/admin/xxx/udump/xxx1_ora_4074.trc:
Sat Dec 15 23:55:34 2012
Reconfiguration started (old inc 100, new inc 102)
List of nodes:
0


检查crs日志如下:

2012-12-15 23:55:16.183
[cssd(4229)]CRS-1612:node xxx2 (0) at 50% heartbeat fatal, eviction in 0.000 seconds
2012-12-15 23:55:23.183
[cssd(4229)]CRS-1611:node xxx2 (0) at 75% heartbeat fatal, eviction in 0.000 seconds
2012-12-15 23:55:24.181
[cssd(4229)]CRS-1611:node xxx2 (0) at 75% heartbeat fatal, eviction in 0.000 seconds
2012-12-15 23:55:28.183
[cssd(4229)]CRS-1610:node xxx2 (0) at 90% heartbeat fatal, eviction in 0.000 seconds
2012-12-15 23:55:29.180
[cssd(4229)]CRS-1610:node xxx2 (0) at 90% heartbeat fatal, eviction in 0.000 seconds
2012-12-15 23:55:30.183
[cssd(4229)]CRS-1610:node xxx2 (0) at 90% heartbeat fatal, eviction in 0.000 seconds
2012-12-15 23:55:30.682
[cssd(4229)]CRS-1607:CSSD evicting node xxx2. Details in /opt/oracle/product/crs/log/xxx1/cssd/ocssd.log.
[cssd(4229)]CRS-1601:CSSD Reconfiguration complete. Active nodes are xxx1 .


检查cssd日志如下:

[    CSSD]2012-12-15 23:55:16.183 [18] >WARNING: clssnmPollingThread: node xxx2 (2) at 50 2.000000e+00artbeat fatal, eviction in 14.489 seconds
[    CSSD]2012-12-15 23:55:16.183 [18] >TRACE:   clssnmPollingThread: node xxx2 (2) is impending reconfig, flag 1037, misstime 15511
[    CSSD]2012-12-15 23:55:16.183 [18] >TRACE:   clssnmPollingThread: diskTimeout set to (27000)ms impending reconfig status(1)
[    CSSD]2012-12-15 23:55:23.183 [18] >WARNING: clssnmPollingThread: node xxx2 (2) at 75 2.000000e+00artbeat fatal, eviction in 7.489 seconds
[    CSSD]2012-12-15 23:55:24.181 [18] >WARNING: clssnmPollingThread: node xxx2 (2) at 75 2.000000e+00artbeat fatal, eviction in 6.490 seconds
[    CSSD]2012-12-15 23:55:28.183 [18] >WARNING: clssnmPollingThread: node xxx2 (2) at 90 2.000000e+00artbeat fatal, eviction in 2.489 seconds
[    CSSD]2012-12-15 23:55:29.180 [18] >WARNING: clssnmPollingThread: node xxx2 (2) at 90 2.000000e+00artbeat fatal, eviction in 1.491 seconds
[    CSSD]2012-12-15 23:55:30.183 [18] >WARNING: clssnmPollingThread: node xxx2 (2) at 90 2.000000e+00artbeat fatal, eviction in 0.489 seconds


可以获知节点2在这个时刻已经在重新配置集群了,将节点2剔除了集群。

在通过将存储active之后,集群自动在节点2启动并恢复正常生产。

通过/var/adm/syslog/syslog.log 和old日志发现节点系统重启了,奇怪的是竟然没有重启之前的日志信息,只能打包/var/adm/crash目录下的系统crash(可以通过 q4 crash文件大概查看一下)日志信息给HP支持人员。

-The End-




赞(0)    操作        顶端 
总帖数
1
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论