[转帖]dba 监控脚本_MySQL, Oracle及数据库讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  MySQL, Oracle及数据库讨论区 »
总帖数
1
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 3715 | 回复: 0   主题: [转帖]dba 监控脚本        下一篇 
derek
注册用户
等级:中校
经验:1550
发帖:209
精华:0
注册:2011-7-21
状态:离线
发送短消息息给derek 加好友    发送短消息息给derek 发消息
发表于: IP:您无权察看 2011-8-16 16:04:42 | [全部帖] [楼主帖] 楼主

一个oracle的数据库监控脚本


#! /usr/bin/ksh
# 定义脚本中用到的局部变量.这些变量主要是方便程序的移植性.
# dba列表, 如果是多个用户, 必须用双引号括起来并用空格分开.
DBALIST="leizhang@tcl.com"; export DBALIST
# 实际程序执行路径, 中间由于乱跑了几次, 所以需要这个路径回到执行文件夹
WORKPATH=/home/oracle/DBAmonitor; export WORKPATH
# alert数据源存储路径, 可以登录sqlplus后执行show parameter dest得到.
ALERTPATH=/oracle/admin/dw/bdump; export ALERTPATH
# 最终发送给客户的信息存储位置
filename=monitor_result.log; export filename
# 可以从tnsnames中看到
ORASID=dw; export ORASID
#  报表头
#  首先监听处理的历史文件, 实际上这里还有其他的更好办法, 后期优化调整.
#  对结果文件的删除是冗余的, 可以不处理
rm -f lsnr.exist
rm -f $filename
echo "********the monitor log ***********" >$filename
echo "********create by zhanglei ********" >>$filename
# 监控监听是否启动, 如果没启动 , 则发出警告信息.
# test the listener
echo "************monitor the listener*********">>$filename
ps -ef | grep tnslsnr |grep -v grep >lsnr.exist
if [ -s lsnr.exist ]
then
echo "listener lsnrctl on `hostname` is runing...">>$filename
else
echo  "Listener tnslsnr on `hostname` is down" $DBALIST
fi
# 监控alert_sid文件中是否有错误提示内容, 如果报表显示有错误, 则需要对应处理.
# monitor the alert.log
echo "" >>$filename
echo "">>$filename
echo "****** monitor the alert.log ********">>$filename
cd $ALERTPATH
if [ -f alert_$ORASID.log ]
then
mv alert_$ORASID.log alert_work.log
touch alert_$ORASID.log
cat alert_work.log>>alert_`date`.hist
grep ORA-  alert_work.log>>$WORKPATH/$filename
fi
cd $WORKPATH
# 监控数据库中的tablespace, latch, lock, cpu&memory等信息.
# 这里有个对应的sql文件,在文件monitor.sql中
echo "">>$filename
echo "">>$filename
# 没想通这里为什么是这种格式, 但调整了半天,就这种好使.
#sqlplus /<<!
#connect / as sysdba
sqlplus -s /nolog<<!
connect / as sysdba
@monitor.sql
exit
!
# 判断结果是否有内容, 如果有内容的话则发送给dba
if [ `cat monitor.log.list|wc -l` -gt 0 ]
then
cat monitor.log.list >>$filename
fi
#monitor the cpu
echo "******* monitor the system IO********">>$filename
iostat -s>>$filename
echo "********monitor the paging space *********">>$filename
lsps -as>>$filename
#echo "***********monitor the cpu used *********">>$filename
#vmstat 1 3>>$filename
mail -s "DBA Monitor----`date`" $DBALIST<$filename


附录1 monitor.sql文件内容.

Rem
Rem $Header: jaxmonitor.sql, v1.0 2009/07/27
Rem
Rem Copyright(c) 2009 by jaxzhang
Rem
set feed off
set linesize 100
set pagesize 200
Rem
Rem Monitor the tablespace free space
Rem
spool /home/oracle/DBAmonitor
set heading off
select '
*********   monitor the free space of tablespace *********' from dual;
set heading on
SELECT F.TABLESPACE_NAME,
(T.TOTAL_SPACE - F.FREE_SPACE) "USED (MB)",
F.FREE_SPACE "FREE (MB)",
T.TOTAL_SPACE "TOTAL (MB)",
(ROUND((F.FREE_SPACE / T.TOTAL_SPACE) * 100)) ||  '% ' PER_FREE
FROM (SELECT TABLESPACE_NAME,
ROUND(SUM(BLOCKS *
(SELECT VALUE / 1024
FROM V$PARAMETER
WHERE NAME = 'db_block_size') / 1024)) FREE_SPACE
FROM DBA_FREE_SPACE
GROUP BY TABLESPACE_NAME) F,
(SELECT TABLESPACE_NAME, ROUND(SUM(BYTES / 1048576)) TOTAL_SPACE
FROM DBA_DATA_FILES
GROUP BY TABLESPACE_NAME) T
WHERE F.TABLESPACE_NAME = T.TABLESPACE_NAME
AND (ROUND((F.FREE_SPACE / T.TOTAL_SPACE) * 100))<40;
Rem
Rem Monitor the error log in the etl procedure
Rem
set heading off
select '
*********  monitor the error log in the etl procedure *********' from dual;
set heading on


select 日志等级, 日志信息 from ctl.run_log t

where t.日志时间 > trunc(sysdate) and t.日志等级 = '异常';

Rem
Rem Monitor the buffer cache
Rem
set heading off
select '
*********  monitor the buffer cache get rate. percent 95 is musted  *********' from dual;
set heading on
select 1 - ((physical.value - direct.value - lobs.value) / logical.value) "Buffer Cache Hit Ratio"
from v$sysstat physical,
v$sysstat direct,
v$sysstat lobs,
v$sysstat logical
where physical.name = 'physical reads'
and direct.name = 'physical reads direct'
and lobs.name = 'physical reads direct (lob)'
and logical.name = 'session logical reads';
Rem
Rem Monitor the librarycache cache
Rem
set heading off
select '
********* monitor the librarycache reparsing is said the hard parsing rate *********' from dual;
set heading on
select namespace,
sum(pins) pins,
sum(pinhits) pinhits,
sum(reloads) reloads,
sum(invalidations) invalidations,
100-(decode(sum(pins),0,1,sum(pinhits)/sum(pins))) *100 reparsing
from v$librarycache ttt
group by rollup(ttt.NAMESPACE )
having sum(pins) > 0
order by grouping(ttt.NAMESPACE), reparsing desc;
Rem
Rem Monitor the librarycache cache
Rem
set heading off
select '
********* monitor the wait thing by session *********' from dual;
set heading on
select event,
sum(decode(wait_Time, 0, 0, 1)) "Prev",
sum(decode(wait_Time, 0, 1, 0)) "Curr",
count(*) "Tot"
from v$session_wait
group by event
order by 4;
spool off


附录2, crontab设定程序运行时间

cron是一个linux下的定时执行工具,可以在无需人工干预的情况下运行作业。由于Cron 是Linux的内置服务,但它不自动起来,可以用以下的方法启动、关闭这个服务:

/sbin/service crond start //启动服务
/sbin/service crond stop //关闭服务
/sbin/service crond restart //重启服务
/sbin/service crond reload //重新载入配置


你也可以将这个服务在系统启动的时候自动启动:
在/etc/rc.d/rc.local这个脚本的末尾加上:

/sbin/service crond start


现在Cron这个服务已经在进程里面了,我们就可以用这个服务了,Cron服务提供以下几种接口供大家使用:

1、直接用crontab命令编辑

cron服务提供crontab命令来设定cron服务的,以下是这个命令的一些参数与说明:

crontab -u //设定某个用户的cron服务,一般root用户在执行这个命令的时候需要此参数
crontab -l //列出某个用户cron服务的详细内容
crontab -r //删除某个用户的cron服务
crontab -e //编辑某个用户的cron服务


这个格式的前一部分是对时间的设定,后面一部分是要执行的命令,如果要执行的命令太多,可以把这些命令写到一个脚本里面,然后在这里直接调用这个脚本就可以了,调用的时候记得写出命令的完整路径。时间的设定我们有一定的约定,前面五个*号代表五个数字,数字的取值范围和含义如下:

分钟 (0-59)
小時 (0-23)
日期 (1-31)
月份 (1-12)
星期 (0-6)//0代表星期天

除了数字还有几个个特殊的符号就是"*"、"/"和"-"、",",*代表所有的取值范围内的数字,"/"代表每的意思,"*/5"表示每5个单位,"-"代表从某个数字到某个数字,","分开几个离散的数字。以下举几个例子说明问题:

每天早上6点

0 6 * * * echo "Good morning." >> /tmp/test.txt //注意单纯echo,从屏幕上看不到任何输出,因为cron把任何输出都email到root的信箱了。


每两个小时

0 */2 * * * echo "Have a break now." >> /tmp/test.txt


晚上11点到早上8点之间每两个小时,早上八点

0 23-7/2,8 * * * echo "Have a good dream:)" >> /tmp/test.txt


每个月的4号和每个礼拜的礼拜一到礼拜三的早上11点

0 11 4 * 1-3 command line


1月1日早上4点

0 4 1 1 * command line


每次编辑完某个用户的cron设置后,cron自动在/var/spool/cron下生成一个与此用户同名的文件,此用户的cron信息都记录在这个文件中,这个文件是不可以直接编辑的,只可以用crontab -e 来编辑。cron启动后每过一份钟读一次这个文件,检查是否要执行里面的命令。因此此文件修改后不需要重新启动cron服务。

2、编辑/etc/crontab 文件配置cron

cron服务每分钟不仅要读一次/var/spool/cron内的所有文件,还需要读一次/etc/crontab,因此我们配置这个文件也能运用 cron服务做一些事情。用crontab配置是针对某个用户的,而编辑/etc/crontab是针对系统的任务。此文件的文件格式是:

SHELL=/bin/bash
PATH=/sbin:/bin:/usr/sbin:/usr/bin
MAILTO=root      //如果出现错误,或者有数据输出,数据作为邮件发给这个帐号
HOME=/    //使用者运行的路径,这里是根目录
# run-parts
01 * * * * root run-parts /etc/cron.hourly //每小时执行/etc/cron.hourly内的脚本
02 4 * * * root run-parts /etc/cron.daily //每天执行/etc/cron.daily内的脚本
22 4 * * 0 root run-parts /etc/cron.weekly //每星期执行/etc/cron.weekly内的脚本
42 4 1 * * root run-parts /etc/cron.monthly //每月去执行/etc/cron.monthly内的脚本


大家注意"run-parts"这个参数了,如果去掉这个参数的话,后面就可以写要运行的某个脚本名,而不是文件夹名了。

基本格式 :

*  *  *  *  *  command


分 时 日 月 周 命令

第1列表示分钟1~59 每分钟用*或者 */1表示
第2列表示小时1~23(0表示0点)
第3列表示日期1~31
第4列表示月份1~12
第5列标识号星期0~6(0表示星期天)
第6列要运行的命令

crontab文件的一些例子:

30 21 * * * /usr/local/etc/rc.d/lighttpd restart


上面的例子表示每晚的21:30重启lighttpd 。

45 4 1,10,22 * * /usr/local/etc/rc.d/lighttpd restart


上面的例子表示每月1、10、22日的4 : 45重启lighttpd 。

10 1 * * 6,0 /usr/local/etc/rc.d/lighttpd restart


上面的例子表示每周六、周日的1 : 10重启lighttpd 。

0,30 18-23 * * * /usr/local/etc/rc.d/lighttpd restart


上面的例子表示在每天18 : 00至23 : 00之间每隔30分钟重启lighttpd 。

0 23 * * 6 /usr/local/etc/rc.d/lighttpd restart


上面的例子表示每星期六的11 : 00 pm重启lighttpd 。

* */1 * * * /usr/local/etc/rc.d/lighttpd restart


每一小时重启lighttpd

* 23-7/1 * * * /usr/local/etc/rc.d/lighttpd restart


晚上11点到早上7点之间,每隔一小时重启lighttpd

0 11 4 * mon-wed /usr/local/etc/rc.d/lighttpd restart


每月的4号与每周一到周三的11点重启lighttpd

0 4 1 jan * /usr/local/etc/rc.d/lighttpd restart


一月一号的4点重启lighttpd  




赞(0)    操作        顶端 
总帖数
1
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论