概述
概述 随着IBM主机系统的大规模应用,IBM主机的巡检工作显得十分重要。以下操作文档可以指导相关人员进行巡检。检查前注意事项工程师在进行检查前请注意以下几点:1. IBM主机系统的检查工作必须在所有的IBM系统上做。2. 本文中所述的任一检查不符合要求,即表明主机系统存在安全隐患。3. 本文只列出了检查的主要步骤,若实际检查结果与本文中的结果不一致时,本文中并没有提出可行的解决方案。若有这样的情况发生请报IBM Call center(800-8101818)系统。警告以下操作应在业务相对比较空闲的时候执行,否则有影响系统性能的可能性。IBM系统基本状况的检查在本节中主要对IBM主机系统的基本状况进行检查,其中包含:检查机房环境、检查主机外观、检查主机状态灯,液晶板状态、检查操作系统版本、检查操作系统日志、检查root用户的mail、检查文件系统、检查卷组状态、检查交换区、检查网络状况、检查系统DUMP状态、检查NTP状态、检查errdemon进程状态、检查srcmstr进程状态、检查主机端HBA卡通路状态,检查根卷组状态,共十六个部分。检查机房环境IBM P系列主机最佳的工作环境是:温度:10℃–40℃湿度:8%–80%电源:200-240V,50~60Hz(P670除外)接地线电阻:<1欧姆零地电压值:<1V注意1. P670为380V三相电, 所以上述关于电源的环境要求不适用于P670检查主机外观
检查主机有无异常的声音,有无破损的电线,主机的防尘罩是否存在太多的灰尘。如果存在请仔细解决相关的问题。检查主机状态灯、液晶板状态IBM主机在正常的情况下,液晶板应该没有任何显示。设备的故障灯也应该没有点亮。相反如果液晶板有字符显示,或者故障灯亮为橙色,表示主机系统存在告警或者主机系统存在问题。这时需要立即分析和解决这些问题。检查操作系统版本#oslevel –r5100-05在我们系统中AIX的版本为5100-05,如果检查结果不一致说明存在问题。检查操作系统日志#errpt –d H –T PERM上面这个命令应该没有输出,如果存在输出表明系统出现过硬件故障,需要查明原因。#errpt –d S –T PERM上面这个命令应该没有输出,如果存在输出表明系统出现过软件故障,需要查明原因。
检查root用户的email#mail仔细观察这个命令的输出,查看是否存在“Error”、“Fail”、“Waring”等相关错误信息,如存在需要查明原因。检查文件系统#df –kFilesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 8388608 5589352 34% 6481 1% //dev/hd2 2097152 639804 70% 26032 5% /usr/dev/hd9var 2097152 1996544 5% 687 1% /var/dev/hd3 2097152 1694844 20% 367 1% /tmp/dev/hd1 131072 126848 4% 24 1% /home/proc – - – - – /proc/dev/hd10opt 16777216 10229144 40% 80206 2% /opt/dev/arch_vol 807927808 779584644 4% 108 1% /opt/oracle/arch/dev/backup_vol 807927808 685401920 16% 60 1% /opt/oracle/backup/dev/app2_idx_vol 210763776 202153816 5% 21 1% /opt/oracle/app2idx/dev/app2_data_vol 210763776 183327208 14% 27 1% /opt/oracle/app2data/dev/db04_vol 34603008 32717228 6% 26 1% /opt/oracle/db04/dev/db03_vol 34603008 32717228 6% 26 1% /opt/oracle/db03/dev/db02_vol 419430400 409113268 3% 37 1% /opt/oracle/db02/dev/app1_data_vol 843055104 647893736 24% 57 1% /opt/oracle/app1data/dev/app1_idx_vol 843055104 696455008 18% 52 1% /opt/oracle/app1idx请注意上面输出中的%Used列,这个表示文件系统使用率;%Iused列,这个表示I-node的使用率。它们都必须低于85%。如果超过这个值表示文件系统存在问题,需要对文件系统进行扩充或者修改。检查卷组状态#lsvg|lsvg –ilrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 2 2 closed/syncd N/Ahd6 paging 48 48 1 open/syncd N/Ahd8 jfslog 1 2 2 open/syncd N/Ahd4 jfs 64 128 2 open/syncd /hd2 jfs 16 32 2 open/syncd /usrhd9var jfs 16 32 2 open/syncd /varhd3 jfs 16 32 2 open/syncd /tmphd1 jfs 1 2 2 open/syncd /homehd10opt jfs 126 252 2 open/syncd /optlg_dumplv sysdump 16 16 1 open/syncd N/Apaging00 paging 48 48 1 open/syncd N/Aoravg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINTbackup jfs 640 640 1 open/syncd /backupapp1data jfs 360 360 1 open/syncd /opt/oracle/app1dataapp1ind jfs 320 320 1 open/syncd /opt/oracle/app1inddb02 jfs 79 79 1 open/syncd /opt/oracle/db02db03 jfs 4 4 1 open/syncd /opt/oracle/db03db04 jfs 4 4 1 open/syncd /opt/oracle/db04arch jfs 280 280 1 open/syncd /opt/oracle/archapp2data jfs 120 120 1 open/syncd /opt/oracle/app2dataapp2ind jfs 80 80 1 open/syncd /opt/oracle/app2indloglv00 jfslog 1 1 1 open/syncd N/Adatavg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINTdatalv jfs 544 544 2 open/syncd /dataloglv01 jfslog 1 1 1 open/syncd N/A请注意上面输出的LV STATE列,这个表示逻辑卷的状态,不能存在STALE的逻辑卷。如果存在STALE的逻辑卷,则说明系统存在严重的问题,必须立即解决。注意
1. 具体逻辑卷的名字各地可能不同。检查交换区#lsps –aPage Space Physical Volume Volume Group Size %Used Active Auto Typepaging00 hdisk1 rootvg 16384MB 1 yes yes lvhd6 hdisk0 rootvg 16384MB 1 yes yes lv请注意上面输出中的%Used和Active列。%Used表示交换区的使用率,不能超过50%。如果超过说明系统内存严重不足,需要查找原因;Active表示交换区的状态,必须为Yes。检查网络状况#netstat –iName Mtu Network Address Ipkts Ierrs Opkts Oerrs Collen1 1500 link#2 0.2.55.33.df.6 641149290 0 497792381 2 0en1 1500 10.90.1 sz_db1 641149290 0 497792381 2 0en1 1500 10.90.1 vcs_admin 641149290 0 497792381 2 0en1 1500 10.90.1 ipasdb 641149290 0 497792381 2 0en2 1500 link#3 0.2.55.33.c8.5d 300403423 0 43651770 2 0en2 1500 10.90.4 sz_db1_bak 300403423 0 43651770 2 0en2 1500 10.90.4 ipasdb_backup 300403423 0 43651770 2 0lo0 16896 link#1 469268 0 470577 0 0lo0 16896 127 loopback 469268 0 470577 0 0lo0 16896 ::1 469268 0 470577 0 0请注意上面输出中的Ierrs和Oerrs列,分别表示网络输入错误和网络输出错误。Ierrs/Ipkts和Oerrs/Opkts必须<1%。如果不满足表示系统网络存在问题,需要继续查明。检查系统DUMP状态#ls –l /var/adm/ras/vmcore.*ls: 0653-341 The file /var/adm/ras/vmcore.* does not exist.如果在/var/adm/ras下存在vmcore文件说明系统曾经出现过dump。需要将dump包发送到IBM的800热线进行分析。检查NTP状态#ntpq –premote refid st t when poll reach delay offset disp==============================================================================*10.90.1.110 132.232.5.41 3 u 62 64 377 0.31 -0.350 0.14应该存在类似于上面的输出,其中10.90.1.11为NTP server,如果输出其它的内容表示NTP进程存在问题。检查errdemon进程状态#ps -ef|grep errdemon|grep -v greproot 1171532 1 0 Dec 14 – 0:00 /usr/lib/errdemon
应该存在类似于上面的输出,如果没有上面的输出表示这个进程存在问题,需要重新启动。检查srcmstr进程状态#ps -ef|grep srcmstr|grep -v greproot 327856 1 0 Dec 14 – 0:00 /usr/sbin/srcmstr应该存在类似于上面的输出,如果没有上面的输出表示这个进程存在问题,需要重新启动。检查主机端HBA卡通路状态#dlnkmgr view –pathPaths:000010 OnlinePaths:000010PathStatus IO-Count IO-ErrorsOnline 307248273 0PathID PathName DskName iLU ChaPort Status Type IO-Count IO-Errors DNum HDevName000000 08.1D.00000000000000E8.0000 HITACHI .DF600F .5436 0000 0B Online Own 77948474 0 0 dlmfdrv0000001 08.1A.00000000000000E0.0000 HITACHI .DF600F .5436 0000 1B Online Non 0 0 0 dlmfdrv0000002 08.1D.00000000000000E8.0001 HITACHI .DF600F .5436 0001 0B Online Non 0 0 0 dlmfdrv1000003 08.1A.00000000000000E0.0001 HITACHI .DF600F .5436 0001 1B Online Own 98646354 0 0 dlmfdrv1000004 08.1D.00000000000000E8.0002 HITACHI .DF600F .5436 0002 0B Online Own 59536407 0 0 dlmfdrv2000005 08.1A.00000000000000E0.0002 HITACHI .DF600F .5436 0002 1B Online Non 0 0 0 dlmfdrv2000006 08.1A.00000000000000E0.0003 HITACHI .DF600F .5436 0003 1B Online Non 0 0 0 dlmfdrv3000007 08.1D.00000000000000E8.0003 HITACHI .DF600F .5436 0003 0B Online Own 35558506 0 0 dlmfdrv3000008 08.1A.00000000000000E0.0004 HITACHI .DF600F .5436 0004 1B Online Own 35558532 0 0 dlmfdrv4000009 08.1D.00000000000000E8.0004 HITACHI .DF600F .5436 0004 0B Online Non 0 0 0 dlmfdrv4应该存在类似于上面的输出,请注意Status和Type两个列。每一个LUN都应该存在两个通路。两个通路一个为Own,一个为Non,但两个通路都必须为online。如果某个LUN的显示结果不是这样,表示IBM主机的某个HBA卡或者某路光纤或者存储器相关的某个控制器损坏。注意
1. 具体的LUN输出各地可能不同。2. 对于HDS9970或者SE9970,每个LUN的两个通路都应该为Own,否则视为错误。检查根卷组镜像状态
#lsvg -l rootvgLV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 2 2 closed/syncd N/Ahd6 paging 128 128 1 open/syncd N/Ahd8 jfslog 1 2 2 open/syncd N/Ahd4 jfs 64 128 2 open/syncd /hd2 jfs 16 32 2 open/syncd /usrhd9var jfs 16 32 2 open/syncd /varhd3 jfs 16 32 2 open/syncd /tmphd1 jfs 1 2 2 open/syncd /homehd10opt jfs 128 256 2 open/syncd /optlg_dumplv sysdump 24 24 1 open/syncd N/Apaging00 paging 128 128 1 open/syncd N/A请注意LPs、PPs、PVs各列的值,对于每个LV它们应该满足LPs*2=PPs,同时PVs应该等于2(除了hd6、dump lv以及pageing space除外)。IBM系统参数的检查注意1. 以下的检查结果如果存在问题,会严重影响系统的性能。系统资源配置参数#vi /etc/security/limits请核对文件中default段各参数与下面一致:fsize = -1core = 2097151cpu = -1 data = -1rss = -1 stack = -1nofiles = 2000最大并发进程数检查#lsattr -El sys0|grep maxuprocmaxuproc 1024 Maximum number of PROCESSES allowed per user True异步I/O参数的检查
#lsattr -El aio0|grep minserversminservers 100 MINIMUM number of servers True#lsattr -El aio0|grep maxserversmaxservers 200 MAXIMUM number of servers True#lsattr -El aio0|grep maxreqsmaxreqs 8192 Maximum number of REQUESTS True#lsattr -El aio0|grep kprocpriokprocprio 39 Server PRIORITY True
网络参数的检查#cat /etc/rc.net|grep tcp_sendspace/usr/sbin/no -o tcp_sendspace=65536#cat /etc/rc.net|grep tcp_recvspace/usr/sbin/no -o tcp_recvspace=65536内存参数的检查# cat /etc/inittab|grep vmtunevmtune:2:once:/usr/samples/kernel/vmtune -P 20 -p 5IBM系统性能的监测
CPU性能# sar -P ALL 1 4000IX sz_db1 1 5 0033B15E4C00 03/04/0516:19:45 cpu %usr %sys %wio %idle16:19:47 0 0 1 0 991 0 1 0 992 0 0 0 1003 0 0 3 974 16 1 0 835 0 1 0 996 0 0 0 1007 33 1 0 668 0 1 0 999 1 1 0 9810 0 0 16 8411 0 0 0 10012 0 1 0 9913 0 0 0 10014 8 0 0 9215 1 2 0 97……主机系统的idle应该在60%以上,否则应该再仔细查找原因。
内存性能# vmstat 1 4000kthr memory page faults cpu—– ———– ———————— ———— ———–r b avm fre re pi po fr sr cy in sy cs us sy id wa2 1 3883441 253 0 0 0 439 299 0 2899 28048 4389 12 2 81 51 2 3883447 244 0 0 0 221 314 0 2708 26996 2507 5 7 80 80 1 3883447 250 0 0 0 345 586 0 4155 31983 5289 6 3 85 60 0 3883447 244 0 0 0 125 257 0 3108 6518 3530 3 0 94 2请注意pi、po、sr这三项都应该在0左右,否则应该再仔细查找原因。I/O性能# sar -P ALL 1 4000IX sz_db1 1 5 0033B15E4C00 03/04/0516:19:45 cpu %usr %sys %wio %idle16:19:47 0 0 1 0 991 0 1 0 99
2 0 0 0 1003 0 0 3 974 16 1 0 835 0 1 0 996 0 0 0 1007 33 1 0 668 0 1 0 999 1 1 0 9810 0 0 16 8411 0 0 0 10012 0 1 0 9913 0 0 0 10014 8 0 0 9215 1 2 0 97……主机系统的%wio应该在30%以上,否则应该再仔细查找原因。