本周早些时候,我的服务器上有一个“完美的风暴”时刻:两个备份作业(系统中每个RAID10阵列一个)一直嗡嗡作响18个小时,然后我的I / O流量持续飙升密集应用.结果是性能低得令人无法接受,我不得不强迫我们的管理员取消备份. (他对此并不高兴……根本不是.“如果……我不负责任.”)
最终的结果是很多压力,不满意的客户,以及一个非常不高兴的斯图.
瓶颈是磁盘利用率.一旦工作被取消,一切都运转正常.我可以向管理员建议减少对服务器的影响吗?
以下是一些血腥的细节:
备份命令本身(我从ps中得到了这个,但实际上并不知道它意味着什么.)
bpbkar -r 1209600 -ru root -dt 0 -to 0 -clnt xtx-le00 -class F_Full_on_Thursday -sched Incr_Fri_to_Wed -st INCR -bpstart_to 300 -bpend_to 300 -read_to 300 -blks_per_buffer 127 -stream_count 8 -stream_number 8 -jobgrpid 223932 -tir -tir_plus -use_otm -use_ofb -b svr_1259183136 -kl 28 -fso
系统
> RHEL4 64位
> 4GB RAM(应用程序使用的一半)
> DL380G5带有两个连接的SAS RAID10分区,约550GB和~825GB
数据
>
1TB
> ~1000万个文件
应用程序
>工作日从0900到2300忙碌
> I / O密集型(99%读取)主要集中在几百MB的文件上