我们有一个带有8个IQ 12000x节点的Isilon集群,它通过几个NFS共享为少数
Linux和Solaris客户端导出存储.
有一个Linux系统安装了这些NFS文件系统之一. Linux系统对此文件系统的I / O中等.每3-4周(它不是任何可识别的时间表,有时比这更频繁/更少),我们注意到这个NFS挂载上的所有活动都停止了(进程挂起,好像网络停止工作所以进程是陷入不间断的睡眠状态) – 30分钟后,股票恢复并继续正常运转.受影响计算机的内核日志如下:
Dec 3 10:07:29 redacted kernel: [8710020.871993] nfs: server nfs-redacted not responding,still trying Dec 3 10:37:17 redacted kernel: [8711805.966130] nfs: server nfs-redacted OK
相关的/ etc / fstab行:
nfs-redacted:/ifs/nfs/export_data/shared/...redacted... /data nfs defaults 0 0
我已经检查过是否有任何预定的流程,例如cron jobs,Isilon相关功能,例如可能导致这些挂断的快照等,但我似乎找不到任何东西.我也不知道任何可能导致此问题的网络相关问题或维护.每个内核日志的所有锁定持续几乎整整30分钟.
也许有人有一些我可以尝试的建议吗? (我认为软安装可以避免与访问文件系统挂起的进程相关的问题;但是我对可能导致的损坏保持警惕,并且无论如何都不能真正解决潜在的问题).
解决方法
在整个布线拓扑中检查您的MTU值是否正确.如果您的访问层客户端设置为9000,并且它正在通过交换机.确保交换机可以处理更大的MTU大小.