我们有一个运行CentOS 5.8虚拟机的VMware vSphere 5环境.在过去两周内,我们遇到了五个虚拟机事件,这些虚拟机的文件系统已损坏,需要修复fsck.
以下是我们在日志中看到的内容:
Nov 14 14:39:28 hostname kernel: EXT3-fs error (device dm-2): htree_dirblock_to_tree: bad entry in directory #2392098: rec_len is smaller than minimal - offset=0,inode=0,rec_len=0,name_len=0 Nov 14 14:39:28 hostname kernel: Aborting journal on device dm-2. Nov 14 14:39:28 hostname kernel: __journal_remove_journal_head: freeing b_committed_data Nov 14 14:39:28 hostname last message repeated 4 times Nov 14 14:39:28 hostname kernel: ext3_abort called. Nov 14 14:39:28 hostname kernel: EXT3-fs error (device dm-2): ext3_journal_start_sb: Detected aborted journal Nov 14 14:39:28 hostname kernel: Remounting filesystem read-only Nov 14 14:39:28 hostname kernel: EXT3-fs error (device dm-2): htree_dirblock_to_tree: bad entry in directory #2392099: rec_len is smaller than minimal - offset=0,name_len=0 Nov 14 14:31:17 hostname ntpd[3041]: synchronized to 194.238.48.2,stratum 2 Nov 14 15:00:40 hostname kernel: EXT3-fs error (device dm-2): htree_dirblock_to_tree: bad entry in directory #2162743: rec_len is smaller than minimal - offset=0,name_len=0 Nov 14 15:13:17 hostname kernel: __journal_remove_journal_head: freeing b_committed_data
当我们从另一台服务器rsync’ing应用程序数据时,问题似乎发生了.到目前为止,我们无法重现问题或找出根本原因.
在我们让一些服务器出现此问题之后,我们假设模板存在问题,因此我们从模板中删除了所有VM的克隆,销毁模板,并从头开始构建新模板,从新下载的CentOS安装ISO.
我们将HP EVA SAN用于数据存储,并在第一个问题之后从4400移至6300.自移动和重建新虚拟机以来,我们已经两次看到这个问题.在一台虚拟机上,我们关闭了服务器,删除了两个虚拟cpu,并再次启动它,问题几乎立即出现.在另一台虚拟机上,我们重启了它,问题发生在半小时后.
任何提示或指示正确的方向将不胜感激.
有关HP EVA的KB,特别是如果您使用Round Robin PSP.首先,您应该检查vmkernel.log以检查存储错误.
Relevant KB entry (pdf)
原文链接:https://www.f2er.com/centos/373565.htmlRelevant KB entry (pdf)
为了优化EVA阵列性能,HP建议将默认循环负载平衡IOPS值更改为1.必须在ESX4.x上使用以下命令对每个虚拟磁盘执行此更新:
esxcli nmp roundrobin setconfig -t iops -I 1 -d naa.xxxxxxxxx
对于ESXi5:
for i in `esxcli storage nmp device list | grep naa.600` ; do esxcli storage nmp psp roundrobin deviceconfig set -t iops –I 1 -device $i; done