今天早上我有一个服务器锁定.这是从控制台拍摄的屏幕截图:
屏幕截图中没有任何消息对我来说意味着什么.我有一种感觉,重要的东西可能会从控制台滚动.在崩溃发生时,我无法在系统日志,消息,dmesg,调试日志或任何记录的任何内容中找到上述屏幕捕获中的任何消息.这些东西不应该被记录下来吗?
这是一个运行Proxmox的Debian盒子. uname输出:
2.6.32-4-pve#1 SMP周一5月9日12:59:57 CEST 2011 x86_64 GNU / Linux
服务器已经上线大约一年没有其他崩溃,它再次启动就好了.
我想知道问题可能是什么,以便我们可以防止它在未来再次发生.但是,根据我迄今为止的证据,我甚至不知道这是硬件还是软件问题.想法?
解决方法
你运行的Debian内核版本究竟是什么?如果你执行“dpkg -l | grep linux-image”,你可以看到完整版和修订版号.
看起来你已经看到了很多次我看过的prevalent bug:在3.2主线之前的内核,2.6.32.50 stable之前和Debian的2.6.32-45之前(基于2.6.32.50稳定),有一个时钟溢出会在~208之后发生正常运行时间,这反过来又可能导致崩溃.我不确切知道在那段时间之后会导致崩溃的原因;补丁本身也是pretty vague about it:
Although we may still have enough bits to store the value of ns,in some cases,we may not have enough bits to store cycles * cyc2ns_scale,leading to an incorrect result.
在确定是什么导致它并且部署了补丁之前,我已经看到了由于这个问题导致的数百次崩溃.
该错误在2011年底的lkml中是discussed at length.可能有链接到this divide by zero bug,但我没有找到任何结论.