我们的新服务器运行几个月已基本正常.然而,两次,它没有明显的原因关闭自己.
最近一次发生在几天前的晚上11:41.事件日志没有显示任何不良内容,最后一个条目是安全日志中相当普通的审计条目. UPS日志显示没有电源问题.没有什么特别是在运行,因为它是在下班后.当然除了夜间备份,从晚上10点开始.备份日志也没有显示任何有趣的内容,只是在备份过程中停止.虽然服务器配置为编写内核转储并重新启动,但没有内存转储,系统也没有重新启动.这是HP Proliant ML330 G6系列服务器.
第二天早上手动重新启动服务器时,记录了以下事件:
Log Name: System Source: EventLog Date: 4/16/2011 8:20:22 AM Event ID: 6008 Task Category: None Level: Error Keywords: Classic User: N/A Computer: XXXXXXXX.xxxxxxxxxxxxxxxx.local Description: The prevIoUs system shutdown at 11:41:26 PM on 4/15/2011 was unexpected.
和
Log Name: System Source: Microsoft-Windows-Kernel-Power Date: 4/16/2011 8:20:00 AM Event ID: 41 Task Category: (63) Level: Critical Keywords: (2) User: SYSTEM Computer: XXXXXXXX.xxxxxxxxxxxxxxxx.local Description: The system has rebooted without cleanly shutting down first. This error could be caused if the system stopped responding,crashed,or lost power unexpectedly.
和
Log Name: System Source: USER32 Date: 4/16/2011 8:22:34 AM Event ID: 1076 Task Category: None Level: Warning Keywords: Classic User: XXXXXXXXXXXXXXX\Administrator Computer: XXXXXXXX.xxxxxxxxxxxxxxxx.local Description: The reason supplied by user XXXXXXXXXXXXXXX\Administrator for the last unexpected shutdown of this computer is: Other Failure: System Unresponsive Reason Code: 0x8000005 Problem ID: Bugcheck String: Comment:
我花了一些时间研究这个并发现很少使用.有人有主意吗?
更新:以下是iLO2日志的相关部分:
305 04/15/2011 23:42:00 Server reset. 306 04/15/2011 23:42:00 Server power removed. 307 04/15/2011 23:42:00 iLO 2 network link down. 308 04/15/2011 23:42:00 iLO 2 network link up at 100 Mbps. 309 04/16/2011 08:17:00 Server power restored.
更新:我增加了页面文件的大小以允许完整的内核转储,所以如果它确实是Windows崩溃,我将能够看到发生了什么 – 下次发生时.
更新:服务器固件已经是最新的.
更新:驱动程序和系统软件有很多可用的更新.我已经安装了大部分,现在我只是等着看问题是否再次发生.
更新2018年6月06日:经过六年无故障运行后,这个问题又回来了,在过去一周左右发生了两次.我正在研究前面板及其接线是否有故障的可能性.
它很可能是一个故障的电源开关/ LED电缆套件.我的ML310 G5也做了同样的事情,这就解决了这个问题.显然,这是HP的一个已知问题.
459186-001-02 HEWLETT-PACKARD PROLIANT ML310 G5系统前置LED到SYS / BRD电缆P / N:459186-001-02 – HEWLETT-PACKARD ORIGINALS