linux – 评估不可纠正的ECC错误和回退方法

我运行的服务器刚刚遇到过我之前没遇到过的错误.它发出一些哔哔声,重新启动,并在启动屏幕(B IOS 显示其徽标并开始列出信息的部分)卡住了错误：

Node0: DRAM uncorrectable ECC Error

Node1: HT Link SYNC Error

硬重置后系统启动正常,还没有报告edac-util上的任何内容.

我的研究告诉我,即使ECC内存和系统处于理想状态,仍然可能出现无法纠正的错误,并且很可能在系统的生命周期中发生错误;一些报告建议至少每年一次或更早.

服务器使用多个ECC模块运行CentOS 6.5.我已经在尝试诊断哪个模块抛出错误,以评估这是一个错误还是宇宙射线等不可避免的结果.

我的研究还表明,当系统像这样停止时,无法写入日志,并且唯一可行的方法是将系统连接到另一个系统,并通过串行端口写出日志.

除了通常的edac-util,memtest,压力测试和预防性替换之外,在解决这个错误时还有什么我应该考虑的吗？

我无法在我搜索的任何CentOS日志中找到任何此崩溃的记录,这与我认为无法将此错误记录到本地磁盘相关.该错误仅在自动重启后由BIOS报告给我.是否建议始终将系统日志写入串行以记录这些类型的错误？

使用单一系统是否可以避免这种故障,或者只能使用昂贵的企业解决方案？

在单个生产服务器的这些故障情况下,我该怎么做才能提供后备措施;例如,生产服务器本身不跨越多台机器,但可以存在后备服务器.

解决方法

嗯,这不是一个完全集成的系统,如HP,Dell或IBM服务器,因此这种故障的监控和报告不会出现或保持一致.

使用我管理的系统,磁盘最常出现故障,其次是RAM,电源,风扇,系统板和cpu.

记忆可能会失败……你无能为力.

见：Is it necessary to burn-in RAM for server-class hardware?

由于您无法真正防止ECC错误和RAM故障,因此请为此做好准备.保留备件.可以物理访问您的系统并维护组件的保修.我绝对不会在环境中引入“预防性替代”.其中一些是你硬件的功能……你有IPMI吗？有时硬件日志会在那里结束.

这是更好的服务器硬件的增值之一.以下是来自HP ProLiant DL580 G4服务器的片段,其中超出了RAM的ECC阈值,然后进入禁用的DIMM ……然后最终服务器崩溃(ASR)并在停用坏DIMM的情况下重新启动自身.

0004 Repaired       22:21  12/01/2008 22:21  12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1,Memory Module 1)

0005 Repaired       20:41  12/06/2008 20:43  12/06/2008 0002
LOG: POST Error: 201-Memory Error Single-bit error occured during memory initialization,Board 1,DIMM 1. Bank containing DIMM(s) has been disabled.

0006 Repaired       21:37  12/06/2008 21:41  12/06/2008 0002
LOG: POST Error: 201-Memory Error Single-bit error occured during memory initialization,DIMM 1. Bank containing DIMM(s) has been disabled.

0007 Repaired       02:58  12/07/2008 02:58  12/07/2008 0001
LOG: POST Error: 201-Memory Error Single-bit error occured during memory initialization,DIMM 1. Bank containing DIMM(s) has been disabled.

0008 Repaired       19:31  12/08/2009 19:31  12/08/2009 0001
LOG: ASR Detected by System ROM

linux – 评估不可纠正的ECC错误和回退方法

解决方法

猜你在找的Linux相关文章