我有一个带有CentOS的32GB非ECC RAM专用服务器.
一天一天它在/var/log/kern.log,/ var / log / messages,mysql,apache中随机崩溃而没有任何错误.
cpu / RAM / IO不是特别高也不低.
CentOS是否有任何此类错误记录,可以最终揭示“现在是时候支付ECC了”?
你想要记录什么? CentOS无法知道非ECC内存的
内容已经腐败,因为它不可知;它只能知道记忆的
内容毫无意义,并且因为它发现的任何自我不一致而引起恐慌.这种不一致可能是由于RAM损坏引起的,但它也可能是由内核
错误或其他原因引起的.
确切地知道内存已经腐败的唯一方法是使用明确包含支持检查此类损坏的内存;说来,ECC内存.
编辑:这是一个与你提出的问题完全不同的问题.但我的策略是:在硬件上运行memtest86,看看是否有任何易于捕获的可重复错误,并在服务器上启用远程syslogging(当内核发生混乱时,它通常会停止写入FS但仍然可以从NIC中挤出一条日志消息,看看下次恐慌时记录了什么.