在6.0.8 Debian服务器(HP ProLiant)冷启动后,ntpd对系统时间造成了严重破坏:相对于通常可靠的参考时间服务器的偏移和抖动不受限制地增长. (请注意,一个双相同的服务器完全没有问题.)在ntpd端修复问题的许多尝试失败之后,我决定尝试重启,一切顺利.
为了调查这个问题,我发现了这种差异,这可以解释我的时钟问题:
root@n1:~# zgrep Detected /var/log/dmesg* /var/log/dmesg:[ 0.004000] Detected 2400.110 MHz processor. /var/log/dmesg.0:[ 0.004000] Detected 2383.579 MHz processor. /var/log/dmesg.1.gz:[ 0.004000] Detected 2400.036 MHz processor. /var/log/dmesg.2.gz:[ 0.004000] Detected 2400.298 MHz processor. /var/log/dmesg.3.gz:[ 0.004000] Detected 2400.165 MHz processor. /var/log/dmesg.4.gz:[ 0.004000] Detected 2400.410 MHz processor.
请注意,在最后一次引导(有问题的引导)中,检测到的cpu频率是一个明确的异常值.在没有异常值的情况下,检测到的频率相对于标称频率的误差和标准偏差是0.15MHz±0.25MHz.对于有问题的启动,我的误差为-16.4 Mhz,大约是预期的100倍.
我的问题:
>这种类型的错误会导致ntp时间规则不稳定/无法使用吗?这是我时钟问题的原因吗?
>这种行为是否是硬件硬件的症状?服务器应该进行hw维护吗?
更新
一些有用的数据:
>内核是2.6.32-5-amd64(Debian 2.6.32-48squeeze4)
> current_clocksource是tsc
> lpj的错误(当然)与cpu频率上的错误一致
上面grep的一些上下文行
[ 0.000000] hpet clockevent registered [ 0.000000] Fast TSC calibration using PIT [ 0.004000] Detected 2400.110 MHz processor. [ 0.000008] Calibrating delay loop (skipped),value calculated using timer frequency.. 4800.22 BogoMIPS (lpj=9600440)
解决方法
我确信自己的问题是错误识别的
time stamp counter(TSC)频率.
显然内核正在针对programmable interval timer(PIT)校准TSC.通常,识别的cpu频率为2400.204±0.134MHz,这相当于约56ppm的精度.在有问题的启动之后,cpu频率估计为2383.579 MHz,这相当于约6900 ppm的误差,ntpd无法补偿.事实上,在功能的第一个10h30m期间,系统时钟增加了大约4m30s,大约是7000ppm.
由于TSC频率中的误差对应于系统时钟的漂移,因此我得出结论,异常时钟行为是由错误的TSC校准引起的.
但是我从未见过这么大的问题:我仍然想知道这个错误校准的可能原因(hw,sw?).