我们最近在我们的网络上建立了一个新的Ubuntu 12.04LTS服务器.它没有完全配置,因此除了sshd和默认的apache2安装之外它没有做太多.但今晚它似乎已经崩溃了.它没有响应网络或键盘.但最糟糕的是,它取消了整个网络.
我对OSI第3层下面的网络堆栈的了解非常有限,所以其余的让我感到困惑.当本机物理连接到网络时,没有其他机器可以连接到外部互联网.当事情被破坏时,运行arp显示我们的网关的IP地址(10.0.1.1)被列为“无效”.从网络中拔出服务器解决了问题,并将其重新插入再次破坏了它.因此,崩溃的服务器将自己宣传为拥有网关的IP地址?
在syslog导致问题的时候,什么都没有.关于如何弄清楚出了什么问题或者我们可以采取哪些措施防止它再次发生的任何想法?我现在对将机器重新放回网络犹豫不决.
****更新****
它再次崩溃了,我跑了tcpdump -penn arp(感谢bahamat!)几分钟然后得到了这个……(删除时间戳和重复的行)
00:1e:65:f8:dc:24 > ff:ff:ff:ff:ff:ff,ethertype ARP (0x0806),length 60: Request who-has 10.0.1.1 tell 10.0.2.191,length 46 00:1e:65:f8:dc:24 > ff:ff:ff:ff:ff:ff,length 60: Request who-has 10.0.1.44 tell 10.0.2.191,length 46 60:d8:19:d4:71:d6 > ff:ff:ff:ff:ff:ff,length 60: Request who-has 10.0.1.1 tell 10.0.2.125,length 46 d4:9a:20:04:e9:78 > ff:ff:ff:ff:ff:ff,length 42: Request who-has 192.168.1.1 tell 192.168.1.100,length 28
****更新2 ****
当网络运行正常时,arping -c4 10.0.1.1会返回:
ARPING 10.0.1.1 60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=0 time=267.982 usec 60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=1 time=422.955 usec 60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=2 time=299.215 usec 60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=3 time=366.926 usec --- 10.0.1.1 statistics --- 4 packets transmitted,4 packets received,0% unanswered (0 extra)
当插入坏服务器时,arping -c4 10.0.1.1返回:
ARPING 10.0.1.1 --- 10.0.1.1 statistics --- 4 packets transmitted,0 packets received,100% unanswered (0 extra)
****背景****
> 10.0.x.x是主要子网.
> 10.0.1.1是主要的互联网网关
> 10.0.1.44是一台打印机
> 10.0.2.*设备都是笔记本电脑/工作站
>我不知道使用192.168.x.x子网的是什么 – 你的猜测至少和我的一样好.工作站上的VM?配置错误的WAP?有人重新分享wifi?一台机器无法使用DHCP?
>违规的ubuntu服务器的MAC地址以cd:80结尾,因此未在转储中列出.它应该DHCP到10.0.3.3
谢谢你的帮助.这个ARP的东西对我来说都是伏都教.数据包只是转到IP地址,对吧?