设为首页收藏本站language 语言切换
查看: 2368|回复: 1
收起左侧

[故事之二十一]路由器工作不稳定,自生垃圾太多,通道受阻

[复制链接]
发表于 2009-8-31 19:34:22 | 显示全部楼层 |阅读模式
[症状]今天的“病人”很特殊,是某电力信息部门的主管。称其特殊是是因为该部门主管曾多次打电话要求网络医院为期诊断广域连接的问题,但每次都会在15分钟内来电通知“故障已排除”。询问其排除方法,回答基本上都是“Reset整个系统。由于该用户只安装了一套价格不菲的“网管系统”来管理整个网络,没有配备其它用于网络维护的工具,网络医院为此曾建议专门为其做一次全面的体检,对该信息网络的各个布线系统、网络设备、工作协议、负荷均衡性、负荷能力、错误帧耐受能力等做详细检测,但一直因各种原因未实施。今天的症状还是老毛病:某电厂的信息网络与电力信息中心的网络联系不畅,数据传输速度不稳定,连接时断时续,有所不同的是系统Reset后仍然不起作用。
[诊断过程]该网络下辖9个电厂子网络,一个子网络用X.25连接,8子网络从去年起陆续更换为DDN链路。其中一条专线DDN线路(7#线路)偶尔会出现连接中断的现象,恢复系统时必须将路由器Reset才能重新连接。今天按老经验,故障现象出现时重复以往的操作程序却发现此办法不管用了,系统仍然不能连接。直到我们赶到现场时系统还未能恢复正常。将网络测试仪接入信息中心网络,可以看到与各电厂子网连接的路由器,查看7#路由器工作表,有少许传输延迟错误记录,通道流量30秒记录为7帧,其它线路的30秒记录则从170帧~2700帧不等,明显高于7#线路;对7#子网络做通道测试,最高为2kbps,远低于64kbps的线路最高速率,说明DDN链路传输正常数据的能力很弱。由于该路由器支持的错误识别和统计功能有限,用网管系统不能查看更详细的统计信息,故改用F69x流量分析仪串入WAN通道进行测试,发现少量未定义帧类型,其记录标识不稳定。也就是说,通道上有一些是网络不需要的且不稳定的比特流。这些比特流不便于分类,流量不稳定,时高时低,表明网络可能存在“垃圾”,且比较象窜入系统的干扰信号。这些垃圾严重影响正常数据的交换和传输。
为了验证其影响程度,我们用F683网络测试仪向远端子网络作ICMP Ping测试,损失率为10%,不算高,作ICMP Monitor测试,目标不可达50%,重定向20%,拥塞85%,这说明路由通道存在很严重的问题。从中心网络的主网段检测没有发现网络上有干扰比特流,测试为7#路由器供电的UPS输入输出电源谐波含量,显示正常,由此基本上可以排除垃圾比特来自于网外窜入干扰比特的可能性。将其它路由器与7#路由器掉换,重新设置后启动系统,故障依旧。由于垃圾比特数量少,不可能引发网络通道传输速率性能大幅度降低,因此推断“垃圾比特”极有可能是来自于专线DDN链路或远端子网络的路由器。本地信息中心没有配备测试DDN链路的工具,在没有足够证据怀疑就是DDN链路的问题(DDN链路系租用的电信线路)的时候,我们只能先从远端子网络查起。远端子网络没有任何网络维护工具,从中心网络的网管系统又看不到远端路由器存在异常数据,我们只能立即启程赶往7#电厂所在地。4小时后,我们抵达目的地并开始测试。先检测7#子网的工作状态,LAN内部数据交换正常,没有垃圾比特流存在。打开路由器工作表,其中的错误数据记录有少量帧延迟数据包,WAN连接数据交换故障现象依旧,网络测试仪测试的通道测试数据基本与中心网络相同。用F69x流量测试仪测试通道流量,发现大量“垃圾比特”,数量为55kbps,其中35%指示数据来自远端路由器。由此可以断定故障是由远端路由器或靠近路由器一段的DDN链路(可能性很小)造成。更换从信息中心带来的备用路由器后,故障消失。
[诊断评点]WAN通道故障可由多种原因造成。一般来讲,通道测试不合格就表明含路由器在内的WAN链路有问题。由于WAN链路可以由多种传输介质及传输协议组成,比如ATM、DDN、ISDN、Frame Relay、SDH等等,所以针对不同链路类型严格地讲要用专门的测试工具进行测试。
但因为一般用户都不配备WAN测试工具(部分集成商有相应配置),所以用户或系统集成商只能先用排除法首先确定是否是路由器(含路由器)以内的网络问题,然后,才能向WAN链路运营商提出检查服务通道的要求。本故障是由远端路由器故障造成,路由器除了传送正常数据外还向WAN链路方向发送大量垃圾比特,从而占用通道流量,严重影响正常数据传输。早期路由器工作虽然不稳定,但每次故障时间不长,所以在“15分钟”内故障能自愈(此类故障我们称其为软故障)。本次故障由软故障转变为不能自愈的“硬故障”,反而为排除故障提供了有利条件。由于多数数据被DDN专线链路给“过滤”掉了,且远端路由器对错误数据的统计识别功能有限,所以从信息中心观测到的垃圾比特比较少,观察远端路由器也不能发现详细的错误统计。但ICMP Ping测试、ICMP Monitor等测试错误数据较大,与远端测试数据基本相等,同时从远端测试到的垃圾比特流很大(F69x流量分析仪+F68x网络测试仪组合”具有极强的检测功能,支持完整的错误识别和统计功能,这也是为什么我们认为DDN链路出故障的可能性小的原因),所以断定故障出在远端路由器。
其实,如果远端子网络配备有合适的测试工具的话,本故障在很短的时间内就可以排除。
[诊断建议]工欲善其事,必先利其器。大型网络配置一些备用网络设备是必要的,还需要按网络规模和使用级别、维护人员的技术等级配备相应的维护工具,并建立一整套测试维护的方案和规定,这样才能保证网络的可靠性,并保证能及时处理各种网络故障。
因为一般的网络设备都具备部分网管功能,能统计并识别30%~40%左右的网络错误和故障信息,所以,有时这给人一种错觉:认为只要具备网管功能,就能发现网络的一切故障。其实,进一步的性能测试需要专用工具,要求这类工具不光能识别各种正常的工作协议,还要能识别形形色色的“网上垃圾”。一般来讲,除了配备相应的LAN测试工具外,由于WAN链路的测试维护由WAN链路运营商(比如电信公司)负责,但网络用户和系统集成商也需要配备一定数量的WAN测试工具以备性能评测、故障救急以及定期测试的需要。
[后记]两天后“病人”来电告知,经过对电路板的测试,发现路由器供电直流电压不稳,进一步测试发现稳压电源IC工作电压不稳定,温度很高,更换IC后路由器恢复正常。
发表于 2009-9-21 22:17:06 | 显示全部楼层
呵呵
沙发 2009-9-21 22:17:06 回复 收起回复
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 论坛注册

本版积分规则

QQ|Archiver|手机版|小黑屋|sitemap|鸿鹄论坛 ( 京ICP备14027439号 )  

GMT+8, 2025-4-27 12:42 , Processed in 0.058460 second(s), 25 queries , Redis On.  

  Powered by Discuz!

  © 2001-2025 HH010.COM

快速回复 返回顶部 返回列表