某电厂生产系统使用cisco3750堆叠交换机作为控制数据的转发交换机。在进行业务试运行时发现堆叠交换机的member 上联到cisco4500的端口出现数据间歇性转发的问题:从网管系统上看到该端口每10秒集中转发一次数据,而10秒空闲内没有任何数据包转发,10秒后将10秒内累积的所有数据包一次性转发,形成了明显的波状数据流。 网管人员登录到该交换机,查看该端口后发现该端口的进出流量数据包统计确实是每10秒钟统计一次。而电厂网管人员反映这种情况导致了其中一些处理交互数据的程控机的死机,导致一些业务的运行出现问题,必须尽快解决。
问题思考 电厂网管人员认为数据处理的程控机死机是因为这种间歇性转发造成的。10秒的流量积累下来,进行短时间内的瞬时转发,使得程控机无法处理大量的数据而造成死机。而管理人员确认,他们的数据交换应该是平滑的,每秒都会有数据,而且每秒钟的数据都相差不大,不会出现这种10秒的波峰现象。那么根据反映我们可以初步判断这个可能是一个IOS BUG。那么究竟是不是BUG呢,我们可以使用抓包来验证。看下数据包的流出和流入情况。
抓包验证 12/6日下午,在该电厂生产网络针对3750堆叠问题进行抓包分析。镜像3750 member的上联到cisco4500的端口。镜像采用全镜像,RX,TX三种方式进行抓包。 首先在转发正常的master进行抓包,看其通信数据转发情况。抓包5分钟后,我们发现master的转发比较平滑,没有出现转发的中断和流量突发,如图为科来回溯分析系统看到的流量趋势图:
|