设为首页收藏本站language 语言切换
查看: 2276|回复: 11
收起左侧

[求助] 我现在负责维护的外企,核心两个6506 ospf邻居经常会断

[复制链接]
发表于 2017-3-21 11:13:40 | 显示全部楼层 |阅读模式
100鸿鹄币
我现在负责深圳一个外企的网络维护,全思科产品,核心两个6506,下面都是接入的有4507、3560、3550、2960等,总共200台设备左右,用的有vtp、cdp
2016-12-07 核心6506-1所有的ospf邻居断掉,两个核心hsrp连续切换三次,造成整个公司断网10分钟左右,客户也非常生气,之后我和同事一起排查故障,一直到现在都没有找到原因,跟cisco官方开了case,官方说可能是cpu利用率过高引起的,但至于为什么高也找不到原因。无奈之下来到这来求助。


附上几张截图
第一张图片为核心网络拓扑,kszx1013、kszx1014为wan出口交换机,到国外的,归老外管理,SZSWAES01为广域网加速器,可以视为透明。下端还有很多接入交换机与两个核心三角形相连,思科默认的生成树。
第二张图片为核心6506-1日志,标红部分为ospf邻居断开日志,之前也有很多已经被盖掉了。

第三张图片为核心6506-1 cpu利用率,60秒内,60分钟内,72小时内

请专业人士帮忙分析下故障原因及如何排查故障

WAN.jpg 02.JPG 01.JPG

最佳答案

查看完整内容

我在自学华为HCNP RS,思科懂得不多,以我自己的能力分析一下 第二张图显示的错误信息是与6506-2的邻居状态从full到down,原因是router dead interval内没有接收到邻居发来的hello包,导致邻接关系down掉。将近5秒钟以后,邻居关系重新成为full状态。 首先邻居关系可以到达FULL的状态说明hello interval和router dead interval一定是一致的,这个没有问题,但是没有收到hello包就不是设置的问题了,通过看图3,72小时内CPU占用率的 ...
发表于 2017-3-21 11:13:41 | 显示全部楼层
我在自学华为HCNP RS,思科懂得不多,以我自己的能力分析一下
第二张图显示的错误信息是与6506-2的邻居状态从full到down,原因是router dead interval内没有接收到邻居发来的hello包,导致邻接关系down掉。将近5秒钟以后,邻居关系重新成为full状态。
首先邻居关系可以到达FULL的状态说明hello interval和router dead interval一定是一致的,这个没有问题,但是没有收到hello包就不是设置的问题了,通过看图3,72小时内CPU占用率的确过高,长时间出于80以上的负载,甚至有3次到达了100的负载。对于华为的机器而言,我记得是cpu占用过高的时候系统是会暂时停止一部分进程的,有可能是那时候6506-1或者6506-2负载过高,没有发送hello包 或者接受hello包。
按照目前给出的信息也只能看到这些,我的建议是检查有哪些进程占用了大量的cpu资源,这个思科我觉得一定也是有相应的命令的。
知识水平所限,我知道的大量占用cpu的协议只有一个,igmp snooping  不知道环境中是否启用了组播和igmp snooping
华为设备的思路我给你一个链接 http://www.023wg.com/m/?post=292
沙发 2017-3-21 11:13:41 回复 收起回复
回复

使用道具 举报

 楼主| 发表于 2017-3-21 11:24:22 | 显示全部楼层
这是核心的ospf邻居信息
CORE-6506-01#sh ip ospf neighbor

Neighbor ID     Pri   State           Dead Time   Address         Interface
202.1.158.17      1   FULL/BDR        00:00:37    202.1.158.17    Vlan1
10.93.0.7         1   FULL/BDR        00:00:02    10.93.0.73      Vlan915
10.93.0.5         1   FULL/BDR        00:00:02    10.93.0.57      Vlan913
10.93.0.3         1   FULL/BDR        00:00:02    10.93.0.41      Vlan911
57.219.49.98      1   FULL/DROTHER    00:00:02    10.93.254.14    Vlan901
202.1.158.17      1   FULL/BDR        00:00:02    10.93.254.9     Vlan901
138.198.193.149   1   FULL/DROTHER    00:00:02    10.93.254.6     Vlan900
202.1.158.17      1   FULL/BDR        00:00:02    10.93.254.2     Vlan900
CORE-6506-01#telnet 10.93.1.252
Trying 10.93.1.252 ... Open

LDAP username: yong xie
LDAP password:

CORE-6506-02#sh ip ospf neighbor

Neighbor ID     Pri   State           Dead Time   Address         Interface
202.1.158.18      1   FULL/DR         00:00:34    202.1.158.18    Vlan1
57.219.49.98      1   FULL/DROTHER    00:00:02    10.93.254.14    Vlan901
202.1.158.18      1   FULL/DR         00:00:02    10.93.254.10    Vlan901
138.198.193.149   1   FULL/DROTHER    00:00:02    10.93.254.6     Vlan900
202.1.158.18      1   FULL/DR         00:00:02    10.93.254.1     Vlan900
CORE-6506-02#
CORE-6506-02#
CORE-6506-02#
板凳 2017-3-21 11:24:22 回复 收起回复
回复

使用道具 举报

发表于 2017-3-21 13:29:47 | 显示全部楼层
#show process cpu 看下你的4242的进程,你的日志提示你ospf中断,而且是4242进程造成。你可以看下是否这个进程有问题。另外看下你6500板卡是否有故障 show module,65之间的接口是否存在CRC的错误包,光衰是否不正常?

点评

我觉得4242是OSPF的进程号吧。。。  发表于 2017-3-21 20:55
地板 2017-3-21 13:29:47 回复 收起回复
回复

使用道具 举报

发表于 2017-3-21 20:58:47 | 显示全部楼层
TAC也无法解决么,看日志看不出什么。。得debug看看
5# 2017-3-21 20:58:47 回复 收起回复
回复

使用道具 举报

发表于 2017-3-21 21:17:01 | 显示全部楼层
这个你得搬个小凳子, 预计下一次快开始的时候debug 一下 ospf 的信息!!!
6# 2017-3-21 21:17:01 回复 收起回复
回复

使用道具 举报

发表于 2017-3-22 17:43:39 | 显示全部楼层
抓个包看看 ospf邻居建立有问题 可能和参数不匹配有关
7# 2017-3-22 17:43:39 回复 收起回复
回复

使用道具 举报

发表于 2017-3-23 14:41:35 | 显示全部楼层
查看下是不是计时器设置出错了,如果没错的话,在掉的时候查下进程,是不是CPU过载了,ospf是组播,hlleo超时了就会掉。
8# 2017-3-23 14:41:35 回复 收起回复
回复

使用道具 举报

发表于 2017-3-24 13:39:09 | 显示全部楼层
从最基本的开始检查吧,看下互联的光模块有没有CRC错误,在看OSPF的参数,抓包看下,在想下出问题之前的小问题,往往一些小问题可以预见大问题发生。
9# 2017-3-24 13:39:09 回复 收起回复
回复

使用道具 举报

发表于 2017-3-28 16:28:55 | 显示全部楼层
我从原理上帮露珠分析下吧
上面说过了crc有没有错误 实际物理接口有没有down.
有没有非法的logged的记录,有人之前恶意修改了交换机配置导致没有输出接口down的记录或者logged记录

具体down的原因我翻了一下rfc2382里的文档. 直接到down状态只有这3种原因
露珠可以参考下 .毕竟没有debug也没法判断具体原因
KillNbr
这说明现在不可能与该邻居有任何通讯,强制转换邻居状态到Down。
InactivityTimer
非活跃记时器被激活。这说明最近没有从邻居接收到Hello包。强制转换邻居状态到Down。
LLDown
由下层协议说明,邻居不可到达。例如在X.25PDN中,由于适当的原因或诊断会收到X.25clear,以表示邻居关闭。强制转换邻居状态到Down。
10# 2017-3-28 16:28:55 回复 收起回复
回复

使用道具 举报

 楼主| 发表于 2017-8-30 05:52:21 | 显示全部楼层
  找到问题了,是内存满了
11# 2017-8-30 05:52:21 回复 收起回复
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 论坛注册

本版积分规则

QQ|Archiver|手机版|小黑屋|sitemap|鸿鹄论坛 ( 京ICP备14027439号 )  

GMT+8, 2025-6-1 10:57 , Processed in 0.085873 second(s), 30 queries , Redis On.  

  Powered by Discuz!

  © 2001-2025 HH010.COM

快速回复 返回顶部 返回列表