本帖最后由 canglang123 于 2015-11-5 15:57 编辑
【案例】服务器访问系统缓慢,是病!得治! 如何保障集团网络业务应用系统平稳高效运行是网络运维非常重要的工作。PLM系统是一种先进的企业信息化思想,它让人们思考在激烈的市场竞争中,如何用最有效的方式和手段来为企业增加收入和降低成本。
而邮件系统早已成为每个公司信息化系统的核心组成部分,它是整个办公自动化,业务流程的中枢神经。 本文以科来利用回溯分析系统解决PLM和exchange邮件系统访问缓慢为例,说明了科来网络回溯分析技术能够通过网络底层数据包级别的分析找到问题根源,帮助企业节省运营成本,提高工作效率,并为企业网络健康、高效运行提供有力保障。
一、问题描述 集团网络目前有两个业务应用个别用户访问缓慢,分别是PLM系统和内网Exchange邮件系统。 选取10个用户对两个问题应用进行访问测试,通过科来回溯分析系统在核心交换机捕获测试访问的数据包进行协议分析。
二、分析过程 PLM系统访问数据分析 在测试开始之前,我们已经在科来回溯分析系统上定义了PLM系统80端口的应用,能够统计每个客户端访问服务器的网络延时及丢包状况。 从上图中可以看出,XX.XX.23.93的三次握手平均延时比其他客户端大很多,但也只有10ms并不足以引起用户感受缓慢,从客户端到PLM前置服务器的网络延时不大。
10个客户端中XX.XX.23.93和XX.XX.23.28存在一定数量的丢包和重传,尤其是下行方向丢包较多。局域网的丢包率通常在0.1%以下,因此这两个客户端到PLM前置服务器的网络质量存在明显问题。
从用户技术人员反馈来看,XX.XX.23.93的使用者明显感受通过PLM系统上传图片时比较缓慢,其他用户并未感受明显缓慢。因此我们提取了XX.XX.23.93的数据包进行分析,下图为XX.XX.23.93通过FTP上传“TD28-0100000.dwg”图片的TCP会话。
从上图中可以看出一个100KB的文件,上传共用时24秒多,传输效率只有34.233kbps,其中出现了23次数据包重传,丢包率达到了15%。这些都说明网络质量存在问题。对比其同屋XX.XX.23.30上传文件的会话可以明显的看出差异,如下图。 在用户技术人员根据这一现象,从XX.XX.23.93上使用长度为1400的数据包ping PLM服务器也出现了大量超时现象;将该主机接到XX.XX.23.30的网络接口上再ping就未出现丢包。由此,我们可以判断问题原因是XX.XX.23.93到楼层交换机之间的网络线缆或者楼层交换机的网口出现异常。
Exchange邮件发送缓慢问题分析 经过实际测试,XX.XX.23.84通过Outlook发送超过1MB以上的邮件非常缓慢,其他用户比较正常。我们在核心交换上镜像外联端口G 2/21,同时提取XX.XX.23.84以及正常客户端XX.XX.23.58与Exchange服务器AA.AA.10.240的通信会话,通过对比分析查找异常。
首先,我们分析XX.XX.23.84发送某1MB邮件时的TCP会话统计,如下图。 客户机发送1M多的邮件大约用时8分多,其中出现了多打了的客户端分段丢失。如果数据包到达核心交换被捕获后在广域网链路上丢包,回溯分析系统只会统计其重传,而不会统计为客户端丢包,这表明有很多数据包在到达核心交换镜像端口之前就已经丢包,局域网内丢包率达到了15%左右。 上图为XX.XX.23.84每次交互发送数据的状况统计,从中可以看出,由于丢包引起的大量重传和TCP降速,导致发送效率非常低下,发送32KB的数据最长会用时将近2分钟。对比下图XX.XX.23.58的交互数据统计,可以明显看出差距。 由此我们可以得出结论,导致XX.XX.23.84发送Exchange邮件缓慢的主要原因也是其到达核心交换机这一段内部局域网的网络质量问题,导致局域网内大量丢包所引起的。由于时间关系未对具体那段网络质量不好进行排查,建议用户可以通过逐段ping的方式进行排查,由于从统计上看大包丢包情况比较明显,所以ping的时候建议使用“-l 1400”参数测试大包的传输质量。
三、分析结论 根据上述分析过程,基本可以判断应用系统访问缓慢的最主要原因是内部局域网个别链路网络质量不稳定,引起丢包,进而导致应用访问质量下降。
其中XX.XX.23.93访问PLM系统FTP上传文件时产生大量丢包,现已判断为楼层网络线路质量较差(不排除楼层交换机接口异常的情况)导致; XX.XX.23.84访问Exchange邮件系统时上行大量丢包,丢包位置在客户端与局域网核心交换之间。
|