根据***云机关某单位下属金融办人员反馈,存在某业务无故掉线的现象,因此需要使用npm设备,来对网络状况进行排查,确定某业务掉线时间段是否存在明显的网络异常情况。
测试环境为一台普通windows笔记本电脑,下挂在机关某单位下属金融办单位接入交换机下,并下载同款某业务登录试玩,最大限度模拟金融办现场环境,并且在笔记本终端实时抓取网卡流量,直到某业务掉线现象出现后,停止捕获数据包并记录某业务掉线准确时间点,然后在NPM设备上分析该笔记本终端在某业务掉线时间段的网络情况。
(1) (3-10 20:20)终端数据包分析:
(2) 数据包到达省某单位核心节点状态:
(3) 数据包到达外部云防火墙节点状态:
(4) 数据包进过负载均衡和NAT转换,到达互联网出口状态:
(5) 可以看出,某业务客户端因未知原因产生TCP重传报文,经省某单位核心、外部云防火墙时数量均未发生改变,都是16个,进而到达负载均衡经过NAT转换后到出口,重传报文数量仅剩7个。
(1) (3-11 18:51)终端数据包分析:
(2) 数据包到达省某单位核心节点状态:
(3) 数据包到达外部云防火墙节点状态:
(4) 数据包进过负载均衡和NAT转换,到达互联网出口状态:
(5) 同样可以看出,某业务客户端产生的TCP重传报文,经省某单位核心到外部云防火墙时丢了一个包,而到达负载均衡经过NAT转换后到出口时,重传报文数量仅剩8个。
(1) 具体如上表,分析2条掉线的TCP长流。从某单位核心与外部云防火墙来看,两条流数据指标基本保持一致,经过AC、防DDOS攻击设备、负载均衡后,源地址和源端口发生了改变,ACK确认报文,重传报文与快速重传报文有大量丢包的现象。防DDOS攻击设备和AC都是纯二层转发设备,对于数据传输影响可以忽略。
(2) 针对打某业务掉线的行为,ag可以看到两次掉线的TCP连接保持时长均比较高,例证1为5个小时,例证2为7个小时。
(3) 通过ag在终端发现的现象,导致某业务中断的原因主要为客户端连续两次及两次以上发包均没有收到服务端的回复,从而触发重传模式,因为中间网络存在丢包的现象,导致客户端依旧没有收到服务器端的回复最后执行RST操作,从而导致某业务掉线。
(4) 经过ag与金融办工作人员和ag自己抓包来看,某业务连接断开一般出现在某业务挂机的时间段,且断开的时间节点一般都是在挂机后几个小时以上。因此当网络出现震荡或者延时导致连续丢包时,就会出现连接断开的情况。
(5) 其他应用连接中断分析,ag以HTTP网页访问为例,在模拟某业务业务掉线分析时访问HTTP网页也出现了多次重传无响应导致连接断开的情况,只是当重传断开以后又马上重新建立TCP连接,使得用户没有明显的使用感知。
(6) 丢包重传分析,在NPM上查看丢包情况,对比核心交换机、外部云防火墙上的数据,发现数据基本没变化,但是在经过出口路由器后,发现有报文丢失的情况出现,且占比很大。
(7) 网络时延分析,通过省某单位核心、外部云防火墙、互联网出口三个节点的数据时延趋势分析,在同一时间段,省某单位核心和外部云防火墙时延数据是基本一致的,但是在互联网出口,ag发现时延比前面两个节点高了几乎一倍。
![]() | ![]() |
(8) 负载均衡转发的流量及并发连接分析,可以直接看外部防火墙送到负载均衡的数据,平均值有1.5G,峰值有1.8G,并发连接数达55W条,考虑NAT转换后,对外新产生连接数据也将是55W左右。
(9) 负载均衡设备资源分析,内存8G,利用率67%。
在整个网络拓扑中,负载均衡是三层转发设备,且经过地址转换、负载分流等操作,存在转发延迟、丢包行为,导致某业务在长时间挂机操作中遇到网络震荡、时延抖动造成某业务掉线。