若客户在使用网迅网卡时,出现无法ping通等通信问题时,可参考该文章内容进行排查。
步骤1:检查网卡设备是否能够识别并加载驱动;
1、lspci | grep Eth 使用该命令是否可以查看到网迅网卡设备。
2、lspci -s <pcie slot> -vvv 观察信息是否正确,正常的打印信息会有很多。
3、modinfo ngbe(txgbe) 千兆卡驱动为ngbe,万兆卡驱动为txgbe。查看驱动是否加载成功。
4、dmesg | grep ngbe(txgbe) 检查驱动加载是否存在异常报错。
该过程中如果检查出异常,需要联系网迅技术支持工程师进行排查。
步骤2:查看网口是否link
1、ifconfig 可查看该端口是否由running 字段。
2、ip a 可查看该端口是否有 lower_up 和 state up 字段。
如果无法link,建议网卡自环检查并排查是否是对端设备造成的问题。
步骤3:检查端口IP
1、检查是否配置好端口IP,是否存在路由冲突(同设备下存在同一个网段的两个或多个IP)。
2、当ping不通时,IP是否掉了(需要关闭NetworkManager服务)。
步骤4:丢包查询
1、使用抓包工具查看哪里存在丢包,正常的arp过程是:主机A发送arp请求报文,通过网卡发送出去,到达主机B后,主机B发送arp响应报文,回复到主机A,主机A在拿到主机B的arp响应报文后,将主机B的IP地址和MAC地址记录到主机A的arp表中,并开始通信。用户需要检查该流程中哪里出现了问题,如果中间过了多台交换机,需要检查交换机转发是否正常。
参考案例:
1、X项目某客户将RP1000的两个端口配置为172.16.10.1/24和172.16.10.3/24,对端则为172.16.10.2/24和172.16.10.4/24,客户反馈无法通信,此时由于同一个系统下存在两个同网段IP,导致路由冲突,报文都只能通过一个端口发送出去,就会出现先配置的端口可以通信,而后面的端口无法通信的问题。
2、Y项目中,客户中间过了多台交换机(都为两台交换机做堆叠),并且服务器的两张网卡配置做了跨网卡bond mode1,客户发现在两根网线同时插在网卡上时,会出现网络时通时不通的问题。经过排查发现,交换机上做了聚合,导致交换机只向其中的备口发送报文。在后续断电其中一台交换机测试时,客户又发现类似问题,经过排查,核心交换机再向下一跳交换机发送报文时,由于交换机配置不同,导致报文并没有成功发送到下一跳交换机。
若客户通过如上所述无法解决,需要联系网迅技术支持工程师进行协助排查。