VxRail:MTU 檢查 (以大型封包執行 ping)
Summary: 本文說明當 MTU 檢查 (以大型封包執行 ping) 顯示警告時的故障診斷步驟。
Symptoms
從叢集 -> 監控 -> vSAN
Cause
MTU 檢查 (以大型封包執行 ping) 警告可能來自於交換器與 vSphere 環境間 MTU 不相符。
如果 vmknic 的 MTU 為 9000,然後實體交換器強制執行 MTU 為 1500,可能會造成故障。這是因為源不會對數據包進行分段,並且物理交換機會丟棄數據包。
已知故障的網路硬體 (節點 sfp、網路卡、纜線、交換器連接埠/sfp) 也會觸發 MTU 檢查 (以大型封包執行 ping) 警告。
Resolution
疑難排解步驟:
-
檢查機架頂端交換器和所有 vSphere 元件上的 MTU 大小;DVS、vmks、vmnic。
如果未發現 MTU 大小有問題,請前往步驟 2。 -
檢查交換器連接埠、ESXi 或兩者是否有 crc 錯誤。
如需此執行狀況檢查測試的詳細資訊,請參閱 https://kb.vmware.com/kb/2108285。
檢查 MTU 設定:
根據交換器廠商說明文件檢查機架頂端交換器 MTU 設定。
檢查 vSphere MTU 設定:
檢查 MTU 警告訊息中提及之節點/連接埠群組的 MTU 設定:
[vxrail@vxnode03:~] esxcfg-vmknic -l | grep vmk2 vmk2 16384 IPv4 192.168.121.3 255.255.255.0 192.168.121.255 00:50:56:6f:e3:c9 1500 65535 true STATIC defaultTcpipStack vmk2 16384 IPv6 fe80::250:56ff:fe6f:e3c9 64 00:50:56:6f:e3:c9 1500 65535 true STATIC, PREFERRED defaultTcpipStack
檢查 DVS 的 MTU 設定:
[vxrail@vxnode03:~] esxcfg-vswitch -l DVS Name Num Ports Used Ports Configured Ports MTU Uplinks VMware HCIA Distributed Switch 4352 9 512 1500 vmnic1,vmnic0 DVPort ID In Use Client 0 1 vmnic0 1 1 vmnic1 2 0 3 0 4101 1 vmk1 8205 1 vmk0 16400 1 vmk2 8208 1 vmk3
檢查 vmnic 上的 MTU:
[vxrail@vxnode03:~] esxcfg-nics -l Name PCI Driver Link Speed Duplex MAC Address MTU Description vmnic0 0000:01:00.0 ixgbe Up 10000Mbps Full 2c:60:0c:af:ee:de 1500 Intel Corporation Ethernet Controller X540-AT2 vmnic1 0000:01:00.1 ixgbe Up 10000Mbps Full 2c:60:0c:af:ee:df 1500 Intel Corporation Ethernet Controller X540-AT2
檢查 crc 錯誤:
如果 MTU 組態看起來正常,請檢查是否有 crc 錯誤。
若要檢查交換器上的 crc 錯誤,請參閱交換器廠商說明文件,以取得適當的命令。
以 Brocade 為例:
sw0# show int stats detail int Ten 2/0/34 Interface TenGigabitEthernet 2/0/34 statistics (ifindex 8993701921) RX TX Packets 7165702349 4603884761 Bytes 8633656075975 2910244530614 Unicasts 7154910149 4565459180 Multicasts 10782937 24109494 Broadcasts 9263 14316087 Errors 0 0 Discards 691 643 Overruns 0 Underruns 0 Runts 0 Jabbers 0 CRC 0 64-byte pkts 0 Over 64-byte pkts 932783488 Over 127-byte pkts 587058087 Over 255-byte pkts 19035776 Over 511-byte pkts 93628206 Over 1023-byte pkts 631386310 Over 1518-byte pkts 4901810482 Mbits/Sec 0.000000 0.000456 Packet/Sec 0 0 Line-rate 0.00% 0.00%
檢查 esx 主機上的 crc 錯誤:
[vxrail@vxnode03:~] esxcli network nic stats get -n vmnic1 NIC statistics for vmnic1 Packets received: 135817879 Packets sent: 82253912 Bytes received: 156239259329 Bytes sent: 53856798358 Receive packets dropped: 0 Transmit packets dropped: 0 Multicast packets received: 637031 Broadcast packets received: 0 Multicast packets sent: 0 Broadcast packets sent: 0 Total receive errors: 32614 Receive length errors: 1866 Receive over errors: 0 Receive CRC errors: 32596 Receive frame errors: 0 Receive FIFO errors: 0 Receive missed errors: 0 Total transmit errors: 0 Transmit aborted errors: 0 Transmit carrier errors: 0 Transmit FIFO errors: 0 Transmit heartbeat errors: 0 Transmit window errors: 0
如果發現crc錯誤,請每隔幾秒鐘刷新(重新運行)命令,以查看crc錯誤是否增加。
如果是,請前往網路硬體 (節點 sfp、網路線、交換器 sfp/連接埠等) 進行故障診斷,將問題隔離至特定元件並更換故障元件。
更換故障元件後,請每隔幾秒執行上述命令,以確認 crc 錯誤不再增加。
esx 上的 crc 錯誤計數器會透過重新開機清除,因此,儘管現有的錯誤可能仍然存在,但重要的是它們會停止增加。
問題解決後,請重新執行 vSAN 執行狀況檢查測試,確認不再出現 MTU 檢查 (以大型封包執行 ping) 警告。