VxRail: Systém vCenter zobrazuje varování „High pnic rx generic error rate detected“ nebo „High pNic error rate detected“
Summary: Nástroj vCenter zobrazuje varovné zprávy, jako například „Warning: High pnic rx generic error rate detected on vmnicX“, „High pNic error rate detected, Check the host's vSAN performance view for details“ ...
Symptoms
U této zprávy existují dva různé problémy, ke kterým je třeba přistupovat odlišně.
Problém 1:
Webový klient vCenter zobrazuje níže uvedenou zprávu pro více hostitelů. Karta vmnic ve výstraze může být jakákoli karta vmnic, které hostitelé připojují k síti.
**To se liší od problému 2 (zmíněného v následujícím textu). Karta vmnic ve výstraze u problému 2 je pouze aktivní a (nebo) pohotovostní karta vmnic sítě vSAN.**
Warning: High pnic rx generic error rate detected on vmnicX.
Při spuštění následujícího příkazu na hostiteli ESXi se uživatelům zobrazí velké množství chyb délky rx (příjmu) a počet chyb se neustále zvětšuje. Tím se spustí varování.
(nahraďte „X“ správným číslem karty vmnic)
esxcli network nic stats get -n vmnicX vmnic0 Packets received: 2611289 Receive length errors: 279662 Multicast packets received: 529478 Broadcast packets received: 512315 vmnic1 packets received: 5812398 Receive length errors: 279518 Multicast packets received: 538956 Broadcast packets received: 427913
Všechny karty vmnic v hostiteli mají téměř identické počty "Receive length error" . To znamená, že "Multicast packets received" nebo "Broadcast packets received" přispěje k "Receive length errors."
**Pakety multicast jsou zaplaveny ve stejné síti VLAN jako obvykle pakety broadcast.
Můžeme vypočítat poměr přijatých chyb délky a paketů broadcast, nebo poměr přijatých chyb délky a paketů multicast. Poté je porovnejte s ostatními uzly.
Dokonce i na různých uzlech je procento přijatých chyb délky způsobené vysíláním multicast nebo broadcast téměř stejné.**
Pokud chcete vyřešit problém 1, zachyťte pakety na kartě vmnic:
- Připojte se k uzlu pomocí SSH
- Spusťte příkaz níže: (nahraďte část „
vmnicX“ kartou vmnic, která obdržela chybu délky)pktcap-uw --uplink vmnicX --dir 2 -o /tmp/lengtherror.pcap
- Zachyťte chybové pakety uplinku a zastavte proces pomocí kláves CTRL+C.
- Stáhněte si soubor .pcap na místní počítač a otevřete ho pomocí nástroje Wireshark.
- Pro pakety broadcast použijte filtr:
ip.addr == 255.255.255.255 - Pro pakety multicast použijte filtr:
eth.dst == ff:ff:ff:ff:ff:ff - Pokuste se najít „Malformed Packet“ z výsledku filtru.
- Občas tento filtr funguje (pouze u verze Wireshark 4.0.12):
((eth.len != frame.len - 14) || eth.len != frame.len - 18)

Problém 2:
Výstraha je pojmenována.
High pNic error rate detected Check the host's vSAN performance view for details.
Když uživatel zkontroluje zobrazení výkonu vSAN hostitele, může zjistit, že kartou vmnic zmíněnou ve výstraze je vždy aktivní karta nebo (a) pohotovostní karta vmnic provozu vSAN.
A většinu času je karta vmnic pohotovostní kartou sítě vSAN.
Tato výstraha je součástí systému vSphere 7.0U2.
Viz: https://knowledge.broadcom.com/external/article/312096/alarm-about-high-pnic-error-rate-being-d.html
V následující tabulce jsou uvedeny metriky pro karty pNIC používané v síti vSAN, které jsou monitorovány, a jejich prahové hodnoty výstrah:
Tyto typy chyb mohou ovlivnit výkon sítě vSAN.
Cause
Problém 1:
V tomto případě zachytávání paketů ukazuje, že řadič Cisco Access Point (AP) odesílá pakety CAPWAP-Control.
Nástroj Wireshark je označí jako poškozený paket.
Systém ESXi obvykle nedokáže zpracovat ani tento typ balíčku.
Pokud nástroj Wireshark během analýzy narazí na paket, který neodpovídá očekávané struktuře protokolu, označí paket jako „Malformed“. To obvykle znamená, že paket mohl být poškozen během přenosu nebo představuje neobvyklou či nesprávnou implementaci protokolu.
Následující filtr může poskytnout jiný typ výstupu (protože délka rámce není podporována) a může také způsobit "received length error."
Není však přesný, takže před odesláním reportu zákazníkovi je nutné provést další analýzu výstupu tohoto filtru.((eth.len != frame.len - 14) || eth.len != frame.len - 18)
Problém 2:
Společnost VMware zavedla tuto výstrahu, aby monitorovala chyby, které mohou ovlivnit výkon sítě vSAN.
Když procento chyb dosáhne určité hodnoty, spustí se výstraha, která uživateli sdělí, že výkon sítě vSAN vyžaduje pozornost.
Zjistili jsme však, že algoritmus pro spouštění výstrahy může mít problémy. Při výpočtu poměru chybových paketů se používá počet datových paketů v krátkodobém horizontu a celkový počet chybových paketů.
Takže ve většině případů je chybové zařízení vmnic vždy pohotovostním zařízením vmnic sítě vSAN, protože je na něm menší provoz.
Resolution
Problém 1:
- V případě problému 1 byl zdrojovou IP adresou řadič přístupového bodu Cisco připojený k síti VLAN 1.
- Zkontrolujte nastavení vDS clusteru VxRail a ujistěte se, že neprobíhá žádný provoz pomocí sítě VLAN 1.
- Odeberte síť VLAN 1 z portů přepínačů TOR, které jsou připojené k hostitelům VxRail.
- Pokud není v síti VLAN 1, postupujte stejným způsobem a odeberte síť VLAN z portů přepínače.
- Pokud síť VLAN přenáší provoz clusteru, nelze síť VLAN z portů přepínače odebrat. Uživatel může změnit návrh sítě, aby izoloval provoz, který způsobil přijatou chybu délky, z clusteru VxRail.
Problém 2:
K dispozici je několik scénářů, jak tento typ problému vyřešit.
- Kartou vmnic, která hlásí chybu, je pohotovostní karta vmnic sítě vSAN a počet chybových paketů pomalu narůstá.
Jedná se o falešnou výstrahu způsobenou algoritmem, který nemá vliv na výkon sítě vSAN. Zákazníkům můžeme doporučit, aby tuto výstrahu ignorovali, i když se čas od času znovu objeví.
- Kartou, která hlásí chybu, je aktivní karta vmnic sítě vSAN nebo pohotovostní karta vmnic, ale chybové pakety stále narůstají.
Různé typy chyb mají různá řešení, často se setkáváme s výstrahou způsobenou chybou CRC, chybou přijaté délky a přijatým rámcem pozastavení.
-
Přijaté chyby CRC v zařízení vmnic.
Problém s hardwarem obvykle způsobuje chyby CRC. Většinou se týkají kabelu, SFP a síťového adaptéru, a to jak na straně uzlu, tak na straně přepínače.
Postupujte podle pokynů pro odstraňování problémů s hardwarem a určete problém. -
Přijaté chyby délky v zařízení vmnic.
Hlavní příčina je stejná jako u problému 1. V tomto scénáři můžete postupovat podle kroků odstraňování pro problém 1.
-
V zařízení byl přijat rámec pozastavení.
Rámec pozastavení se používá pro řízení toku sítě.
Povolení řízení toku. Nestabilita nebo zahlcení sítě přispívá k nízkému výkonu v systému VxRail a má negativní vliv na operace I/O datového úložiště vSAN.
Řízení toku je funkce přepínače, která pomáhá řídit rychlost přenosu dat, aby nedocházelo k přetečení vyrovnávací paměti.
Společnost VxRail doporučuje řídit tok"receive on" and "transmit off."
Viz https://www.delltechnologies.com/asset/en-us/products/converged-infrastructure/technical-support/h15300-vxrail-network-guide.pdf, strana 88.
Jak zkontrolovat, zda přepínač umožňuje řízení toku?
Vezměme si jako příklad přepínač Dell:
Run the command "show interface ethernet 1/1/1," replacing the switch interface number with the interface connecting the node
Vxrail-S5048-01# show interface ethernet 1/1/1 Ethernet 1/1/1 is up, line protocol is down Pluggable media present, SFP28 type is SFP28 25GBASE-SR-NOF Wavelength is 850 Interface index is 15 Internet address is not set Mode of IPv4 Address Assignment: not set Interface IPv6 oper status: Disabled MTU 1532 bytes, IP MTU 1500 bytes LineSpeed 0, Auto-Negotiation off Configured FEC is cl108-rs, Negotiated FEC is cl108-rs Flowcontrol rx on tx on ----- tx on means that the flow control is transmit on
Jak zakázat přenos řízení toku?
Vxrail-S5048-01# configure terminal vxrail-S5048-01(config)# interface e1/1/1 ----replace the switch interface number Vxrail-S5048-01(conf-if-eth1/1/1)# flowcontrol transmit off
Nakonfigurujte všechna rozhraní přepínačů připojená k virtuálním sítím vSAN jako „transmit off“.
Resetujte výstrahu na zelenou a sledujte, zda se objeví znovu.