Chyby klienta SMB po restartování uzlu clusteru
Summary: I když je tento postup normální v clusteru s podporou převzetí služeb při selhání během restartování uzlu, občas se mohou tyto chyby na uzlech clusteru v pravidelných intervalech znovu objevit, a to i poté, co jsou všechny uzly clusteru plně funkční. ...
Symptoms
Chyby klienta SMB po restartování uzlu clusteru
Aktualizace 1. 2. 2018
- Tento problém byl opraven v aktualizované verzi firmwaru a ovladače Mellanox CX4
Cause
Popis problému
V hyperkonvergovaném clusteru implementovaném pomocí uzlů Dell EMC s podporou funkce Přímé prostory úložiště Microsoft s adaptéry Dell EMC PowerEdge R740xd a Mellanox CX4 LX pro přenosy úložiště se mohou při restartování uzlu clusteru v prohlížeči>>>> událostí systému Windows zobrazit chyby klienta SMB (ID události 30803).
I když je tento postup normální v clusteru s podporou převzetí služeb při selhání během restartování uzlu, občas se mohou tyto chyby na uzlech clusteru v pravidelných intervalech znovu objevit, a to i poté, co jsou všechny uzly clusteru plně funkční. Toto chování je způsobeno selháním při vytváření naslouchacích procesů SMB pro každé rozhraní úložiště v uzlu, který se restartoval. Tyto chyby se zobrazí na přeživším uzlu v clusteru, nikoli na uzlu, který se restartoval. Popis chyby označuje server, ke kterému se klient SMB pokouší připojit, a adresa serveru v popisu označuje uzel, který byl právě restartován.
V normálním funkčním stavu uzlů clusteru by se po restartování uzlu při spuštění příkazu netstat –xan měl zobrazit naslouchací proces IPv4 a IPv6 přidružený ke každému rozhraní úložiště v uzlu. Následující výstup netstat.exe byl shromážděn v uzlu se dvěma adaptéry úložiště.
Aktivní připojení NetworkDirect, naslouchací procesy, SharedEndpoints
Režim: Typ IfIndex, Místní adresa, Cizí adresaPID
Kernel 4 Připojení 10.128.100.101:445 10.128.100.100:61476 0
Kernel 4 Connection 10.128.100.101:445 10.128.100.100:62244 0
Kernel 4 Připojení 10.128.100.101:445 10.128.100.100:61988 0
Kernel 4 Připojení 10.128.100.101:445 10.128.100.100:62756 0
Kernel 4 Připojení 10.128.100.101:12541 10.128.100.100:445 0
Kernel 4 Connection 10.128.100.101:12797 10.128.100.100:445 0
Připojení jádra 4 10.128.100.101:14077 10.128.100.100:445 0
Kernel 4 Připojení 10.128.100.101:14333 10.128.100.100:445 0
Kernel 14 Připojení 10.128.100.133:445 10.128.100.132:27454 0
Kernel 14 Připojení 10.128.100.133:445 10.128.100.132:27198 0
Jádro 14 Připojení 10.128.100.133:237510.128.100.132:445 0
Kernel 14 Připojení 10.128.100.133:62535 10.128.100.132:445 0
Kernel 14 Připojení 10.128.100.133:62791 10.128.100.132:445 0
Kernel 14 Připojení 10.128.100.133:64071 10.128.100.132:445 0
Kernel 14 Připojení 10.128.100.133:64327 10.128.100.132:445 0
Kernel 4 Listener [fe80::4cae:cb05:4932:f226%4]:445 NA 0
Kernel 4 Listener 10.128.100.101:445 Není k dispozici 0
Kernel 14 Listener 10.128.100.133:445 Není k dispozici 0
Kernel 14 Listener [fe80::5180:55b6:c0f0:ae8d%14]:445 NA 0
Výpis výstupu 1 – Plně funkční zásobník SMB
Pokud se však v clusteru začnou zobrazovat chyby klienta SMB, nemusí mít restartovaný uzel všechny naslouchací procesy přidružené ke každému rozhraní úložiště v systému.
Aktivní připojení NetworkDirect, naslouchací procesy, SharedEndpoints
Režim: Typ IfIndex, Místní adresa, Cizí adresaPID
Kernel 4 Připojení 10.128.100.101:445 10.128.100.100:61476 0
Kernel 4 Connection 10.128.100.101:445 10.128.100.100:62244 0
Kernel 4 Připojení 10.128.100.101:445 10.128.100.100:61988 0
Kernel 4 Připojení 10.128.100.101:445 10.128.100.100:62756 0
Kernel 4 Připojení 10.128.100.101:12541 10.128.100.100:445 0
Kernel 4 Connection 10.128.100.101:12797 10.128.100.100:445 0
Připojení jádra 4 10.128.100.101:14077 10.128.100.100:445 0
Kernel 4 Připojení 10.128.100.101:14333 10.128.100.100:445 0
Kernel 14 Připojení 10.128.100.133:2375 10.128.100.132:445 0
Kernel 14 Připojení 10.128.100.133:62535 10.128.100.132:445 0
Kernel 14 Připojení 10.128.100.133:62791 10.128.100.132:445 0
Kernel 14 Připojení 10.128.100.133:64071 10.128.100.132:445 0
Kernel 14 Připojení 10.128.100.133:64327 10.128.100.132:445 0
Kernel 4 Listener [fe80::4cae:cb05:4932:f226%4]:445 NA 0
Kernel 4 Listener 10.128.100.101:445 Není k dispozici 0
Výpis výstupu 2 – zásobník SMB postrádající naslouchací proces
Proto ve výše uvedeném příkladu bude mít klient SMB, který se pokouší připojit k indexu rozhraní 14, nakonec za následek zprávy odmítnuté připojení a chyby klienta SMB (ID události 30803) související s RDMA
Důsledky
Síťová architektura Dell EMC Microsoft Ready Node doporučuje dva adaptéry úložiště na každý uzel clusteru. V případě tohoto problému nedojde k narušení funkčnosti clusteru. Adaptér, kterému chybí naslouchací proces, je také možné stále použít k odesílání provozu RDMA. Vzhledem k tomu, že na jednom z adaptérů úložiště není žádný naslouchací proces, nelze provádět zápisy pomocí RDMA. Tento adaptér se vrátí k používání protokolu TCP pro všechny zápisy nebo příjem provozu. To může mít za následek nižší výkon zápisu v závislosti na zatížení. V případě tohoto problému nedochází ke ztrátě dat ani k omezení funkčnosti.
Kde je problém?
To bylo identifikováno jako chyba v ovladači Mellanox CX4 LX WinOF2 verze 1.70 a nižší.
Resolution
Kroky k nápravě
Naslouchací proces SMB lze znovu vytvořit restartováním adaptéru virtuálního úložiště, který nemá po restartování žádný přidružený naslouchací proces SMB. Správný virtuální adaptér pro restart určíte pomocí níže uvedených kroků.
Identifikujte adaptér na základě indexu rozhraní.
Z výstupu příkazu netstat -xan můžete vidět, že pro jeden z adaptérů úložiště chybí naslouchací proces. Index rozhraní chybějícího adaptéru najdete pomocí rutiny Get-NetAdapter .
PS C:\> Get-NetAdapter
Název Rozhraní Popis ifIndex Stav MacAddress LinkSpeed
______________ __ ___________________ ____ ______vEthernet (Storage2) Virtuální ethernetový adaptér Hyper-V #3 14 Up 00-15-5D-09-C4-0210 Gb/s
Virtuální ethernetový adaptér vEthernet (Storage1) Hyper-V #2, 4 Up 00-15-5D-09-C4-0110 Gb/s
vEthernet (správa) Virtuální ethernetový adaptér Hyper-V 10 až 00-15-5D-09-C4-0010 Gb/s
Ethernetové vzdálené zařízení kompatibilní s NDIS 9 není k dispozici 50-9A-4C-A7-F9-DF 0 b/s
NIC2 Intel(R) Ethernet 10G x710 rNDC 6 odpojeno, 24-6E-96-52-CC-A410 Gb/s
Síťové připojení NIC4 Intel(R) i350 Gigabit... 15 Odpojeno 24-6E-96-52-CC-C3 0 bps
Síťové připojení NIC3 Intel(R) i350 Gigabit... #2 8 Odpojeno 24-6E-96-52-CC-C2 0 bps
NIC 1, Intel(R) Ethernet 10G 4P x710/I350 rNDC 13, odpojeno, 24-6E-96-52-CC-A210 Gb/s
SLOT 1 Port 2 Mellanox ConnectX-4 Lx Ethernet Ad... #2 2 až 24-8A-07-59-4C-6910 Gb/s
SLOT 1 Port 1 Ethernetový adaptér Mellanox ConnectX-4 Lx 11 až 24-8A-07-59-4C-6810 Gb/s
Identifikujte a restartujte rozhraní bez přidruženého naslouchání.
Když se podíváte na výstup netstat –xan (zobrazený ve výpisu výstupu 2), můžete vidět, že rozhraní s indexem 14 nemá přidružený žádný naslouchací proces. Z rutiny Get-NetAdapter vidíte, že index rozhraní 14 je virtuální adaptér vEthernet (Storage2).
Poznámka: Tento název síťového adaptéru se může lišit v závislosti na tom, jak jste pojmenovali adaptéry úložiště v operačním systému pro správu.
Nyní můžete restartovat rozhraní s chybějícím naslouchacím procesem.
Restart-NetAdapter –Name 'vEthernet (Storage2)'
Po dokončení tohoto procesu můžete zkontrolovat netstat –xan a ujistit se, že je posluchač vytvořen. This process may take a few minutes. Po vytvoření naslouchacího procesu začnou uzly clusteru normálně komunikovat přes RDMA a v prohlížeči událostí se přestanou zobrazovat nové chyby klienta SMB.