PowerFlex: Tutti gli SDC disconnessi da SDS vmnic sono stati reimpostati su half-duplex e negoziazione automatica.
Summary: In questo caso, l RCM di VxRack-Flex è stato aggiornato.
Symptoms
Durante l'aggiornamento dell RCM di un VxRack Flex, un server ha perso la comunicazione tra il proprio SDS e tutti gli SDC.
Cause
Per qualche motivo, il duplex e la velocità su vmnic0 sono stati reimpostati su half-duplex e auto-negotiate.
Quando il sistema è stato attivato, Scaleio ha tentato di indirizzare l'I/O su questa scheda di rete e l'operazione continuava a fallire perché Scaleio stava tentando di utilizzare la velocità full duplex e 10000.
Ciò ha causato l'arresto dello switch Cisco sulla porta su cui era attiva vmnic0 poiché lo switch pensava che la porta stesse lampeggiando a causa di un errore di rete.
Di seguito sono riportati alcuni record del vmkernel.log che illustrano il battito d'ali causato da questo scenario:
2019-05-01T15:46:03.721Z cpu26:86039)netschedHClk: NetSchedHClkWatchdogSysWorld:4552: vmnic0: link up event received, device running at 10000 Mbps so setting queue depth to 86460 bytes with expected 1310 bytes/us 2019-05-01T15:46:04.648Z cpu42:85995)netschedHClk: NetSchedHClkWatchdogSysWorld:4364: vmnic0: hclk scheduler instance clean up 2019-05-01T15:46:04.649Z cpu45:85995)netschedHClk: NetSchedHClkDoFlushQueue:3874: vmnic0: dropping 42 packets from queue netsched.pools.persist.default 2019-05-01T15:46:04.649Z cpu45:85995)netschedHClk: NetSchedHClkDoFlushQueue:3874: vmnic0: dropping 501 packets from queue netsched.pools.vm.67108869 2019-05-01T15:46:04.650Z cpu45:85995)netschedHClk: NetSchedHClkDoFlushQueue:3874: vmnic0: dropping 122 packets from queue netsched.pools.persist.mgmt 2019-05-01T15:46:04.653Z cpu45:85995)netschedHClk: NetSchedHClkWatchdogSysWorld:4475: vmnic0: watchdog world (worldID = 85995) exits 2019-05-01T15:46:07.015Z cpu42:66250)ixgben: ixgben_CheckTxHang:1762: vmnic0: false hang detected on TX queue 0 2019-05-01T15:46:12.017Z cpu42:66250)ixgben: ixgben_CheckTxHang:1762: vmnic0: false hang detected on TX queue 0 2019-05-01T15:46:12.649Z cpu38:65725)ixgben: indrv_UplinkReset:1520: indrv_UplinkReset : vmnic0 device reset started 2019-05-01T15:46:12.649Z cpu38:65725)ixgben: indrv_UplinkQuiesceIo:1483: Stopping I/O on vmnic0 2019-05-01T15:46:12.740Z cpu52:66252)ixgben: ixgben_CheckLink:2514: Link is down for device vmnic0 (0x4307f4af4540) 2019-05-01T15:46:12.740Z cpu52:66252)netschedHClk: NetSchedHClkNotify:2908: vmnic0: link down notification 2019-05-01T15:46:12.740Z cpu52:66252)netschedHClk: NetSchedHClkDoFlushQueue:3874: vmnic0: dropping 211 packets from queue netsched.pools.vm.67108869 2019-05-01T15:46:12.740Z cpu38:65725)ixgben: indrv_DeviceReset:2382: Device Resetting vmnic0 2019-05-01T15:46:12.740Z cpu38:65725)ixgben: indrv_Stop:1950: stopping vmnic0 2019-05-01T15:46:13.013Z cpu38:65725)ixgben: indrv_UplinkStartIo:1460: Starting I/O on vmnic0 2019-05-01T15:46:13.130Z cpu38:65725)ixgben: indrv_UplinkReset:1540: indrv_UplinkReset : vmnic0 device reset completed 2019-05-01T15:46:13.177Z cpu52:66252)ixgben: ixgben_CheckLink:2514: Link is up for device vmnic0 (0x4307f4af4540) 2019-05-01T15:46:13.177Z cpu52:66252)netschedHClk: NetSchedHClkNotify:2900: vmnic0: link up notification 2019-05-01T15:46:13.341Z cpu52:66252)ixgben: ixgben_CheckLink:2514: Link is down for device vmnic0 (0x4307f4af4540) 2019-05-01T15:46:13.341Z cpu52:66252)netschedHClk: NetSchedHClkNotify:2908: vmnic0: link down notification 2019-05-01T15:46:13.348Z cpu52:66252)ixgben: ixgben_CheckLink:2514: Link is up for device vmnic0 (0x4307f4af4540) 2019-05-01T15:46:13.348Z cpu52:66252)netschedHClk: NetSchedHClkNotify:2900: vmnic0: link up notification 2019-05-01T15:46:13.573Z cpu52:66252)ixgben: ixgben_CheckLink:2514: Link is down for device vmnic0 (0x4307f4af4540) 2019-05-01T15:46:13.573Z cpu52:66252)netschedHClk: NetSchedHClkNotify:2908: vmnic0: link down notification
Resolution
1) Configurare le impostazioni corrette sulla porta vmnic In questo caso, era full-duplex e 10000 velocità.
2) Far rimbalzare la porta sullo switch Cisco:
Accedere allo switch Cisco proprietario della porta da cui rimbalzare.
Visualizzare tutte le porte sullo switch:
#show interfaces status
Nel nostro caso, questo era lo stato che abbiamo visto che era negativo:
Eth1/2/3 316 eth access down linkFlapErrDisabled auto(D) --
Ora facciamo rimbalzare la porta:
# enable # configure terminal (config)# interface Ethernet 1/2/3 (config-subif)# shutdown (config-subif)# no shutdown (config-subif)# end # show interfaces Ethernet 1/2/3 status
La porta dovrebbe indicare che l'opzione è abilitata e che il problema relativo a SCALEIO si risolve una volta riavviato l'I/O.