Data Domain: Intel Schnittstellen werden nicht mit tx_timeout verbunden
Riepilogo: Die Schnittstellenverbindung für Data Domains mit Intel Karten kann ausfallen, da tx_timeout Recovery nicht erfolgreich ist, das Gerät befindet sich in einem nicht wiederherstellbaren Zustand. ...
Sintomi
Die folgenden Fehlerprotokolle finden Sie in kern.info.
kernel: [13023278.800638][T14886] (E4)irdma: probe of ice.roce.5 failed with error -110
kernel: [13023278.800833][ C9] (E4)ice 0000:ae:00.0 eth8a: tx_timeout: VSI_num: 8, Q 41, NTC: 0x1bd, HW_HEAD: 0x1cb, NTU: 0x1cc, INT: 0x4000000
kernel: [13023278.800834][ C9] (E4)ice 0000:ae:00.0 eth8a: tx_timeout recovery level 1, txqueue 41
kernel: [13022896.344077][ C7] (E4)ice 0000:0b:00.0 eth2a: tx_timeout recovery unsuccessful, device is in unrecoverable state.
Sie können die kern.info Protokolle mit dem folgenden Befehl anzeigen:
log view debug/platform/kern.info
Sie können auch im Support-Bundle einchecken, indem Sie zur Plattform navigieren und die Fehlerprotokolle oben durchsuchen.
Causa
Es liegt ein Problem mit Intel vor irdma Treiber innerhalb der irdma_wait_pe_ready ausführen. Wenn RDMA im BIOS deaktiviert ist, führt die Funktion eine Spin-Wartezeit von bis zu 15 Sekunden durch. Diese längere Spin-Wartezeit kann RCU-Stillstand auslösen, sodass einige CPUs nicht für die Verarbeitung von TX- und RX-Interrupts eingeplant werden können. Infolgedessen kann es bei Übertragungs- und Empfangsvorgängen der NIC zu einem Timeout kommen. Dieses Problem tritt während der Systemneustartphase auf.
Risoluzione
Führen Sie ein Upgrade auf DDOS 8.4 oder höher durch.
Der Fix reduziert die Spin-Wait-Dauer von 15 auf 1,5 Sekunden, wodurch das Problem behoben wird.