Data Domain: El enlace de las interfaces de Intel está inactivo con tx_timeout
Riepilogo: Es posible que los Data Domains con enlaces de interfaz de tarjetas Intel queden inactivos con tx_timeout recuperación incorrecta, el dispositivo se encuentra en un estado irrecuperable. ...
Sintomi
Los siguientes registros de errores se encuentran en kern.info.
kernel: [13023278.800638][T14886] (E4)irdma: probe of ice.roce.5 failed with error -110
kernel: [13023278.800833][ C9] (E4)ice 0000:ae:00.0 eth8a: tx_timeout: VSI_num: 8, Q 41, NTC: 0x1bd, HW_HEAD: 0x1cb, NTU: 0x1cc, INT: 0x4000000
kernel: [13023278.800834][ C9] (E4)ice 0000:ae:00.0 eth8a: tx_timeout recovery level 1, txqueue 41
kernel: [13022896.344077][ C7] (E4)ice 0000:0b:00.0 eth2a: tx_timeout recovery unsuccessful, device is in unrecoverable state.
Puede ver los registros de kern.info con el siguiente comando:
log view debug/platform/kern.info
También puede comprobar en el paquete de soporte navegando a la plataforma y haciendo un grep en los registros de errores anteriores.
Causa
Hay un problema en Intel irdma controlador dentro del irdma_wait_pe_ready . Cuando RDMA está deshabilitada en el BIOS, la función realiza una espera de giro de hasta 15 segundos. Esta espera de giro prolongada puede desencadenar estancamientos de la RCU, lo que impide que algunas CPU se programen para manejar interrupciones de transmisión y recepción. Como resultado, se puede agotar el tiempo de espera de las operaciones de transmisión y recepción de NIC. Este problema se producía durante la fase de reinicio del sistema.
Risoluzione
Actualice a DDOS 8.4 o versiones posteriores.
La corrección reduce la duración de la espera de giro de 15 a 1,5 segundos, lo que elimina el problema.