Data Domain. Интерфейсы Intel связаны с tx_timeout
Riepilogo: Каналы интерфейсов Data Domain с платами Intel могут перестать работать, если восстановление tx_timeout не выполнено, устройство находится в невосстановимом состоянии.
Sintomi
В kern.info имеются следующие журналы ошибок.
kernel: [13023278.800638][T14886] (E4)irdma: probe of ice.roce.5 failed with error -110
kernel: [13023278.800833][ C9] (E4)ice 0000:ae:00.0 eth8a: tx_timeout: VSI_num: 8, Q 41, NTC: 0x1bd, HW_HEAD: 0x1cb, NTU: 0x1cc, INT: 0x4000000
kernel: [13023278.800834][ C9] (E4)ice 0000:ae:00.0 eth8a: tx_timeout recovery level 1, txqueue 41
kernel: [13022896.344077][ C7] (E4)ice 0000:0b:00.0 eth2a: tx_timeout recovery unsuccessful, device is in unrecoverable state.
Журналы kern.info можно просмотреть с помощью следующей команды:
log view debug/platform/kern.info
Вы также можете проверить пакет поддержки, перейдя на платформу и сохранив журналы ошибок выше.
Causa
Возникла проблема в Intel irdma driver в irdma_wait_pe_ready Функции. Если RDMA отключена в BIOS, эта функция выполняет режим ожидания отжима в течение 15 секунд. Длительное ожидание отжима может привести к остановке RCU, не позволяя запланировать обработку некоторых ЦП для обработки прерываний TX и RX. В результате время ожидания операций передачи и приема сетевых карт может истекать. Эта проблема возникала на этапе перезагрузки системы;
Risoluzione
Выполните модернизацию до DDOS 8.4 или более поздней версии.
Исправление сокращает продолжительность ожидания вращения с 15 до 1,5 секунд, устраняя проблему.