Data Domain: Intel Arabirimleri tx_timeout ile bağlantı kesiliyor
Riepilogo: Intel kart arabirim bağlantılarına sahip Data Domains, tx_timeout kurtarma işlemi başarısız olarak kapanabilir, aygıt kurtarılamaz durumdadır.
Sintomi
kern.info'de aşağıdaki hata günlükleri bulunur.
kernel: [13023278.800638][T14886] (E4)irdma: probe of ice.roce.5 failed with error -110
kernel: [13023278.800833][ C9] (E4)ice 0000:ae:00.0 eth8a: tx_timeout: VSI_num: 8, Q 41, NTC: 0x1bd, HW_HEAD: 0x1cb, NTU: 0x1cc, INT: 0x4000000
kernel: [13023278.800834][ C9] (E4)ice 0000:ae:00.0 eth8a: tx_timeout recovery level 1, txqueue 41
kernel: [13022896.344077][ C7] (E4)ice 0000:0b:00.0 eth2a: tx_timeout recovery unsuccessful, device is in unrecoverable state.
kern.info günlüklerini aşağıdaki komutla görüntüleyebilirsiniz:
log view debug/platform/kern.info
Ayrıca platforma gidip yukarıdaki hata günlüklerini grepping kullanarak da destek paketini kontrol edebilirsiniz.
Causa
Intel'de bir sorun var irdma sürücü içinde irdma_wait_pe_ready Işlev. BIOS'ta RDMA devre dışı bırakıldığında, işlev 15 saniyeye kadar sıkma-bekleme gerçekleştirir. Bu uzun süreli döndürme beklemesi, RCU duraklamalarını tetikleyerek bazı CPU'ların TX ve RX kesintilerini işlemek üzere programlanmasını önleyebilir. Bunun sonucunda NIC gönderme ve alma işlemleri zaman aşımına uğrayabilir. Bu sorun, sistemin yeniden başlatılması aşamasında oluşur.
Risoluzione
DDOS 8.4 veya sonraki sürümlere yükseltin.
Düzeltme, dönüş-bekleme süresini 15 saniyeden 1,5 saniyeye düşürerek sorunu ortadan kaldırır.