Протоколювання помилок вводу/виводу PowerFlex SDC після втрати з'єднання на одному мережевому адаптері
Summary: SDC може повертати помилки вводу/виводу в програму в разі втрати одного з'єднання NIC у системі з кількома мережевими адаптерами, налаштованими для PowerFlex.
Symptoms
Сценарій
PowerFlex використовує кілька підключень для кожного компонента (наприклад, 2 з'єднання з роллю SDS IP "All" або чотири з'єднання - 2 для "SDS-only" і 2 для "SDC-only").
Проблема проявляється, коли втрачається одне з'єднання (тобто після перезавантаження одного перемикача, вимкнення одного мережевого адаптера тощо).
У всій системі немає DU (DATA_FAILED ємності).
Симптоми
SDC повідомляє про відключення від одного (або декількох) SDS, незважаючи на те, що налаштовано кілька з'єднань:
<6>2021-09-20T06:52:29.617016+00:00 sdc001 kernel: [5965962.215707] bond-glance: link status down for backup interface eth4.2223, disabling it in 1000 ms <6>2021-09-20T06:52:29.628748+00:00 sdc001 kernel: [5965962.227665] bond-glance: link status down for backup interface eth4.2223, disabling it in 1000 ms <3>2021-09-20T06:52:29.628773+00:00 sdc001 kernel: [5965962.227668] bond-glance: invalid new link 1 on slave eth4.2223 <6>2021-09-20T06:52:30.638572+00:00 sdc001 kernel: [5965963.239669] bond-nfs: link status definitely down for interface eth4.2226, disabling it <6>2021-09-20T06:52:30.662562+00:00 sdc001 kernel: [5965963.263771] bond-migration: link status definitely down for interface eth4.2222, disabling it <6>2021-09-20T06:52:30.662585+00:00 sdc001 kernel: [5965963.263774] bond-migration: making interface eth5.2222 the new active one <6>2021-09-20T06:52:30.670568+00:00 sdc001 kernel: [5965963.271749] bond-glance: link status definitely down for interface eth4.2223, disabling it <3>2021-09-20T06:52:32.600563+00:00 sdc001 kernel: [5965965.175504] ScaleIO netCon_IsKaNeeded:3761 :CON 00000000515dfcb3 didn't receive message for 30 iterations. Marking as down <3>2021-09-20T06:52:32.600587+00:00 sdc001 kernel: [5965965.186972] ScaleIO netCon_IsKaNeeded:3761 :CON 0000000030837167 didn't receive message for 30 iterations. Marking as down <3>2021-09-20T06:52:32.646130+00:00 sdc001 kernel: [5965965.251039] ScaleIO netCon_IsKaNeeded:3761 :CON 00000000c6b7b707 didn't receive message for 30 iterations. Marking as down <3>2021-09-20T06:52:32.657522+00:00 sdc001 kernel: [5965965.251092] [5786457902] Disconnected from SDS with ID 2b16b44c00000001 < ======================================================= unexpected (...) <3>2021-09-20T06:52:52.894622+00:00 sdc001: [5965985.494552] ScaleIO mapVolIO_ReportIOErrorIfNeeded:491 :[23145851856] IO-ERROR Type WRITE. comb: 24280000 0332. offsetInComb 1464872. SizeInLB 16. SDS_ID 2b16b44c00000001. Comb Gen 2c3f. Head Gen 2f1c. StartLB c793228. <3>2021-09-20T06:52:52.894624+00:00 sdc001: [5965985.494555] ScaleIO mapVolIO_ReportIOErrorIfNeeded:512 :Vol ID 0x587d75290000000b. Last vol network error status NOT_CONN(4) Reason (ERROR) RC (ERROR) Retry count (20) chan (2)
Вплив
Помилки введення-виведення, що повертаються в додаток.
Cause
Такого роду помилки виникають через якусь неправильну конфігурацію мережі - один з NIC на будь-якому з компонентів (SDS або SDC) може бути поміщений не в той VLAN, взагалі не викликаний, йому призначений неправильний IP і т.д.
У цьому конкретному випадку один з NIC на SDS "2b16b44c00000001" був призначений не тому VLAN, тому фактично зв'язок SDC-SDS відбувався по одному NIC - коли це з'єднання зникало, SDC більше не міг розмовляти з цим SDS. Оскільки використовувалися ролі IP, цей SDS залишався підключеним до MDM та інших SDS замість «SDS-only» IC, тому у MDM не було причин перебудовувати дані.
Resolution
Переконайтеся, що всі компоненти підключені належним чином - використовуйте команди 'netstat' та/або scli (точні команди залежать від версії PowerFlex), щоб перевірити підключення.