Паніка PowerFlex SDS, викликана помилкою ядра Linux

Summary: Проблема стосується лише процесора Intel Haswell Паніка СДС Недоступність даних (DU), спричинена панікою одного SDS Тривала подача вводу/виводу призводить до виходу з ладу SDC вводу/виводу. Помилка в ядрі Linux ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Сценарій

  • Intel Haswell Використовується центральний процесор.
  • Один із SDS повідомляє про стан «погіршення даних» і втрату зв'язку SDC з обсягами без очевидної причини
  • Паніка СДС
     

Симптоми

  • Звіт про системні події ScaleIO "Дані погіршилися":
ScaleIO system events report "data degraded":
205466 2015-12-10 08:11:49.450 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
205468 2015-12-10 08:12:04.688 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
205470 2015-12-10 08:12:06.699 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
205472 2015-12-10 08:12:16.931 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.

SDS exp.0:

10/12 02:13:14.134144 Panic in file /emc/svc_flashbld/workspace/ScaleIO-SLES12/src/tgt/ioh/ioh.c, line 70, function iohIo_TimerExpired, PID 22333.Panic Expression !(1).
/opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosDbg_BackTrace+0x22) [0x479ba9]
/opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosDbg_Panic+0xf0) [0x4740ad]
/opt/emc/scaleio/sds/bin/sds-1.32.3455.5(iohIo_TimerExpired+0x5d) [0x43d92d]
/opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosTimerQ_PollUnlocked+0x1b4) [0x46f6e3]
/opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosTimer_PollQRange+0x83) [0x46fa6c]
/opt/emc/scaleio/sds/bin/sds-1.32.3455.5(netPoll_StartIntr+0x2ef) [0x465808]
/opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosUmt_StartFunc+0xbe) [0x47f07d]
/opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosUmt_SignalHandler+0x4a) [0x47fa3a]

 

Вплив

  • Дані недоступні
  • SDC втратив зв'язок з томами.
  • Несправність вводу/виводу
  • Тривале обслуговування вводу/виводу/погіршення продуктивності

Cause

Через баг ядра Linux процес SDS поводився ненормально, через цю умову процес SDS перебував у стресі і поведінка була непередбачуваною.
Під час відповідей на запити для підтримки активності, SDS не був повністю функціональним і не відповідав на запити SDC введення-виведення.
Така умова не дозволяла ScaleIO позначити SDS як failed, що в підсумку призвело до недоступності даних.

 

  • Інформація про помилку в ядрі Linux:
    Технологія Futex: Виправлено умову гонки між REQUEUE_PI та смертю завдання (bcn #851603 (серія масштабованості futex).
    Технологія Futex: Переконайтеся, що get_futex_key_refs() завжди має на увазі бар'єр (bcn #851603 (серія масштабованості futex)).
     
  • Для отримання додаткової інформації перейдіть за наступними посиланнями:
    Suse:SUSE-SU-2015:0068-1
    Червоний капелюх: Серйозна помилка Red Hat Linux впливає на сервери на базі Haswell - InfoQ

Resolution

Спосіб вирішення проблеми

  • Оновіть версію ядра Linux.

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000281636
Article Type: Solution
Last Modified: 06 Feb 2025
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.