Linuxカーネルのバグが原因でPowerFlex SDSパニックが発生する

Summary: この問題は、インテルHaswell CPUにのみ影響します SDSパニック 単一のSDSパニックによるデータ欠損(DU) 長時間のI/Oサービスが原因でSDC I/O障害が発生しています。 Linuxカーネルのバグ

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

シナリオ

  • インテル・ハスウェルCPUが使用されています。
  • SDSの1つが「データ縮退」状態を報告し、明確な理由もなくSDCのボリュームへの接続が失われました
  • SDSパニック
     

現象

  • ScaleIOシステム イベント レポート「data degraded」:
ScaleIO system events report "data degraded":
205466 2015-12-10 08:11:49.450 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
205468 2015-12-10 08:12:04.688 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
205470 2015-12-10 08:12:06.699 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
205472 2015-12-10 08:12:16.931 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.

SDS exp.0:

10/12 02:13:14.134144 Panic in file /emc/svc_flashbld/workspace/ScaleIO-SLES12/src/tgt/ioh/ioh.c, line 70, function iohIo_TimerExpired, PID 22333.Panic Expression !(1).
/opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosDbg_BackTrace+0x22) [0x479ba9]
/opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosDbg_Panic+0xf0) [0x4740ad]
/opt/emc/scaleio/sds/bin/sds-1.32.3455.5(iohIo_TimerExpired+0x5d) [0x43d92d]
/opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosTimerQ_PollUnlocked+0x1b4) [0x46f6e3]
/opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosTimer_PollQRange+0x83) [0x46fa6c]
/opt/emc/scaleio/sds/bin/sds-1.32.3455.5(netPoll_StartIntr+0x2ef) [0x465808]
/opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosUmt_StartFunc+0xbe) [0x47f07d]
/opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosUmt_SignalHandler+0x4a) [0x47fa3a]

 

問題

  • データ使用不可
  • SDCがボリュームへの接続を失いました。
  • I/O障害
  • 長時間のI/Oサービス/パフォーマンスの低下

Cause

Linuxカーネルのバグにより、SDSプロセスが異常な動作をしました。この状態が原因で、SDSプロセスにストレスがかかり、動作が予測不能になりました
キープ アライブ リクエストに応答している間、SDSは完全には機能しておらず、SDC I/O要求に応答していませんでした。
このような状況では、ScaleIOがSDSを障害発生とマークできず、最終的にデータが使用不可になりました。

 

  • Linuxカーネルのバグ情報:
    フューテックス: REQUEUE_PI とタスク終了の間の競合状態を修正しました (bcn #851603 (futex スケーラビリティ シリーズ)。
    フューテックス: get_futex_key_refs() が常に障壁を意味するようにします (bcn #851603 (futex scalability series))。
     
  • 詳細については、次のリンクを参照してください。
    SUSE:SUSE-SU-2015:0068-1
    Red Hat: Red Hat Linuxの深刻なバグがHaswellベースのサーバに影響 - InfoQ

Resolution

対策

  • Linuxカーネルのバージョンをアップグレードします。

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000281636
Article Type: Solution
Last Modified: 06 Feb 2025
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.