Errore irreversibile dell'SDS PowerFlex causato da un bug del kernel Linux
Summary: Il problema riguarda solo la CPU Intel Haswell Errore irreversibile dell SDS Non disponibilità dei dati (DU) causata da un errore irreversibile di un singolo SDS Il servizio I/O lungo causa un errore di I/O dell SDC. Bug del kernel Linux ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Scenario
- Intel Haswell La CPU è in uso.
- Uno degli SDS segnala uno stato "Data degraded" e la perdita della connessione dell SDC ai volumi, senza un motivo evidente
- Errore irreversibile dell SDS
Sintomi
- Gli eventi del sistema ScaleIO segnalano "data degraded":
ScaleIO system events report "data degraded": 205466 2015-12-10 08:11:49.450 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state. 205468 2015-12-10 08:12:04.688 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state. 205470 2015-12-10 08:12:06.699 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state. 205472 2015-12-10 08:12:16.931 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
SDS exp.0:
10/12 02:13:14.134144 Panic in file /emc/svc_flashbld/workspace/ScaleIO-SLES12/src/tgt/ioh/ioh.c, line 70, function iohIo_TimerExpired, PID 22333.Panic Expression !(1). /opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosDbg_BackTrace+0x22) [0x479ba9] /opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosDbg_Panic+0xf0) [0x4740ad] /opt/emc/scaleio/sds/bin/sds-1.32.3455.5(iohIo_TimerExpired+0x5d) [0x43d92d] /opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosTimerQ_PollUnlocked+0x1b4) [0x46f6e3] /opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosTimer_PollQRange+0x83) [0x46fa6c] /opt/emc/scaleio/sds/bin/sds-1.32.3455.5(netPoll_StartIntr+0x2ef) [0x465808] /opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosUmt_StartFunc+0xbe) [0x47f07d] /opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosUmt_SignalHandler+0x4a) [0x47fa3a]
Impatto
- Dati non disponibili
- L SDC ha perso la connessione ai volumi.
- Errore di I/O
- Riduzione delle prestazioni/del servizio di I/O lungo
Cause
A causa del bug del kernel Linux, il processo SDS si comportava in modo anomalo. A causa di questa condizione, il processo SDS era sotto stress e il comportamento era imprevedibile.
Durante la risposta alle richieste di mantenimento attivo, l SDS non era completamente funzionante e non rispondeva alle richieste di I/O dell SDC.
Tale condizione non consentiva a ScaleIO di contrassegnare l SDS come guasto, determinando alla fine la non disponibilità dei dati.
- Informazioni sul bug del kernel Linux:
Futex: Correzione di una condizione di gara tra REQUEUE_PI e la morte dell'attività (bcn #851603 (serie di scalabilità futex).
Futex: Assicurarsi get_futex_key_refs() implica sempre una barriera (bcn #851603 (serie di scalabilità futex)).
- Per ulteriori informazioni, consultare i seguenti link:
Suse:SUSE-SU-2015:0068-1
Red Hat: Un grave bug di Red Hat Linux riguarda i server basati su Haswell - InfoQ
Resolution
Soluzione alternativa
- Aggiornare la versione del kernel Linux.
Affected Products
PowerFlex rack, ScaleIOArticle Properties
Article Number: 000281636
Article Type: Solution
Last Modified: 06 Feb 2025
Version: 1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.