PowerFlex: Problem sprzętowy DIMM powoduje wysokie użycie procesora i odłączenie SDS

Summary: Niektóre problemy z pamięcią (np. problemy z modułami DIMM) mogą powodować burze CMCI, a w efekcie odłączenie SDS. Ten konkretny problem wynikał z tego, że system operacyjny nie reagował prawidłowo na rutynowe powiadomienia pamięci z możliwością korekty. Może się to również zdarzyć, gdy moduł RAM DIMM na serwerze ulegnie awarii, ale inne problemy ze sprzętem mogą potencjalnie spowodować ten sam scenariusz. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

W dziennikach kontrolera iDRAC lub systemu operacyjnego można zaobserwować awarię modułu DIMM, na przykład:
 kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {1}[Hardware Error]: event severity: corrected
 kernel: {1}[Hardware Error]:  Error 0, type: corrected
 kernel: {1}[Hardware Error]:  fru_text: A1
 kernel: {1}[Hardware Error]:   section_type: memory error
 kernel: {1}[Hardware Error]:   error_status: 0x0000000000000400
 kernel: {1}[Hardware Error]:   physical_address: 0x0000000ad6a38ac0
 kernel: {1}[Hardware Error]:   node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
 kernel: {1}[Hardware Error]:   error_type: 13, scrub corrected error
 kernel: {1}[Hardware Error]:   DIMM location: not present. DMI handle: 0x0000
 kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
 kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {2}[Hardware Error]: event severity: corrected
 kernel: {2}[Hardware Error]:  Error 0, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: {2}[Hardware Error]:  Error 1, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
 kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
 kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
 kernel: EDAC skx MC0: ADDR 0xad6a38ac0
 kernel: EDAC skx MC0: MISC 0x0
 kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
 kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
 kernel: mce: [Hardware Error]: Machine check events logged
 mcelog: Hardware event. This is not a software error.
 mcelog: MCE 0
 mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
 mcelog: ADDR ad6a38ac0
 mcelog: TIME 1669993821 Fri Dec  2 15:10:21 2022
 mcelog: MCG status:
 mcelog: MCi status:
 mcelog: Corrected error
 mcelog: Error enabled
 mcelog: MCi_ADDR register valid
 
Wkrótce po wykryciu problemu ze sprzętem zgłaszana jest burza CMCI:
Dec  8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode
Dec  8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode
(...)                
Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode
Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode


Wysokie użycie procesora może spowodować zatrzymanie operacji we/wy przez proces SDS (co wpłynie na ogólne opóźnienie systemu we/wy), a nawet odłączenie serwera SDS od MDM. Jeśli zdarzy się to podczas trwającej odbudowy lub gdy inny serwer SDS ma podobne problemy, może to doprowadzić do sytuacji, w której występuje DU.

Cause

Procesory Intel mogą cierpieć z powodu "burzy przerwań" podczas błędów DIMM. Zgodnie z bazą wiedzy Red Hat:

Począwszy od procesora Intel 64 45 nm, na którym CPUID zgłasza DisplayFamily_DisplayModel jako 06H_1AH, procesor może zgłaszać informacje o poprawionych błędach sprawdzania maszynowego i dostarczać programowalne przerwanie dla oprogramowania, aby reagować na błędy MC, postrzegane jako przerwanie poprawionego błędu sprawdzania maszynowego (CMCI). Sprzęt Intela może dostarczać przerwania, gdy poziom błędów przekroczy programowalny próg. Jeśli błąd będzie się powtarzał, procesor będzie otrzymywał stały napływ lub burzę przerwań z wystarczająco dużą szybkością, aby wpłynąć na zdolność procesora do wykonywania użytecznej pracy. Kiedy tak się stanie, jądro wyłącza mechanizm CMCI i powraca do bardziej klasycznego podejścia polegającego na regularnym odpytywaniu w poszukiwaniu błędów sprawdzania maszynowego. Gdy liczba błędów zmniejszy się, jądro ponownie włączy CMCI.

Więcej informacji na stronie: https://access.redhat.com/solutions/2710451
 

Problem ten może spowodować burzę CMCI, która może być również wywołana przez funkcje systemu operacyjnego i oprogramowanie, które przechwytują naprawialne błędy, zamiast zezwalać na ich przechwytywanie i obsługę przez kontroler iDRAC firmy Dell. Zazwyczaj dzieje się tak, gdy włączone są zarówno funkcje EDAC, jak i CMCI.

 

Resolution

Przełącz serwer SDS w tryb konserwacji i/lub usuń go z klastra, aby zmniejszyć wpływ na cały system.

Skontaktuj się z dostawcą sprzętu w celu sprawdzenia, czy nie występują potencjalne problemy ze sprzętem. Jeśli nie zostanie wykryty żaden problem sprzętowy, szczególnie w przypadku błędów możliwych do naprawienia, należy skontaktować się z dostawcą systemu operacyjnego i poprosić o pomoc w wyłączeniu EDAC i CMCI. 

Additional Information

Wersje, których dotyczy problem

Nie dotyczy — nie jest to problem związany z PowerFlex

Naprawiono w wersji

Nie dotyczy - problem sprzętowy

Affected Products

PowerFlex rack, VxFlex Ready Nodes, ScaleIO
Article Properties
Article Number: 000197735
Article Type: Solution
Last Modified: 08 Apr 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.