PowerFlex: Problem sprzętowy DIMM powoduje wysokie użycie procesora i odłączenie SDS
Summary: Niektóre problemy z pamięcią (np. problemy z modułami DIMM) mogą powodować burze CMCI, a w efekcie odłączenie SDS. Ten konkretny problem wynikał z tego, że system operacyjny nie reagował prawidłowo na rutynowe powiadomienia pamięci z możliwością korekty. Może się to również zdarzyć, gdy moduł RAM DIMM na serwerze ulegnie awarii, ale inne problemy ze sprzętem mogą potencjalnie spowodować ten sam scenariusz. ...
Symptoms
kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
kernel: {1}[Hardware Error]: event severity: corrected
kernel: {1}[Hardware Error]: Error 0, type: corrected
kernel: {1}[Hardware Error]: fru_text: A1
kernel: {1}[Hardware Error]: section_type: memory error
kernel: {1}[Hardware Error]: error_status: 0x0000000000000400
kernel: {1}[Hardware Error]: physical_address: 0x0000000ad6a38ac0
kernel: {1}[Hardware Error]: node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
kernel: {1}[Hardware Error]: error_type: 13, scrub corrected error
kernel: {1}[Hardware Error]: DIMM location: not present. DMI handle: 0x0000
kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
kernel: {2}[Hardware Error]: event severity: corrected
kernel: {2}[Hardware Error]: Error 0, type: corrected
kernel: {2}[Hardware Error]: section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
kernel: {2}[Hardware Error]: Error 1, type: corrected
kernel: {2}[Hardware Error]: section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
kernel: EDAC skx MC0: ADDR 0xad6a38ac0
kernel: EDAC skx MC0: MISC 0x0
kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 - err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
kernel: mce: [Hardware Error]: Machine check events logged
mcelog: Hardware event. This is not a software error.
mcelog: MCE 0
mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
mcelog: ADDR ad6a38ac0
mcelog: TIME 1669993821 Fri Dec 2 15:10:21 2022
mcelog: MCG status:
mcelog: MCi status:
mcelog: Corrected error
mcelog: Error enabled
mcelog: MCi_ADDR register valid
Dec 8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode Dec 8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode (...) Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode
Wysokie użycie procesora może spowodować zatrzymanie operacji we/wy przez proces SDS (co wpłynie na ogólne opóźnienie systemu we/wy), a nawet odłączenie serwera SDS od MDM. Jeśli zdarzy się to podczas trwającej odbudowy lub gdy inny serwer SDS ma podobne problemy, może to doprowadzić do sytuacji, w której występuje DU.
Cause
Procesory Intel mogą cierpieć z powodu "burzy przerwań" podczas błędów DIMM. Zgodnie z bazą wiedzy Red Hat:
Począwszy od procesora Intel 64 45 nm, na którym CPUID zgłasza DisplayFamily_DisplayModel jako 06H_1AH, procesor może zgłaszać informacje o poprawionych błędach sprawdzania maszynowego i dostarczać programowalne przerwanie dla oprogramowania, aby reagować na błędy MC, postrzegane jako przerwanie poprawionego błędu sprawdzania maszynowego (CMCI). Sprzęt Intela może dostarczać przerwania, gdy poziom błędów przekroczy programowalny próg. Jeśli błąd będzie się powtarzał, procesor będzie otrzymywał stały napływ lub burzę przerwań z wystarczająco dużą szybkością, aby wpłynąć na zdolność procesora do wykonywania użytecznej pracy. Kiedy tak się stanie, jądro wyłącza mechanizm CMCI i powraca do bardziej klasycznego podejścia polegającego na regularnym odpytywaniu w poszukiwaniu błędów sprawdzania maszynowego. Gdy liczba błędów zmniejszy się, jądro ponownie włączy CMCI.
Więcej informacji na stronie: https://access.redhat.com/solutions/2710451
Problem ten może spowodować burzę CMCI, która może być również wywołana przez funkcje systemu operacyjnego i oprogramowanie, które przechwytują naprawialne błędy, zamiast zezwalać na ich przechwytywanie i obsługę przez kontroler iDRAC firmy Dell. Zazwyczaj dzieje się tak, gdy włączone są zarówno funkcje EDAC, jak i CMCI.
Resolution
Przełącz serwer SDS w tryb konserwacji i/lub usuń go z klastra, aby zmniejszyć wpływ na cały system.
Skontaktuj się z dostawcą sprzętu w celu sprawdzenia, czy nie występują potencjalne problemy ze sprzętem. Jeśli nie zostanie wykryty żaden problem sprzętowy, szczególnie w przypadku błędów możliwych do naprawienia, należy skontaktować się z dostawcą systemu operacyjnego i poprosić o pomoc w wyłączeniu EDAC i CMCI.
Additional Information
Wersje, których dotyczy problem
Nie dotyczy — nie jest to problem związany z PowerFlex
Naprawiono w wersji
Nie dotyczy - problem sprzętowy