Data Domain: Pętla ponownego uruchamiania po aktualizacji kontrolera — brak pamięci i brak procesów możliwych do zabicia
Summary: Po uaktualnieniu kontrolera system uruchamia się ponownie w ciągu 5 minut od włączenia systemu plików (FS). Główną przyczyną jest brak pamięci (OOM), który powoduje panikę jądra. System zgłasza brak pamięci spowodowany nieprawidłowym ustawieniem rejestru. Można go rozwiązać, usuwając system. MEM_HUGETLB=FALSE' i ponowne uruchomienie systemu. ...
Symptoms
Objawy:
- DD uruchamia się ponownie po aktualizacji kontrolera; gdy system plików (FS) jest włączony, DD uruchamia się ponownie w ciągu 5 minut.
- Wyłącz FS, aby zapobiec pętli ponownego uruchamiania (Kernel Panic)
- Komunikaty o awarii jądra znajdują się w dziennikach.
- W dziennikach występują błędy braku pamięci.
- W kern.info: "Kernel panic - not syncing: Brak pamięci i brak procesów, które można zabić"
Kern.info wyświetla komunikat o błędzie "Brak pamięci":
Aug 26 14:45:05 xxxx kernel: [ 1332.027261] (E4)Out of memory: Kill process 4769 (java) score 1 or sacrifice child Aug 26 14:45:05 xxxx kernel: [ 1332.044831] (E4)Out of memory: Kill process 22332 (sms) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.305280] (E4)Out of memory: Kill process 6131 (sms) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.321218] (E4)Out of memory: Kill process 5647 (lwsmd) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.324153] (E4)Out of memory: Kill process 22442 (dd_usm) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.325088] (E4)Out of memory: Kill process 25402 (dd_ha_vol-ha_li) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.326060] (E4)Out of memory: Kill process 22459 (csmd) score 0 or sacrifice child Aug 26 14:45:12 xxxx kernel: [ 1338.519181] (E4)Out of memory: Kill process 6415 (lwsmd) score 0 or sacrifice child Aug 26 14:45:12 xxxx kernel: [ 1338.522521] (E4)Out of memory: Kill process 6412 (sms) score 0 or sacrifice child
Cause
System kontynuuje ponowne uruchamianie po aktualizacji kontrolera (na przykład z DD9300 do DD9900). System plików został wyłączony, aby zapobiec ponownemu uruchomieniu DD w pętli.
Dzienniki jądra pokazują wiele błędów braku pamięci (OOM), które wyzwalają panikę jądra i następujące po nich ponowne uruchomienia.
Główną przyczyną problemu jest niewystarczająca ilość pamięci dostępnej do prawidłowego działania systemu. Może to wynikać z kilku powodów, w tym między innymi:
- Wyciek pamięci w oprogramowaniu systemowym
- Niewystarczająca ilość pamięci przydzielonej dla określonych procesów lub usług
- Nieprawidłowa konfiguracja systemu prowadząca do nadmiernego zużycia pamięci
- Problemy sprzętowe, takie jak uszkodzone moduły pamięci lub inne elementy
- Być może ustawiono nieprawidłowy klucz rejestru, dział pomocy technicznej musi usunąć ten klucz. system. MEM_HUGETLB=FAŁSZ.
Konieczne jest przeprowadzenie dalszych badań, aby zidentyfikować dokładną przyczynę wyczerpania pamięci i odpowiednio ją rozwiązać.
Przejrzyj dzienniki systemowe i komunikaty o błędach, aby zidentyfikować konkretne procesy lub usługi, które mogą zużywać nadmiernie pamięć i powodować błędy OOM.
Ponadto sprawdzenie użycia pamięci i konfiguracji systemu może pomóc w zidentyfikowaniu wszelkich błędnych konfiguracji lub problemów ze sprzętem, które mogą być przyczyną problemu.
Na przykład: Brak modułów DIMM lub ich nieprawidłowe rozmieszczenie może spowodować nieobsługiwaną konfigurację. co uniemożliwia uruchomienie FS.
Resolution
- Sprawdź dzienniki systemowe pod kątem komunikatów o błędach lub ostrzeżeń związanych z użyciem pamięci lub błędną konfiguracją systemu. odpowiednio się do nich odnieść.
- Jeśli problem będzie się powtarzał, skontaktuj się z działem pomocy technicznej firmy Dell w celu uzyskania dalszego wsparcia. Pamiętaj o udostępnieniu odpowiednich dzienników systemowych lub informacji diagnostycznych, które pomogą w rozwiązaniu problemu.
- Pakiet Support i odpowiedni Core|Pliki zrzutu jądra do przesłania