Data Domain: Neustartschleife nach Controller-Upgrade – nicht genügend Arbeitsspeicher und keine abschaltbaren Prozesse
Summary: Nach einem Controller-Upgrade wird das System innerhalb von 5 Minuten nach der Aktivierung des Dateisystems (FS) neu gestartet. Die Hauptursache ist ein Speicherplatzproblem (OOM), der einen Kernel-Fehler verursacht. Das System meldet, dass aufgrund einer ungültigen Registrierungseinstellung nicht genügend Arbeitsspeicher vorhanden ist. Dies kann behoben werden, indem Sie das System entfernen. Registrierungsschlüssel MEM_HUGETLB=FALSE" und Neustart des Systems. ...
Symptoms
Symptome:
- DD wird nach dem Controller-Upgrade immer wieder neu gestartet. Wenn das Dateisystem (FS) aktiviert ist, wird die DD innerhalb von 5 Minuten neu gestartet.
- Deaktivieren Sie das FS, um die Neustartschleife (Kernel-Panik) zu verhindern.
- Kernel Panic-Meldungen sind in den Protokollen vorhanden.
- In den Protokollen sind Fehler aufgrund von unzureichendem Arbeitsspeicher vorhanden.
- In kern.info: "Kernel panic - not syncing: Nicht genügend Speicher und keine abschaltbaren Prozesse'
Kern.info zeigt die Fehlermeldung "Nicht genügend Arbeitsspeicher" an:
Aug 26 14:45:05 xxxx kernel: [ 1332.027261] (E4)Out of memory: Kill process 4769 (java) score 1 or sacrifice child Aug 26 14:45:05 xxxx kernel: [ 1332.044831] (E4)Out of memory: Kill process 22332 (sms) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.305280] (E4)Out of memory: Kill process 6131 (sms) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.321218] (E4)Out of memory: Kill process 5647 (lwsmd) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.324153] (E4)Out of memory: Kill process 22442 (dd_usm) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.325088] (E4)Out of memory: Kill process 25402 (dd_ha_vol-ha_li) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.326060] (E4)Out of memory: Kill process 22459 (csmd) score 0 or sacrifice child Aug 26 14:45:12 xxxx kernel: [ 1338.519181] (E4)Out of memory: Kill process 6415 (lwsmd) score 0 or sacrifice child Aug 26 14:45:12 xxxx kernel: [ 1338.522521] (E4)Out of memory: Kill process 6412 (sms) score 0 or sacrifice child
Cause
Das System wird nach einem Controller-Upgrade (z. B. von DD9300 auf DD9900) immer wieder neu gestartet. Das Dateisystem wurde deaktiviert, um zu verhindern, dass die DD in einer Schleife neu gestartet wird.
Die Kernel-Protokolle zeigen mehrere OOM-Fehler (Out of Memory) an, die den Kernel-Fehler und nachfolgende Neustarts auslösen.
Die Ursache des Problems ist der nicht genügend Arbeitsspeicher, damit das System ordnungsgemäß funktioniert. Dies kann verschiedene Gründe haben, einschließlich, aber nicht beschränkt auf:
- Ein Speicherverlust in der Systemsoftware
- Nicht genügend Arbeitsspeicher für bestimmte Prozesse oder Services zugewiesen
- Falsche Systemkonfiguration, die zu übermäßiger Speichernutzung führt
- Hardwareprobleme, z. B. fehlerhafte Speichermodule oder andere Komponenten
- Möglicherweise wurde ein ungültiger Registrierungsschlüssel festgelegt, der Support muss diesen Schlüssel entfernen. System. MEM_HUGETLB = FALSCH.
Weitere Untersuchungen sind erforderlich, um die genaue Ursache für die Speichererschöpfung zu identifizieren und entsprechend zu beheben.
Überprüfen Sie die Systemprotokolle und Fehlermeldungen, um bestimmte Prozesse oder Services zu identifizieren, die möglicherweise übermäßig viel Arbeitsspeicher verbrauchen und die OOM-Fehler verursachen.
Außerdem kann die Überprüfung der Speichernutzung und -konfiguration des Systems dazu beitragen, Fehlkonfigurationen oder Hardwareprobleme zu identifizieren, die zu dem Problem beitragen könnten.
Zum Beispiel: Fehlende oder falsch platzierte DIMMs können zu einer nicht unterstützten Konfiguration führen. Dadurch wird verhindert, dass das FS gestartet wird.
Resolution
- Überprüfen Sie die Systemprotokolle auf Fehlermeldungen oder Warnungen im Zusammenhang mit der Speichernutzung oder Systemfehlkonfiguration. Gehen Sie entsprechend auf diese ein.
- Wenn das Problem weiterhin besteht, wenden Sie sich an den Dell Support, um weitere Unterstützung zu erhalten. Stellen Sie sicher, dass Sie relevante Systemprotokolle oder Diagnoseinformationen bereitstellen, um das Problem zu beheben.
- Support-Bundle und relevante Core|Hochzuladende Kernel-Speicherabbilddateien