Data Domain: Neustartschleife nach Controller-Upgrade – nicht genügend Arbeitsspeicher und keine abschaltbaren Prozesse

Summary: Nach einem Controller-Upgrade wird das System innerhalb von 5 Minuten nach der Aktivierung des Dateisystems (FS) neu gestartet. Die Hauptursache ist ein Speicherplatzproblem (OOM), der einen Kernel-Fehler verursacht. Das System meldet, dass aufgrund einer ungültigen Registrierungseinstellung nicht genügend Arbeitsspeicher vorhanden ist. Dies kann behoben werden, indem Sie das System entfernen. Registrierungsschlüssel MEM_HUGETLB=FALSE" und Neustart des Systems. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Symptome:

  • DD wird nach dem Controller-Upgrade immer wieder neu gestartet. Wenn das Dateisystem (FS) aktiviert ist, wird die DD innerhalb von 5 Minuten neu gestartet.
    • Deaktivieren Sie das FS, um die Neustartschleife (Kernel-Panik) zu verhindern.
  • Kernel Panic-Meldungen sind in den Protokollen vorhanden.
  • In den Protokollen sind Fehler aufgrund von unzureichendem Arbeitsspeicher vorhanden.
    • In kern.info: "Kernel panic - not syncing: Nicht genügend Speicher und keine abschaltbaren Prozesse'

Kern.info zeigt die Fehlermeldung "Nicht genügend Arbeitsspeicher" an:

Aug 26 14:45:05 xxxx kernel: [ 1332.027261] (E4)Out of memory: Kill process 4769 (java) score 1 or sacrifice child
Aug 26 14:45:05 xxxx kernel: [ 1332.044831] (E4)Out of memory: Kill process 22332 (sms) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.305280] (E4)Out of memory: Kill process 6131 (sms) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.321218] (E4)Out of memory: Kill process 5647 (lwsmd) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.324153] (E4)Out of memory: Kill process 22442 (dd_usm) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.325088] (E4)Out of memory: Kill process 25402 (dd_ha_vol-ha_li) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.326060] (E4)Out of memory: Kill process 22459 (csmd) score 0 or sacrifice child
Aug 26 14:45:12 xxxx kernel: [ 1338.519181] (E4)Out of memory: Kill process 6415 (lwsmd) score 0 or sacrifice child
Aug 26 14:45:12 xxxx kernel: [ 1338.522521] (E4)Out of memory: Kill process 6412 (sms) score 0 or sacrifice child

Cause

Das System wird nach einem Controller-Upgrade (z. B. von DD9300 auf DD9900) immer wieder neu gestartet. Das Dateisystem wurde deaktiviert, um zu verhindern, dass die DD in einer Schleife neu gestartet wird.
Die Kernel-Protokolle zeigen mehrere OOM-Fehler (Out of Memory) an, die den Kernel-Fehler und nachfolgende Neustarts auslösen.

Die Ursache des Problems ist der nicht genügend Arbeitsspeicher, damit das System ordnungsgemäß funktioniert. Dies kann verschiedene Gründe haben, einschließlich, aber nicht beschränkt auf:

  • Ein Speicherverlust in der Systemsoftware
  • Nicht genügend Arbeitsspeicher für bestimmte Prozesse oder Services zugewiesen
  • Falsche Systemkonfiguration, die zu übermäßiger Speichernutzung führt
  • Hardwareprobleme, z. B. fehlerhafte Speichermodule oder andere Komponenten
  • Möglicherweise wurde ein ungültiger Registrierungsschlüssel festgelegt, der Support muss diesen Schlüssel entfernen. System. MEM_HUGETLB = FALSCH.

Weitere Untersuchungen sind erforderlich, um die genaue Ursache für die Speichererschöpfung zu identifizieren und entsprechend zu beheben. 

Überprüfen Sie die Systemprotokolle und Fehlermeldungen, um bestimmte Prozesse oder Services zu identifizieren, die möglicherweise übermäßig viel Arbeitsspeicher verbrauchen und die OOM-Fehler verursachen.
Außerdem kann die Überprüfung der Speichernutzung und -konfiguration des Systems dazu beitragen, Fehlkonfigurationen oder Hardwareprobleme zu identifizieren, die zu dem Problem beitragen könnten.
Zum Beispiel: Fehlende oder falsch platzierte DIMMs können zu einer nicht unterstützten Konfiguration führen. Dadurch wird verhindert, dass das FS gestartet wird.

Resolution

  1. Überprüfen Sie die Systemprotokolle auf Fehlermeldungen oder Warnungen im Zusammenhang mit der Speichernutzung oder Systemfehlkonfiguration. Gehen Sie entsprechend auf diese ein.
  2. Wenn das Problem weiterhin besteht, wenden Sie sich an den Dell Support, um weitere Unterstützung zu erhalten. Stellen Sie sicher, dass Sie relevante Systemprotokolle oder Diagnoseinformationen bereitstellen, um das Problem zu beheben.
    • Support-Bundle und relevante Core|Hochzuladende Kernel-Speicherabbilddateien

Affected Products

Data Domain

Products

Data Protection
Article Properties
Article Number: 000228075
Article Type: Solution
Last Modified: 01 Nov 2024
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.