Data Domain: Ciclo di riavvio dopo l'aggiornamento del controller - Memoria esaurita e nessun processo terminabile

Summary: Dopo un aggiornamento del controller, il sistema continua a riavviarsi entro 5 minuti dall'abilitazione del file system (FS). La root cause è una condizione di Out of Memory (OOM) che causa un errore irreversibile del kernel. Il sistema segnala "Memoria insufficiente" causata da un'impostazione di registro non valida. Questo problema può essere risolto rimuovendo il sistema. MEM_HUGETLB=FALSE' e riavvio del sistema. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Sintomi:

  • DD continua a riavviarsi dopo l'aggiornamento del controller; quando il file system (FS) è abilitato, DD si riavvia entro 5 minuti.
    • Disabilitare il FS per evitare il loop di riavvio (errore grave del kernel)
  • Nei registri sono presenti messaggi di errore grave del kernel.
  • Nei registri sono presenti errori di memoria insufficiente.
    • In kern.info: 'Errore grave del kernel - non sincronizzato: Memoria insufficiente e nessun processo che può essere uccisivo'

Kern.info mostra gli errori "Memoria insufficiente":

Aug 26 14:45:05 xxxx kernel: [ 1332.027261] (E4)Out of memory: Kill process 4769 (java) score 1 or sacrifice child
Aug 26 14:45:05 xxxx kernel: [ 1332.044831] (E4)Out of memory: Kill process 22332 (sms) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.305280] (E4)Out of memory: Kill process 6131 (sms) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.321218] (E4)Out of memory: Kill process 5647 (lwsmd) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.324153] (E4)Out of memory: Kill process 22442 (dd_usm) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.325088] (E4)Out of memory: Kill process 25402 (dd_ha_vol-ha_li) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.326060] (E4)Out of memory: Kill process 22459 (csmd) score 0 or sacrifice child
Aug 26 14:45:12 xxxx kernel: [ 1338.519181] (E4)Out of memory: Kill process 6415 (lwsmd) score 0 or sacrifice child
Aug 26 14:45:12 xxxx kernel: [ 1338.522521] (E4)Out of memory: Kill process 6412 (sms) score 0 or sacrifice child

Cause

Il sistema continua a riavviarsi dopo un aggiornamento del controller (ad esempio da DD9300 a DD9900). Il file system è stato disabilitato per evitare il riavvio in loop di DD.
I registri del kernel mostrano più errori di memoria insufficiente (OOM), che attivano l'errore irreversibile del kernel e i successivi riavvii.

La root cause del problema è l'insufficienza di memoria disponibile per il corretto funzionamento del sistema. Ciò potrebbe essere dovuto a diversi motivi, tra cui, a titolo esemplificativo ma non esaustivo:

  • Una perdita di memoria nel software di sistema
  • Memoria insufficiente allocata per processi o servizi specifici
  • Configurazione di sistema errata che causa un utilizzo eccessivo della memoria
  • Problemi hardware, ad esempio moduli di memoria o altri componenti difettosi
  • Potrebbe essere stata impostata una chiave di registro non valida, il supporto deve rimuovere questa chiave; sistema. MEM_HUGETLB=FALSO.

Sono necessarie ulteriori indagini per identificare la causa esatta dell'esaurimento della memoria e affrontarla di conseguenza. 

Esaminare i registri di sistema e i messaggi di errore per identificare eventuali processi o servizi specifici che potrebbero consumare memoria eccessiva e causare gli errori OOM.
Inoltre, il controllo dell'utilizzo e della configurazione della memoria del sistema può aiutare a identificare eventuali configurazioni errate o problemi hardware che potrebbero contribuire al problema.
Per esempio: DIMM mancanti o fuori posizione potrebbero causare una configurazione non supportata; che impedisce l'avvio del FS.

Resolution

  1. Controllare i registri di sistema per eventuali messaggi di errore o avvertenze relative all'utilizzo della memoria o a una configurazione errata del sistema. affrontarli di conseguenza.
  2. Se il problema persiste, contattare il supporto Dell per ulteriore assistenza. Assicurarsi di fornire i registri di sistema o le informazioni di diagnostica pertinenti per facilitare la risoluzione del problema.
    • Pacchetto di supporto e relativo Core|File di dump del kernel da caricare

Affected Products

Data Domain

Products

Data Protection
Article Properties
Article Number: 000228075
Article Type: Solution
Last Modified: 01 Nov 2024
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.