Data Domain: si è verificato un riavvio imprevisto di DDFS (Data Domain File System) con un avviso EVT-FILESYS-00008 / FILESYS-00008, EVT-FILESYS-00010 / FILESYS-00010 o EVT-FILESYS-00011 / FILESYS-00011

Summary: questo articolo della Knowledge Base spiega cosa accade quando si verifica un riavvio imprevisto del filesystem, i potenziali avvisi riscontrati e le informazioni da acquisire ai fini dell'analisi. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms



Il processo DDFS è il processo principale responsabile del funzionamento del filesystem di deduplica DDOS (Data Domain Operating System).

Se questo processo rileva un problema, viene creato uno dei seguenti avvisi:
  • EVT-FILESYS-00008 / FILESYS-00008
  • EVT-FILESYS-00010 / FILESYS-00010
  • EVT-FILESYS-00011 / FILESYS-00011
Questi avvisi indicano che il problema riscontrato era imprevisto e sono necessarie ulteriori informazioni per accertarne la causa.

L'avviso verrà inviato tramite il meccanismo di avviso configurato sul sistema Data Domain, ovvero tramite e-mail/snmp. L'avviso viene visualizzato anche nell'output di "alerts show history".

Cause

Questo processo può causare un riavvio in vari modi, ad esempio:
  • Un errore grave diretto, ad esempio un bug del codice esplicito.
  • È stato registrato un timeout interno. DDFS dispone di un thread di monitoraggio heartbeat interno (denominato hmon) che monitora lo stato dei vari sottosistemi all'interno del processo DDFS. Se hmon accerta che un sottosistema si è bloccato o è stato in attesa troppo a lungo, termina il processo DDFS.
  • È stato registrato un timeout esterno. Un processo denominato ddr_stated è responsabile del monitoraggio esterno del processo DDFS tramite un meccanismo di heartbeat. Se DDFS non invia un heartbeat a ddr_stated entro un determinato periodo di tempo, ddr_stated presuppone che DDFS si sia bloccato e termina il processo DDFS.
  • Il processo richiede più memoria di quanto consentito.
  • Un test di integrità interno ha avuto esito negativo.
Quando viene rilevata una di queste condizioni, il filesystem tenta di eseguire un riavvio automatico per riprendere il funzionamento normale. 

Durante il riavvio di DDFS, tutte le operazioni che erano in corso, come restore/backup, ovvero operazioni di lettura/scrittura, vengono interrotte e devono essere riavviate. La maggior parte delle applicazioni di backup è in grado di riconoscere l'interruzione delle operazioni di lettura/scrittura e le riavvia automaticamente.

In caso di un riavvio imprevisto di DDFS, si verifica quanto segue:
  • Il processo viene interrotto.
  • Il footprint di memoria che il processo stava utilizzando viene scritto su un "file core", che verrà scritto su un dispositivo di core dump, un'area speciale su uno dei dischi dell'unità head. Un file core contiene le informazioni necessarie per eseguire il debug dei motivi per cui si è verificato il riavvio imprevisto.
  • Al termine del passaggio precedente, il processo DDFS può essere riavviato.
  • In parallelo, ovvero una volta che DDFS è stato riavviato, il file core deve essere estratto dal dispositivo di core dump in un filesystem DDOS in modo che sia possibile accedervi. Il processo che esegue questa attività è denominato "savecore".
  • Savecore crea una directory temporanea iniziale in /ddvar/core. Il nome della directory sarà "app-<data e ora di generazione del file core>".
  • Poiché DDFS utilizza la maggior parte della memoria del sistema, il footprint di memoria per DDFS può essere di grandi dimensioni. Per ridurre al minimo la quantità di dati scritti nel file core, savecore esegue la lettura dal dispositivo di core dump, passa queste informazioni tramite gzip per garantire che il file core sia di dimensioni più ridotte possibile, e avvia la scrittura su un file denominato "core-incomplete.gz".
  • Al termine di questo processo, la directory temporanea viene rimossa e il file core viene posto in /ddvar/core e rinominato. Di seguito è riportata la convenzione di denominazione per un file core:
    • Il nome del processo.
    • L'ID del processo.
    • La stringa "core".
    • La data/ora in cui il core è stato generato in un formato UNIX epoch.
    • Ad esempio, un file core per DDFS potrebbe chiamarsi "ddfs.core.14226.1469256407.gz".
A causa delle grandi dimensioni del footprint di memoria, la creazione di un file core non è immediata e può richiedere alcuni minuti per il completamento.

Resolution

Come accennato in precedenza, la creazione del file core non è immediata, la directory /ddvar/core può essere controllata periodicamente tramite una share NFS o CIFS per essere certi del completamento della creazione del file core. 

Una volta completata la creazione del file core, sono necessari due elementi per valutare che cosa ha causato il riavvio imprevisto. Queste sono:
  1. Un nuovo pacchetto di supporto. Consultare il seguente articolo su come acquisire e caricare un pacchetto di supporto: https://support.emc.com/kb/323283
  2. Il file core generato quando si è verificato il problema. Consultare il seguente articolo della Knowledge Base sui vari metodi che possono essere utilizzati per caricare un file core e accedervi: https://support.emc.com/kb/457974
Caricare gli elementi di cui sopra nella richiesta di assistenza.

Affected Products

Data Domain

Products

Data Domain, DD OS, Data Domain Virtual Edition
Article Properties
Article Number: 000064290
Article Type: Solution
Last Modified: 19 Sept 2022
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.