Data Domain: si è verificato un riavvio imprevisto di DDFS (Data Domain File System) con un avviso EVT-FILESYS-00008 / FILESYS-00008, EVT-FILESYS-00010 / FILESYS-00010 o EVT-FILESYS-00011 / FILESYS-00011
Summary: questo articolo della Knowledge Base spiega cosa accade quando si verifica un riavvio imprevisto del filesystem, i potenziali avvisi riscontrati e le informazioni da acquisire ai fini dell'analisi. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Il processo DDFS è il processo principale responsabile del funzionamento del filesystem di deduplica DDOS (Data Domain Operating System).
Se questo processo rileva un problema, viene creato uno dei seguenti avvisi:
- EVT-FILESYS-00008 / FILESYS-00008
- EVT-FILESYS-00010 / FILESYS-00010
- EVT-FILESYS-00011 / FILESYS-00011
L'avviso verrà inviato tramite il meccanismo di avviso configurato sul sistema Data Domain, ovvero tramite e-mail/snmp. L'avviso viene visualizzato anche nell'output di "alerts show history".
Cause
Questo processo può causare un riavvio in vari modi, ad esempio:
Durante il riavvio di DDFS, tutte le operazioni che erano in corso, come restore/backup, ovvero operazioni di lettura/scrittura, vengono interrotte e devono essere riavviate. La maggior parte delle applicazioni di backup è in grado di riconoscere l'interruzione delle operazioni di lettura/scrittura e le riavvia automaticamente.
In caso di un riavvio imprevisto di DDFS, si verifica quanto segue:
- Un errore grave diretto, ad esempio un bug del codice esplicito.
- È stato registrato un timeout interno. DDFS dispone di un thread di monitoraggio heartbeat interno (denominato hmon) che monitora lo stato dei vari sottosistemi all'interno del processo DDFS. Se hmon accerta che un sottosistema si è bloccato o è stato in attesa troppo a lungo, termina il processo DDFS.
- È stato registrato un timeout esterno. Un processo denominato ddr_stated è responsabile del monitoraggio esterno del processo DDFS tramite un meccanismo di heartbeat. Se DDFS non invia un heartbeat a ddr_stated entro un determinato periodo di tempo, ddr_stated presuppone che DDFS si sia bloccato e termina il processo DDFS.
- Il processo richiede più memoria di quanto consentito.
- Un test di integrità interno ha avuto esito negativo.
Durante il riavvio di DDFS, tutte le operazioni che erano in corso, come restore/backup, ovvero operazioni di lettura/scrittura, vengono interrotte e devono essere riavviate. La maggior parte delle applicazioni di backup è in grado di riconoscere l'interruzione delle operazioni di lettura/scrittura e le riavvia automaticamente.
In caso di un riavvio imprevisto di DDFS, si verifica quanto segue:
- Il processo viene interrotto.
- Il footprint di memoria che il processo stava utilizzando viene scritto su un "file core", che verrà scritto su un dispositivo di core dump, un'area speciale su uno dei dischi dell'unità head. Un file core contiene le informazioni necessarie per eseguire il debug dei motivi per cui si è verificato il riavvio imprevisto.
- Al termine del passaggio precedente, il processo DDFS può essere riavviato.
- In parallelo, ovvero una volta che DDFS è stato riavviato, il file core deve essere estratto dal dispositivo di core dump in un filesystem DDOS in modo che sia possibile accedervi. Il processo che esegue questa attività è denominato "savecore".
- Savecore crea una directory temporanea iniziale in /ddvar/core. Il nome della directory sarà "app-<data e ora di generazione del file core>".
- Poiché DDFS utilizza la maggior parte della memoria del sistema, il footprint di memoria per DDFS può essere di grandi dimensioni. Per ridurre al minimo la quantità di dati scritti nel file core, savecore esegue la lettura dal dispositivo di core dump, passa queste informazioni tramite gzip per garantire che il file core sia di dimensioni più ridotte possibile, e avvia la scrittura su un file denominato "core-incomplete.gz".
- Al termine di questo processo, la directory temporanea viene rimossa e il file core viene posto in /ddvar/core e rinominato. Di seguito è riportata la convenzione di denominazione per un file core:
- Il nome del processo.
- L'ID del processo.
- La stringa "core".
- La data/ora in cui il core è stato generato in un formato UNIX epoch.
- Ad esempio, un file core per DDFS potrebbe chiamarsi "ddfs.core.14226.1469256407.gz".
Resolution
Come accennato in precedenza, la creazione del file core non è immediata, la directory /ddvar/core può essere controllata periodicamente tramite una share NFS o CIFS per essere certi del completamento della creazione del file core.
Una volta completata la creazione del file core, sono necessari due elementi per valutare che cosa ha causato il riavvio imprevisto. Queste sono:
Una volta completata la creazione del file core, sono necessari due elementi per valutare che cosa ha causato il riavvio imprevisto. Queste sono:
- Un nuovo pacchetto di supporto. Consultare il seguente articolo su come acquisire e caricare un pacchetto di supporto: https://support.emc.com/kb/323283
- Il file core generato quando si è verificato il problema. Consultare il seguente articolo della Knowledge Base sui vari metodi che possono essere utilizzati per caricare un file core e accedervi: https://support.emc.com/kb/457974
Affected Products
Data DomainProducts
Data Domain, DD OS, Data Domain Virtual EditionArticle Properties
Article Number: 000064290
Article Type: Solution
Last Modified: 19 Sept 2022
Version: 4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.