Data Domain: Reinicialização inesperada do DDFS (Data Domain File System) com a exibição de um destes alertas: EVT-FILESYS-00008/FILESYS-00008 ou EVT-FILESYS-00010/FILESYS-00010 ou EVT-FILESYS-00011/FILESYS-00011

Summary: Este artigo da base de conhecimento explica o que acontece quando ocorre uma reinicialização inesperada do sistema de arquivos, os possíveis alertas identificados e quais informações capturar para fins de triagem. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms



O processo do DDFS é o principal processo responsável pela operação do sistema de arquivos de desduplicação do DDOS (Data Domain Operating System).

Se esse processo identificar um problema, um destes alertas será criado:
  • EVT-FILESYS-00008 / FILESYS-00008
  • EVT-FILESYS-00010 / FILESYS-00010
  • EVT-FILESYS-00011 / FILESYS-00011
Os alertas acima indicam que o problema identificado foi inesperado e que são necessárias mais informações para determinar a causa.

O alerta será enviado por meio do mecanismo de alerta configurado no sistema Data Domain, ou seja, por e-mail/snmp. O alerta também aparecerá na saída "alerts show history".

Cause

Esse processo pode ser reiniciado de várias maneiras, por exemplo:
  • Uma pane direta, ou seja, um bug de código explícito.
  • Um tempo de espera excedido interno foi identificado. O DDFS tem uma thread interna de monitor de heartbeat (chamada hmon), que monitora a integridade dos vários subsistemas no processo do DDFS. Se a hmon verificar que um subsistema está paralisado ou está aguardando há muito tempo, ela encerrará o processo do DDFS.
  • Um tempo de espera excedido externo foi identificado. Um processo chamado ddr_stated é responsável pelo monitoramento externo do processo do DDFS por meio de um mecanismo de heartbeat. Se o DDFS não enviar um heartbeat para o ddr_stated dentro de um determinado período, o ddr_stated assumirá que o DDFS está paralisado e encerrará seu respectivo processo.
  • O processo solicita mais memória do que é permitido.
  • Ocorreu falha em uma verificação de integridade interna.
Quando qualquer uma dessas condições for identificada, o sistema de arquivos tentará reiniciar automaticamente para retomar a operação normal. 

Durante a reinicialização do DDFS, todas as operações que estavam em andamento, como restaurações/backups, ou seja, leituras/gravações, serão interrompidas e precisarão ser reiniciadas. A maioria dos aplicativos de backup pode reconhecer que as leituras/gravações foram interrompidas e reiniciar essas operações automaticamente.

Quando ocorre uma reinicialização inesperada do DDFS, as seguintes situações acontecem:
  • O processo é interrompido.
  • O volume de memória que o processo estava usando é gravado em um "arquivo de núcleo", que será gravado em um dispositivo de dump de núcleo, uma área especial em um dos discos da unidade principal. Um arquivo de núcleo contém as informações necessárias para depurar o motivo pelo qual ocorreu a reinicialização inesperada.
  • Quando a etapa acima for concluída, o processo do DDFS poderá ser reiniciado.
  • Em paralelo, ou seja, quando o DDFS estiver reiniciando, será necessário extrair o arquivo de núcleo do dispositivo de dump de núcleo para um sistema de arquivos do DDOS para que seja possível acessá-lo. O processo que realiza essa tarefa é chamado de "savecore".
  • O savecore cria um diretório temporário inicial em /ddvar/core. O nome do diretório será "app-<data e hora em que o arquivo de núcleo ocorreu>".
  • Como o DDFS usa a maior parte da memória no sistema, o volume de memória do DDFS pode ser grande. Para minimizar a volume de dados gravados no arquivo de núcleo, o savecore faz a leitura no dispositivo de dump de núcleo, passa essas informações pelo gzip a fim de garantir que o arquivo de núcleo seja o menor possível e começa a gravar em um arquivo chamado "core-incomplete.gz".
  • Quando esse processo for concluído, o diretório temporário será removido, e o arquivo de núcleo será colocado em /ddvar/core e renomeado. A convenção de nomenclatura de um arquivo de núcleo é a seguinte:
    • O nome do processo.
    • O ID do processo.
    • A cadeia de caracteres "core".
    • A data/hora em que o núcleo foi gerado em um formato UNIX epoch.
    • Por exemplo, um arquivo de núcleo do DDFS pode ser chamado de "ddfs.core.14226.1469256407.gz".
Devido ao grande volume de memória, a criação de um arquivo de núcleo não é imediata e pode levar alguns minutos para ser totalmente concluída.

Resolution

Como mencionado acima, a criação do arquivo de núcleo não é imediata. O diretório /ddvar/core pode ser verificado periodicamente por meio de um compartilhamento CIFS ou NFS para determinar quando a criação do arquivo de núcleo foi concluída. 

Depois que a criação do arquivo de núcleo for concluída, dois itens de informação serão necessários para fazer a triagem do que causou a reinicialização inesperada. São eles:
  1. Um novo pacote de suporte. Consulte o seguinte artigo sobre como capturar e carregar um pacote de suporte: https://support.emc.com/kb/323283
  2. O arquivo de núcleo gerado quando o problema ocorreu. Consulte o seguinte artigo da base de conhecimento sobre os vários métodos que podem ser usados para carregar e acessar um arquivo de núcleo: https://support.emc.com/kb/457974
Carregue os itens acima no caso de suporte.

Affected Products

Data Domain

Products

Data Domain, DD OS, Data Domain Virtual Edition
Article Properties
Article Number: 000064290
Article Type: Solution
Last Modified: 19 Sept 2022
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.