Metro node: Como coletar logs do nó metro
Summary: Este artigo descreve as etapas sobre como coletar logs do metro node e também aborda quais logs/dados podem ser necessários para um problema de desempenho.
Instructions
Etapas sobre como realizar as seguintes tarefas:
- Quais logs são necessários para depurar problemas do nó metro?
- Como capturar o diagnóstico de coleta em um cluster de metro node?
- Como validar os pacotes existentes de coleta de diagnóstico nos servidores de gerenciamento.
- Como cancelar e limpar um diagnóstico de coleta em andamento em um metro node?
Um. Quais logs são necessários para depurar problemas do nó metro?
-
O comando necessário para coletar registros do metro node é chamado de "collect-diagnostics" e pode ser executado a partir de qualquer nó(*1) na configuração do metro node. A execução desse comando em um director de um cluster de metro node deve ter todos os dados de todos os directors, de todos os nós de um cluster. NÃO execute esse comando em mais de um nó por vez.
*1 NOTA: Execute o comando "collect-diagnostics" de apenas um director, em apenas um cluster se uma configuração do Metro e aguarde sua conclusão completa antes de coletar os CDs de outro director ou do cluster par, se necessário. -
O comando "collect-diagnostics" produz um arquivo de log tar.gz compactado que contém arquivos de configuração e de log. O arquivo collect-diagnostics é colocado no diretório /diag/collect-diagnostics-out/ no nó em que foi executado. Quando o comando for concluído, use WINSCP ou um utilitário SCP equivalente, para copiar o arquivo do nó e, em seguida, ele poderá ser enviado ao suporte para análise. Há mais informações sobre o uso desse comando na seção B abaixo.
Notas:- Se o comando "collect-diagnostics" for executado sem opções, dois arquivos serão gerados: um arquivo de base e um arquivo estendido. Isso pode levar bastante tempo em sistemas dimensionados.
- O suporte ao nó metro geralmente requer apenas o arquivo base. No entanto, em algumas circunstâncias, problemas de desempenho eles podem solicitar o arquivo estendido também.
- As opções padrão que podem ser solicitadas para uso ao executar o collect-diagnostics são:
- "
--noextended": Esta opção omite a coleta de diagnósticos estendidos. - "
--last-logs": Esta opção captura logs back x número de horas ou dias.
- "
- Para obter mais detalhes sobre o comando, digite "collect-diagnostics -h"
Estes são exemplos da aparência desses dois nomes de arquivo. A data e a hora, mostradas como YYYY-MM-DD-HH.MM.SS, são da data e hora em que foram coletadas:
- Arquivo base:
<Serial number>-c1-diag-YYYY-MM-DD-HH.MM.SS.tar.gz - Arquivo estendido:
<Serial number>-c1-diag-ext-YYYY-MM-DD-HH.MM.SS.tar.gz
-
Os problemas de desempenho são complexos e exigem a coleta de muitas informações específicas. Como resultado, temos um questionário de desempenho que os clientes devem preencher para agilizar esse processo. O questionário pode ser encontrado anexado a este artigo da base de conhecimento, na seção anexa no final.
-
Em alguns tipos de problemas de desempenho, é útil capturar um registro adicional chamado "fe_perf_stats". Os logs são gerados continuamente, mas não capturados pelo collect-diagnostics. Para capturar esse log, use cd (change directory) em /var/log/VPlex/cli em um nó de cada cluster e execute o comando "tar cvzf fe-perf-stats.tar.gz fe_perf_stats*" para compactar os dados dos arquivos em um arquivo tar. Conecte-se ao nó com WINSCP, ou um utilitário SCP equivalente, e navegue até /var/log/VPlex/cli. Copie o arquivo "fe-perf-stats.tar.gz" para o sistema. Carregue o arquivo tar junto com um ou mais arquivos de diagnóstico de coleta, se solicitado pelo suporte, para o chamado ou um link ftp que o suporte fornece a você no chamado e em um e-mail.
-
Além de coletar diagnósticos, pode ser útil capturar as seguintes informações;
- Abra o log para uma sessão do PuTTY,
- Em seguida, execute os comandos abaixo,
- Em seguida, colete o log do Putty e faça o download para o seu sistema,
- Em seguida, anexe o log PuTTY, o collect-diagnostics e quaisquer outros dados solicitados ao SR.
Os comandos a seguir devem ser executados no prompt VPlexcli.
cluster statusll clusters/**/storage-views/* --fullll ~portsshow-use-hierarchy /clusters/**/virtual-volumes/*ll ~system-volumesls -t /clusters/*/directors/*::serial-number(esse comando lista todos os DSTs de cada nó)ls -t /clusters/**/director-*/::hostname(os nomes de host exibidos são os endereços IP, isso é esperado)
B. Como capturar o diagnóstico de coleta em um cluster de metro node?
Para capturar esses dados, execute um comando collect-diagnostics com os seguintes indicadores: "--noextended" e "--last-logs 30d".
-
Estabeleça uma sessão SSH em um prompt Linux do nó director, por exemplo, service@director-1-1-a, e faça log-in na vplexcli.
Exemplo de resultado:
login as: service Keyboard-interactive authentication prompts from server: | Password: End of keyboard-interactive prompts from server Last login: <date and timestamp data> from x.x.x.x service@director-1-1-a:~> service@director-1-1-a:~> vplexcli Trying ::1... Connected to localhost. Escape character is '^]'. VPlexcli:/>
-
Para iniciar o collect-diagnostics, no prompt vplexcli, execute o comando "collect-diagnostics" com as opções direcionadas, conforme mostrado no exemplo abaixo.
Exemplo de resultado:
VPlexcli:/> collect-diagnostics --noextended --last-logs 30d ('WARNING:The collect-diagnostics command was issued with option --noextended. ',) The following file(s) will NOT be collected: core files fast trace dump files slow trace dump files udcom trace dump files udcom legacy trace files user-defined performance sink files the management console's heap ('WARNING:Only the logs that are generated in the last 30 days are collected.') 2024-02-09 19:55:12 UTC: ****Initializing collect-diagnostics... 2024-02-09 19:55:13 UTC: No cluster-witness server found. 2024-02-09 19:55:13 UTC: Free space = 88G 2024-02-09 19:55:13 UTC: Total space needed = 1907M ================================================================================ Starting collect-diagnostics, this operation might take a while... ================================================================================ Executing cluster collection ..
C. Como validar os pacotes collect-diagnostics existentes no director/nó.
-
Quando o comando collect-diagnostics for concluído e retornar ao prompt vplexcli, conecte-se ao diretório no qual você executou o comando usando winscp [ou utilitário SCP equivalente] e navegue até a pasta /diag/collect-diagnostics-out/
-
Identifique um ou mais arquivos de log com o registro de data e hora correto e faça download deles em sua workstation local.
D. Como cancelar um diagnóstico de coleta em andamento
-
Se você ainda estiver na sessão PuTTY em que iniciou a coleta de diagnóstico, verá o fluxo de saída da coleta de diagnostico, mostrando que ainda está em execução.
Exemplo de resultado:
VPlexcli:/> collect-diagnostics --noextended --last-logs 30d ('WARNING:The collect-diagnostics command was issued with option --noextended. ',) The following file(s) will NOT be collected: core files fast trace dump files slow trace dump files udcom trace dump files udcom legacy trace files user-defined performance sink files the management console's heap ('WARNING:Only the logs that are generated in the last 30 days are collected.') 2022-02-09 19:55:12 UTC: ****Initializing collect-diagnostics... 2022-02-09 19:55:13 UTC: No cluster-witness server found. 2022-02-09 19:55:13 UTC: Free space = 88G 2022-02-09 19:55:13 UTC: Total space needed = 1907M ================================================================================ Starting collect-diagnostics, this operation might take a while... ================================================================================ Executing cluster collection .. -
Abra uma sessão PuTTY duplicada e faça log-in no director em que você iniciou a coleta de diagnóstico usando a conta de serviço.
Exemplo de resultado:
login as: service Using keyboard-interactive authentication. Password: Last login: <date and time stamp data> from x.x.x.x service@director-1-1-b:~>
-
Uma vez no director, reinicie o console de gerenciamento usando o seguinte comando para cancelar o collect-diagnostics que está em execução.
Exemplo de resultado:
service@director-1-1-b:~> sudo systemctl restart VPlexManagementConsole.service
-
Olhando para a primeira sessão do PuTTY que tem o collect-diagnostics em execução nela quando você reiniciou o console de gerenciamento, você deve ver o relatório collect-diagnostics como a última saída anotada:
"Connection closed by foreign host."
Exemplo de saída (verifique a última linha da saída):
VPlexcli:/> collect-diagnostics --noextended --last-logs 30d ('WARNING:The collect-diagnostics command was issued with option --noextended. ',) The following file(s) will NOT be collected: core files fast trace dump files slow trace dump files udcom trace dump files udcom legacy trace files user-defined performance sink files the management console's heap ('WARNING:Only the logs that are generated in the last 30 days are collected.') 2022-02-09 20:02:03 UTC: ****Initializing collect-diagnostics... 2022-02-09 20:02:04 UTC: No cluster-witness server found. 2022-02-09 20:02:04 UTC: Free space = 88G 2022-02-09 20:02:04 UTC: Total space needed = 1907M ================================================================================ Starting collect-diagnostics, this operation might take a while... ================================================================================ Executing cluster collection .. ERROR Executing SMS log collection .. Connection closed by foreign host. <<< -
Depois que o collect-diagnostics for visto interrompido, etapa 3 acima, volte para a segunda sessão do PuTTY e 'cd' para o diretório /diag, então execute 'll ' e você deverá ver alguns diretórios adicionais,
collect-diagnostics-tmpcollect-diagnostics-jobscollect-diagnostics-tmp-ext*
*se os arquivos estendidos não foram omitidos
Exemplo de resultado:
service@director-1-1-b:/diag> ll total 32 drwxr-xr-x 2 service groupSvc 4096 Feb 9 20:03 collect-diagnostics-tmp-ext drwxr-xr-x 2 service groupSvc 4096 Feb 9 20:03 collect-diagnostics-jobs drwxr-xr-x 2 service groupSvc 4096 Feb 9 20:04 collect-diagnostics-out drwxr-xr-x 3 service groupSvc 4096 Feb 9 20:02 collect-diagnostics-tmp drwx------ 2 root root 16384 Jan 27 16:54 lost+found drwx--x--x 3 service groupSvc 4096 Dec 17 03:08 share service@director-1-1-b:/diag>
-
Se você olhar dentro de cada um desses diretórios, verá arquivos com a data e a hora em que iniciou o collect-diagnostics agora cancelado. Esses arquivos ocupam espaço na partição /diag e devem ser removidos.
-
Para remover/excluir os arquivos do diretório /diag, digite "rm -r collect-diagnostics-jobs" e "rm -r collect-diagnostics-tmp" e digite 'll' novamente para garantir que os diretórios tenham sido excluídos ou removidos.
Exemplo de resultado:
service@director-1-1-b:/diag> rm -r collect-diagnostics-jobs service@director-1-1-b:/diag> rm -r collect-diagnostics-tmp service@director-1-1-b:/diag> ll total 24 drwxr-xr-x 2 service groupSvc 4096 Feb 9 20:04 collect-diagnostics-out drwx------ 2 root root 16384 Jan 27 16:54 lost+found drwx--x--x 3 service groupSvc 4096 Dec 17 03:08 share service@director-1-1-b:/diag>
-
Se existir um diretório "collect-diagnostics-tmp-ext", remova-o e execute "rm -r collect-diagnostics-tmp-ext"
Nota: Geralmente, o arquivo estendido é usado para investigar falhas de nó. Se houver uma investigação em andamento sobre uma falha de nó e o suporte não tiver capturado todos os logs necessários, verifique com o suporte antes de limpar o diretório collect-diagnostics-tmp-ext, pois isso pode excluir os arquivos principais necessários.