Nodo metro: Cómo recopilar registros del nodo metro
Summary: En este artículo, se describen los pasos para recopilar registros del nodo metro y también los registros/datos que pueden ser necesarios para resolver un problema de rendimiento.
Instructions
Pasos para realizar las siguientes tareas:
- ¿Qué registros se necesitan para depurar los problemas del nodo metro?
- ¿Cómo capturo los diagnósticos de recopilación en un clúster de nodo metro?
- Cómo validar los paquetes de la recolección de datos de diagnóstico existentes en los servidores de administración.
- ¿Cómo cancelar y limpiar un diagnóstico de recopilación en curso en un nodo metro?
Un. ¿Qué registros se necesitan para depurar los problemas del nodo metro?
-
El comando necesario para recolectar registros del nodo metro se denomina "collect-diagnostics" y se puede ejecutar desde cualquier nodo (*1) en la configuración del nodo metro. La ejecución de este comando en un director de un clúster de nodo metro debe tener todos los datos de todos los directores, de todos los nodos de un clúster. NO ejecute este comando en más de un nodo a la vez.
*1 NOTA: Ejecute el comando "collect-diagnostics" desde un solo director, en un solo clúster si se trata de una configuración de Metro, y espere hasta que finalice por completo antes de recopilar los CD de otro director o del clúster par, si es necesario. -
El comando ‘collect-diagnostics’ produce un archivo de registro tar.gz comprimido que contiene archivos de configuración y registro. El archivo de recolección de datos de diagnóstico se coloca en el directorio /diag/collect-diagnostics-out/ en el nodo del que se ejecutó. Una vez que finalice el comando, utilice WinSCP o una utilidad SCP equivalente para copiar el archivo fuera del nodo y, a continuación, se podrá proporcionar al soporte para que se analice. Hay más información sobre el uso de este comando en la sección B a continuación.
Notas:- Si el comando ‘collect-diagnostics’ se ejecuta sin opciones, se generan dos archivos: un archivo base y un archivo extendido. Puede tardar bastante tiempo en el caso de los sistemas escalados.
- Por lo general, la compatibilidad con nodos metro requiere solo el archivo base; sin embargo, en algunas circunstancias, debido a problemas de rendimiento, también se puede solicitar el archivo extendido.
- Estas son las opciones estándar que se pueden solicitar cuando se ejecuta collect-diagnostics:
- ”
--noextended": Esta opción omite la recopilación de diagnósticos extendidos. - ”
--last-logs": Esta opción captura registros x cantidad de horas o días.
- ”
- Para obtener más detalles sobre el comando, puede escribir "collect-diagnostics -h"
Estos son ejemplos de cómo se ven estos dos nombres de archivo. La fecha y la hora, que se muestran como YYYY-MM-DD-HH.MM.SS, son de la fecha y hora en que se recopilaron:
- Archivo base:
<Serial number>-c1-diag-YYYY-MM-DD-HH.MM.SS.tar.gz - Archivo extendido:
<Serial number>-c1-diag-ext-YYYY-MM-DD-HH.MM.SS.tar.gz
-
Los problemas de rendimiento son complejos y requieren la recopilación de mucha información específica. Por eso, tenemos un cuestionario de rendimiento que se solicita que completen los clientes para acelerar este proceso. El cuestionario se puede encontrar adjunto a este artículo de la base de conocimientos en la sección de archivos adjuntos al final.
-
En algunos tipos de problemas de rendimiento, es útil capturar un registro adicional llamado "fe_perf_stats". Los registros se generan continuamente, pero collect-diagnostics no los captura. Para capturar este registro, use cd (change directory) en /var/log/VPlex/cli en un nodo de cada clúster y ejecute el comando "tar cvzf fe-perf-stats.tar.gz fe_perf_stats*" para comprimir los datos de los archivos en un archivo tar. Conéctese al nodo con WINSCP o una utilidad SCP equivalente y vaya a /var/log/VPlex/cli. Copie el archivo "fe-perf-stats.tar.gz" en el sistema. Cargue el archivo tar junto con uno o más archivos de recopilación y diagnóstico, si lo solicita el soporte, en la SR o en un enlace ftp que el soporte le proporciona en la SR y en un correo electrónico.
-
Además de recolectar los datos de diagnóstico, puede ser útil capturar la siguiente información:
- Abra el registro para una sesión de putty,
- A continuación, ejecute los siguientes comandos,
- Luego recopile el registro de Putty y descárguelo en su sistema,
- A continuación, adjunte el registro de PuTTY, el diagnóstico por recopilación y cualquier otro dato solicitado a la SR.
Los siguientes comandos se deben ejecutar desde el símbolo del sistema VPlexcli.
cluster statusll clusters/**/storage-views/* --fullll ~portsshow-use-hierarchy /clusters/**/virtual-volumes/*ll ~system-volumesls -t /clusters/*/directors/*::serial-number(este comando enumera todos los DST para cada nodo)ls -t /clusters/**/director-*/::hostname(los nombres de host que se muestran son las direcciones IP, esto es normal)
B. ¿Cómo capturo los diagnósticos de recopilación en un clúster de nodo metro?
Para capturar estos datos, ejecute un comando collect-diagnostics con las siguientes marcas “--noextended” y “--last-logs 30d”.
-
Establezca una sesión SSH en un símbolo del sistema de Linux del nodo director, por ejemplo, service@director-1-1-a y, a continuación, inicie sesión en vplexcli.
Resultado de muestra:
login as: service Keyboard-interactive authentication prompts from server: | Password: End of keyboard-interactive prompts from server Last login: <date and timestamp data> from x.x.x.x service@director-1-1-a:~> service@director-1-1-a:~> vplexcli Trying ::1... Connected to localhost. Escape character is '^]'. VPlexcli:/>
-
Para iniciar la recolección de datos de diagnóstico, desde el símbolo del sistema de VPlexcli, ejecute el comando “collect-diagnostics” con las opciones indicadas, como se muestra en el siguiente ejemplo.
Ejemplo de resultado:
VPlexcli:/> collect-diagnostics --noextended --last-logs 30d ('WARNING:The collect-diagnostics command was issued with option --noextended. ',) The following file(s) will NOT be collected: core files fast trace dump files slow trace dump files udcom trace dump files udcom legacy trace files user-defined performance sink files the management console's heap ('WARNING:Only the logs that are generated in the last 30 days are collected.') 2024-02-09 19:55:12 UTC: ****Initializing collect-diagnostics... 2024-02-09 19:55:13 UTC: No cluster-witness server found. 2024-02-09 19:55:13 UTC: Free space = 88G 2024-02-09 19:55:13 UTC: Total space needed = 1907M ================================================================================ Starting collect-diagnostics, this operation might take a while... ================================================================================ Executing cluster collection ..
C. Cómo validar los paquetes de collect-diagnostics existentes en el director/nodo.
-
Cuando finalice el comando collect-diagnostics y regrese al símbolo del sistema de vplexcli, conéctese al director desde el cual ejecutó el comando mediante winscp [o una utilidad SCP equivalente] y vaya a la carpeta /diag/collect-diagnostics-out/
-
Identifique uno o más archivos de registro con el registro de fecha y hora correcto y descárguelos en la estación de trabajo local.
D. Cómo cancelar un diagnóstico por recopilación en curso
-
Si aún está en la sesión PuTTY donde inició la recolección de datos de diagnóstico, debería ver la transmisión del resultado de la recolección de datos de diagnóstico en ejecución.
Resultado de muestra:
VPlexcli:/> collect-diagnostics --noextended --last-logs 30d ('WARNING:The collect-diagnostics command was issued with option --noextended. ',) The following file(s) will NOT be collected: core files fast trace dump files slow trace dump files udcom trace dump files udcom legacy trace files user-defined performance sink files the management console's heap ('WARNING:Only the logs that are generated in the last 30 days are collected.') 2022-02-09 19:55:12 UTC: ****Initializing collect-diagnostics... 2022-02-09 19:55:13 UTC: No cluster-witness server found. 2022-02-09 19:55:13 UTC: Free space = 88G 2022-02-09 19:55:13 UTC: Total space needed = 1907M ================================================================================ Starting collect-diagnostics, this operation might take a while... ================================================================================ Executing cluster collection .. -
Abra una sesión PuTTY duplicada e inicie sesión en el director en el que inició la recolección de datos de diagnóstico con la cuenta de servicio.
Resultado de muestra:
login as: service Using keyboard-interactive authentication. Password: Last login: <date and time stamp data> from x.x.x.x service@director-1-1-b:~>
-
Una vez en el director, reinicie la consola de administración mediante el siguiente comando para cancelar el collect-diagnostics que se está ejecutando.
Resultado de muestra:
service@director-1-1-b:~> sudo systemctl restart VPlexManagementConsole.service
-
Si vuelve a la primera sesión de PuTTY en la que se ejecuta collect-diagnostics, cuando reinició la consola de administración, debería ver que collect-diagnostics informa lo siguiente como el último resultado indicado:
"Connection closed by foreign host."
Resultado de muestra (compruebe la última línea del resultado):
VPlexcli:/> collect-diagnostics --noextended --last-logs 30d ('WARNING:The collect-diagnostics command was issued with option --noextended. ',) The following file(s) will NOT be collected: core files fast trace dump files slow trace dump files udcom trace dump files udcom legacy trace files user-defined performance sink files the management console's heap ('WARNING:Only the logs that are generated in the last 30 days are collected.') 2022-02-09 20:02:03 UTC: ****Initializing collect-diagnostics... 2022-02-09 20:02:04 UTC: No cluster-witness server found. 2022-02-09 20:02:04 UTC: Free space = 88G 2022-02-09 20:02:04 UTC: Total space needed = 1907M ================================================================================ Starting collect-diagnostics, this operation might take a while... ================================================================================ Executing cluster collection .. ERROR Executing SMS log collection .. Connection closed by foreign host. <<< -
Una vez que collect-diagnostics se vea detenido, paso 3 anterior, vuelva a la segunda sesión de PuTTY y vaya al directorio /diag. Luego, ejecute "ll" y debería ver algunos directorios adicionales.
collect-diagnostics-tmpcollect-diagnostics-jobscollect-diagnostics-tmp-ext*
* si no se omitieron los archivos extendidos
Resultado de muestra:
service@director-1-1-b:/diag> ll total 32 drwxr-xr-x 2 service groupSvc 4096 Feb 9 20:03 collect-diagnostics-tmp-ext drwxr-xr-x 2 service groupSvc 4096 Feb 9 20:03 collect-diagnostics-jobs drwxr-xr-x 2 service groupSvc 4096 Feb 9 20:04 collect-diagnostics-out drwxr-xr-x 3 service groupSvc 4096 Feb 9 20:02 collect-diagnostics-tmp drwx------ 2 root root 16384 Jan 27 16:54 lost+found drwx--x--x 3 service groupSvc 4096 Dec 17 03:08 share service@director-1-1-b:/diag>
-
Si observa dentro de cada uno de estos directorios, verá archivos con la fecha y la hora en que inició el diagnóstico de recopilación ahora cancelado. Estos archivos ocupan espacio en la partición /diag y se deben quitar.
-
Para quitar o eliminar los archivos del directorio /diag, escriba "rm -r collect-diagnostics-jobs" y "rm -r collect-diagnostics-tmp" y, a continuación, vuelva a ingresar "ll" para asegurarse de que los directorios se hayan eliminado o quitado.
Resultado de muestra:
service@director-1-1-b:/diag> rm -r collect-diagnostics-jobs service@director-1-1-b:/diag> rm -r collect-diagnostics-tmp service@director-1-1-b:/diag> ll total 24 drwxr-xr-x 2 service groupSvc 4096 Feb 9 20:04 collect-diagnostics-out drwx------ 2 root root 16384 Jan 27 16:54 lost+found drwx--x--x 3 service groupSvc 4096 Dec 17 03:08 share service@director-1-1-b:/diag>
-
Si existe un directorio “collect-diagnostics-tmp-ext”, elimínelo y ejecute “rm -r collect-diagnostics-tmp-ext”
Nota: Por lo general, el archivo extendido se utiliza para investigar bloqueos de los nodos. Si hay una investigación en curso sobre una falla del nodo y el soporte no capturó todos los registros necesarios, consulte con el soporte antes de limpiar el directorio collect-diagnostics-tmp-ext, ya que, si lo hace, puede eliminar los principales archivos necesarios.