Dell Unity: Cómo recopilar la información necesaria para realizar un análisis de rendimiento de Unity
Summary: En este artículo, se muestra cómo recopilar registros y datos para diagnosticar problemas de rendimiento en arreglos Unity.
Instructions
Problema
-
Rendimiento deficiente de lectura o escritura (o ambos) o tiempos de respuesta altos para los hosts conectados.
-
Los tiempos de respuesta de las aplicaciones de host han aumentado o son inaceptablemente altos.
-
Problemas de rendimiento en un arreglo Dell Unity, lo cual requiere un análisis de rendimiento.
Los problemas de rendimiento pueden tener varias causas. Entre ellas: la configuración de red, congestión, configuración del host, fallas de hardware, contención de discos (varios LUN ocupados que comparten las mismas unidades) o el arreglo de almacenamiento en su máximo nivel de uso.
El equipo de soporte técnico de Unity no podrá investigar y solucionar por completo los problemas de rendimiento hasta que se proporcione lo siguiente:
- Archivo de datos de servicio (recopilación de datos)
- Archivos UPA (archivos de rendimiento de Unity)
- Una descripción detallada de los síntomas experimentados en el entorno de producción
Si no se proporciona rápidamente la información en este artículo de la base de conocimientos de Dell (KB), se pueden producir tiempos de resolución más prolongados.
Los detalles de los problemas de rendimiento (síntomas, registros de fecha y hora, etc.) son cruciales para que el ingeniero sepa dónde enfocarse (horas, LUN, hosts, etc.), en lugar de dedicar varias horas solo a encontrar el problema (no la causa). Sin este detalle, se pueden dedicar horas a buscar un problema solo para analizar las estadísticas generales de rendimiento.
Alcance
Los servicios de soporte al cliente se encargan de investigar los casos de rendimiento para identificar los problemas que afectan a los sitios de los clientes. El ajuste (a fin de lograr el máximo rendimiento para un host o una aplicación) y la reconfiguración del rendimiento son una tarea para un administrador de almacenamiento o un arquitecto de soluciones, por lo que esto no se manejará en una solicitud de servicio de solución de problemas.
Las solicitudes de servicio que no incluyen un problema definido, como la solicitud de un informe del nivel actual de carga de trabajo en un arreglo, están fuera del alcance de lo que puede realizar el equipo de soporte para solucionar problemas. Para efectos de autoayuda o aquellos que necesiten ayuda para determinar el nivel de carga de trabajo en un arreglo, se puede usar el servicio LiveOptics. Consulte el siguiente artículo para obtener información detallada sobre esta opción:
Requisitos de datos e información para un análisis detallado del rendimiento
Para cada evento, el soporte técnico necesita los siguientes registros e información del período del incidente:
- Archivos de datos de servicio (también conocidos como recopilaciones de datos), generados poco después de que se produjo el problema.
- Si la replicación está en uso, se necesitan las recopilaciones de datos y los archivos UPA de ambos arreglos.
- Archivos UPA de Unity (archivos de rendimiento de Unity), que aborden todo el período en que se produjo el problema.
- También es posible que se requieran registros de switch y capturas de hosts si el problema parece estar fuera del arreglo.
- También es posible que se requieran seguimientos de red de Unity.
PROBLEMAS DE BLOQUES
- Proporcione una descripción clara y detallada del problema:
- ¿Cuándo se produjo el problema? (Fecha, hora y zona horaria)
- ¿Cuáles LUN se ven afectados?
- Es importante para acotar la búsqueda.
- ¿La reducción de datos o la deduplicación avanzada están habilitadas en los LUN que presentan problemas? ¿La reducción de datos está habilitada para otros LUN? (Consulte el informe técnico “Prácticas recomendadas de Unity”, sección “Utilización de CPU”, página 9)
- ¿La replicación está en uso? Proporcione información sobre el RPO para replicación y si es que el problema de rendimiento mejora cuando la replicación está en pausa.
- ¿Hay o hubo datos activos no disponibles en algún momento?
- ¿Hay algo más en ejecución en el momento especificado? (Respaldo, trabajos, lotes, escaneos de virus, optimización del disco del host [TRIM/UNMAP], etc.)
- Si algo no funciona como debería, ¿alguna vez funcionó? O bien, ¿forma parte de una nueva implementación/configuración? ¿Se agregaron nuevas aplicaciones o hosts recientemente?
- ¿Cómo se mide el rendimiento o cuál es el impacto? ¿Existen demoras o errores en el host? ¿Los usuarios finales informan lentitud?
- ¿Algún cambio reciente en el entorno SAN (hosts, switches, arreglo)?
- Impacto (aplicaciones afectadas, cantidad de servidores afectados, cantidad de usuarios afectados, etc.)
- ¿Con qué frecuencia ocurre el problema? (Constantemente/Con frecuencia/Solo una vez/De forma aleatoria)
- ¿Cuáles son los nombres de los hosts afectados?
- ¿Qué topología se utiliza? ¿FC, iSCSI o Ethernet? (Si utiliza iSCSI, todos los hosts DEBEN tener desactivado el ACK retrasado de TCP.
- Si es posible que el problema esté relacionado con la conectividad, es probable que el soporte técnico solicite un diagrama de topología.
- ¿Existe un problema conocido en la red en simultáneo o la red se actualizó recientemente? Además, compruebe que iSCSI no se utilice en la LAN interna y los switches utilizados deben ser switches de clase empresarial.
PROBLEMAS DE ARCHIVOS
- Proporcione una descripción clara y detallada del problema:
- ¿Cuáles son los protocolos específicos involucrados?
- Ejemplo: NFS (versión), CIFS (versión), NDMP, iSCSI, FTP, etc.
- ¿El problema está relacionado con una exportación, un recurso compartido, un sistema de archivos o un LUN específicos?
- ¿A qué hora del día se produce el problema? (Fecha, hora y zona horaria)
- ¿Cuál era la carga de trabajo activa en ese momento?
- Ejemplo: inicio de sesión, cierre de sesión, respaldo, trabajos por lotes, etc.
- ¿Qué hosts están involucrados?
- Ejemplo: ¿Respaldo, VM, estaciones de trabajo, servidores, etc.?
- Detalles específicos sobre la aplicación.
- ¿Cómo se ve la configuración de red?
- Proporcione detalles específicos de la interfaz/NIC.
- ¿Las interfaces de red están aisladas en NIC separadas?
- Ejemplo: Tráfico de replicación en su NIC dedicada
Recopilación de archivos de datos de servicio (recopilación de datos)
Para recopilar el archivo de datos de servicio (recopilación de datos), consulte el artículo de LKB 000023676: Los archivos resultantes tras ejecutar el archivo de datos de servicio en el arreglo serán necesarios para mostrar la configuración del arreglo en detalle y cualquier evento que haya ocurrido en el arreglo. El soporte técnico recomienda que los clientes recopilen el archivo de datos de servicio (recopilación de datos) lo antes posible después de que se produzca el evento.
Tenga en cuenta que el archivo de datos de servicio contiene el último archivo UPA completo (una hora) y cualquier archivo UPA -tmp.archive disponible. A menudo, esta no es información suficiente para realizar una revisión de rendimiento adecuada y se requieren UPA adicionales.
Para buscar el archivo UPA dentro del archivo de datos de servicio (recopilación de datos), vaya a spx\cmd_outputs\metrics\
-
spx= SP principal -
Ejemplo: Si la SPA es el SP activo, el UPA está en
spa\cmd_outputs\metrics
Recopilación de archivos UPA
- Es posible que el soporte técnico solicite archivos UPA adicionales.
- A diferencia del archivo de datos de servicio (recopilación de datos), el arreglo almacena hasta 48 horas de archivos UPA.
- Los archivos UPA se ven como en el siguiente ejemplo. Cada nombre de archivo contiene la fecha y la hora del primer punto de datos en el archivo. El intervalo es de 10 segundos y cubre una hora menos 10 segundos. La fecha y las horas en los nombres de archivo son UTC/GMT.
- El último archivo UPA en el siguiente ejemplo es el archivo más reciente (
-tmp.archive). Este archivo contiene los datos de rendimiento actuales y se puede copiar desde el arreglo (solo con SSH/CLI) para analizar los datos más actuales. El soporte técnico puede utilizar este archivo para ver eventos de rendimiento sin necesidad de esperar hasta la próxima hora.
- El último archivo UPA en el siguiente ejemplo es el archivo más reciente (
Ejemplo de archivos UPA almacenados en el arreglo Dell Unity:01/05/2017 10:59 AM 11,017,216 _default_20170105_150000.archive
01/05/2017 11:59 AM 11,017,216 _default_20170105_160000.archive
01/05/2017 01:00 PM 11,017,216 _default_20170105_170000.archive
01/05/2017 01:59 PM 10,983,424 _default_20170105_180000.archive
01/05/2017 02:45 PM 8,308,736 _default_20170105_190000-tmp.archive
Opción 1: Lista de Unisphere
Esta opción solo está disponible para Unity OE 4.2 y versiones posteriores. Aquí es posible que no se muestren todos los UPA disponibles. Existe una limitación en la interfaz de usuario (Unisphere) y solo se pueden enumerar algunos archivos disponibles. Si el archivo UPA requerido no aparece en la lista, pase a la Opción 2 o utilice SSH/CLI.
Opción 2: Rango de tiempo de Unisphere
- Puede seleccionar un rango de tiempo para que el sistema extraiga los UPA disponibles.
- Confirme la hora del problema antes de recopilar los registros para que solo se descarguen aquellos necesarios.
- Tenga en cuenta que el rango de tiempo del cliente está en la hora del navegador local y, a menudo, coincide con el tiempo actual de la estación de trabajo.
- Esta opción solo está disponible para Unity OE 4.2 y versiones posteriores

Con SSH/CLI
También se puede usar la CLI para acceder a más UPA que se encuentren en el arreglo de Unity (pero que no se enumeran en la UI [Unisphere] al usar la Opción 1).
-
Inicie sesión con el usuario servicio y la contraseña de servicio.
-
Copie los registros deseados en
/cores/service/userfrom/EMC/backend/metricsluna1/archives -
Descargue estos registros con WinSCP o una herramienta similar.
-
Si el arreglo está en la versión OE 4.5.X o una más reciente, cambie el protocolo de archivos a SCP.
-
Inicie sesión con el nombre de usuario service y la contraseña de servicio.
-
ll /EMC/backend/metricsluna1/archives/
cp /EMC/backend/metricsluna1/archives/_default_20230221_180000.archive.gz /cores/service/user
Nota: Si solo está recopilando UPA actuales, es posible que desee |tail-10, ya que hay docenas de archivos UPA disponibles en el back-end; sin embargo, puede enumerarlos todos.

Recopilación de datos del host
Es posible que se necesiten archivos de salida de captura de hosts (o informe de EMC), especialmente si el problema es exclusivo de hosts específicos.
-
Vaya a https://www.dell.com/support/home/ (sitio de soporte de Dell) y busque la utilidad Grab para el SO de host correcto (ejemplo: captura de hosts ESXi)
-
Descargue la utilidad y el archivo LÉAME.
-
Siga el archivo LÉAME a fin de ejecutar la utilidad para el sistema operativo del host elegido.
Registros del switch
Si el problema de rendimiento solo existe en ciertas rutas, es posible que se requieran registros del switch. Consulte la siguiente LKB para obtener instrucciones (según el modelo que se utiliza):
Brocade/Connectrix
Capturas de seguimiento de red (volcado de TCP)
Algunos problemas de rendimiento de archivos pueden estar relacionados con problemas de red. A fin de determinar completamente la causa de un problema, es posible que el equipo de soporte le solicite seguimientos de red.
Dell Unity: Cómo capturar un seguimiento de red TCP/IP desde el arreglo. (Corregible por el usuario)