Pasos para confirmar y solucionar errores de DIMM en un servidor Cisco C-Series

Summary: Pasos para confirmar y solucionar errores de DIMM en un servidor Cisco C-Series

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Cómo borrar los errores de DIMM en VxBlock en el servidor de la serie C de UCS

Hechos

  • Servidores montados en rack Cisco C-Series (pueden o no ser administrados por UCSM)

Síntomas
  •  Las alertas se mostrarán en CIMC o UCSM, como las siguientes:

F0184
, F0185
, F0137
, F1236
, F1237

  • PSOD: pantalla púrpura de la muerte (en KVM o en la consola del host)

Solución

Recopilación de
 
registrosCapture los registros del servidor afectado ANTES de realizar cualquier solución de problemas. Necesitamos una base para determinar el éxito de los pasos de solución de problemas.

Los servidores en rack de la serie C pueden ser independientes o administrados por UCSM.  Los pasos para recopilar y revisar los registros serán ligeramente diferentes según cuál sea.
  • Independiente.
  • Administrado por UCSM: seleccione "Montaje en rack" en lugar de "chasis" o "ucsm" en el campo Opciones
  • Si solo tiene registros de CIMC, puede saber que provienen de un servidor administrado por UCSM porque el nombre de archivo contendrá CIMCXXX.  Los archivos de registro también estarán en un directorio comprimido llamado Servidor XX, en lugar de hacerlo directamente en el directorio comprimido principal.  Si ve esto, los registros de UCSM también serán necesarios.
Si el servidor experimentó una PSOD, tome una captura de pantalla de la PSOD y recopile registros de vSphere/host.

Análisis de

registros  Las principales diferencias entre los registros son las
  • Hay información adicional disponible en el archivo de sam_techsupport de UCSM para los servidores administrados de UCSM
  • Ubicación de los directorios. (consulte la nota en la sección Recopilación de registros)
Ubicaciones de registro útiles en los registros de UCSM y CIMC:

UCSM_X_TechSupport.tar\sam_techsupportinfo
  • "show server inventory expand" (confirme el número de serie del servidor, busque el PID). Ejemplo:
Servidor 1:
     Modelo: UCSC-C220-M4S
     Serie confirmada (SN): FCHXXXXXXXXXX
     Nombre de producto reconocido: Cisco UCS C220 M4S
     PID reconocido: UCSC-C220-M4S
  • 'show fault detail' (localizar los fallos asociados) - Ejemplo:
Gravedad: Destacado
Código: F0844
Último tiempo de transición: 2017-05-23T12:40:40.774
Descripción: DIMM DIMM_B2 en el servidor 24 operaState: deshabilitado
  • "show server memory detail" (ubique el PID del DIMM afectado): ejemplo:
Location: DIMM_A1
Nombre del producto: RDIMM/PC4-19200 MHz DDR4-2400-MHz de 16 GB/rango único/x4/1,2 v
PID: UCS-MR-xxxxxxxx-A
Nota: La mayor parte de esta información está disponible en sam_techsupport para servidores

administrados por UCSM [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
  • Área de información del chasis
Busque el número de serie del servidor que aparece como "Chassis Serial Number". Ejemplo de la siguiente manera: 
====================[ Área de información del chasis ]======================
            Número de pieza del chasis: [74-xxxxx-02]
            Número de serie del chasis: [FCHXXXXXXXXX]
 
  • Área de la Junta Directiva
Busque el PID y el número de serie de la placa base. Ejemplo de la siguiente manera: 
========================[ Área de la Junta ]=========================
            Nombre del producto de la placa: [UCSC-C240-MXXXX]
            Número de serie de la placa: [FCHXXXXXXXXX]
 
  • Volcado de tabla de SMBIOS BEGIN    
                Busque el número de referencia de DIMM en Dispositivo de memoria\Localizador de piezas. Ejemplo de la siguiente manera: 
                Nota: Es posible que este no sea el PID de Cisco, pero se puede correlacionar para encontrarlo
Dispositivo de memoria
           Localizador: DIMM_A1
           Número de pieza: 36ASxxxxxx-2G3B1
  Sección Consulta de todos los sensores IPMI:
Errores corregibles e incorregibles:
Nombre del sensor | Lectura | Unidad | Estado | LNR | LC | LNC | UNC | UC | UNR    
DDR4_P2_E1_ECC | 63250.000 | Error | UNR | NA | NA | NA | NA | NA | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Error | UNR | NA | NA | NA | NA | NA | 60250.000
DDR4_P2_E3_ECC | 63250.000 | Error | UNR | NA | NA | NA | NA | NA | 60250.000


[ServerXX_TechSupport.tar]\var\log\sel\log
  • Revise los registros para ver si hay errores de ECC corregibles e incorregibles:
Memoria DDR4_P2_E2_ECC #0xb0 | leer 512 errores ECC corregibles en el DIMM de CPU2 E2 | Afirmó
  • Revise los registros en busca de CATERR_N... Afirmado | Entradas confirmadas, un ejemplo es el siguiente:
03/06/2017 20:02:12 | CIMC | Procesador CATERR_N #0x70 | Falla predictiva declarada | Afirmó
  Nota: se espera que se produzca un comportamiento en el que se vea CATERR_N anulado | Se afirma en los registros en el momento del arranque [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
  • Busque los recuentos de errores corregibles/incorregibles de los DIMM afectados y copie los campos pertinentes, como en el siguiente ejemplo:
================== RESUMEN DE ERRORES DE DIMM ===================
------- DIMM E2 ----------
  CONTEO ACTUAL DE ERRORES DE RANURA:
      Errores de ECC corregibles desde el último arranque del servidor: 0
      Conteo de errores de ECC corregibles acumulativos: 2560
      Errores de ECC incorregibles desde el último arranque del servidor: 0
      Conteo de errores de ECC acumulativos e incorregibles: 3
   RECUENTOS DE ERRORES DE RANURA ANTERIORES:
      Conteo de errores de ECC corregibles: 0
      Conteo de errores de ECC incorregibles: 0

[ServerXX_TechSupport.tar]\var\sel_decode.txt
  • Jugada por jugada de las entradas y fallas de sel
eventLogMaxEntries: 1445
eventLogList: 
---
Id: 1440
Severidad: Crítico
Datetime: 2017-03-10 00:57:17 
dateTimeOrder: 00005
Descripción: "Evento de software del sistema: Sensor POST, conector DIMM 3, canal E, conector del procesador 2. Desactivada debido a que otra memoria falló en el mismo canal. [0xE542] se afirmó"

Para servidores independientes:
  • tmp\tech_support.frupids
====== Descarga de registros de FRU de IPMI ======
Nombre del producto: UCSC-C220-xxx
Número de referencia del producto: 74-xxxx-01
Versión del producto: Un
 Número de serie del producto: FCHxxxxxxxN: número de serie del servidor

====== PID del catálogo de inventario de volcado ======
Módulo DIMMList: 
Name: DIMM_A1Description: RDIMM/PC3-10600/rango doble/1,35 V DDR3-1333-MHz de 8 GB
PID: UCS-MR-1X082RX-A: PID DIMM


Posanálisis
Después de realizar el análisis, asegúrese de que la solicitud de servicio se actualice con el número de serie correcto del servidor afectado y se realice una búsqueda en la base de datos en busca de cualquier RMA anterior asociado con el blade que se está investigando.  Si el DIMM que muestra fallas se reemplazó recientemente, es posible que la placa base sea sospechosa.

Agregue su análisis a la solicitud de servicio.

Solución de
 
problemas lógicaUna vez que se identifiquen errores, intentaremos borrarlos todos y monitorear los contadores y la pestaña de fallas en UCSM para ver si persisten.
Inicie sesión en la línea de comandos del servidor.

Borrar contadores de errores de memoria
Chasis con alcance de servidor#
# reset-ecc del servidor/chasis
Borre los registros de eventos del sistema con los siguientes comandos:
Server# scope sel
Server /sel # clear 
Esta operación borrará todo el sel.
¿Continuar? [y|N]y

 Restablezca el registro de CIMC mediante los siguientes comandos:
Alcance de Server# cimc
Server /cimc # scope log
Server /cimc/log # clear

Monitoree el entorno durante 48 horas.
Si los errores persisten, capture un nuevo conjunto de registros de UCS y del chasis, confirme el análisis, formule un plan de acción basado en la evidencia y continúe con la siguiente sección.

Causa
  • Por lo general, los errores de DIMM se deben a un DIMM defectuoso o, a veces, a una placa base defectuosa

Notas
  • Ninguno

Additional Information

Consulte este video:

Affected Products

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series
Article Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.