Etapas sobre como confirmar e solucionar problemas de erros de DIMM em um servidor Cisco Série C

Summary: Etapas sobre como confirmar e solucionar problemas de erros de DIMM em um servidor Cisco Série C

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Como limpar erros de DIMM no VxBlock UCS C Series Server

Fatos

  • Servidores montados em rack Cisco série C (podem ou não ser gerenciados pelo UCSM)

Sintomas
  •  Alertas serão exibidos no CIMC ou UCSM, como:

F0184
F0185
F0137
F1236
F1237

  • PSOD – Tela roxa da morte (no KVM ou console do host)

Solução

Conjunto de registros
 
Capture registros do servidor afetado ANTES de realizar qualquer solução de problemas. Precisamos de uma linha de base para determinar o sucesso das etapas de solução de problemas.

Os servidores em rack Série C podem ser independentes ou gerenciados pelo UCSM.  As etapas para coletar e analisar os logs serão um pouco diferentes, dependendo de qual seja.
  • Autônomo.
  • Gerenciado pelo UCSM: selecione "Rack Mount" em vez de "chassis" ou "ucsm" no campo Options
  • Se você tiver apenas logs do CIMC, poderá perceber que eles são de um servidor gerenciado pelo UCSM, pois o nome do arquivo conterá CIMCXXX.  Os arquivos de log também estarão em um diretório compactado chamado Servidor XX, em vez de diretamente no diretório principal compactado.  Se isso ocorrer, os logs do UCSM também serão necessários.
Se o servidor apresentou uma PSOD, faça uma captura de tela da PSOD, bem como colete logs do vSphere/host.

Análise

de log  As principais diferenças entre os logs são as
  • Informações adicionais estão disponíveis no arquivo de sam_techsupport do UCSM para servidores gerenciados pelo UCSM
  • Localização dos diretórios. (consulte a nota em Coleta de logs)
Locais de logs úteis nos logs do UCSM e do CIMC:

UCSM_X_TechSupport.tar\sam_techsupportinfo
  • "show server inventory expand" (confirme o número de série do servidor, localize o PID). Exemplo:
Servidor 1:
     Modelo: UCSC-C220-M4S
     Serial (SN) confirmado: FCHXXXXXXXXXXXXX
     Nome do produto confirmado: Cisco UCS C220 M4S
     PID confirmado: UCSC-C220-M4S
  • "show fault detail" (localize falhas associadas) — exemplo:
Severity: Principais
Código: F0844
Último horário de transição: 2017-05-23T12:40:40.774
Descrição: DIMM_B2 DIMM no servidor 24 operaState: desativado
  • "show server memory detail" (localiza o PID do DIMM afetado) — exemplo:
Localização: DIMM_A1
Nome do produto: DDR4 de 16 GB a 2.400 MHz RDIMM/PC4-19200/fileira única/x4/1.2v
PID: UCS-MR-xxxxxxxx-A
Nota: a maioria dessas informações está disponível no sam_techsupport para servidores

gerenciados pelo UCSM [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
  • Área de informações do chassi
Localize o número de série do servidor listado como "Número de série do chassi". Exemplo a seguir: 
====================[ Área de informações do chassi ]======================
            Número da peça do chassi: [74-xxxxx-02]
            Número de série do chassi: [FCHXXXXXXXXX]
 
  • Área do Tabuleiro
Localize o PID e o número de série da placa-mãe. Exemplo a seguir: 
========================[ Área do Conselho ]=========================
            Nome do produto da placa : [UCSC-C240-MXXXX]
            Número de série da placa: [FCHXXXXXXXX]
 
  • Dump de tabela do SMBIOS BEGIN    
                Localize o número de peça do DIMM em Memory Device\Part Locator. Exemplo a seguir: 
                Nota: este pode não ser o PID da Cisco, mas pode ser correlacionado para encontrá-lo
Dispositivo de memória
           Localizador: DIMM_A1
           Número da peça: 36ASxxxxxx-2G3B1
  Consultando a seção Todos os sensores IPMI:
Erros corrigíveis e incorrigíveis:
Nome do sensor | Leitura | Unidade | Situação | LNR - Brasil | LC - Brasil | O LNC | UNC - Brasil | UC | URN    
DDR4_P2_E1_ECC | 63250.000 | erro | A UNR | NA | NA | NA | NA | NA | 60250.000 DDR4_P2_E2_ECC | 63750.000 | erro | A UNR | NA | NA | NA | NA | NA | 60250.000
DDR4_P2_E3_ECC | 63250.000 | erro | A UNR | NA | NA | NA | NA | NA | 60250.000


[ServerXX_TechSupport.tar]\var\log\sel\log
  • Analise os logs em busca de erros ECC corrigíveis e incorrigíveis:
DDR4_P2_E2_ECC #0xb0 de memória | Leia 512 erros ECC corrigíveis no DIMM E2 da CPU2 | Afirmou
  • Analise os logs para qualquer CATERR_N ... Afirmado | Entradas declaradas, um exemplo é o seguinte:
03/06/2017 20:02:12 | O CIMC | Processador CATERR_N #0x70 | Falha preditiva confirmada | Afirmou
  Nota: espera-se que o comportamento veja CATERR_N desafirmado | Confirmado nos logs no momento da inicialização [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
  • Encontre contagens de erros corrigíveis/incorrigíveis para DIMMs afetados e copie os campos relevantes. Veja um exemplo abaixo:
================== RESUMO DOS ERROS DE DIMM ===================
------- DIMM E2 ----------
  CONTAGENS DE ERROS ATUAIS DO SLOT :
      Erros ECC corrigíveis desde a última inicialização do servidor : 0
      Contagem de erros ECC corrigíveis cumulativos: 2560
      Erros ECC incorrigíveis desde a última inicialização do servidor: 0
      Contagem de erros ECC cumulativos incorrigíveis : 3
   CONTAGENS DE ERROS DE SLOT ANTERIORES :
      Contagem de erros ECC corrigíveis : 0
      Contagem de erros ECC incorrigíveis : 0

[ServerXX_TechSupport.tar]\var\sel_decode.txt
  • Jogo a jogo de entradas e falhas sel
eventLogMaxEntries: 1445
eventLogList: 
---
Id: 1440
Gravidade: Crítico
Datetime: 2017-03-10 00:57:17 
dateTimeOrder: 00005
Descrição: "System Software event: Sensor de poste, soquete DIMM 3, canal E, soquete do processador 2. Desativado devido a outra falha de memória no mesmo canal. [0xE542] foi afirmado"

Para servidores independentes:
  • tmp\tech_support.frupids
====== Dumping de registros de FRU de IPMI ======
Nome do produto: UCSC-C220-xxx
Número de peça do produto: 74-xxxx-01
Versão do produto: Um
 Série do produto: FCHxxxxxxxN – número de série do servidor

====== PIDs do catálogo de inventário de despejo ======
DIMMList: 
Nome: DIMM_A1Description: 8GB DDR3-1333-MHz RDIMM/PC3-10600/fileira dupla/1,35v
PID: UCS-MR-1X082RX-A – DIMM PID


Pós-Análise
Depois de executar a análise, certifique-se de que o chamado esteja atualizado com o número de série correto do servidor afetado e que o banco de dados seja pesquisado em busca de quaisquer RMAs anteriores associados à lâmina que está sendo investigada.  Se o DIMM mostrando falhas foi substituído recentemente, a placa-mãe pode ser suspeita.

Adicione sua análise à solicitação de serviço.

Solução de problemas
 
lógicosDepois que os erros forem identificados, tentaremos limpar todos eles e monitorar os contadores e a guia de falhas no UCSM para ver se eles persistem.
Faça login na linha de comando do servidor.

Limpar contadores de erros de memória
Chassi de escopo do servidor#
servidor /chassis # reset-ecc
Limpar logs de eventos do sistema com os comandos abaixo:
Escopo do servidor# sel
Servidor /sel # limpar 
Esta operação limpará todo o sel.
Continuar? [y|N]y

 Redefina o registro do CIMC usando os comandos abaixo:
CIMC de escopo do servidor#
Log de escopo /cimc # do servidor
Servidor /cimc/log # clear

Monitore o ambiente por 48 horas.
Se os erros persistirem, capture um novo conjunto de logs do UCS e do chassi, confirme a análise, formule um plano de ação com base nas evidências e avance para a próxima seção.

Causa
  • Os erros de DIMM geralmente são causados por um DIMM defeituoso ou, às vezes, por uma placa-mãe defeituosa

Notas
  • Nenhuma

Additional Information

Consulte este vídeo:

Affected Products

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series
Article Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.