Etapas sobre como confirmar e solucionar problemas de erros de DIMM em um servidor Cisco Série C
Summary: Etapas sobre como confirmar e solucionar problemas de erros de DIMM em um servidor Cisco Série C
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
Como limpar erros de DIMM no VxBlock UCS C Series Server
Fatos
- Servidores montados em rack Cisco série C (podem ou não ser gerenciados pelo UCSM)
Sintomas
- Alertas serão exibidos no CIMC ou UCSM, como:
F0184
F0185
F0137
F1236
F1237
- PSOD – Tela roxa da morte (no KVM ou console do host)
Solução
Conjunto de registros
Capture registros do servidor afetado ANTES de realizar qualquer solução de problemas. Precisamos de uma linha de base para determinar o sucesso das etapas de solução de problemas.
Os servidores em rack Série C podem ser independentes ou gerenciados pelo UCSM. As etapas para coletar e analisar os logs serão um pouco diferentes, dependendo de qual seja.
- Autônomo.
- Gerenciado pelo UCSM: selecione "Rack Mount" em vez de "chassis" ou "ucsm" no campo Options
- Se você tiver apenas logs do CIMC, poderá perceber que eles são de um servidor gerenciado pelo UCSM, pois o nome do arquivo conterá CIMCXXX. Os arquivos de log também estarão em um diretório compactado chamado Servidor XX, em vez de diretamente no diretório principal compactado. Se isso ocorrer, os logs do UCSM também serão necessários.
Análise
de log As principais diferenças entre os logs são as
- Informações adicionais estão disponíveis no arquivo de sam_techsupport do UCSM para servidores gerenciados pelo UCSM
- Localização dos diretórios. (consulte a nota em Coleta de logs)
UCSM_X_TechSupport.tar\sam_techsupportinfo
- "show server inventory expand" (confirme o número de série do servidor, localize o PID). Exemplo:
Servidor 1:
Modelo: UCSC-C220-M4S
Serial (SN) confirmado: FCHXXXXXXXXXXXXX
Nome do produto confirmado: Cisco UCS C220 M4S
PID confirmado: UCSC-C220-M4S
- "show fault detail" (localize falhas associadas) — exemplo:
Severity: Principais Código: F0844 Último horário de transição: 2017-05-23T12:40:40.774 Descrição: DIMM_B2 DIMM no servidor 24 operaState: desativado
- "show server memory detail" (localiza o PID do DIMM afetado) — exemplo:
Localização: DIMM_A1 Nome do produto: DDR4 de 16 GB a 2.400 MHz RDIMM/PC4-19200/fileira única/x4/1.2v PID: UCS-MR-xxxxxxxx-ANota: a maioria dessas informações está disponível no sam_techsupport para servidores
gerenciados pelo UCSM [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
- Área de informações do chassi
====================[ Área de informações do chassi ]======================
Número da peça do chassi: [74-xxxxx-02]
Número de série do chassi: [FCHXXXXXXXXX]
- Área do Tabuleiro
========================[ Área do Conselho ]=========================
Nome do produto da placa : [UCSC-C240-MXXXX]
Número de série da placa: [FCHXXXXXXXX]
- Dump de tabela do SMBIOS BEGIN
Nota: este pode não ser o PID da Cisco, mas pode ser correlacionado para encontrá-lo
Dispositivo de memória
Localizador: DIMM_A1
Número da peça: 36ASxxxxxx-2G3B1 Consultando a seção Todos os sensores IPMI:
Erros corrigíveis e incorrigíveis: Nome do sensor | Leitura | Unidade | Situação | LNR - Brasil | LC - Brasil | O LNC | UNC - Brasil | UC | URN DDR4_P2_E1_ECC | 63250.000 | erro | A UNR | NA | NA | NA | NA | NA | 60250.000 DDR4_P2_E2_ECC | 63750.000 | erro | A UNR | NA | NA | NA | NA | NA | 60250.000 DDR4_P2_E3_ECC | 63250.000 | erro | A UNR | NA | NA | NA | NA | NA | 60250.000
[ServerXX_TechSupport.tar]\var\log\sel\log
- Analise os logs em busca de erros ECC corrigíveis e incorrigíveis:
DDR4_P2_E2_ECC #0xb0 de memória | Leia 512 erros ECC corrigíveis no DIMM E2 da CPU2 | Afirmou
- Analise os logs para qualquer CATERR_N ... Afirmado | Entradas declaradas, um exemplo é o seguinte:
03/06/2017 20:02:12 | O CIMC | Processador CATERR_N #0x70 | Falha preditiva confirmada | AfirmouNota: espera-se que o comportamento veja CATERR_N desafirmado | Confirmado nos logs no momento da inicialização [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
- Encontre contagens de erros corrigíveis/incorrigíveis para DIMMs afetados e copie os campos relevantes. Veja um exemplo abaixo:
================== RESUMO DOS ERROS DE DIMM =================== ------- DIMM E2 ---------- CONTAGENS DE ERROS ATUAIS DO SLOT : Erros ECC corrigíveis desde a última inicialização do servidor : 0 Contagem de erros ECC corrigíveis cumulativos: 2560 Erros ECC incorrigíveis desde a última inicialização do servidor: 0 Contagem de erros ECC cumulativos incorrigíveis : 3 CONTAGENS DE ERROS DE SLOT ANTERIORES : Contagem de erros ECC corrigíveis : 0 Contagem de erros ECC incorrigíveis : 0
[ServerXX_TechSupport.tar]\var\sel_decode.txt
- Jogo a jogo de entradas e falhas sel
eventLogMaxEntries: 1445 eventLogList: --- Id: 1440 Gravidade: Crítico Datetime: 2017-03-10 00:57:17 dateTimeOrder: 00005 Descrição: "System Software event: Sensor de poste, soquete DIMM 3, canal E, soquete do processador 2. Desativado devido a outra falha de memória no mesmo canal. [0xE542] foi afirmado"
Para servidores independentes:
- tmp\tech_support.frupids
====== Dumping de registros de FRU de IPMI ====== Nome do produto: UCSC-C220-xxx Número de peça do produto: 74-xxxx-01 Versão do produto: Um Série do produto: FCHxxxxxxxN – número de série do servidor ====== PIDs do catálogo de inventário de despejo ====== DIMMList: Nome: DIMM_A1Description: 8GB DDR3-1333-MHz RDIMM/PC3-10600/fileira dupla/1,35v PID: UCS-MR-1X082RX-A – DIMM PID
Pós-Análise
Depois de executar a análise, certifique-se de que o chamado esteja atualizado com o número de série correto do servidor afetado e que o banco de dados seja pesquisado em busca de quaisquer RMAs anteriores associados à lâmina que está sendo investigada. Se o DIMM mostrando falhas foi substituído recentemente, a placa-mãe pode ser suspeita.
Adicione sua análise à solicitação de serviço.
Solução de problemas
lógicosDepois que os erros forem identificados, tentaremos limpar todos eles e monitorar os contadores e a guia de falhas no UCSM para ver se eles persistem.
Faça login na linha de comando do servidor.
Limpar contadores de erros de memória
Chassi de escopo do servidor# servidor /chassis # reset-eccLimpar logs de eventos do sistema com os comandos abaixo:
Escopo do servidor# sel Servidor /sel # limpar Esta operação limpará todo o sel. Continuar? [y|N]y
Redefina o registro do CIMC usando os comandos abaixo:
CIMC de escopo do servidor# Log de escopo /cimc # do servidor Servidor /cimc/log # clear
Monitore o ambiente por 48 horas.
Se os erros persistirem, capture um novo conjunto de logs do UCS e do chassi, confirme a análise, formule um plano de ação com base nas evidências e avance para a próxima seção.
Causa
- Os erros de DIMM geralmente são causados por um DIMM defeituoso ou, às vezes, por uma placa-mãe defeituosa
Notas
- Nenhuma
Additional Information
Consulte este vídeo:
Affected Products
Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems SeriesArticle Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version: 4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.