Cisco C-Series 서버에서 DIMM 오류를 확인하고 문제를 해결하는 방법에 대한 단계

Summary: Cisco C-Series 서버에서 DIMM 오류를 확인하고 문제를 해결하는 방법에 대한 단계

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

VxBlock UCS C 시리즈 서버에서 DIMM 오류를 지우는 방법

사실

  • Cisco C-Series 랙 마운트 서버(UCSM에서 관리하거나 관리하지 않을 수 있음)

증상
  •  다음과 같은 알림이 CIMC 또는 UCSM에 표시됩니다.

F0184
F0185
F0137
F1236
F1237

  • PSOD – 죽음의 보라색 화면(호스트의 KVM 또는 콘솔)

솔루션

로그 수집
 
문제 해결이 수행되기 전에 영향을 받는 서버에서 로그를 캡처합니다. 문제 해결 단계의 성공 여부를 판단하기 위한 기준이 필요합니다.

C-Series 랙 서버는 독립 실행형이거나 UCSM에서 관리할 수 있습니다.  로그를 수집하고 검토하는 단계는 로그에 따라 약간 다릅니다.
  • 독립 실행형.
  • UCSM에서 관리 - 옵션 필드에서 "섀시" 또는 "ucsm" 대신 "랙 마운트" 를 선택합니다.
  • CIMC 로그만 있는 경우 파일 이름에 CIMCXXX가 포함되므로 UCSM 관리 서버에서 온 것임을 알 수 있습니다.  또한 로그 파일은 기본 압축된 디렉토리가 아니라 Server XX라는 압축된 디렉토리에 있습니다.  이 경우 UCSM 로그도 필요합니다.
서버에서 PSOD가 발생한 경우 PSOD의 스크린샷을 찍고 vSphere/호스트 로그를 수집합니다.

로그 분석

  로그 간의 주요 차이점은 다음과 같습니다.
  • 추가 정보는 UCSM 관리 서버용 UCSM sam_techsupport 파일에서 확인할 수 있습니다
  • 디렉토리의 위치입니다. (로그 수집 아래 참고 사항 참조)
UCSM 및 CIMC 로그의 유용한 로그 위치:

UCSM_X_TechSupport.tar\sam_techsupportinfo
  • 'show server inventory expand'(서버 일련 번호 확인, PID 찾기). 예:
서버 1:
     모델: UCSC-C220-M4S 시리즈
     SN(Acknowledged Serial): FCHXXXXXXXXXXXXX
     확인된 제품 이름: Cisco UCS C220 M4S
     확인된 PID: UCSC-C220-M4S 시리즈
  • 'show fault detail'(연관된 결함 찾기) - 예:
Severity: 주요
코드: F0844 시리즈
마지막 전환 시간: 2017-05-23T12:40:40.774
설명: 서버 24의 DIMM DIMM_B2 operaState: 비활성화
  • 'show server memory detail'(영향을 받는 DIMM PID 찾기) - 예:
Location: DIMM_A1
상품 이름: 16GB DDR4-2400-MHz RDIMM/PC4-19200/싱글 랭크/x4/1.2v
Pid: UCS-MR-xxxxxxxx-A
참고 - 이 정보의 대부분은 UCSM 관리 서버용 sam_techsupport에서 사용할 수 있습니다

. [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
  • 섀시 정보 영역
"섀시 일련 번호"로 나열된 서버 일련 번호를 찾습니다. 예를 들면 다음과 같습니다. 
====================[섀시 정보 영역]======================
            섀시 부품 번호: [74-xxxxx-02]
            섀시 일련 번호: [FCHXXXXXXXXX]입니다.
 
  • 보드 영역
마더보드 PID 및 일련 번호를 찾습니다. 예를 들면 다음과 같습니다. 
========================[ 보드 영역 ]=========================
            보드 제품 이름 : [UCSC-C240-Mxxxx]
            보드 일련 번호 : [FCHXXXXXXXX]입니다.
 
  • SMBIOS 테이블 덤프 BEGIN    
                Memory Device\Part Locator에서 DIMM 파트 번호를 찾습니다. 예를 들면 다음과 같습니다. 
                참고: Cisco PID가 아닐 수 있지만 상관 관계를 지정하여 찾을 수 있습니다.
메모리 디바이스
           로케이터: DIMM_A1
           부품 번호: AN-번호 36ASxxxxxx-2G3B1 DIN 번호
  모든 IPMI 센서 섹션 쿼리:
수정 가능 및 수정 불가능 오류:
센서 이름 | 독서 | 단위 | 상태 | LNR (천화천연가스) | 증권 시세 표시기 | LNC (액화천연) | 유엔사 | UC | UNR (유엔기후변화협약)    
DDR4_P2_E1_ECC | 63250.000 | 오류 | 유엔 산하 | NA | NA | NA | NA | NA | 60250.000 DDR4_P2_E2_ECC | 63750.000 | 오류 | 유엔 산하 | NA | NA | NA | NA | NA | 60250.000
DDR4_P2_E3_ECC | 63250.000 | 오류 | 유엔 산하 | NA | NA | NA | NA | NA | 60250.000


[ServerXX_TechSupport.tar]\var\log\sel\log
  • 수정 가능 및 수정 불가 ECC 오류에 대한 로그를 검토합니다.
메모리 DDR4_P2_E2_ECC #0xb0 | 읽기 512 CPU2 DIMM E2의 수정 가능한 ECC 오류 | 주장
  • 로그를 검토하여 CATERR_N ... 어설션됨 | 어설션된 항목의 예는 다음과 같습니다.
03/06/2017 - 20:02:12 | CIMC (주)엠씨 | 프로세서 CATERR_N #0x70 | Predictive Failure asserted | 주장
  참고: CATERR_N 디어설션된 것을 볼 수 있는 것은 예상되는 동작입니다. 부팅 시 로그에 어설션됨 [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
  • 영향을 받는 DIMM에 대한 수정 가능/수정 불가능 오류 개수를 찾아 관련 필드를 복사합니다. 예는 다음과 같습니다.
DIMM 오류 =================== ================== 요약
------- DIMM E2 ----------
  현재 슬롯 오류 개수 :
      마지막 서버 부팅 이후 수정 가능한 ECC 오류: 0
      누적 수정 가능한 ECC 오류 수: 2560
      마지막 서버 부팅 이후 수정할 수 없는 ECC 오류: 0
      누적 수정 불가능한 ECC 오류 수: 3
   이전 슬롯 오류 개수 :
      수정 가능한 ECC 오류 수: 0
      수정할 수 없는 ECC 오류 수: 0

[ServerXX_TechSupport.tar]\var\sel_decode.txt
  • SEL 항목 및 결함의 재생으로 재생
이벤트로그맥스엔트리: 1445
이벤트 로그 목록: 
---
자료: 1440
심각도: 중요
Datetime: 2017-03-10 00:57:17 
dateTimeOrder를 사용합니다. 00005
설명: "시스템 소프트웨어 이벤트: 포스트 센서, DIMM 소켓 3, 채널 E, 프로세서 소켓 2 동일한 채널에서 다른 메모리가 실패하여 비활성화되었습니다. [0xE542]가 주장되었습니다."

독립 실행형 서버의 경우:
  • tmp\tech_support.frupids
====== IPMI FRU 레코드 ====== 덤프
상품 이름: UCSC-C220-트리플 엑스
제품 부품 번호: 74-xxxx-01
제품 버전: A
 제품 일련 번호: FCHxxxxxxxN – 서버 일련 번호

====== 인벤토리 카탈로그 PID ====== 덤프
DIMM 리스트: 
이름: DIMM_A1Description: 8GB DDR3-1333-MHz RDIMM/PC3-10600/듀얼 랭크/1.35v
Pid: UCS-MR-1X082RX-A - DIMM PID


사후 분석
분석을 수행한 후 서비스 요청이 영향을 받은 서버의 올바른 일련 번호로 업데이트되고 데이터베이스에서 조사 중인 블레이드와 관련된 이전 RMA가 검색되는지 확인합니다.  장애가 표시된 DIMM을 최근에 교체한 경우 마더보드가 의심될 수 있습니다.

서비스 요청에 분석 내용을 추가합니다.

논리적 문제 해결
 
오류가 식별되면 모두 지우고 UCSM의 카운터와 결함 탭을 모니터링하여 오류가 지속되는지 확인합니다.
서버 명령줄에 로그인합니다.

메모리 오류 카운터 지우기
서버# 범위 섀시
server/chassis # reset-ecc
아래 명령을 사용하여 시스템 이벤트 로그를 지웁니다.
Server# scope sel
Server /sel # clear 
이 작업을 수행하면 전체 셀이 지워집니다.
계속? [y|N]y

 아래 명령을 사용하여 CIMC 로그를 재설정합니다.
서버# 범위 cimc
Server /cimc # 범위 로그
server /cimc/log # clear

48시간 동안 환경을 모니터링합니다.
오류가 지속되면 새로운 UCS 및 섀시 로그 세트를 캡처하고, 분석을 확인하고, 증거를 기반으로 작업 계획을 수립하고, 다음 섹션을 진행합니다.

원인
  • DIMM 오류는 보통 결함이 있는 DIMM으로 인해 발생하며, 때로는 불량 마더보드로 인해 발생하기도 합니다

참고
  • 없음

Additional Information

이 비디오를 참조하십시오.

Affected Products

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series
Article Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.