PowerFlex 4.x PFMP 마법사를 사용하여 NVDIMM을 교체하는 방법
Summary: 이 문서에서는 PFMP(PowerFlex Manager Platform) 마법사를 사용하여 PowerEdge 서버에서 결함이 있는 NVDIMM을 교체하는 방법에 대해 설명합니다.
Instructions
단계
- iDRAC에서 결함이 있는 NVDIMM 모듈을 식별하고 PFMP에서 DAX 디바이스의 상관 관계 파악
1 - PowerEdge iDrac에서 장애가 발생한 NVDIMM 슬롯 식별 Maintenance탭에서 SystemEventLog를 선택합니다.

이 예에서 장애가 발생한 NVDIMM 슬롯은 A7입니다
2 - SSH를 사용하여 영향을 받는 SDS 노드에 연결하고 다음 명령을 실행하여 결함이 있는 NVDIMM 일련 번호를 식별합니다.
dmidecode --type memory | grep "Non-" -B 3 -A 3 | grep -E 'Locator|Serial' | grep -v Bank
다음과 유사한 출력이 나타납니다.
Locator: A7 Serial Number: 16492521 Locator: B7 Serial Number: 1649251B
이 예에서 NVDIMM A7 의 일련 번호는 16492521입니다.
3 - 서버에 마운트된 NVDIMM 목록을 표시하고 직렬 16492521에 대한 개발자 nmem 을 찾습니다 .
ndctl list -Dvvv | jq '.[].dimms'
다음과 유사한 출력이 표시됩니다.
[
{
"dev": "nmem1",
"id": "802c-0f-1711-1649251b",
"handle": 4097,
"phys_id": 4370, "state": "disabled", "health": {
"health_state": "ok", "temperature_celsius": 255,
"life_used_percentage": 32
}
},
{
"dev": "nmem0",
"id": "802c-0f-1711-16492521",
"handle": 1,
"phys_id": 4358, "state": "disabled", "health": {
"health_state": "ok", "temperature_celsius": 255,
"life_used_percentage": 32
}
}
]
이 예에서 nmem0 은 직렬 16492521의 dev입니다 .
4 - 다음 명령을 사용하여 nmem 매핑, 리전, 네임스페이스 및DAX 구성 정보의 상관 관계 파악
ndctl list -Dvvv | jq '.[].regions[]'
다음과 유사한 출력이 나타납니다.
{
"dev": "region1", "size": 17179869184,
"available_size": 0,
"max_available_extent": 0, "type": "pmem", "numa_node": 1, "mappings": [
{
"dimm": "nmem1", "offset": 0,
"length": 17179869184,
"position": 0
}
],
"persistence_domain": "unknown", "namespaces": [
{
"dev": "namespace1.0",
"mode": "devdax",
"map": "dev", "size": 16909336576,
"uuid": "0a438fbc-91e4-427d-8068-1f26330d85cc", "daxregion": {
"id": 1,
"size": 16909336576,
"align": 4096,
"devices": [
{
"chardev": "dax1.0", "size": 16909336576
}
]
},
"numa_node": 1
}
]
}
{
"dev": "region0",
"size": 17179869184,
"available_size": 0,
"max_available_extent": 0, "type": "pmem", "numa_node": 0, "mappings": [
{
"dimm": "nmem0", "offset": 0,
"length": 17179869184,
"position": 0
}
],
"persistence_domain": "unknown", "namespaces": [
{
"dev": "namespace0.0",
"mode": "devdax",
"map": "dev", "size": 16909336576,
"uuid": "38cbd555-3f5b-4f4f-8d83-bf77db75553d", "daxregion": {
"id": 0,
"size": 16909336576,
"align": 4096,
"devices": [
{
"chardev": "dax0.0",
"size": 16909336576
}
]
},
"numa_node": 0
}
]
}
이 예에서 nmem0은 리전 0, namespace namespace0.0 및 DAX 디바이스 dax0.0에 있습니다.
이러한 단계의 결과는 iDrac의 A7 을 PFMP의 dax0.0 과 상호 연결하는 것입니다.
- NVDIMM메모리모듈제거
PowerFlex Manager NVDIMM 교체 마법사를 사용하여 시스템에서 NVDIMM 메모리 모듈을 제거합니다.
- PowerFlex Manager에 로그인합니다.
- 메뉴 표시줄에서 Lifecycle>ResourceGroups를 클릭합니다.
- Resource Groups 페이지에서 교체가 필요한 리소스 그룹을 클릭하고 View Details를 클릭합니다.
- Details페이지에서 페이지의 Physical Nodes섹션까지 아래로 스크롤합니다.
- 구성 요소교체에서 NVDIMM교체를 클릭합니다.
PowerFlex Manager는 NVDIMM교체마법사에 NodeList패널을 표시합니다.
- NVDIMM 메모리 모듈을 교체해야 하는 노드를 선택하고 Next를 클릭합니다.
PowerFlex Manager에 Selected Component 패널이 표시됩니다. 사용 가능한 모든 NVDIMM 메모리 모듈은 NVDIMM 헤더 아래에 표시되고, 사용 가능한 NVDIMM 배터리는 NVDIMM 배터리 아래에 표시됩니다.
- NVDIMM 교체에서 교체하려는 결함이 있는 NVDIMM 메모리 모듈을 선택하고 다음을 클릭합니다.
NVDIMM 교체 프로세스는 되돌릴 수 없으므로 노드 선택이 올바른지 확인하라는 메시지가 표시됩니다.
- NVDIMM 메모리 모듈을 교체하려면 REMOVE NVDIMM을 입력합니다.
노드 및 슬롯 번호와 함께 NVDIMM 디바이스의 제거 또는 추가를 나타내는 메시지가 Resource Groups 페이지에 표시됩니다. 리소스 그룹 및 개별 노드의 상태는 진행 중입니다. 로그 세부 정보는 페이지 오른쪽의 Recent Activity 섹션에 표시됩니다.
메모리 모듈 교체 작업이 생성됩니다.
- 메뉴 표시줄의 오른쪽 상단에 있는 작업 아이콘을 클릭하여 작업의 세부 정보를 봅니다. 작업이 완료될 때까지 기다립니다.
- 결함이 있는 NVDIMM을 물리적으로 교체하는 Dell FE(Field Engineer)
SDS 노드를 PMM 또는 IMM에 놓고 노드를 종료한 후 Dell FE가 결함이 있는 NVDIMM을 교체하도록 합니다.
-
NVDIMM메모리모듈교체완료
메모리 모듈을 교체한 후에는 호스트와 SVM이 꺼집니다. 메모리 모듈을 물리적으로 교체한 후 리소스 그룹 페이지의 호스트 상태가 서비스 모드로 표시됩니다. 또한 Actions 아래에 Discover Replacement NVDIMM 옵션이 표시됩니다.
필수 구성 요소
NVDIMM 메모리 모듈 제거의 단계를 수행했는지 확인한 후 다음 단계에 따라 NVDIMM 메모리 모듈 교체를 완료합니다.
단계
- 노드가 물리적으로 교체된 경우 교체NVDIMM 검색을 클릭합니다.
교체 NVDIMM 검색은 노드를 켜고 NVDIMM의 시스템을 지웁니다.
- 검색이 완료되면 상태가 Complete로 로그에 표시됩니다. Actions 아래에서 CompleteNVDIMMReplacement옵션을 클릭합니다.
- Complete를 클릭하여 교체 프로세스를 완료합니다.
NVDIMM을 교체한 후 NVDIMM 디바이스에 대한 가상 하드웨어를 생성하고, 유지 보수 또는 서비스 모드에서 SDS를 제거하고, SVM을 켤 수 있습니다.
- 새 NVDIMM 메모리 모듈을 추가한 후 NVDIMM 디바이스 교체가 완료 되었습니다라는 메시지가 ResourceGroups페이지에 표시됩니다. 작업에서 해제를 클릭하여 작업을 해제합니다.
- 리소스를규정 준수상태로전환하고노드를작동상태로되돌립니다.
하드웨어 구성 요소를 교체한 후 시스템 리소스를 업데이트하여 리소스가 규정 준수 파일의 펌웨어 및 드라이버를 준수하도록 합니다. 리소스가 규정을 준수하면 노드를 작업으로 되돌립니다.