OneFS 9.1 업그레이드 후 PowerScale 노드가 읽기 전용으로 전환됨
Сводка: 클러스터를 OneFS 9.1.0.20으로 업그레이드한 후 클러스터의 모든 PowerScale(F200, F600, F900) 노드가 읽기 전용 모드로 전환됩니다.
Данная статья применяется к
Данная статья не применяется к
Эта статья не привязана к какому-либо конкретному продукту.
В этой статье указаны не все версии продуктов.
Симптомы
클러스터를 OneFS 9.1.0.20으로 업그레이드한 후 'isi status'에 모든 PowerScale 노드가 읽기 전용(RO) 모드로 표시됩니다.
영향을 받는 노드의 /var/log/messages 파일에 다음과 유사한 항목이 표시됩니다.
Node Pool Name: f600_60tb-ssd_384gb Protection: +2d:1n Pool Storage: HDD SSD Storage Size: 0 (0 Raw) 0 (0 Raw) VHS Size: 0.0 Used: 0 (n/a) 0 (n/a) Avail: 0 (n/a) 0 (n/a) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 123|n/a |-A-R |938.7| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs) 124|n/a |-A-R | 0| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs) 125|n/a |-A-R | 0|10.8M|10.8M|(No Storage HDDs)|(No Storage SSDs) 126|n/a |-A-R | 0| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs) 127|n/a |-A-R | 1.4k| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs) 128|n/a |-A-R | 0| 7.9M| 7.9M|(No Storage HDDs)|(No Storage SSDs) 129|n/a |-A-R | 0| 7.9M| 7.9M|(No Storage HDDs)|(No Storage SSDs) 130|n/a |-A-R | 0| 7.3M| 7.3M|(No Storage HDDs)|(No Storage SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- f600_60tb-ssd_384gb| OK |293.3| 9.2M| 9.2M|(No Storage HDDs)|(No Storage SSDs)
영향을 받는 노드의 /var/log/messages 파일에 다음과 유사한 항목이 표시됩니다.
2022-07-26T01:40:46+02:00 (id92) isi_testjournal: NVDIMM is persistent 2022-07-26T01:40:46+02:00 (id92) isi_testjournal: NVDIMM armed for persistent writes 2022-07-26T01:40:47+02:00 (id92) ifconfig: Configure: /sbin/ifconfig ue0 netmask 255.255.255.0 169.254.0.40 2022-07-26T01:40:47+02:00 (id92) dsm_ism_srvmgrd[2056]: ISM0000 [iSM@674.10892.2 EventID="8716" EventCategory="Audit" EventSeverity="info" IsPastEvent="false" language="en-US"] The iDRAC Service Module is started on the operating system (OS) of server. 2022-07-26T01:40:47+02:00 (id92) dsm_ism_srvmgrd[2056]: ISM0003 [iSM@674.10892.2 EventID="8196" EventCategory="Audit" EventSeverity="error" IsPastEvent="false" language="en-US"] The iDRAC Service Module is unable to discover iDRAC from the operating system of the server. 2022-07-26T01:44:15+02:00 (id92) isi_testjournal: PowerTools Agent Query Exception: Timeout (20 sec) exceeded for request http://127.0.0.1:8086/api/PT/v1/host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor data: HTTPConnectionPool(host='127.0.0.1', port=8086): Read timed out. (read timeout=20) 2022-07-26T01:44:20+02:00 (id92) isi_testjournal: Query to PowerTools Agent for NVDIMM Battery failed
Причина
이 문제는 시작 시 초기 NVDIMM 상태 쿼리 중에 시간 초과가 발생하여 노드를 읽기 전용 모드로 전환할 수 있는 OneFS 버전 9.1.0.19의 NVDIMM 상태 모니터링 코드 변경과 관련이 있는 것으로 보입니다. 후속 상태 쿼리가 성공하더라도 노드가 자동으로 읽기-쓰기 모드로 돌아가지 않습니다. OneFS 9.2.x 이상은 이 문제의 영향을 받지 않습니다.
Разрешение
NVDIMM이 정상이고 이 KB에 설명된 문제가 발생하는지 확인하려면 다음 네 가지 명령을 실행합니다.
# isi_hwmon -b NVDIMMHealthMonitoring # isi_hwmon -b NVDIMMPersistence # /opt/dell/DellPTAgent/tools/pta_call get agent/info # /opt/dell/DellPTAgent/tools/pta_call post "host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor"
이러한 명령은 쿼리 전용 명령이며 운영 중단 없는 것으로 간주되어야 합니다.
이 상태의 노드에 대한 명령의 출력은 다음과 유사해야 합니다.
# isi_hwmon -b NVDIMMHealthMonitoring
DIMM SLOT A7: OK
# isi_hwmon -b NVDIMMPersistence
NVDIMM Index 0
State: PERSISTENT
Vendor Serial ID: xxxxxxxxx
Correctable ECC Count: 0
Uncorrectable ECC Count: 0
Current Temp: 255
Health: 0
NVM Lifetime: 90
Warning Threshold Status: 0
Error Threshold Status: 0
Health Info Status: 0
Critical Health Info: 0
Critical Info Status: 0
Last Save Status: 0
Last Restore Status: 0
Last Flush Status: 0
Armed: 1
SMART/Health Events Observed: 0
FW Health Monitoring: 1
NVDIMM Mapped: 1
# /opt/dell/DellPTAgent/tools/pta_call post "host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor"
Request sent to DellPTAgent @ http://127.0.0.1:8086 [127.0.0.1]
{
"HealthState": "OK",
"EnabledState": "Enabled",
"ElementName": "System Board NVDIMM Battery",
"SensorType": "Other",
"Id": "iDRAC.Embedded.1_0x23_SystemBoardNVDIMMBattery",
"CurrentState": "Good"
}
Response: status: 200 [OK], size: 223 bytes, latency: 0.034 seconds.
# /opt/dell/DellPTAgent/tools/pta_call get agent/info
Request sent to DellPTAgent @ http://127.0.0.1:8086 [127.0.0.1]
{
"idrac_ethernet_ip": "0.0.0.0",
"servicetag": "xxxxx",
"uptime": "2511 seconds ( 41 minutes 51 seconds )",
"status": {
"agent": "OK",
"idracConnection": "OK",
"idraccache": "OK",
"iSM": "N/A"
},
"name": "ClusterName-123",
"MarvellLibraryVersion": "Not loaded",
"system_uuid": "xxxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
"default_server_cert": "true",
"rest_endpoints": "http://127.0.0.1:8086"" [127.0.0.1],
"ptagentversion": "2.5.6-4",
"domain": "",
"host_epoch_time": "xxxxxxxxxx.354221 (secs.usecs)",
"os_version": "9.1.0.0",
"mfr": "Dell Inc.",
"process_id": "2071",
"api_blocking_enabled": "false",
"host_pass_thru_ip": "xxx.xxx.xxx.xxx",
"model": "PowerScale F600",
"idrac_pass_thru_ip": "xxx.xxx.xxx.xxx",
"os": "Isilon OneFS",
"ism_version": "dell-dcism-3.4.6.13_7"
}
Response: status: 200 [OK], size: 871 bytes, latency: 0.009 seconds.
여기에 제시된 출력은 예시이며 출력에 분산이 있을 수 있습니다. 중요한 부분은 출력이 비슷하고 출력 대신 오류 메시지가 표시되지 않는다는 것입니다.
- 통신 문제/오류 표시가 있는 경우 문제 해결을 계속하여 필요에 따라 HW L2/SME 및/또는 PowerEdge 지원 팀에 문의해야 합니다.
- 출력에서 NVDIMM이 양호한 상태이고 문제가 없는 경우 다음 명령을 사용하여 RO 상태를 수동으로 지울 수 있습니다.
# /usr/bin/isi_hwtools/isi_read_only --unset=system-nvdimm-failed
수정 단계를 적용한 후 노드를 10분 동안 모니터링하여 노드가 RO 모드로 돌아가지 않도록 합니다. 노드의 전원을 껐다 켜거나 재부팅하면 이 문제가 다시 발생할 수 있으며 이 해결 방법을 다시 적용해야 할 수 있습니다. PowerScale Engineering은 이 문제를 알고 있으며 향후 OneFS 9.1 릴리스에서 구현할 완화 단계를 조사하고 있습니다. 그동안 이 문제를 영구적으로 해결하려면 클러스터를 OneFS 9.2 이상으로 업그레이드할 수 있습니다.
Затронутые продукты
PowerScale F200, PowerScale F600, PowerScale F900Свойства статьи
Номер статьи: 000201933
Тип статьи: Solution
Последнее изменение: 06 Jul 2023
Версия: 3
Получите ответы на свои вопросы от других пользователей Dell
Услуги технической поддержки
Проверьте, распространяются ли на ваше устройство услуги технической поддержки.