PowerScale Nodes får skrivskyddad status efter uppgradering till OneFS 9.1
Summary: När du har uppgraderat ett kluster till OneFS 9.1.0.20 försätts alla PowerScale-noder (F200, F600, F900) i klustret i skrivskyddat läge.
Symptoms
Node Pool Name: f600_60tb-ssd_384gb Protection: +2d:1n Pool Storage: HDD SSD Storage Size: 0 (0 Raw) 0 (0 Raw) VHS Size: 0.0 Used: 0 (n/a) 0 (n/a) Avail: 0 (n/a) 0 (n/a) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 123|n/a |-A-R |938.7| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs) 124|n/a |-A-R | 0| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs) 125|n/a |-A-R | 0|10.8M|10.8M|(No Storage HDDs)|(No Storage SSDs) 126|n/a |-A-R | 0| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs) 127|n/a |-A-R | 1.4k| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs) 128|n/a |-A-R | 0| 7.9M| 7.9M|(No Storage HDDs)|(No Storage SSDs) 129|n/a |-A-R | 0| 7.9M| 7.9M|(No Storage HDDs)|(No Storage SSDs) 130|n/a |-A-R | 0| 7.3M| 7.3M|(No Storage HDDs)|(No Storage SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- f600_60tb-ssd_384gb| OK |293.3| 9.2M| 9.2M|(No Storage HDDs)|(No Storage SSDs)
Du ser poster som liknar följande i filen /var/log/messages för de berörda noderna:
2022-07-26T01:40:46+02:00 (id92) isi_testjournal: NVDIMM is persistent 2022-07-26T01:40:46+02:00 (id92) isi_testjournal: NVDIMM armed for persistent writes 2022-07-26T01:40:47+02:00 (id92) ifconfig: Configure: /sbin/ifconfig ue0 netmask 255.255.255.0 169.254.0.40 2022-07-26T01:40:47+02:00 (id92) dsm_ism_srvmgrd[2056]: ISM0000 [iSM@674.10892.2 EventID="8716" EventCategory="Audit" EventSeverity="info" IsPastEvent="false" language="en-US"] The iDRAC Service Module is started on the operating system (OS) of server. 2022-07-26T01:40:47+02:00 (id92) dsm_ism_srvmgrd[2056]: ISM0003 [iSM@674.10892.2 EventID="8196" EventCategory="Audit" EventSeverity="error" IsPastEvent="false" language="en-US"] The iDRAC Service Module is unable to discover iDRAC from the operating system of the server. 2022-07-26T01:44:15+02:00 (id92) isi_testjournal: PowerTools Agent Query Exception: Timeout (20 sec) exceeded for request http://127.0.0.1:8086/api/PT/v1/host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor data: HTTPConnectionPool(host='127.0.0.1', port=8086): Read timed out. (read timeout=20) 2022-07-26T01:44:20+02:00 (id92) isi_testjournal: Query to PowerTools Agent for NVDIMM Battery failed
Cause
Resolution
Kontrollera att NVDIMM-kortet är felfritt och att du stöter på det problem som beskrivs i den här kunskapsdatabasartikeln genom att köra följande fyra kommandon:
# isi_hwmon -b NVDIMMHealthMonitoring # isi_hwmon -b NVDIMMPersistence # /opt/dell/DellPTAgent/tools/pta_call get agent/info # /opt/dell/DellPTAgent/tools/pta_call post "host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor"
Kommandona är endast frågekommandon och bör betraktas som icke-avbrottskänsliga.
Utdata för kommandona för en nod i det här läget bör se ut ungefär så här:
# isi_hwmon -b NVDIMMHealthMonitoring
DIMM SLOT A7: OK
# isi_hwmon -b NVDIMMPersistence
NVDIMM Index 0
State: PERSISTENT
Vendor Serial ID: xxxxxxxxx
Correctable ECC Count: 0
Uncorrectable ECC Count: 0
Current Temp: 255
Health: 0
NVM Lifetime: 90
Warning Threshold Status: 0
Error Threshold Status: 0
Health Info Status: 0
Critical Health Info: 0
Critical Info Status: 0
Last Save Status: 0
Last Restore Status: 0
Last Flush Status: 0
Armed: 1
SMART/Health Events Observed: 0
FW Health Monitoring: 1
NVDIMM Mapped: 1
# /opt/dell/DellPTAgent/tools/pta_call post "host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor"
Request sent to DellPTAgent @ http://127.0.0.1:8086 [127.0.0.1]
{
"HealthState": "OK",
"EnabledState": "Enabled",
"ElementName": "System Board NVDIMM Battery",
"SensorType": "Other",
"Id": "iDRAC.Embedded.1_0x23_SystemBoardNVDIMMBattery",
"CurrentState": "Good"
}
Response: status: 200 [OK], size: 223 bytes, latency: 0.034 seconds.
# /opt/dell/DellPTAgent/tools/pta_call get agent/info
Request sent to DellPTAgent @ http://127.0.0.1:8086 [127.0.0.1]
{
"idrac_ethernet_ip": "0.0.0.0",
"servicetag": "xxxxx",
"uptime": "2511 seconds ( 41 minutes 51 seconds )",
"status": {
"agent": "OK",
"idracConnection": "OK",
"idraccache": "OK",
"iSM": "N/A"
},
"name": "ClusterName-123",
"MarvellLibraryVersion": "Not loaded",
"system_uuid": "xxxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
"default_server_cert": "true",
"rest_endpoints": "http://127.0.0.1:8086"" [127.0.0.1],
"ptagentversion": "2.5.6-4",
"domain": "",
"host_epoch_time": "xxxxxxxxxx.354221 (secs.usecs)",
"os_version": "9.1.0.0",
"mfr": "Dell Inc.",
"process_id": "2071",
"api_blocking_enabled": "false",
"host_pass_thru_ip": "xxx.xxx.xxx.xxx",
"model": "PowerScale F600",
"idrac_pass_thru_ip": "xxx.xxx.xxx.xxx",
"os": "Isilon OneFS",
"ism_version": "dell-dcism-3.4.6.13_7"
}
Response: status: 200 [OK], size: 871 bytes, latency: 0.009 seconds.
Det här är ett exempel på utdata och det kan finnas skillnader i de utdata du får. Det viktiga är att utdata ser likadana ut och att du inte får något felmeddelande istället för utdata.
- Om det finns indikationer på kommunikationsproblem/fel måste du fortsätta felsöka problemet och anlita en HW L2/SME och/eller PowerEdge-supportteamet efter behov.
- Om utdata visar att NVDIMM är i ett bra läge och det inte finns några problem kan du manuellt rensa ro-läget med hjälp av följande kommando:
# /usr/bin/isi_hwtools/isi_read_only --unset=system-nvdimm-failed
När du har tillämpat det korrigerande steget övervakar du noden i ~10 minuter för att säkerställa att den inte återgår till RO-läge. Om noden startas om eller startas om kan det här problemet uppstå igen, och den här lösningen kan behöva läggas till på nytt. PowerScale Engineering är medvetna om problemet och undersöker mildrande åtgärder som ska implementeras i en kommande OneFS 9.1-version. För att permanent lösa problemet kan du uppgradera klustret till OneFS 9.2 eller senare.