PowerScale-Nodes werden nach dem Upgrade auf OneFS 9.1 schreibgeschützt

Summary: Nach dem Upgrade eines Clusters auf OneFS 9.1.0.20 wechseln alle PowerScale-Nodes (F200, F600, F900) im Cluster in den schreibgeschützten Modus.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Nach dem Upgrade eines Clusters auf OneFS 9.1.0.20 zeigt "isi status" alle PowerScale-Nodes im schreibgeschützten Modus an:
 
Node Pool Name: f600_60tb-ssd_384gb               Protection:        +2d:1n
Pool Storage:     HDD                 SSD Storage    
Size:             0 (0 Raw)           0 (0 Raw)      
VHS Size:         0.0                 
Used:             0 (n/a)             0 (n/a)        
Avail:            0 (n/a)             0 (n/a)        

                           Throughput (bps)  HDD Storage      SSD Storage
Name               Health|  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
123|n/a            |-A-R |938.7| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
124|n/a            |-A-R |    0| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
125|n/a            |-A-R |    0|10.8M|10.8M|(No Storage HDDs)|(No Storage SSDs)
126|n/a            |-A-R |    0| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
127|n/a            |-A-R | 1.4k| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
128|n/a            |-A-R |    0| 7.9M| 7.9M|(No Storage HDDs)|(No Storage SSDs)
129|n/a            |-A-R |    0| 7.9M| 7.9M|(No Storage HDDs)|(No Storage SSDs)
130|n/a            |-A-R |    0| 7.3M| 7.3M|(No Storage HDDs)|(No Storage SSDs)
-------------------+-----+-----+-----+-----+-----------------+-----------------
f600_60tb-ssd_384gb|  OK |293.3| 9.2M| 9.2M|(No Storage HDDs)|(No Storage SSDs)



In der Datei /var/log/messages für die betroffenen Nodes werden Einträge angezeigt, die den folgenden ähneln:
 
2022-07-26T01:40:46+02:00  (id92) isi_testjournal: NVDIMM is persistent
2022-07-26T01:40:46+02:00  (id92) isi_testjournal: NVDIMM armed for persistent writes
2022-07-26T01:40:47+02:00  (id92) ifconfig: Configure: /sbin/ifconfig ue0 netmask 255.255.255.0 169.254.0.40
2022-07-26T01:40:47+02:00  (id92) dsm_ism_srvmgrd[2056]: ISM0000 [iSM@674.10892.2 EventID="8716" EventCategory="Audit" EventSeverity="info" IsPastEvent="false" language="en-US"] The iDRAC Service Module is started on the operating system (OS) of server.
2022-07-26T01:40:47+02:00  (id92) dsm_ism_srvmgrd[2056]: ISM0003 [iSM@674.10892.2 EventID="8196" EventCategory="Audit" EventSeverity="error" IsPastEvent="false" language="en-US"] The iDRAC Service Module is unable to discover iDRAC from the operating system of the server.
2022-07-26T01:44:15+02:00  (id92) isi_testjournal: PowerTools Agent Query Exception: Timeout (20 sec) exceeded for request http://127.0.0.1:8086/api/PT/v1/host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor data: HTTPConnectionPool(host='127.0.0.1', port=8086): Read timed out. (read timeout=20)
2022-07-26T01:44:20+02:00  (id92) isi_testjournal: Query to PowerTools Agent for NVDIMM Battery failed

Cause

Das Problem scheint im Zusammenhang mit Änderungen am NVDIMM-Statusüberwachungscode in OneFS-Version 9.1.0.19 zu stehen, die dazu führen können, dass während der anfänglichen NVDIMM-Statusabfrage beim Start ein Timeout auftritt, wodurch der Node in den schreibgeschützten Modus versetzt wird. Obwohl nachfolgende Statusabfragen erfolgreich sind, kehrt der Node nicht automatisch in den Lese-/Schreibmodus zurück. OneFS 9.2.x und höher sind von diesem Problem nicht betroffen.

Resolution

Führen Sie die folgenden vier Befehle aus, um zu überprüfen, ob das NVDIMM ordnungsgemäß funktioniert und dass das in diesem Wissensdatenbankartikel beschriebene Problem auftritt:
 

# isi_hwmon -b NVDIMMHealthMonitoring
# isi_hwmon -b NVDIMMPersistence
# /opt/dell/DellPTAgent/tools/pta_call get agent/info
# /opt/dell/DellPTAgent/tools/pta_call post "host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor"


 

Diese Befehle sind nur Abfragebefehle und sollten als unterbrechungsfrei betrachtet werden.

Die Ausgabe für die Befehle für einen Node in diesem Status sollte ähnlich sein wie:
 

# isi_hwmon -b NVDIMMHealthMonitoring
DIMM SLOT A7: OK

# isi_hwmon -b NVDIMMPersistence
NVDIMM Index 0

                       State: PERSISTENT
            Vendor Serial ID: xxxxxxxxx
       Correctable ECC Count: 0     
     Uncorrectable ECC Count: 0
                Current Temp: 255
                      Health: 0
                NVM Lifetime: 90
    Warning Threshold Status: 0
      Error Threshold Status: 0
          Health Info Status: 0
        Critical Health Info: 0
        Critical Info Status: 0
            Last Save Status: 0
         Last Restore Status: 0
           Last Flush Status: 0
                       Armed: 1
SMART/Health Events Observed: 0
        FW Health Monitoring: 1
               NVDIMM Mapped: 1

# /opt/dell/DellPTAgent/tools/pta_call post "host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor"
Request sent to DellPTAgent @ http://127.0.0.1:8086 [127.0.0.1]
{
    "HealthState": "OK",
    "EnabledState": "Enabled",
    "ElementName": "System Board NVDIMM Battery",
    "SensorType": "Other",
    "Id": "iDRAC.Embedded.1_0x23_SystemBoardNVDIMMBattery",
    "CurrentState": "Good"
}
Response: status: 200 [OK], size: 223 bytes, latency: 0.034 seconds.

# /opt/dell/DellPTAgent/tools/pta_call get agent/info
Request sent to DellPTAgent @ http://127.0.0.1:8086 [127.0.0.1]
{
    "idrac_ethernet_ip": "0.0.0.0",
    "servicetag": "xxxxx",
    "uptime": "2511 seconds ( 41 minutes 51 seconds )",
    "status": {
        "agent": "OK",
        "idracConnection": "OK",
        "idraccache": "OK",
        "iSM": "N/A"
    },
    "name": "ClusterName-123",
    "MarvellLibraryVersion": "Not loaded",
   "system_uuid": "xxxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
    "default_server_cert": "true",
    "rest_endpoints": "http://127.0.0.1:8086"" [127.0.0.1],
    "ptagentversion": "2.5.6-4",
    "domain": "",
    "host_epoch_time": "xxxxxxxxxx.354221 (secs.usecs)",
    "os_version": "9.1.0.0",
    "mfr": "Dell Inc.",
    "process_id": "2071",
    "api_blocking_enabled": "false",
    "host_pass_thru_ip": "xxx.xxx.xxx.xxx",
    "model": "PowerScale F600",
    "idrac_pass_thru_ip": "xxx.xxx.xxx.xxx",
    "os": "Isilon OneFS",
    "ism_version": "dell-dcism-3.4.6.13_7"
}
Response: status: 200 [OK], size: 871 bytes, latency: 0.009 seconds.


 

Die hier angegebene Ausgabe ist ein Beispiel und es kann Abweichungen in der Ausgabe geben, die Sie erhalten. Der wichtige Teil ist, dass die Ausgabe ähnlich aussieht und keine Fehlermeldung anstelle der Ausgabe angezeigt wird.

- Wenn Hinweise auf Kommunikationsprobleme/-fehler vorliegen, müssen Sie mit der Fehlerbehebung des Problems fortfahren und bei Bedarf ein HW L2/SME und/oder das PowerEdge-Supportteam hinzuziehen. 

- Wenn die Ausgabe angibt, dass sich das NVDIMM in einem guten Zustand befindet und keine Probleme vorliegen, können Sie den RO-Status mithilfe des folgenden Befehls manuell löschen:

# /usr/bin/isi_hwtools/isi_read_only --unset=system-nvdimm-failed


Nachdem Sie den Korrekturschritt angewendet haben, überwachen Sie den Node für ca. 10 Minuten, um sicherzustellen, dass er nicht wieder in den RO-Modus wechselt. Wenn der Node aus- und wieder eingeschaltet oder neu gestartet wird, kann dieses Problem erneut auftreten und dieser Workaround muss möglicherweise erneut angewendet werden. PowerScale Engineering ist sich dieses Problems bewusst und untersucht die Minderungsschritte, die in einer kommenden OneFS 9.1-Version implementiert werden sollen. In der Zwischenzeit können Sie das Cluster auf OneFS 9.2 oder höher aktualisieren, um dieses Problem dauerhaft zu beheben.

Affected Products

PowerScale F200, PowerScale F600, PowerScale F900
Article Properties
Article Number: 000201933
Article Type: Solution
Last Modified: 06 Jul 2023
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.