OneFS 9.1のアップグレード後にPowerScaleノードが読み取り専用になる

Summary: クラスターをOneFS 9.1.0.20にアップグレードした後、クラスター内のすべてのPowerScale(F200、F600、F900)ノードが読み取り専用モードになります。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

クラスターをOneFS 9.1.0.20にアップグレードした後、「isi status」には、読み取り専用(RO)モードのすべてのPowerScaleノードが表示されます。
 
Node Pool Name: f600_60tb-ssd_384gb               Protection:        +2d:1n
Pool Storage:     HDD                 SSD Storage    
Size:             0 (0 Raw)           0 (0 Raw)      
VHS Size:         0.0                 
Used:             0 (n/a)             0 (n/a)        
Avail:            0 (n/a)             0 (n/a)        

                           Throughput (bps)  HDD Storage      SSD Storage
Name               Health|  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
123|n/a            |-A-R |938.7| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
124|n/a            |-A-R |    0| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
125|n/a            |-A-R |    0|10.8M|10.8M|(No Storage HDDs)|(No Storage SSDs)
126|n/a            |-A-R |    0| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
127|n/a            |-A-R | 1.4k| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
128|n/a            |-A-R |    0| 7.9M| 7.9M|(No Storage HDDs)|(No Storage SSDs)
129|n/a            |-A-R |    0| 7.9M| 7.9M|(No Storage HDDs)|(No Storage SSDs)
130|n/a            |-A-R |    0| 7.3M| 7.3M|(No Storage HDDs)|(No Storage SSDs)
-------------------+-----+-----+-----+-----+-----------------+-----------------
f600_60tb-ssd_384gb|  OK |293.3| 9.2M| 9.2M|(No Storage HDDs)|(No Storage SSDs)



影響を受けるノードの/var/log/messagesファイルには、次のようなエントリーが表示されます。
 
2022-07-26T01:40:46+02:00  (id92) isi_testjournal: NVDIMM is persistent
2022-07-26T01:40:46+02:00  (id92) isi_testjournal: NVDIMM armed for persistent writes
2022-07-26T01:40:47+02:00  (id92) ifconfig: Configure: /sbin/ifconfig ue0 netmask 255.255.255.0 169.254.0.40
2022-07-26T01:40:47+02:00  (id92) dsm_ism_srvmgrd[2056]: ISM0000 [iSM@674.10892.2 EventID="8716" EventCategory="Audit" EventSeverity="info" IsPastEvent="false" language="en-US"] The iDRAC Service Module is started on the operating system (OS) of server.
2022-07-26T01:40:47+02:00  (id92) dsm_ism_srvmgrd[2056]: ISM0003 [iSM@674.10892.2 EventID="8196" EventCategory="Audit" EventSeverity="error" IsPastEvent="false" language="en-US"] The iDRAC Service Module is unable to discover iDRAC from the operating system of the server.
2022-07-26T01:44:15+02:00  (id92) isi_testjournal: PowerTools Agent Query Exception: Timeout (20 sec) exceeded for request http://127.0.0.1:8086/api/PT/v1/host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor data: HTTPConnectionPool(host='127.0.0.1', port=8086): Read timed out. (read timeout=20)
2022-07-26T01:44:20+02:00  (id92) isi_testjournal: Query to PowerTools Agent for NVDIMM Battery failed

Cause

この問題は、OneFSバージョン9.1.0.19で行われたNVDIMMステータス 監視コードの変更に関連しているようです。これにより、起動時の最初のNVDIMMステータス クエリー中にタイムアウトが発生し、ノードが読み取り専用モードになる可能性があります。後続のステータス クエリーが成功しても、ノードは自動的に読み取り/書き込みモードに戻りません。OneFS 9.2.x以降は、この問題の影響を受けません。

Resolution

NVDIMMが正常であり、このKBで説明されている問題が発生していることを確認するには、次の4つのコマンドを実行します。
 

# isi_hwmon -b NVDIMMHealthMonitoring
# isi_hwmon -b NVDIMMPersistence
# /opt/dell/DellPTAgent/tools/pta_call get agent/info
# /opt/dell/DellPTAgent/tools/pta_call post "host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor"


 

これらのコマンドはクエリー専用のコマンドであり、無停止と見なす必要があります。

この状態のノードのコマンドの出力は、次のようになります。
 

# isi_hwmon -b NVDIMMHealthMonitoring
DIMM SLOT A7: OK

# isi_hwmon -b NVDIMMPersistence
NVDIMM Index 0

                       State: PERSISTENT
            Vendor Serial ID: xxxxxxxxx
       Correctable ECC Count: 0     
     Uncorrectable ECC Count: 0
                Current Temp: 255
                      Health: 0
                NVM Lifetime: 90
    Warning Threshold Status: 0
      Error Threshold Status: 0
          Health Info Status: 0
        Critical Health Info: 0
        Critical Info Status: 0
            Last Save Status: 0
         Last Restore Status: 0
           Last Flush Status: 0
                       Armed: 1
SMART/Health Events Observed: 0
        FW Health Monitoring: 1
               NVDIMM Mapped: 1

# /opt/dell/DellPTAgent/tools/pta_call post "host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor"
Request sent to DellPTAgent @ http://127.0.0.1:8086 [127.0.0.1]
{
    "HealthState": "OK",
    "EnabledState": "Enabled",
    "ElementName": "System Board NVDIMM Battery",
    "SensorType": "Other",
    "Id": "iDRAC.Embedded.1_0x23_SystemBoardNVDIMMBattery",
    "CurrentState": "Good"
}
Response: status: 200 [OK], size: 223 bytes, latency: 0.034 seconds.

# /opt/dell/DellPTAgent/tools/pta_call get agent/info
Request sent to DellPTAgent @ http://127.0.0.1:8086 [127.0.0.1]
{
    "idrac_ethernet_ip": "0.0.0.0",
    "servicetag": "xxxxx",
    "uptime": "2511 seconds ( 41 minutes 51 seconds )",
    "status": {
        "agent": "OK",
        "idracConnection": "OK",
        "idraccache": "OK",
        "iSM": "N/A"
    },
    "name": "ClusterName-123",
    "MarvellLibraryVersion": "Not loaded",
   "system_uuid": "xxxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
    "default_server_cert": "true",
    "rest_endpoints": "http://127.0.0.1:8086"" [127.0.0.1],
    "ptagentversion": "2.5.6-4",
    "domain": "",
    "host_epoch_time": "xxxxxxxxxx.354221 (secs.usecs)",
    "os_version": "9.1.0.0",
    "mfr": "Dell Inc.",
    "process_id": "2071",
    "api_blocking_enabled": "false",
    "host_pass_thru_ip": "xxx.xxx.xxx.xxx",
    "model": "PowerScale F600",
    "idrac_pass_thru_ip": "xxx.xxx.xxx.xxx",
    "os": "Isilon OneFS",
    "ism_version": "dell-dcism-3.4.6.13_7"
}
Response: status: 200 [OK], size: 871 bytes, latency: 0.009 seconds.


 

ここに示す出力は例であり、出力に差異がある可能性があります。重要な点は、出力が類似しており、出力の代わりにエラー メッセージが表示されない点です。

- 通信の問題/エラーの兆候がある場合は、問題のトラブルシューティングを続行し、必要に応じてHW L2/SMEおよび/またはPowerEdgeサポート チームに連絡する必要があります。 

- NVDIMMが良好な状態で問題がないことを示す出力の場合は、次のコマンドを使用してRO状態を手動でクリアできます。

# /usr/bin/isi_hwtools/isi_read_only --unset=system-nvdimm-failed


修正手順を適用したら、ノードを10分ほど監視して、ROモードに戻らないようにします。ノードの電源を入れ直すか再起動すると、この問題が再度発生する可能性があり、この回避策を再適用する必要がある場合があります。PowerScaleエンジニアリングはこの問題を認識しており、今後のOneFS 9.1リリースで実装される緩和手順を調査しています。それまでは、この問題を永続的に解決するために、クラスターをOneFS 9.2以降にアップグレードすることができます。

Affected Products

PowerScale F200, PowerScale F600, PowerScale F900
Article Properties
Article Number: 000201933
Article Type: Solution
Last Modified: 06 Jul 2023
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.