OneFS 9.1 업그레이드 후 PowerScale 노드가 읽기 전용으로 전환됨

Summary: 클러스터를 OneFS 9.1.0.20으로 업그레이드한 후 클러스터의 모든 PowerScale(F200, F600, F900) 노드가 읽기 전용 모드로 전환됩니다.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

클러스터를 OneFS 9.1.0.20으로 업그레이드한 후 'isi status'에 모든 PowerScale 노드가 읽기 전용(RO) 모드로 표시됩니다.
 
Node Pool Name: f600_60tb-ssd_384gb               Protection:        +2d:1n
Pool Storage:     HDD                 SSD Storage    
Size:             0 (0 Raw)           0 (0 Raw)      
VHS Size:         0.0                 
Used:             0 (n/a)             0 (n/a)        
Avail:            0 (n/a)             0 (n/a)        

                           Throughput (bps)  HDD Storage      SSD Storage
Name               Health|  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
123|n/a            |-A-R |938.7| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
124|n/a            |-A-R |    0| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
125|n/a            |-A-R |    0|10.8M|10.8M|(No Storage HDDs)|(No Storage SSDs)
126|n/a            |-A-R |    0| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
127|n/a            |-A-R | 1.4k| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
128|n/a            |-A-R |    0| 7.9M| 7.9M|(No Storage HDDs)|(No Storage SSDs)
129|n/a            |-A-R |    0| 7.9M| 7.9M|(No Storage HDDs)|(No Storage SSDs)
130|n/a            |-A-R |    0| 7.3M| 7.3M|(No Storage HDDs)|(No Storage SSDs)
-------------------+-----+-----+-----+-----+-----------------+-----------------
f600_60tb-ssd_384gb|  OK |293.3| 9.2M| 9.2M|(No Storage HDDs)|(No Storage SSDs)



영향을 받는 노드의 /var/log/messages 파일에 다음과 유사한 항목이 표시됩니다.
 
2022-07-26T01:40:46+02:00  (id92) isi_testjournal: NVDIMM is persistent
2022-07-26T01:40:46+02:00  (id92) isi_testjournal: NVDIMM armed for persistent writes
2022-07-26T01:40:47+02:00  (id92) ifconfig: Configure: /sbin/ifconfig ue0 netmask 255.255.255.0 169.254.0.40
2022-07-26T01:40:47+02:00  (id92) dsm_ism_srvmgrd[2056]: ISM0000 [iSM@674.10892.2 EventID="8716" EventCategory="Audit" EventSeverity="info" IsPastEvent="false" language="en-US"] The iDRAC Service Module is started on the operating system (OS) of server.
2022-07-26T01:40:47+02:00  (id92) dsm_ism_srvmgrd[2056]: ISM0003 [iSM@674.10892.2 EventID="8196" EventCategory="Audit" EventSeverity="error" IsPastEvent="false" language="en-US"] The iDRAC Service Module is unable to discover iDRAC from the operating system of the server.
2022-07-26T01:44:15+02:00  (id92) isi_testjournal: PowerTools Agent Query Exception: Timeout (20 sec) exceeded for request http://127.0.0.1:8086/api/PT/v1/host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor data: HTTPConnectionPool(host='127.0.0.1', port=8086): Read timed out. (read timeout=20)
2022-07-26T01:44:20+02:00  (id92) isi_testjournal: Query to PowerTools Agent for NVDIMM Battery failed

Cause

이 문제는 시작 시 초기 NVDIMM 상태 쿼리 중에 시간 초과가 발생하여 노드를 읽기 전용 모드로 전환할 수 있는 OneFS 버전 9.1.0.19의 NVDIMM 상태 모니터링 코드 변경과 관련이 있는 것으로 보입니다. 후속 상태 쿼리가 성공하더라도 노드가 자동으로 읽기-쓰기 모드로 돌아가지 않습니다. OneFS 9.2.x 이상은 이 문제의 영향을 받지 않습니다.

Resolution

NVDIMM이 정상이고 이 KB에 설명된 문제가 발생하는지 확인하려면 다음 네 가지 명령을 실행합니다.
 

# isi_hwmon -b NVDIMMHealthMonitoring
# isi_hwmon -b NVDIMMPersistence
# /opt/dell/DellPTAgent/tools/pta_call get agent/info
# /opt/dell/DellPTAgent/tools/pta_call post "host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor"


 

이러한 명령은 쿼리 전용 명령이며 운영 중단 없는 것으로 간주되어야 합니다.

이 상태의 노드에 대한 명령의 출력은 다음과 유사해야 합니다.
 

# isi_hwmon -b NVDIMMHealthMonitoring
DIMM SLOT A7: OK

# isi_hwmon -b NVDIMMPersistence
NVDIMM Index 0

                       State: PERSISTENT
            Vendor Serial ID: xxxxxxxxx
       Correctable ECC Count: 0     
     Uncorrectable ECC Count: 0
                Current Temp: 255
                      Health: 0
                NVM Lifetime: 90
    Warning Threshold Status: 0
      Error Threshold Status: 0
          Health Info Status: 0
        Critical Health Info: 0
        Critical Info Status: 0
            Last Save Status: 0
         Last Restore Status: 0
           Last Flush Status: 0
                       Armed: 1
SMART/Health Events Observed: 0
        FW Health Monitoring: 1
               NVDIMM Mapped: 1

# /opt/dell/DellPTAgent/tools/pta_call post "host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor"
Request sent to DellPTAgent @ http://127.0.0.1:8086 [127.0.0.1]
{
    "HealthState": "OK",
    "EnabledState": "Enabled",
    "ElementName": "System Board NVDIMM Battery",
    "SensorType": "Other",
    "Id": "iDRAC.Embedded.1_0x23_SystemBoardNVDIMMBattery",
    "CurrentState": "Good"
}
Response: status: 200 [OK], size: 223 bytes, latency: 0.034 seconds.

# /opt/dell/DellPTAgent/tools/pta_call get agent/info
Request sent to DellPTAgent @ http://127.0.0.1:8086 [127.0.0.1]
{
    "idrac_ethernet_ip": "0.0.0.0",
    "servicetag": "xxxxx",
    "uptime": "2511 seconds ( 41 minutes 51 seconds )",
    "status": {
        "agent": "OK",
        "idracConnection": "OK",
        "idraccache": "OK",
        "iSM": "N/A"
    },
    "name": "ClusterName-123",
    "MarvellLibraryVersion": "Not loaded",
   "system_uuid": "xxxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
    "default_server_cert": "true",
    "rest_endpoints": "http://127.0.0.1:8086"" [127.0.0.1],
    "ptagentversion": "2.5.6-4",
    "domain": "",
    "host_epoch_time": "xxxxxxxxxx.354221 (secs.usecs)",
    "os_version": "9.1.0.0",
    "mfr": "Dell Inc.",
    "process_id": "2071",
    "api_blocking_enabled": "false",
    "host_pass_thru_ip": "xxx.xxx.xxx.xxx",
    "model": "PowerScale F600",
    "idrac_pass_thru_ip": "xxx.xxx.xxx.xxx",
    "os": "Isilon OneFS",
    "ism_version": "dell-dcism-3.4.6.13_7"
}
Response: status: 200 [OK], size: 871 bytes, latency: 0.009 seconds.


 

여기에 제시된 출력은 예시이며 출력에 분산이 있을 수 있습니다. 중요한 부분은 출력이 비슷하고 출력 대신 오류 메시지가 표시되지 않는다는 것입니다.

- 통신 문제/오류 표시가 있는 경우 문제 해결을 계속하여 필요에 따라 HW L2/SME 및/또는 PowerEdge 지원 팀에 문의해야 합니다. 

- 출력에서 NVDIMM이 양호한 상태이고 문제가 없는 경우 다음 명령을 사용하여 RO 상태를 수동으로 지울 수 있습니다.

# /usr/bin/isi_hwtools/isi_read_only --unset=system-nvdimm-failed


수정 단계를 적용한 후 노드를 10분 동안 모니터링하여 노드가 RO 모드로 돌아가지 않도록 합니다. 노드의 전원을 껐다 켜거나 재부팅하면 이 문제가 다시 발생할 수 있으며 이 해결 방법을 다시 적용해야 할 수 있습니다. PowerScale Engineering은 이 문제를 알고 있으며 향후 OneFS 9.1 릴리스에서 구현할 완화 단계를 조사하고 있습니다. 그동안 이 문제를 영구적으로 해결하려면 클러스터를 OneFS 9.2 이상으로 업그레이드할 수 있습니다.

Affected Products

PowerScale F200, PowerScale F600, PowerScale F900
Article Properties
Article Number: 000201933
Article Type: Solution
Last Modified: 06 Jul 2023
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.