OneFS 9.1 업그레이드 후 PowerScale 노드가 읽기 전용으로 전환됨

Сводка: 클러스터를 OneFS 9.1.0.20으로 업그레이드한 후 클러스터의 모든 PowerScale(F200, F600, F900) 노드가 읽기 전용 모드로 전환됩니다.

Данная статья применяется к Данная статья не применяется к Эта статья не привязана к какому-либо конкретному продукту. В этой статье указаны не все версии продуктов.

Симптомы

클러스터를 OneFS 9.1.0.20으로 업그레이드한 후 'isi status'에 모든 PowerScale 노드가 읽기 전용(RO) 모드로 표시됩니다.
 
Node Pool Name: f600_60tb-ssd_384gb               Protection:        +2d:1n
Pool Storage:     HDD                 SSD Storage    
Size:             0 (0 Raw)           0 (0 Raw)      
VHS Size:         0.0                 
Used:             0 (n/a)             0 (n/a)        
Avail:            0 (n/a)             0 (n/a)        

                           Throughput (bps)  HDD Storage      SSD Storage
Name               Health|  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
123|n/a            |-A-R |938.7| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
124|n/a            |-A-R |    0| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
125|n/a            |-A-R |    0|10.8M|10.8M|(No Storage HDDs)|(No Storage SSDs)
126|n/a            |-A-R |    0| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
127|n/a            |-A-R | 1.4k| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
128|n/a            |-A-R |    0| 7.9M| 7.9M|(No Storage HDDs)|(No Storage SSDs)
129|n/a            |-A-R |    0| 7.9M| 7.9M|(No Storage HDDs)|(No Storage SSDs)
130|n/a            |-A-R |    0| 7.3M| 7.3M|(No Storage HDDs)|(No Storage SSDs)
-------------------+-----+-----+-----+-----+-----------------+-----------------
f600_60tb-ssd_384gb|  OK |293.3| 9.2M| 9.2M|(No Storage HDDs)|(No Storage SSDs)



영향을 받는 노드의 /var/log/messages 파일에 다음과 유사한 항목이 표시됩니다.
 
2022-07-26T01:40:46+02:00  (id92) isi_testjournal: NVDIMM is persistent
2022-07-26T01:40:46+02:00  (id92) isi_testjournal: NVDIMM armed for persistent writes
2022-07-26T01:40:47+02:00  (id92) ifconfig: Configure: /sbin/ifconfig ue0 netmask 255.255.255.0 169.254.0.40
2022-07-26T01:40:47+02:00  (id92) dsm_ism_srvmgrd[2056]: ISM0000 [iSM@674.10892.2 EventID="8716" EventCategory="Audit" EventSeverity="info" IsPastEvent="false" language="en-US"] The iDRAC Service Module is started on the operating system (OS) of server.
2022-07-26T01:40:47+02:00  (id92) dsm_ism_srvmgrd[2056]: ISM0003 [iSM@674.10892.2 EventID="8196" EventCategory="Audit" EventSeverity="error" IsPastEvent="false" language="en-US"] The iDRAC Service Module is unable to discover iDRAC from the operating system of the server.
2022-07-26T01:44:15+02:00  (id92) isi_testjournal: PowerTools Agent Query Exception: Timeout (20 sec) exceeded for request http://127.0.0.1:8086/api/PT/v1/host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor data: HTTPConnectionPool(host='127.0.0.1', port=8086): Read timed out. (read timeout=20)
2022-07-26T01:44:20+02:00  (id92) isi_testjournal: Query to PowerTools Agent for NVDIMM Battery failed

Причина

이 문제는 시작 시 초기 NVDIMM 상태 쿼리 중에 시간 초과가 발생하여 노드를 읽기 전용 모드로 전환할 수 있는 OneFS 버전 9.1.0.19의 NVDIMM 상태 모니터링 코드 변경과 관련이 있는 것으로 보입니다. 후속 상태 쿼리가 성공하더라도 노드가 자동으로 읽기-쓰기 모드로 돌아가지 않습니다. OneFS 9.2.x 이상은 이 문제의 영향을 받지 않습니다.

Разрешение

NVDIMM이 정상이고 이 KB에 설명된 문제가 발생하는지 확인하려면 다음 네 가지 명령을 실행합니다.
 

# isi_hwmon -b NVDIMMHealthMonitoring
# isi_hwmon -b NVDIMMPersistence
# /opt/dell/DellPTAgent/tools/pta_call get agent/info
# /opt/dell/DellPTAgent/tools/pta_call post "host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor"


 

이러한 명령은 쿼리 전용 명령이며 운영 중단 없는 것으로 간주되어야 합니다.

이 상태의 노드에 대한 명령의 출력은 다음과 유사해야 합니다.
 

# isi_hwmon -b NVDIMMHealthMonitoring
DIMM SLOT A7: OK

# isi_hwmon -b NVDIMMPersistence
NVDIMM Index 0

                       State: PERSISTENT
            Vendor Serial ID: xxxxxxxxx
       Correctable ECC Count: 0     
     Uncorrectable ECC Count: 0
                Current Temp: 255
                      Health: 0
                NVM Lifetime: 90
    Warning Threshold Status: 0
      Error Threshold Status: 0
          Health Info Status: 0
        Critical Health Info: 0
        Critical Info Status: 0
            Last Save Status: 0
         Last Restore Status: 0
           Last Flush Status: 0
                       Armed: 1
SMART/Health Events Observed: 0
        FW Health Monitoring: 1
               NVDIMM Mapped: 1

# /opt/dell/DellPTAgent/tools/pta_call post "host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor"
Request sent to DellPTAgent @ http://127.0.0.1:8086 [127.0.0.1]
{
    "HealthState": "OK",
    "EnabledState": "Enabled",
    "ElementName": "System Board NVDIMM Battery",
    "SensorType": "Other",
    "Id": "iDRAC.Embedded.1_0x23_SystemBoardNVDIMMBattery",
    "CurrentState": "Good"
}
Response: status: 200 [OK], size: 223 bytes, latency: 0.034 seconds.

# /opt/dell/DellPTAgent/tools/pta_call get agent/info
Request sent to DellPTAgent @ http://127.0.0.1:8086 [127.0.0.1]
{
    "idrac_ethernet_ip": "0.0.0.0",
    "servicetag": "xxxxx",
    "uptime": "2511 seconds ( 41 minutes 51 seconds )",
    "status": {
        "agent": "OK",
        "idracConnection": "OK",
        "idraccache": "OK",
        "iSM": "N/A"
    },
    "name": "ClusterName-123",
    "MarvellLibraryVersion": "Not loaded",
   "system_uuid": "xxxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
    "default_server_cert": "true",
    "rest_endpoints": "http://127.0.0.1:8086"" [127.0.0.1],
    "ptagentversion": "2.5.6-4",
    "domain": "",
    "host_epoch_time": "xxxxxxxxxx.354221 (secs.usecs)",
    "os_version": "9.1.0.0",
    "mfr": "Dell Inc.",
    "process_id": "2071",
    "api_blocking_enabled": "false",
    "host_pass_thru_ip": "xxx.xxx.xxx.xxx",
    "model": "PowerScale F600",
    "idrac_pass_thru_ip": "xxx.xxx.xxx.xxx",
    "os": "Isilon OneFS",
    "ism_version": "dell-dcism-3.4.6.13_7"
}
Response: status: 200 [OK], size: 871 bytes, latency: 0.009 seconds.


 

여기에 제시된 출력은 예시이며 출력에 분산이 있을 수 있습니다. 중요한 부분은 출력이 비슷하고 출력 대신 오류 메시지가 표시되지 않는다는 것입니다.

- 통신 문제/오류 표시가 있는 경우 문제 해결을 계속하여 필요에 따라 HW L2/SME 및/또는 PowerEdge 지원 팀에 문의해야 합니다. 

- 출력에서 NVDIMM이 양호한 상태이고 문제가 없는 경우 다음 명령을 사용하여 RO 상태를 수동으로 지울 수 있습니다.

# /usr/bin/isi_hwtools/isi_read_only --unset=system-nvdimm-failed


수정 단계를 적용한 후 노드를 10분 동안 모니터링하여 노드가 RO 모드로 돌아가지 않도록 합니다. 노드의 전원을 껐다 켜거나 재부팅하면 이 문제가 다시 발생할 수 있으며 이 해결 방법을 다시 적용해야 할 수 있습니다. PowerScale Engineering은 이 문제를 알고 있으며 향후 OneFS 9.1 릴리스에서 구현할 완화 단계를 조사하고 있습니다. 그동안 이 문제를 영구적으로 해결하려면 클러스터를 OneFS 9.2 이상으로 업그레이드할 수 있습니다.

Затронутые продукты

PowerScale F200, PowerScale F600, PowerScale F900
Свойства статьи
Номер статьи: 000201933
Тип статьи: Solution
Последнее изменение: 06 Jul 2023
Версия:  3
Получите ответы на свои вопросы от других пользователей Dell
Услуги технической поддержки
Проверьте, распространяются ли на ваше устройство услуги технической поддержки.