PowerScale Вузли переходять Читати тільки після оновлення OneFS 9.1

Summary: Після оновлення кластера до версії OneFS 9.1.0.20 всі вузли PowerScale (F200, F600, F900) в кластері переходять в режим «тільки читання».

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Після оновлення кластера до OneFS 9.1.0.20, 'isi status' показує всі вузли PowerScale в режимі тільки читання (RO):
 
Node Pool Name: f600_60tb-ssd_384gb               Protection:        +2d:1n
Pool Storage:     HDD                 SSD Storage    
Size:             0 (0 Raw)           0 (0 Raw)      
VHS Size:         0.0                 
Used:             0 (n/a)             0 (n/a)        
Avail:            0 (n/a)             0 (n/a)        

                           Throughput (bps)  HDD Storage      SSD Storage
Name               Health|  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
123|n/a            |-A-R |938.7| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
124|n/a            |-A-R |    0| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
125|n/a            |-A-R |    0|10.8M|10.8M|(No Storage HDDs)|(No Storage SSDs)
126|n/a            |-A-R |    0| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
127|n/a            |-A-R | 1.4k| 9.9M| 9.9M|(No Storage HDDs)|(No Storage SSDs)
128|n/a            |-A-R |    0| 7.9M| 7.9M|(No Storage HDDs)|(No Storage SSDs)
129|n/a            |-A-R |    0| 7.9M| 7.9M|(No Storage HDDs)|(No Storage SSDs)
130|n/a            |-A-R |    0| 7.3M| 7.3M|(No Storage HDDs)|(No Storage SSDs)
-------------------+-----+-----+-----+-----+-----------------+-----------------
f600_60tb-ssd_384gb|  OK |293.3| 9.2M| 9.2M|(No Storage HDDs)|(No Storage SSDs)



Ви побачите записи, подібні до наступних, у файлі /var/log/messages для уражених вузлів:
 
2022-07-26T01:40:46+02:00  (id92) isi_testjournal: NVDIMM is persistent
2022-07-26T01:40:46+02:00  (id92) isi_testjournal: NVDIMM armed for persistent writes
2022-07-26T01:40:47+02:00  (id92) ifconfig: Configure: /sbin/ifconfig ue0 netmask 255.255.255.0 169.254.0.40
2022-07-26T01:40:47+02:00  (id92) dsm_ism_srvmgrd[2056]: ISM0000 [iSM@674.10892.2 EventID="8716" EventCategory="Audit" EventSeverity="info" IsPastEvent="false" language="en-US"] The iDRAC Service Module is started on the operating system (OS) of server.
2022-07-26T01:40:47+02:00  (id92) dsm_ism_srvmgrd[2056]: ISM0003 [iSM@674.10892.2 EventID="8196" EventCategory="Audit" EventSeverity="error" IsPastEvent="false" language="en-US"] The iDRAC Service Module is unable to discover iDRAC from the operating system of the server.
2022-07-26T01:44:15+02:00  (id92) isi_testjournal: PowerTools Agent Query Exception: Timeout (20 sec) exceeded for request http://127.0.0.1:8086/api/PT/v1/host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor data: HTTPConnectionPool(host='127.0.0.1', port=8086): Read timed out. (read timeout=20)
2022-07-26T01:44:20+02:00  (id92) isi_testjournal: Query to PowerTools Agent for NVDIMM Battery failed

Cause

Проблема, мабуть, пов'язана зі змінами в коді моніторингу стану NVDIMM, внесеними в OneFS версії 9.1.0.19, які можуть призвести до тайм-ауту під час початкового запиту стану NVDIMM під час запуску, переводячи вузол у режим лише для читання. Незважаючи на успіх наступних запитів стану, вузол не повертається автоматично до режиму читання-запису. OneFS 9.2.x і новіші версії не зачіпаються цією проблемою.

Resolution

Щоб переконатися, що NVDIMM справний і виникла проблема, описана в цій базі знань, виконайте такі чотири команди:
 

# isi_hwmon -b NVDIMMHealthMonitoring
# isi_hwmon -b NVDIMMPersistence
# /opt/dell/DellPTAgent/tools/pta_call get agent/info
# /opt/dell/DellPTAgent/tools/pta_call post "host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor"


 

Ці команди є командами лише запиту, і їх слід вважати неруйнівними.

Висновок для команд для вузла в такому стані повинен бути аналогічним:
 

# isi_hwmon -b NVDIMMHealthMonitoring
DIMM SLOT A7: OK

# isi_hwmon -b NVDIMMPersistence
NVDIMM Index 0

                       State: PERSISTENT
            Vendor Serial ID: xxxxxxxxx
       Correctable ECC Count: 0     
     Uncorrectable ECC Count: 0
                Current Temp: 255
                      Health: 0
                NVM Lifetime: 90
    Warning Threshold Status: 0
      Error Threshold Status: 0
          Health Info Status: 0
        Critical Health Info: 0
        Critical Info Status: 0
            Last Save Status: 0
         Last Restore Status: 0
           Last Flush Status: 0
                       Armed: 1
SMART/Health Events Observed: 0
        FW Health Monitoring: 1
               NVDIMM Mapped: 1

# /opt/dell/DellPTAgent/tools/pta_call post "host/sensordata?sensorSelector=iDRAC.Embedded.1%23SystemBoardNVDIMMBattery&sensorType=DellSensor"
Request sent to DellPTAgent @ http://127.0.0.1:8086 [127.0.0.1]
{
    "HealthState": "OK",
    "EnabledState": "Enabled",
    "ElementName": "System Board NVDIMM Battery",
    "SensorType": "Other",
    "Id": "iDRAC.Embedded.1_0x23_SystemBoardNVDIMMBattery",
    "CurrentState": "Good"
}
Response: status: 200 [OK], size: 223 bytes, latency: 0.034 seconds.

# /opt/dell/DellPTAgent/tools/pta_call get agent/info
Request sent to DellPTAgent @ http://127.0.0.1:8086 [127.0.0.1]
{
    "idrac_ethernet_ip": "0.0.0.0",
    "servicetag": "xxxxx",
    "uptime": "2511 seconds ( 41 minutes 51 seconds )",
    "status": {
        "agent": "OK",
        "idracConnection": "OK",
        "idraccache": "OK",
        "iSM": "N/A"
    },
    "name": "ClusterName-123",
    "MarvellLibraryVersion": "Not loaded",
   "system_uuid": "xxxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
    "default_server_cert": "true",
    "rest_endpoints": "http://127.0.0.1:8086"" [127.0.0.1],
    "ptagentversion": "2.5.6-4",
    "domain": "",
    "host_epoch_time": "xxxxxxxxxx.354221 (secs.usecs)",
    "os_version": "9.1.0.0",
    "mfr": "Dell Inc.",
    "process_id": "2071",
    "api_blocking_enabled": "false",
    "host_pass_thru_ip": "xxx.xxx.xxx.xxx",
    "model": "PowerScale F600",
    "idrac_pass_thru_ip": "xxx.xxx.xxx.xxx",
    "os": "Isilon OneFS",
    "ism_version": "dell-dcism-3.4.6.13_7"
}
Response: status: 200 [OK], size: 871 bytes, latency: 0.009 seconds.


 

Результат, наведений тут, є прикладом, і можуть бути розбіжності у виході, який ви отримуєте. Важливим є те, що результат виглядає подібним, і що ви не отримуєте повідомлення про помилку замість виводу.

- Якщо є які-небудь ознаки проблем / помилок зв'язку, ви повинні продовжити усунення несправностей, залучивши HW L2 / SME та / або команду підтримки PowerEdge за потреби. 

- Якщо на виході зазначено, що NVDIMM в хорошому стані і немає проблем, ви можете вручну очистити стан осмосу за допомогою такої команди:

# /usr/bin/isi_hwtools/isi_read_only --unset=system-nvdimm-failed


Після того, як ви застосували коригувальний крок, контролюйте вузол протягом ~ 10 хвилин, щоб переконатися, що він не повертається в режим зворотного осмосу. Якщо вузол увімкнено або перезавантажено, ця проблема може виникнути знову, і, можливо, доведеться повторно застосувати цей спосіб вирішення. PowerScale Engineering знає про цю проблему і вивчає кроки щодо пом'якшення наслідків, які будуть реалізовані в майбутньому випуску OneFS 9.1. А поки, щоб назавжди вирішити цю проблему, ви можете оновити кластер до OneFS 9.2 або новіше.

Affected Products

PowerScale F200, PowerScale F600, PowerScale F900
Article Properties
Article Number: 000201933
Article Type: Solution
Last Modified: 06 Jul 2023
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.