在初始將裝置安裝至新叢集,或新增裝置至現有叢集時,硬體和網路檢查可能會失敗。此故障可能會將應用裝置的狀態從 「未設定」 變更為 「未設定故障」。此狀態表示裝置無法加入新叢集,也無法新增至現有叢集。必須先清除故障,才能將設備添加到群集。
若要判斷是否有硬體或網路問題導致 「未設定的故障」 情況,請執行下列步驟:
如果您要將裝置新增至現有的叢集 (從 PowerStore Manager):
- 使用服務 LAN 連接埠存取方法存取系統 (請參閱 PowerStore:存取節點以取得詳細資料)。
- 以服務使用者身分登入服務容器後,請執行下列服務指令檔,以判斷是否存在硬體或網路問題:
svc_diag list --icw_hardware
svc_diag list --network
- 如果未報告任何錯誤或問題,則在ICW或新增裝置操作期間出現的原始症狀可能是暫時性的。
- 如果出現錯誤或問題,且您無法決定如何解決,請執行下列指令檔以產生資料收集,並聯絡您的服務供應商以尋求協助:
svc_dc run
- 如果您要將裝置安裝至新叢集,並準備好重試安裝:
- 關閉探索工具及/或瀏覽器。
- 重新啟動探索工具,或使用節點 A 的靜態服務 LAN IP 位址 [即 128.221.1.252] 開啟瀏覽器。
- 如果系統顯示其處於「未設定」狀態,請繼續您的初始組態/ICW 步驟
- 重試「新增裝置」作業,看看工作是否成功。
- 如果工作仍失敗,請執行資料收集以取得相關記錄,並聯絡您的服務供應商以尋求協助。
以下是成功輸出的範例” svc_diag list --icw_hardware “在左欄中;右欄包含您可能會遇到的錯誤說明。
|
範例輸出 |
說明 |
hw_type Warnado-EX
Running on Node A
|
|
Node A FRU Status
OK | Peer Node | 0x0f80
OK | Local Node | 0x1480
OK | Embedded Module | 0x8b81
OK | 4-Port Card | 0x8b81
OK | I/O Module 0 | 0x8b81
OK | I/O Module 1 | 0x8b81
OK | Internal Backup Battery Module | 0x3380
Node B FRU Status
OK | Peer Node | 0x0f80
OK | Local Node | 0x1580
OK | Embedded Module | 0x8b81
OK | 4-Port Card | 0x8b81
OK | I/O Module 0 | 0x8b81
OK | I/O Module 1 | 0x8b81
OK | Internal Backup Battery Module | 0x1380
|
這些表由三列組成:
總結 |現場可更換單元 (FRU) 名稱 |狀態感應器值
左邊的 「摘要 」欄應改為:
正常 = FRU 狀態良好。
空 = 裝置遺失 FRU 及/或偵測不到。由於 I/O 模組為選配,因此 I/O 模組的「空」狀態是正常的。(在這種情況下,兩個節點上的相同 I/O 模組插槽必須為空)。所有其他 FRU 均為必要硬體,應一律為「OK」
熄滅 = FRU 已關閉電源。FRU 可能需要更換。
未知 = 狀態感應器值包含未預期的值。FRU 可能需要更換。
失敗時的建議動作: 請參閱相關的 KB 文章,以取得如何解決這些硬體問題的詳細資訊。這些包括:000132703、 000132707 (節點)、 000125540 (I/O 模組、4 連接埠卡) 和 000132989 (嵌入式模組)。
|
IO Module Consistency Check = Success
Node Consistency Check = Success
Battery Check = OK
|
這些檢查會比較每個節點的 FRU 狀態摘要值。兩個節點應為每個 FRU 報告相同的摘要值。
失敗時的建議動作:
- 如需 I/O 模組,請參閱知識文章 000125540。
- 有關節點,請參閱知識庫文章 000132703和 000132707。
- 內部備份電池模組檢查正常,除非無法從一個或兩個節點讀取 FRU 狀態。如果這是
icw_hardware 命令,重新啟動ICW應允許它通過。
|
Node A Fault Status Register Status = Success
OK | Node
OK | Embedded Module
OK | Internal Backup Battery Module
Module
OK | DIMM00
OK | DIMM01
OK | DIMM02
OK | DIMM03
OK | DIMM04
OK | DIMM05
OK | DIMM06
OK | DIMM07
OK | DIMM08
OK | DIMM09
OK | DIMM10
OK | DIMM11
OK | DIMM12
OK | DIMM13
OK | DIMM14
OK | DIMM15
OK | DIMM16
OK | DIMM17
OK | DIMM18
OK | DIMM19
OK | DIMM20
OK | DIMM21
OK | DIMM22
OK | DIMM23
OK | I/O Module 0
OK | I/O Module 1
OK | 4-Port Card
Node B Fault Status Register Status = Success
OK | Node
OK | Embedded Module
OK | Internal Backup Battery Module
Module
OK | DIMM00
OK | DIMM01
OK | DIMM02
OK | DIMM03
OK | DIMM04
OK | DIMM05
OK | DIMM06
OK | DIMM07
OK | DIMM08
OK | DIMM09
OK | DIMM10
OK | DIMM11
OK | DIMM12
OK | DIMM13
OK | DIMM14
OK | DIMM15
OK | DIMM16
OK | DIMM17
OK | DIMM18
OK | DIMM19
OK | DIMM20
OK | DIMM21
OK | DIMM22
OK | DIMM23
OK | I/O Module 0
OK | I/O Module 1
OK | 4-Port Card
|
左欄中的狀態值為「OK」或「FLT」。這些是從故障狀態寄存器 (FSR) 中讀取的。
「FLT」表示 FRU 發生硬體錯誤。
「確定」表示未記錄該 FRU 的硬體錯誤。如果 FRU 不存在,則此表格中的狀態應為「確定」。(空的 I/O 模組插槽在這些表格中會顯示為「正常」,但在上方的 FRU 狀態表格中則會列為「閒置」。)
失敗時的建議動作: 請參閱相關的 KB 文章,以取得如何解決這些硬體問題的詳細資訊。這些包括:000132703、 000132707 (節點)、 000125540 (I/O 模組、4 連接埠卡) 和 000132989 (嵌入式模組)。
|
NVRAM Cache Drives
Node Core Counts (NodeA:12, NodeB:12)
Number of NVRAM Drives Required based on Core Count: 2
NVRAM Drives Found (NodeA:2, NodeB:2)
NVMe Storage Drives
Number of NVMe Drives Required: 6
SCM Drives Found (NodeA: 0, NodeB: 0)
SSD Drives Found (NodeA: 12 (NVMe 6, SAS 6), NodeB: 12 (NVMe 6, SAS 6))
NVMe Drive Check = Success
compareNodeDrives - NVEe Drive Counts, NodeA 8, NodeB 8
compareNodeDrives - Both Nodes see same NVMe drives
compareNodeDrives - SAS SSD Drive Counts, NodeA 12, NodeB 12
compareNodeDrives - Both Nodes see same drives
Compare Node Drive Check = Success
checkExpansionEnclosures - nodeAEnclCount 2, nodeBEnclCount 2
Enclosure Check = Success
|
與磁碟機相關的檢查包括:
- 應用裝置必須包含正確數量的 NVRAM 快取磁碟機 (具體數量取決於應用裝置的機型)。如果顯示失敗,建議的動作: 尋找遺失、故障或安裝不當的 NVRAM 磁碟機。的輸出
"svc_diag list --nvme_drive命令可能有所幫助。
- 系統中的資料磁碟機必須遵循 SCM、SCD 和 SAS 磁碟機的官方組態規則 (在此範例中,裝置中沒有 SCM 磁碟機)。如果顯示失敗,建議的動作: 檢查所有 NVMe 和 SAS 磁碟機的磁碟機標籤。如果混合使用 SCM 和固態硬碟類型,請視需要更換或移除磁碟機。
- 兩個節點顯示的磁碟機數量必須相同 (僅可從單一節點看到的磁碟機會發生問題)。如果顯示失敗,建議的動作: 您可以使用「
svc_diag list --nvme_drive" 顯示 NVMe 磁碟機的詳細狀態,以識別僅在單一節點上顯示的一個或多個磁碟機。
- 兩個節點中必須顯示相同數量的磁碟機機櫃 (僅可從一個節點看到機櫃會導致問題)。如果顯示失敗,建議的動作: 檢查所有機櫃纜線,並確認機櫃的纜線是否正確。
|
checkIoms - nodeAIoms: [u' 303-321-000C', u' 313-202-000B']
checkIoms - nodeBIoms: [u' 303-321-000C', u' 313-202-000B']
Compare Node IOM Check = Success
|
一個節點上每個插槽中的 I/O 模組必須與對等節點上同一插槽中的 I/O 模組匹配。
如果單一節點中存在錯誤類型的 I/O 模組,可能會發生這種情況。如果每個節點包含一個 I/O 模組,但位於不同的插槽中 (例如:一個節點上的插槽 0,對等節點上的插槽 1),也可能發生此情況。如果 I/O 模組遺失或斷電,您也可以在此處看到故障(請參閱上方的「故障狀態寄存器」一節)。
失敗時的建議動作: 比較兩個節點上兩個 I/O 模組插槽中 I/O 模組的零件編號。如果出現任何不一致之處,請視需要移動或更換 I/O 模組以修正問題。知識庫文章 000125540 也可能有所助益。 |
OVERALL STATUS: True, return_code 0
IOM Consistency Check : Success
Node Consistency Check : Success
Battery Check : OK
Fault Status Register A : Success
Fault Status Register B : Success
Node A Accessible : True
Node B Accessible : True
Drive Check : Success
Node Drives Compare Check : Success
Enclosure Check : Success
IO Module Compare Check : Success
|
本節是上述資訊的摘要。 |
以下是成功輸出的範例” svc_diag_list --network" :
|
範例輸出 |
***** Start minimal cabling check *****
OCP_MEZZ 0 is LINK_STATUS_UP on Node A
OCP_MEZZ 0 is LINK_STATUS_UP on Node B
OCP_MEZZ 1 is LINK_STATUS_UP on Node A
OCP_MEZZ 1 is LINK_STATUS_UP on Node B
***** Minimal cabling check: Overall errors: 0
Overall errors: 0, return code: 0
|