Data Domain HA (DDHA) 裝置的執行狀況檢查
Summary: 本文旨在提供在服務事件後執行基本 HA 系統執行狀況檢查的指南。Data Domain 高可用性 (DDHA) 組態會視使用的 Data Domain 機型而有所不同。
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Data Domain 高可用性系統 (DDHA) 的設計可在節點之間容錯移轉。 只有使用中節點處於生產狀態,而待機節點正在等待故障事件以取代使用中節點 (使用中 - 非使用中)。
如果發生故障,則必須檢查兩個 DDHA 節點是否都運作正常,並完成容錯移轉。
本文中詳述的 CLI 命令可協助找出容錯移轉可能無法成功的問題。
本指南分隔為需要檢查的關鍵區域。
# net show settings
網路連接埠設定會有所不同,視執行 #net show settings command 的節點而定。在 DDHA 系統上設定的連接埠類型為「浮動」或「固定」。 執行
使用中節點:
確認網路連線能力。
查看每個節點上列出的 IP,並確保使用中節點和待機節點上每個已設定的 IP 位址都可以對其設定的閘道執行 ping 操作。
注意:有些客戶已在其環境中停用 ping (ICMP)。 在此情況下,請與客戶接洽以確認連線能力。
(active:1)# net route show gateway detailed
Ping 每個已設定 ethxx 的閘道 IP 位址。
# net troubleshooting duplicate-ip
從兩個節點檢查是否有重複的 IP
光纖通道測試
確認這些功能是否已授權,然後測試這些功能以驗證其是否可正常運作 (例如:對 VTL 執行測試備份操作)
從使用中和待機進行自動支援和警示測試
如果使用事件 CONNECTEMC (Secure Remote Services) 將 ASUPS 傳遞至 Data Domain,請使用下列命令確認兩個節點上的連線能力。
時間戳記會指出上次建立連線的時間。
HA 檔案系統故障診斷
# filesys status
確認 FS 是否已啟用且正在執行中。也可顯示清理狀態。
(active:1)# (standby:0)# system upgrade status
從兩個節點,確認所有升級都已完成。
(active:1)# (standby:0)#Date
在 10 秒內確認兩個節點上的時間與日期相符
從使用中節點,向客戶確認 DD 複寫 (若已設定) 是否如預期執行。
如果發生故障,則必須檢查兩個 DDHA 節點是否都運作正常,並完成容錯移轉。
本文中詳述的 CLI 命令可協助找出容錯移轉可能無法成功的問題。
本指南分隔為需要檢查的關鍵區域。
- HA 硬體和組態
- 網路
- 檔案系統
# net show settings
網路連接埠設定會有所不同,視執行 #net show settings command 的節點而定。在 DDHA 系統上設定的連接埠類型為「浮動」或「固定」。 執行
"net show settings"(在兩個節點上),並比較輸出。
- 「浮動」介面: 確認在使用中節點上顯示已啟用且執行中狀態的任何已設定網路卡 (NIC) 連接埠、別名或 veth,在待機節點上是否具有相同的已啟用且執行中狀態。 預期任何已設定的 NIC 連接埠、別名或設定為浮動類型的 Veth 都會在使用中節點上顯示 IP 位址,在待機節點上顯示對應的 N/A。
- 「固定」介面:確認所有標記為「固定」的已設定 NIC 連接埠、別名或 veth 顯示為「已啟用且執行中狀態」。「固定」介面的節點之間沒有相同的組態
- 確認 HA 互聯 (veth99) 已顯示,且所有必要的連接埠均已啟用且正在執行中,注意: HA 互聯 (veth99) 所需的連接埠連線數量和插槽位置為 DD 機型專屬
使用中節點:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.50 255.255.255.0 fixed 2620:0:170:1608:260:16ff:fe5c:92bc** /64 fe80::260:16ff:fe5c:92bc** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no 10.25.18.63 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe51:8c60** /64 fe80::260:16ff:fe51:8c60** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no 10.25.18.60 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe52:2951** /64 fe80::260:16ff:fe52:2951** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0060:1652:0ecc /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::260:16ff:fe52:ecc** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------待機節點:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.49 255.255.255.0 fixed 2620:0:170:14567:260:16ff:fe5c:dr3** /64 fe80::260:16ff:fe5c3457c** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no n/a 255.255.255.0 floating 2620:0:170:1608:260:1ght6:fe51:4570** /64 fe80::260:16ff:fe51:7890** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no n/a 255.255.255.0 floating 2620:0:170:160:456:16ff:fe5234561** /64 fe80::260:16ff:fe52:3456** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0e456:1652:dft4c /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::264:16ff:fec2:ecb** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------
確認網路連線能力。
查看每個節點上列出的 IP,並確保使用中節點和待機節點上每個已設定的 IP 位址都可以對其設定的閘道執行 ping 操作。
注意:有些客戶已在其環境中停用 ping (ICMP)。 在此情況下,請與客戶接洽以確認連線能力。
(active:1)# net route show gateway detailed
IPv4 Default Gateways gateway IP source tables interface address owner ---------- ------ ------ ----------------- ----- 10.25.18.1 static tethMa 10.25.18.50/24 none 10.25.18.1 static teth4a 10.25.18.63/24 none 10.25.18.1 static teth5b 10.25.18.60/24 none ---------- ------ ------ ----------------- -----
Ping 每個已設定 ethxx 的閘道 IP 位址。
#(active:1)# ping 10.25.18.1 interface ethMa PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms (active:1)# ping 10.25.18.1 interface eth4a PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms (active:1)# ping 10.25.18.1 interface eth5b PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
# net troubleshooting duplicate-ip
從兩個節點檢查是否有重複的 IP
No duplicate IP addresses detected
光纖通道測試
確認這些功能是否已授權,然後測試這些功能以驗證其是否可正常運作 (例如:對 VTL 執行測試備份操作)
# license show or # elicense show ## License Key Feature -- ------------------- ---------------------------------------- 1 WTXV-TSWX-HWDR-RHDX VTL 2 EZXW-SZZF-BGCS-VRZX Block services (Vdisk) 3 .... HA
從使用中和待機進行自動支援和警示測試
(active:1)## autosupport test alert-summary OK: Message sent. (active:1)## autosupport test support-notify OK: Message sent. (standby:0)# autosupport test alert-summary OK: Message sent. (standby:0)# autosupport test support-notify OK: Message sent.
如果使用事件 CONNECTEMC (Secure Remote Services) 將 ASUPS 傳遞至 Data Domain,請使用下列命令確認兩個節點上的連線能力。
時間戳記會指出上次建立連線的時間。
sysadmin@hostname# support connectemc show history File Time Transport Result --------------------------------------- --------------------- --------- -------- RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success --------------------------------------- --------------------- --------- -------- Note: It says HTTP above, but it is HTTPS
HA 檔案系統故障診斷
# filesys status
確認 FS 是否已啟用且正在執行中。也可顯示清理狀態。
The filesystem is enabled and running. Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge) 0.7% complete, 95911 GiB free; time: phase 0:00:09, total 0:00:09
(active:1)# (standby:0)# system upgrade status
從兩個節點,確認所有升級都已完成。
Current Upgrade Status: DD OS upgrade Succeeded End time: 2016.08.20:13:27
(active:1)# (standby:0)#Date
在 10 秒內確認兩個節點上的時間與日期相符
-p1(active:1)# date Sat Aug 20 14:34:29 EDT 2016 -p0(standby:0)# date Sat Aug 20 14:34:17 EDT 2016
從使用中節點,向客戶確認 DD 複寫 (若已設定) 是否如預期執行。
# replication status CTX Destination Enabled Connection Sync'ed-as-of-time --- --------------------------------------------------------- ------- ---------------- ------------------ 3 mtree://ddxxx.com/data/col1/eric.dest no idle Fri Nov 6 15:16 4 mtree://ddxxx.com/data/col1/thy-repl yes idle Fri Jul 22 15:38 5 dir://ddxxxx.com/backup/replicate-rtp yes disconnected Fri Jul 22 14:55 6 mtree://ddxxxx.com/data/col1/theman_test yes idle Sat Aug 20 22:11 7 dir://ddxxx.com/backup/lakeland/sym yes Sat Aug 20 13:15 Fri Aug 19 15:09 --- --------------------------------------------------------- ------- ---------------- ----------------
Cause
HA 硬體和組態
在使用中節點和待機節點上,檢查是否有指向潛在問題的使用中警示。警示不一定會在節點之間共用,因此請檢查兩個節點。 如果遇到未預期的問題,請提出支援案例。請務必從兩個節點產生支援套裝。
備註: 大多數警示只會出現在其中一個節點上。並非每個警示都會在節點之間共用。
如果狀態為「高可用性」,則會啟用容錯移轉。
如果狀態為「已降級」,或其中一個節點未顯示「線上」狀態,則會停用節點之間的容錯移轉。
# ha status detailed
使用中節點上詳細的命令 #ha 狀態只能用於有關 HA 狀態的更多詳細資訊。
下列任何在「鏡像狀態」區段下顯示「不可行」的輸出表示元件無法運作,且 HA 系統狀態會顯示為「已降級」。
任何已降級狀態都會防止節點之間進行容錯移轉。
注意:此命令在待機節點上無法使用。
# enclosure show io-cards
確認兩個節點都具有相同的支援組態。
# enclosure show misconfiguration
從使用中節點和待機節點執行錯誤組態測試,以檢查硬體組態是否有任何問題。
請參閱 KB https://www.dell.com/support/kbdoc/en-us/463399
例如:
# enclosure show topology
從兩個節點檢查拓撲。
尋找連線點之間的任何錯誤,並確保所有機架編號正確無誤。
# enclosure test topology all duration 1
從使用中和待機節點,對所有連接外部儲存裝置的所有 SAS HBA 連接埠執行 1 分鐘診斷測試。
請勿同時在兩個節點上執行拓撲測試。
預期結果是每個連接儲存裝置的連接埠均未偵測到錯誤。
如果發現問題,測試可停止並顯示一則故障訊息,指示 SAS 連線有故障,或者可能會在特定連線顯示錯誤 (? 、! )。
注意:在拓撲測試期間,個別連接埠會有個別的輸出來指示狀態。尋找錯誤 (? 、! ) 以找出問題連線。 在每個連接埠測試完成之前,不會顯示 CLI 輸出。
# system show nvram
在使用中和待機節點上,確保 Nvram 電池已充電或正在充電,且所有 nvram 錯誤計數器均顯示為零的值。
# alerts show current
在使用中節點和待機節點上,檢查是否有指向潛在問題的使用中警示。警示不一定會在節點之間共用,因此請檢查兩個節點。 如果遇到未預期的問題,請提出支援案例。請務必從兩個節點產生支援套裝。
備註: 大多數警示只會出現在其中一個節點上。並非每個警示都會在節點之間共用。
警示範例:
Severity Class Object Message -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Enclosure=1:Slot=5 EVT-ENVIRONMENT-00047: PCI communication speed is degraded -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HA EVT-HA-00003: Standby node time is off by 15 second(s). -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Port Index=1 EVT-MPATH-00003: Missing disk connection from system port 6a. -- ------------------------ -------- --------------- ------ ----------------------------------------------
# ha status
使用中節點和待機節點上的命令 #ha 狀態可用來判斷目前的 HA 狀態。如果狀態為「高可用性」,則會啟用容錯移轉。
如果狀態為「已降級」,或其中一個節點未顯示「線上」狀態,則會停用節點之間的容錯移轉。
SE@hostname-p0(active:0)## ha status HA System name:hostname-n1.chaos.local HA System status: highly available Node Name Node id Role HA State ------------------------------- ------- ------- -------- hostname-p0.chaos.local 0 active online hostname-p1.chaos.local 1 standby online ------------------------------- ------- ------- --------
# ha status detailed
使用中節點上詳細的命令 #ha 狀態只能用於有關 HA 狀態的更多詳細資訊。
下列任何在「鏡像狀態」區段下顯示「不可行」的輸出表示元件無法運作,且 HA 系統狀態會顯示為「已降級」。
任何已降級狀態都會防止節點之間進行容錯移轉。
注意:此命令在待機節點上無法使用。
SEhostname-p0(active:0)## ha status detailed HA System name: hostname.chaos.local HA System Status: highly available Interconnect Status: ok Primary Heartbeat Status: ok External LAN Heartbeat Status: not ok Hardware compatibility check: ok Software Version Check: ok Node hostname-p0.chaos.local: Role: active HA State: online Node Health: ok Node hostname-p1.chaos.local: Role: standby HA State: online Node Health: ok Mirroring Status: Component Name Status -------------- ------ nvram ok registry ok sms ok ddboost ok cifs ok -------------- ------
# enclosure show io-cards
確認兩個節點都具有相同的支援組態。
# enclosure show misconfiguration
從使用中節點和待機節點執行錯誤組態測試,以檢查硬體組態是否有任何問題。
請參閱 KB https://www.dell.com/support/kbdoc/en-us/463399
例如:
Memory DIMMs: Locator Bank Locator Size(GiB) Status ------- ------------ --------- ---------- CHCD1 7 0 missing CHDD1 7 0 missing CHAD0 4 8 wrong size CHBD0 4 8 wrong size IO Cards: Slot Device Status ---- ---------- --------- 10 Hera NVRAM extra 10 Hera NVRAM misplaced ---- ---------- --------- CPUs: No misconfiguration found. Disks: Slot Size(GiB) Type Media Status ---- --------- ---- ----- ------- 2 186 SATA SSD missing ---- --------- ---- ----- -----
# enclosure show topology
從兩個節點檢查拓撲。
尋找連線點之間的任何錯誤,並確保所有機架編號正確無誤。
- 錯誤和故障使用符號「?」、「!」或「!!」表示
注意:每個節點的拓撲輸出應為彼此的反向 (鏡射影像)。
(Stdby:0)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 5.A.E: 5.A.H ? 4.A.E: 4.A.H > 3.A.E: 3.A.H > 2.A.E: 2.A.H
3a
3b
3c
3d
6a !! 2.B.E: 2.B.H > 3.B.E: 3.B.H > 5.B.E: 5.B.H > ?.B.E: ?.B.H
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
(active:1)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 2.A.H: 2.A.E > 3.A.H: 3.A.E > 4.A.H: 4.A.E > 5.A.H: 5.A.E
3a
3b
3c
3d
6a > 5.B.H: 5.B.E > 4.B.H: 4.B.E > 3.B.H: 3.B.E > 2.B.H: 2.B.E
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
# enclosure test topology all duration 1
從使用中和待機節點,對所有連接外部儲存裝置的所有 SAS HBA 連接埠執行 1 分鐘診斷測試。
請勿同時在兩個節點上執行拓撲測試。
預期結果是每個連接儲存裝置的連接埠均未偵測到錯誤。
如果發現問題,測試可停止並顯示一則故障訊息,指示 SAS 連線有故障,或者可能會在特定連線顯示錯誤 (? 、! )。
注意:在拓撲測試期間,個別連接埠會有個別的輸出來指示狀態。尋找錯誤 (? 、! ) 以找出問題連線。 在每個連接埠測試完成之前,不會顯示 CLI 輸出。
# enclosure test topology Started: 1471719316 Ended: 1471719498 Duration: 182 Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port ---- - --------------- - --------------- - --------------- - --------------- 2d > 5.A.H:5.A.E > 4.A.H:4.A.E > 3.A.H:3.A.E > 2.A.H:2.A.E ---- - --------------- - --------------- - --------------- - --------------- Error message: ----------------- No error detected -----------------
# system show nvram
在使用中和待機節點上,確保 Nvram 電池已充電或正在充電,且所有 nvram 錯誤計數器均顯示為零的值。
# system show nvram NVRAM Cards: Card Component Value ---- ----------------------- ---------------------------------------------------------------------- 1 Slot 0 Firmware version 0.0.80 Memory size 7.93 GiB Errors 0 memory (0 uncorrectable), 0 PCI, 0 controller Flash controller Errors 0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err Board temperature 37 C CPU temperature 47 C Number of batteries 1 ---- ----------------------- ---------------------------------------------------------------------- NVRAM Batteries: Card Battery Status Charge Charging Time To Temperature Voltage Status Full Charge ---- ------- ------ ------ -------- ----------- ----------- ------- 1 1 ok 94 % enabled 0 mins 34 C 4.016 V ---- ------- ------ ------ -------- ----------- ----------- -------
Resolution
如需進一步協助,請與您簽約的服務提供者聯繫。
Additional Information
。
Affected Products
Data DomainProducts
Data Domain, DD OS 6.0Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.