Connectrix:如何藉由排除法,故障診斷交換器連接埠的 Fibre Channel 節點或 SFP 通訊問題,自助。
Summary: 本文說明如何藉由排除法,故障診斷交換器連接埠的 Fibre Channel 節點或 SFP 通訊問題。
Symptoms
如何藉由排除法,故障診斷交換器連接埠的 Fibre Channel 節點或 SFP 通訊問題?
主動更換的 SFP 過多
連結故障
G 連接埠
指示燈不亮
非作業順序 (NOS)
離線順序 (OLS)
訊號中斷
SFP故障
故障診斷 FC 連接埠
FC 連接埠錯誤
Cause
當問題出在 SFP 或交換器之外時,主動更換的 SFP 過多。
Resolution
要解決此問題:
- 識別通訊故障所涉及的節點和交換器連接埠。
- 確認交換器連接埠在管理上已啟動 (未封鎖、未關閉) 或已啟用。
- 確定有備援路徑可供連接的裝置使用之後,再繼續進行。
- 若要排除 SFP 為問題原因,請執行以下操作:
- 檢查交換器上的可用連接埠。
- 在交換器上停用已識別的可用連接埠。
- 將纜線從要檢查的連接埠移至上一個步驟中新停用的可用連接埠。
- 將已停用的連接埠變更為啟用狀態 (或管理上已啟動),並使裝置恢復上線。
- 將交換器上的統計資料/計數器清除/重設為零。
針對 Brocade,請參閱 KBA:
Connectrix B-Series Brocade:如何清除 Connectrix Brocade B 系列交換器和導向器上的介面和 ASIC 計數器
針對 Cisco,請參閱 KBA:
Connectrix - MDS 系列 Cisco:如何清除 MDS 上的介面和 ASIC 計數器
- 使用個別命令監控連接埠 4-6 小時。
結果:
- 如果錯誤計數器增加,則問題出在交換器之外,必須建議客戶/使用者/SAN 管理員:
-
- 新的連接埠 SFP 和纜線需要清潔。(為防止髒纜線污染 SFP,請考慮使用專業清潔套件。)
- 連接的裝置必須由支援裝置的人員進一步調查。
- 在 Cisco 交換器上,如果「errdisabled」狀態傳回而沒有增加計數器,則必須開啟 SR 以進行進一步的後端調查。
- 如果錯誤未增加 (或 Cisco 交換器上的 Errdisabled 狀態未恢復),則先前連接埠上的 SFP 有故障,請提出 SR 以進行 SFP 更換,並提供上述分析結果,包括記錄輸出、SFP 詳細資料 (SM 或 MM 和速度等)
Additional Information
通過將簡單的演算法套用至問題,可以輕鬆找出硬體故障;如果不是這個硬體,那就是另一個。循環執行此動作,直到找出故障所指向的有問題硬體。
BROCADE 範例:
Connectrix B-Series:如何解譯 Brocade porterrshow 輸出,以及計數器的意義。自助
範例 1 包含 LINK FAIL 以及 LOSS SYNC 的 ENC OUT:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 4 6 0 0 0 0 0 0
一般原因:
僅在連接埠統計資料已在過去 24 小時內清除時有效。否則,請將這些歸類為歷史計數器。請清除連接埠統計資料 (如上述第 9 點所列),然後檢查計數器並在 4 至 6 小時後重新取得資料。
從錯誤中,我們可以看到 link fail 和 loss of sync 以及 enc out 錯誤,這些也可能包括 loss sig 錯誤。
這些錯誤的組合通常表示主機重新開機,或是交換器外部的連結重設。在進行速度交涉時會造成 enc out 錯誤,這屬於連結初始化的過程。
預期動作:
確認連接至連接埠的裝置有合理的離線/連線理由。例如,主機重新開機。如果沒有,請提出 SR。
範例 2 ENC OUT:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 0 0 0 0 0 0 0 0
一般原因:
僅在連接埠統計資料已在過去 24 小時內清除時有效。否則,請將這些歸類為歷史計數器。清除連接埠統計資料 (如上述第 9 點所列),然後檢查計數器並在 4 至 6 小時後重新取得資料。
未發生任何相關錯誤的 Enc out 錯誤表示纜線有髒汙。
預期動作:
檢查並清潔纜線上的所有光纖表面,以及連接至此連接埠和連接裝置的 SFP。
範例 3 CRC 和 CRC G_EOF:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0
一般原因:
僅在連接埠統計資料已在過去 24 小時內清除時有效。否則,請將這些歸類為歷史計數器。清除連接埠統計資料 (如上述第 9 點所列),然後檢查計數器並在 4 至 6 小時後重新取得資料。
訊框正在以損壞的 CRC 進入交換器連接埠,但訊框結束仍標示為良好。
這表示這是第一個註冊損壞訊框的連接埠,因此問題在於此特定連接埠上的 SFP/纜線/連接裝置介面。
預期動作:
請參閱解決方案中的預設動作。
如果是 ISL 連接埠,請清除統計資料 (如上述第 9 點所列),然後檢查計數器並在 4 至 6 小時後重新取得資料,從兩台交換器收集 supportsaves 並開啟 SR 以進行一般故障診斷。
範例 4 CRC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0
一般原因:
僅在連接埠統計資料已在過去 24 小時內清除時有效。否則,請將這些歸類為歷史計數器。清除連接埠統計資料 (如上述第 9 點所列),然後檢查計數器並在 4 至 6 小時後重新取得資料。
連接埠正在記錄以損壞的 CRC 訊框進入交換器的訊框,但訊框已標示為損壞。通常會在 ISL 和 NPIV F 連接埠上看到此資訊。
預期動作:
如果 NPIV 連接埠上記錄 CRC 錯誤,請由維護供應商調查該裝置!
針對 ISL 連接埠,請檢查光纖中的所有連接埠,是否有任何連接埠記錄 crc g_oef 以及範例 3 中的動作。
範例 5 包含 LINK FAIL 和 LOSS SYNC 的 PCS ERR:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 4 4 0 0 0 0 0 466
一般原因:
僅在連接埠統計資料已在過去 24 小時內清除時有效。否則,請將這些歸類為歷史計數器。清除連接埠統計資料 (如上述第 9 點所列),然後檢查計數器並在 4 至 6 小時後重新取得資料。
這僅適用於支援 10 Gbps 或 16 Gbps 連接埠及更高的平台 (6505/6510/6520/DCX-8510),並導入了 Condor3 ASIC (GEN5 平台)。
ER_PCS_BLK 顯示 Physical Coding Sublayer (PCS) 區塊錯誤的數目。此計數器與 8 Gb/4 Gb 連結的 enc_out 相當,僅適用於 10 GB 和 16 GB 速度及更高。
從錯誤中,我們可以看到 link fail 和 loss of sync 以及 pcs err 錯誤,這些也可能包括 loss sig 錯誤。
這些錯誤的組合通常表示主機重新開機,或是交換器外部的連結重設。
在連結初始化過程中,進行速度交涉時造成 pcs err 錯誤。
預期動作:
確認連接至連接埠的裝置有合理的離線或連線理由。例如,主機重新開機。如果沒有,請提出 SR。
範例 6 PCS ERR:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 466
一般原因:
僅在連接埠統計資料已在過去 24 小時內清除時有效。否則,請將這些歸類為歷史計數器。清除連接埠統計資料 (如上述第 9 點所列),然後檢查計數器並在 4 至 6 小時後重新取得資料。
未發生任何相關錯誤的 PCS ERR 錯誤表示纜線有髒汙。
預期動作:
檢查並清潔纜線上的所有光纖表面,以及連接至此連接埠和連接裝置的 SFP。
CISCO 範例:
範例 1 Errdisabled:
Errdisabled - 無介面錯誤遞增
fc1/1 is down (Error disabled - bit error rate too high) Hardware is Fibre Channel, SFP is short wave laser w/o OFC (SN). 5 minutes input rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 5 minutes output rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 179 frames input, 7668 bytes 0 discards, 0 errors 0 CRC, 0 unknown class 0 too long, 0 too short 23 frames output, 1320 bytes 0 discards, 0 errors 1 input OLS, 1 LRR, 0 NOS, 1 loop inits 2 output OLS, 0 LRR, 0 NOS, 1 loop inits Interface last changed at Thu Jun 5 01:51:00 2014
一般原因:
介面的「Errdisabled」狀態可能有點誤導,因為前端的介面計數器可能很乾淨,而交換器的連接埠似乎處於「errdisabled」狀態,後端 (ASIC/內部/線路卡) 上的錯誤計數器會增加。
預期動作:
請參閱解決方案中的預設動作。如果再次發生,請收集技術支援詳細資料輸出結果並開啟 SR。
- 纜線故障或損壞
- SFP 故障或損毀
- SFP 的指定以 1 Gbps 運作,但以 2 Gbps 使用。
- SFP 的指定以 2 Gbps 運作,但以 4 Gbps 使用。
- 短距離纜線用於長距離,或長距離纜線用於短距離。
- 暫時同步中斷
- 一端或兩端的纜線連接鬆動
- 一端或兩端的 SFP 連接不當
偵測到 5 分鐘內發生 15 次錯誤突發的位元錯誤率閾值。根據預設,達到閾值時交換器會停用介面。您可以依序輸入以下命令,以重新啟用介面。
shutdown
no shutdown 您可以將交換機設為在超過閾值時不要停用介面。
根據預設,閾值會停用介面。
範例 2: CRC
CRC 遞增
fc13/1 is down (Initializing)
Port description is ***
Hardware is Fibre Channel, SFP is long wave laser cost reduced.
5 minutes input rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
5 minutes output rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
162 frames input, 6136 bytes
0 discards, 17 errors
17 CRC, 0 unknown class
0 too long, 17 too short
74 frames output, 6304 bytes
2 discards, 0 errors
108 input OLS, 54 LRR, 2 NOS, 0 loop inits
83 output OLS, 26 LRR, 56 NOS, 0 loop inits
Interface last changed at Tue May 27 08:37:20 2014
一般原因:
連接埠正在記錄以損壞的 CRC 訊框進入交換器的訊框,但訊框結束良好。CRC 計數器僅會在特定入口連接埠記錄錯誤及此實體連結上任何應進行之調查時遞增。
預期動作:
請參閱解決方案中的預設操作。
清除連接埠統計資料 (如上述第 9 點所列),然後檢查計數器並在 4-6 小時後檢查計數器並重新取得資料。
範例 3:NOS
非作業順序 (NOS)
show int fc1/1 counters
fc1/1
5 minutes input rate 1753296 bits/sec, 219162 bytes/sec, 199 frames/sec
5 minutes output rate 2310384 bits/sec, 288798 bytes/sec, 194 frames/sec
2741512190 frames input, 2542476084276 bytes
0 class-2 frames, 0 bytes
2741512190 class-3 frames, 2542476084276 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors, 0 CRC
0 unknown class, 0 too long, 0 too short
3410405365 frames output, 5164364339412 bytes
0 class-2 frames, 0 bytes
3410405365 class-3 frames, 5164364339412 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors
1 input OLS, 1 LRR, 0 NOS, 307 loop inits
289 output OLS, 289 LRR, 289 NOS, 289 loop inits
0 link failures, 0 sync losses, 0 signal losses
48276 BB credit transitions from zero
16 receive B2B credit remaining
3 transmit B2B credit remaining
3 low priority transmit B2B credit remaining
一般原因:
在連結協商之前中斷連線。
預期動作:
檢查第 1 層 (實體層) 和來源裝置。