PowerFlex SDS Ağ Sorunu Olmadan Soketleri Kapatma

Summary: SDS, herhangi bir ağ olayı veya ağ sorunlarına dair kanıt olmadan soketlerin kapatıldığını bildiriyor.

Acest articol se aplică pentru Acest articol nu se aplică pentru Acest articol nu este legat de un produs specific. Acest articol nu acoperă toate versiunile de produs existente.

Symptoms

Senaryo
SDS, uzak işlemler (SDC'ler, SDS'ler, MDM'ler) tarafından kapatılan yuvalara sahip olduğunu ve NIC kapanma olayı, kare atlaması veya paket kaybı gözlemlenmediğini bildirir. 

Belirti -leri
Olay günlüğü, SDS bağlantı kaybı, ayırma veya yeniden bağlanma bildiriyor: 

2017-11-11 16:52:12.101 SDS_RECONNECTED           INFO     	 SDS: xyz_d35 (ID 67211111110089) reconnected 
2017-11-11 16:52:13.690 MDM_DATA_FAILED           CRITICAL 	 The system is now in DATA FAILURE state. Some data is unavailable. 
2017-11-11 16:52:15.791 MDM_DATA_DEGRADED         ERROR    	 The system is now in DEGRADED state. 

Bundan önce, SDS izlerinde aşağıdaki gibi hatalar görüyoruz.

SDS göndermeye çalıştı ve yanıt vermesi 1 saniye sürdü >:

11/11 16:52:04.527408 0x7ff0b19eaeb0:contNet_OscillationNotif:01720: Con 672cb111110099 - Oscillation of type 5 (RPC_LINGERED_1SEC) reported

Bir akranı olan yuva, daha düşük seviyeli keepalive'ları göndermemiz nedeniyle diğer taraftan kapatıldı:

11/11 16:52:06.241105 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b5d00000078 - Oscillation of type 1 (SOCKET_DOWN) reported 

Bunun başka bir örneği şuna benzer:

11/11 16:52:06.241224 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b3c00000057 - Oscillation of type 2 (IO_ERROR) reported

Diğer göstergeler:
Yinelemeler
ScaleIO'nun alt düzey ağ etkin tutma zamanlayıcısı, 100 milisaniye uzunluğundaki yinelemelerle ölçülür.

MDM-SDS> zaman aşımı 20 yineleme veya 2 saniyedir, MDM-MDM etkin tutma zaman aşımı ise 3 yineleme veya 300 ms'dir.

Yirmi yineleme aşıldı:

11/11 16:52:11.685281 0x7ff752d1beb0:netPath_IsKaNeeded:01858:  :: Connected Live CLIENT path 0x7ff6e2192a00 of portal 0x7ff6e2192900 net 0x7ff7480e1110 socket 210 inflights 0 didn't receive message for 20 iterations from 10.124.162.109:7072. Marking as down  

Soketler kapalı Bu iz izleri, soketlerin ne zaman kapandığını gösterir:

11/11 16:52:09.787793 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.130.109 - Oscillation of type SOCKET_DOWN reported

11/11 16:52:11.685290 0x7ff752d1beb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type RCV_KA_DISCONNECT reported
11/11 16:52:11.685308 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type SOCKET_DOWN reported

Bu baskı, bir SDS'nin son soketinin devre dışı kaldığı anlamına gelir ve SDS'nin bağlantısının kesildiği kabul edilen noktadır:

11/11 16:52:11.685319 0x7ff752cf7eb0:tgtMgr_TgtDisconnectCB:07818: Tgt: 672cba7400000089 ConId: 672cba7400000089

MDM, SDS'nin yeniden bağlanmasını sağlamak için bir addmdm komutu yayınlar. 

GÇ Arızası Engellendi
SDS, MDM ye ulaşamadığı için GÇ'yi reddettiğinde IO_FAULT_BLOCKED durumun gerçekleştiğini biliyoruz ancak bu bilgi eksik.

SDS, MDM'ye her saniye canlı tutma gönderir ve MDM bunu 5 saniye boyunca alamazsa SDS zaman aşımına uğramış olarak kabul edilir ve ayrıştırılmış olarak işaretlenir.

MDM, SDS'ye her saniye bir "çalışmaya devam et" mesajı gönderir. SDS bu mesajı 5 saniye boyunca almadığında IO_FAULT_BLOCKED ile IO'yu reddeder: 

11/11 16:52:12.007045 0x7ff0b0cdfeb0:ioh_NewRequest:05490: Write to comb f778038007f - Done rc is IO_FAULT_BLOCKED (Lba 6721528 8), volume 6e1a2f4a0000075d (dit)
11/11 16:52:12.008825 0x7ff0b0ec5eb0:ioh_NewRequest:05490: Write to comb f78803903fc - Done rc is IO_FAULT_BLOCKED (Lba 5031040 6), volume 6e1a2f4c0000075f (dit)
11/11 16:52:12.017262 0x7ff0b26daeb0:ioh_NewRequest:05490: Write to comb f768037003e - Done rc is IO_FAULT_BLOCKED (Lba 15106144 16), volume 6e1a2f490000075c (dit)

 

Etki

SDS bağlantı kaybı

data_degraded durumu veya Anında Bakım Modu sırasında bu, DU'ya neden olabilir.

Cause

Bu örnek durumda GÇ hatasının nedeni, (5 sn) SDS kiralama süresinin dolmaması ancak (2 sn) alt düzey ağ zaman aşımının sona ermiş olmasıdır.

Temel neden aşağıdaki nedenlerden biri veya birkaçıdır: 

1- TCP/ağ sorunları
A- Bu muhtemelen HW/yapılandırma sorunlarını gösteren TCP yeniden iletimlerinde ortaya çıkacaktır. (Kablo, NIC, anahtar sorunları vb.) çıktısında görüldüğü gibi 

sar -n ETCP 1

Hangi çıktı şu şekildedir:

 Linux 3.10.0-693.5.2.el7.x86_64 (SIO-DCOE-96O-3)        12/13/2017      _x86_64_        (48 CPU)

04:33:44 PM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s
04:33:45 PM      0.00      0.00     50.00      0.00      0.00
04:33:46 PM      2.00      0.00     75.00      0.00      0.00
04:33:47 PM      0.00      0.00    223.00      0.00      0.00
04:33:48 PM      0.00      0.00    106.00      0.00      0.00
04:33:49 PM      2.00      0.00     58.00      0.00      0.00
04:33:50 PM      0.00      0.00      5.00      0.00      0.00
04:33:51 PM      0.00      0.00      7.00      0.00      0.00
04:33:52 PM      2.00      0.00      2.00      0.00      0.00
04:33:53 PM      0.00      0.00      1.00      0.00      0.00
^C

04:33:53 PM      0.00      0.00      0.00      0.00      0.00
Average:         0.65      0.00     99.00      0.00      0.00

Referans için:

  • Yeşil = tek hane/sn
  • Sarı = 50/sn'ye kadar yüksek çift haneli
  • Kırmızı = >50/sn

B-SVM'lerimizdeki SusE 11 SP3 gibi daha eski Linux dağıtımları söz konusu olduğunda, aşağıdaki komutla ağ yeniden iletimleri izlenebilir:

watch -d -n 2 "netstat -s |grep retrans"

Bu, son aralıkta güncellenen karakterleri vurgulayarak aşağıdaki gibi çıktı:

Every 2.0s: netstat -s |grep retrans                                                                                                                                                   Wed Dec 13 09:55:10 2017

    1244070 segments retransmited

2- CPU sorunları, süreç açlığı.
Bu, her SIO bileşeninin izlemelerinde eşzamanlı bir duraklama olarak ortaya çıkar ve sürdürme sırasında izlemedeki ilk satırlar olarak çok sayıda yuva kapanır. 
LIA, SDS, MDM / TB, SDC / mesaj dosyası boşluğu gösterir.
Örneğin LIA izlemesi, 3 saniye (30 yineleme x 100 ms) zaman aşımından sonra kapanan LIA→SDS yuvalarını gösterir:

11/11 16:52:11.597227 0x7f44c41c6eb0:netPath_IsKaNeeded:01858:  :: Connected Live SERVER path 0x7f44c4195690 of portal 0x7f44c4192bb0 net 0x83b040 socket 8 inflights 0 didn't receive message for 30 iterations from 127.0.0.1:43228. Marking as down
11/11 16:52:12.031195 0x7f44c419eeb0:liaNet_DisconnectedNotif:01553: Con aed disconnected
11/11 16:52:12.158383 0x7f44c419eeb0:liaNet_ConnectedNotif:01483: Con aed  connected

3- Belki SIO'da bir yerde bir hatamız var. Muhtemelen ağ dışı bir iş parçacığı bir CPU tutuyor ve başka bir şeyin çalışmasına izin vermiyor vb.

Resolution

Geçici Çözüm

Genel bir geçici çözüm yoktur

Etkilenen sürümler

Tümü

Düzeltildiği sürüm

Yok 

Produse afectate

PowerFlex Software, VxFlex Product Family, VxFlex Ready Node, Ready Node Series
Proprietăți articol
Article Number: 000203040
Article Type: Solution
Ultima modificare: 15 mai 2026
Version:  5
Găsiți răspunsuri la întrebările dvs. de la alți utilizatori Dell
Servicii de asistență
Verificați dacă dispozitivul dvs. este acoperit de serviciile de asistență.