SDS do PowerFlex fechando soquetes sem problemas de rede

Resumo: O SDS relata soquetes fechados sem eventos de rede ou evidências de problemas de rede.

Este artigo aplica-se a Este artigo não se aplica a Este artigo não está vinculado a nenhum produto específico. Nem todas as versões do produto estão identificadas neste artigo.

Sintomas

Cenário
O SDS relata soquetes fechados por processos remotos (SDCs, SDSs, MDMs) e nenhum evento de NIC inativo, quadros descartados ou perda de pacotes observados. 

Sintomas
O registro de eventos relata perda de conectividade do SDS, seja para desacoplar ou reconectar: 

2017-11-11 16:52:12.101 SDS_RECONNECTED           INFO     	 SDS: xyz_d35 (ID 67211111110089) reconnected 
2017-11-11 16:52:13.690 MDM_DATA_FAILED           CRITICAL 	 The system is now in DATA FAILURE state. Some data is unavailable. 
2017-11-11 16:52:15.791 MDM_DATA_DEGRADED         ERROR    	 The system is now in DEGRADED state. 

Antes disso, vemos erros como o seguinte nos rastreamentos do SDS.

O SDS tentou enviar, e levou >1 segundo para responder:

11/11 16:52:04.527408 0x7ff0b19eaeb0:contNet_OscillationNotif:01720: Con 672cb111110099 - Oscillation of type 5 (RPC_LINGERED_1SEC) reported

O soquete com um par foi fechado do outro lado devido à falta de recebimento de nossas keepalives de nível inferior de envio:

11/11 16:52:06.241105 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b5d00000078 - Oscillation of type 1 (SOCKET_DOWN) reported 

Outro exemplo disso se parece com:

11/11 16:52:06.241224 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b3c00000057 - Oscillation of type 2 (IO_ERROR) reported

Outros indicadores:
Iterações
O temporizador keepalive de rede de nível inferior do ScaleIO é medido em iterações, que têm 100 milissegundos.

O tempo de espera excedido do MDM-SDS> é de 20 iterações ou 2 segundos, enquanto o tempo de espera excedido do keepalive do MDM-MDM é de 3 iterações ou 300 ms.

Vinte iterações excediram:

11/11 16:52:11.685281 0x7ff752d1beb0:netPath_IsKaNeeded:01858:  :: Connected Live CLIENT path 0x7ff6e2192a00 of portal 0x7ff6e2192900 net 0x7ff7480e1110 socket 210 inflights 0 didn't receive message for 20 iterations from 10.124.162.109:7072. Marking as down  

Soquetes inativos Essas impressões de rastreamento indicam quando os soquetes foram desativados:

11/11 16:52:09.787793 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.130.109 - Oscillation of type SOCKET_DOWN reported

11/11 16:52:11.685290 0x7ff752d1beb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type RCV_KA_DISCONNECT reported
11/11 16:52:11.685308 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type SOCKET_DOWN reported

Essa impressão significa que o último soquete de um SDS foi desativado e é o ponto em que o SDS é considerado desconectado:

11/11 16:52:11.685319 0x7ff752cf7eb0:tgtMgr_TgtDisconnectCB:07818: Tgt: 672cba7400000089 ConId: 672cba7400000089

O MDM emitirá um comando addmdm para que o SDS se reconecte. 

Falha de E/S bloqueada
Sabemos que IO_FAULT_BLOCKED acontece quando o SDS recusa a E/S porque não consegue acessar o MDM, mas essas informações estão incompletas.

O SDS envia keepalives para o MDM a cada segundo e, se o MDM não obtiver isso por 5 segundos, o SDS é considerado esgotado e é marcado como dissociado.

O MDM envia ao SDS uma mensagem "continue trabalhando" a cada segundo. É quando o SDS não recebe essa mensagem por 5 segundos que ele recusa a E/S com IO_FAULT_BLOCKED: 

11/11 16:52:12.007045 0x7ff0b0cdfeb0:ioh_NewRequest:05490: Write to comb f778038007f - Done rc is IO_FAULT_BLOCKED (Lba 6721528 8), volume 6e1a2f4a0000075d (dit)
11/11 16:52:12.008825 0x7ff0b0ec5eb0:ioh_NewRequest:05490: Write to comb f78803903fc - Done rc is IO_FAULT_BLOCKED (Lba 5031040 6), volume 6e1a2f4c0000075f (dit)
11/11 16:52:12.017262 0x7ff0b26daeb0:ioh_NewRequest:05490: Write to comb f768037003e - Done rc is IO_FAULT_BLOCKED (Lba 15106144 16), volume 6e1a2f490000075c (dit)

 

Impacto

Perda de conectividade SDS

Durante data_degraded estado ou modo de manutenção instantânea, isso pode causar DU.

Causa

A causa da falha de E/S neste caso de exemplo foi que a concessão de SDS (5 s) não havia expirado, mas o tempo de espera excedido de rede de nível inferior (2 s) tinha.

A causa raiz é um ou mais dos seguintes motivos: 

1 - Problemas
de TCP/rede A- Isso provavelmente se manifestará com retransmissões de TCP, o que indica problemas de hardware/configuração. (problemas de cabo, NIC, switch etc.) Como visto na saída de 

sar -n ETCP 1

Que gera resultados como:

 Linux 3.10.0-693.5.2.el7.x86_64 (SIO-DCOE-96O-3)        12/13/2017      _x86_64_        (48 CPU)

04:33:44 PM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s
04:33:45 PM      0.00      0.00     50.00      0.00      0.00
04:33:46 PM      2.00      0.00     75.00      0.00      0.00
04:33:47 PM      0.00      0.00    223.00      0.00      0.00
04:33:48 PM      0.00      0.00    106.00      0.00      0.00
04:33:49 PM      2.00      0.00     58.00      0.00      0.00
04:33:50 PM      0.00      0.00      5.00      0.00      0.00
04:33:51 PM      0.00      0.00      7.00      0.00      0.00
04:33:52 PM      2.00      0.00      2.00      0.00      0.00
04:33:53 PM      0.00      0.00      1.00      0.00      0.00
^C

04:33:53 PM      0.00      0.00      0.00      0.00      0.00
Average:         0.65      0.00     99.00      0.00      0.00

Para referência:

  • Verde = um dígito/s
  • Amarelo = alta de dois dígitos até 50/s
  • Vermelho = >50/s

B-No caso de distribuições Linux mais antigas, como o SusE 11 SP3 em nossos SVMs, pode-se monitorar retransmissões de rede com o seguinte comando:

watch -d -n 2 "netstat -s |grep retrans"

O que resulta da seguinte forma, destacando os caracteres que foram atualizados durante o último intervalo:

Every 2.0s: netstat -s |grep retrans                                                                                                                                                   Wed Dec 13 09:55:10 2017

    1244070 segments retransmited

2- Problemas de CPU, falta de processo.
Isso se manifesta como uma pausa simultânea nos rastreamentos de todos os componentes do SIO, com muitos soquetes se fechando como as primeiras linhas no rastreamento após a retomada. 
O arquivo LIA, SDS, MDM/TB, SDC/mensagens mostra a lacuna.
O rastreamento do LIA, por exemplo, mostra os soquetes do LIA→SDS fechando após um tempo de espera excedido de 3 segundos (30 iterações x 100 ms):

11/11 16:52:11.597227 0x7f44c41c6eb0:netPath_IsKaNeeded:01858:  :: Connected Live SERVER path 0x7f44c4195690 of portal 0x7f44c4192bb0 net 0x83b040 socket 8 inflights 0 didn't receive message for 30 iterations from 127.0.0.1:43228. Marking as down
11/11 16:52:12.031195 0x7f44c419eeb0:liaNet_DisconnectedNotif:01553: Con aed disconnected
11/11 16:52:12.158383 0x7f44c419eeb0:liaNet_ConnectedNotif:01483: Con aed  connected

3- Talvez tenhamos um bug em algum lugar no SIO. É provável que um thread que não seja de rede esteja segurando uma CPU e não permitindo que outra coisa seja executada etc.

Resolução

Solução temporária

Nenhuma solução temporária geral

Versões afetadas

Todos

Corrigido na versão

N/D 

Produtos afetados

PowerFlex Software, VxFlex Product Family, VxFlex Ready Node, Ready Node Series
Propriedades do artigo
Número do artigo: 000203040
Tipo de artigo: Solution
Último modificado: 15 mai. 2026
Versão:  5
Encontre as respostas de outros usuários da Dell para suas perguntas.
Serviços de suporte
Verifique se o dispositivo está coberto pelos serviços de suporte.