PowerFlex: Desconexões frequentes do MDM
Summary: Os componentes do PowerFlex, como o MDM, são desconectados e se reconectando rápida e frequentemente. Conexão perdida seguida por conexão encontrada em eventos do MDM Conexão após 80-190 ms ...
Instructions
Sintomas
Logs de eventos do MDM mostrando a desconexão e reconexão frequentes do componente MDM:
2023-xx-xx 00:00:21.316 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, <MDM_Name> (ID <MDM_ID>), has lost connection to the cluster. 2023-xx-xx 00:00:21.419 MDM_CLUSTER_CONNECTED INFO The MDM, <MDM_Name> (ID <MDM_ID>), connected after 100ms 2023-xx-xx 00:00:23.480 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, <MDM_Name> (ID <MDM_ID>), has lost connection to the cluster. 2023-xx-xx 00:00:23.584 MDM_CLUSTER_CONNECTED INFO The MDM, <MDM_Name> (ID <MDM_ID>), connected after 110ms
Saída Sar do servidor MDM que está se desconectando mostrando altas retransmissões de TCP:
sar -n ETCP 1 -t -f sar.0
atmptf/s estres/s retrans/s isegerr/s orsts/s
00:00:27 AM 0.00 0.00 62.00 0.00 0.00
00:00:28 AM 0.00 0.00 88.12 0.00 0.00
00:00:29 AM 0.00 3.00 100.00 0.00 0.00
00:00:30 AM 0.00 0.00 71.29 0.00 0.00
00:00:31 AM 0.00 0.00 71.00 0.00 0.00
...
00:01:02 AM 0.00 0.00 48.51 0.00 0.00
00:01:03 AM 0.00 0.00 15.00 0.00 0.00
00:01:04 AM 0.00 0.00 207.00 0.00 0.00
00:01:05 AM 0.00 0.00 36.00 0.00 0.00
00:01:06 AM 0.00 0.99 105.94 0.00 0.00
Impacto
Eventos resumidos de degradação do cluster do MDM
Degradação do desempenho
Causa raiz
O servidor MDM foi corrigido, e o kernel do Linux recebeu upgrade de 3.x para 5.x. Esse upgrade do kernel altera muitos dos parâmetros padrão do sistema operacional para valores diferentes. Neste caso, o parâmetro TCP "net.ipv4tcp_fack" foi desativado, entre outros, mas este parecia ter causado as altas retransmissões de TCP.
O RPM SDS fornece um arquivo de configuração chamado emc.conf no diretório /opt/emc/scaleio/sds/cfg/. Esse arquivo inclui muitos parâmetros recomendados do sistema operacional da Dell.
Se esse for um ambiente de rack/equipamento PowerFlex, o PowerFlex Manager copiará automaticamente o arquivo emc.conf de "/opt/emc/scaleio/sds/cfg" para cada systcl.conf do servidor e o aplicará. Isso só acontecerá na implementação inicial do nó. Existe a possibilidade de o sysctl.conf não ter sido atualizado corretamente. Se o arquivo sysctl.conf não existir com os valores corretos, após um upgrade do kernel para a versão 5.x, é possível que alguns parâmetros importantes sejam alterados.
Solução temporária
Em um ambiente de rack/equipamento PowerFlex, se o sysctl.conf não incluir todos os parâmetros que o emc.conf tem, é recomendável copiar o emc.conf em cada arquivo /etc/sysctl.conf do servidor. Para aplicar as alterações no servidor. O servidor pode ser reinicializado ou o comando "sysctl -p" pode ser executado para aplicar as alterações a partir de /etc/sysctl.conf. Certifique-se de que as práticas recomendadas de manutenção adequadas sejam feitas ao fazer essas alterações.
Em um ambiente somente de software, a Dell Technologies recomenda que esses parâmetros do Linux sejam aplicados a cada um dos servidores, mas, em última análise, a responsabilidade depende da empresa. Consulte o fornecedor do sistema operacional para conhecer as práticas recomendadas ou se houver dúvidas.
Versões afetadas
Todas as versões do PowerFlex