VPLEX: Como diagnosticar e monitorar problemas de back-end com o BEPM (Back-End Path Management) aprimorado no GeoSynchrony 6.2
Summary: Este artigo discute a função de gerenciamento de caminho de back-end (BE) que foi adicionada ao GeoSynchrony 6.2 e posterior. Ele também discute o tratamento do congestionamento de rede de back-end por meio de sua funcionalidade alterada de Gerenciamento de Caminhos do BE. ...
Symptoms
No pré-GeoSynchrony 6.2, o VPLEX falhava ao isolar alguns caminhos para volumes de armazenamento de back-end com alta latência devido a problemas de storage array ou congestionamento de fabric. Na versão 6.2, o VPLEX isola automaticamente os caminhos com baixo desempenho para volumes de armazenamento (caminhos com alta latência) e os recupera automaticamente quando o desempenho se recupera para níveis aceitáveis.
Novos Call Homes introduzidos no GeoSynchrony 6.2:
0x8a6b6001 — bepm/1 — o desempenho de um nexo de TI de back-end ficou abaixo dos níveis aceitáveis.
0x8a6b6004 — bepm/4 — foram detectados períodos repetidos de baixo desempenho em um IT Nexus de back-end.
0x8a6b6007 bepm/7 — todos os Initiator-Target-LUNs (ITLs) para uma unidade lógica nesse director têm baixo desempenho, portanto, a unidade lógica é marcada como degradada.
Os caminhos de back-end são compostos por um iniciador (porta VPLEX BE) e um destino (porta no array) e são chamados de IT Nexus.
Novos comandos da CLI para verificar quais caminhos BE podem estar em um estado degradado:back-end degraded list e back-end degraded recover
Consulte o Guia da CLI do VPLEX 6.2 para obter mais informações sobre o uso desses comandos.
O back-end degraded list mostra todos os I-Ts que o VPLEX degradou devido à alta latência.
Abaixo mostra o uso do help (-h) com o comando para ver como o comando pode ser usado:
VPlexcli:/>back-end degraded list -h
synopsis: list [<options>]
Exibe uma lista de I-Ts:
options degradadas (* = obrigatório):
-h | --help
Displays the usage for this command.
--verbose
Provides more output during command execution. This may not have any effect for some commands.
-g | --group-by= <group_by>
Group degraded I-Ts by the specified field. Campos compatíveis: array, director
Exemplo de ITs marcados como degradados - exibidos com Degradation Reason de Degraded performance:
VPlexcli:/> lista
de back-end degradadoI-TS degradado:
Director Iniciador da porta do director Motivo
da degradação do array de destino-------------- ------------- ------------------ ------------------ --------------------------- --------------------
director-1-1-A A1-FC00 0xc00144878f110800 0x50060160086429bb EMC-CLARiiON-APM00140624008 Desempenho
degradado A1-FC00 0xc00144878f110800 0xc00144878f3d0000 EMC-Invista-LABRATS4900007 Desempenho
degradado A1-FC00 0xc00144878f110800 0xc00144878f3d0200 EMC-Invista-LABRATS4900007 Desempenho
degradado A1-FC01 0xc00144878f110900 0xc00144878f3d0100 EMC-Invista-LABRATS4900007 Desempenho
degradado A1-FC01 0xc00144878f110900 0xc00144878f3d0300 EMC-Invista-LABRATS4900007 Desempenho
degradadodirector-1-1-B B1-FC00 0xc00144878f118800 0xc00144878f3d0000 EMC-Invista-LABRATS4900007 Desempenho
degradado B1-FC00 0xc00144878f118800 0xc00144878f3d0200 EMC-Invista-LABRATS4900007 Desempenho
degradado B1-FC01 0xc00144878f118900 0xc00144878f3d0100 EMC-Invista-LABRATS4900007 Desempenho
degradado B1-FC01 0xc00144878f118900 0xc00144878f3d0300 EMC-Invista-LABRATS4900007 Desempenho
degradadoSe um caminho de TI de back-end for alterado e não degradado (oscilando) três vezes em um período de 30 minutos, o IT Nexus será considerado instável e o VPLEX interromperá automaticamente o uso do IT Nexus para E/S baseada em host e relatará o 0x8a6b6004 de evento de call home ou bepm/4 nos registros de firmware. Quando nesse estado, o back-end degraded list listas de comandos Degradation Reason como Isolated due to unstable performance.
Nesse caso, o IT Nexus permanecerá degradado até que o usuário final o restaure manualmente usando o comando da CLI back-end degraded recover, ou o limite padrão de quatro horas é atingido, após o qual o IT Nexus é marcado Performance degraded enquanto o processo de recuperação verifica sua integridade antes de cancelar a degradação (e reativar automaticamente o caminho para atender à E/S baseada em host novamente se os testes de desempenho forem aprovados).
Exemplo do estado instável (degradação intermitente do desempenho) o Degradation Reason É Isolated due to unstable performance:
VPlexcli:/>back-end degraded list
Degraded I-Ts:
Director Director Initiator Target Array Degradation Reason
-------------- Port ------------------ ------------------ ------------------------------- -----------------------
-------------- ------------ ------------------ ------------------ ------------------------------- -----------------------
director-1-1-A A1-FC00 0xc001448798b90800 0x5000097398037804 EMC-SYMMETRIX-197600222 Isolado devido a desempenho
instável A1-FC00 0xc001448798b90800 0x5000097398037805 EMC-SYMMETRIX-197600222 Isolado devido ao desempenho
instável Se nenhum caminho for degradado, o back-end degraded list comando informa isto:
VPlexcli:/>back-end degraded list
Nenhum caminho está degradado no momento.
O outro novo comando da CLI, back-end degraded recover, é para caminhos de back-end degradados. Abaixo mostra o uso do help (-h) com o back-end degraded recover para ver como o comando pode ser usado:
VPlexcli:/>back-end degraded recover -h
sinopse: recover [<options>]
Recupera os I-Ts degradados especificados:
options (* = obrigatório):
-h | --help
Displays the usage for this command.
--verbose
Provides more output during command execution. This may not have any effect for some commands.
-p | --paths= <paths>
The degraded I-Ts to recover. Each I-T must be expressed as a pair in the form "(<initiator>,<target>)".
--todo
Recupere todos os I-Ts atualmente degradados.
Exemplo de I-T único para recuperação, exibido com Degradation Reason de Isolated due to unstable performance:
VPlexcli:/>recuperação degradada de back-end -p (0xc00144878bda0900.0x5006016547e01af9)
I-Ts recuperados:
Director Director Port Initiator Motivo da degradação
do array de destino-------------- ------------- ------------------ ------------------ --------------------------- ------------------
director-1-1-A A1-FC01 0xc00144878bda0900 0x5006016547e01af9 EMC-CLARiiON-APM00164919257 Isolado devido ao desempenho
instável Exemplo de todos os I-Ts degradados a serem recuperados:
VPlexcli:/>Recuperação degradada de back-end --todos
os I-TS recuperados:
Director Director Director Port Initiator Motivo da degradação
do array de destino-------------- ------------- ------------------ ------------------ --------------------------- ------------------
director-1-1-A A1-FC00 0xc00144878bda0800 0x5000144260321e00 EMC-Invista-rc-surry-1 Isolado devido ao desempenho
instáveldirector-1-1-B B1-FC01 0xc00144878bda8900 0x5006016547e01af9 EMC-CLARiiON-APM00164919257 Isolado devido ao desempenho
instável Se o problema de latência intermitente continuar para o IT Nexus afetado e o usuário não puder resolver a causa raiz rapidamente, é aconselhável envolver o atendimento ao cliente do VPLEX, por chat ao vivo, para marcar manualmente o IT Nexus degradado e remover o caminho do uso até que o problema subjacente possa ser resolvido.
Cause
Problemas externos ao VPLEX, como congestionamento de fabric ou problemas de array, podem gerar problemas de back-end para o VPLEX. Embora o GeoSynchrony 6.2 seja projetado para lidar melhor com esses tipos de congestionamento de back-end, é recomendável que o congestionamento seja resolvido o mais rápido possível.
Para detectar a origem do congestionamento, a Dell tem um recurso de monitoramento de portas FC que monitora erros na malha de qualquer porta BE FC. Os resultados podem ajudar a restringir problemas de rede no fabric. A partir do GeoSynchrony 6.2, o monitor de porta FC está ativado por padrão.
Se você ainda estiver executando qualquer versão do GeoSynchrony 6.0.x ou 6.1.x e ainda não estiver pronto para fazer upgrade para a 6.2.x, gostaria que o script FC Port Monitoring fosse carregado em seu VPLEX, entre em contato com o atendimento ao cliente da Dell para carregar o script.
Resolution
O GeoSynchrony 6.2 foi projetado para lidar melhor com esse tipo de congestionamento de rede. Quando o recurso BEPM do código do VPLEX é acionado, ele indica problemas externos ao VPLEX. A causa do congestionamento da rede ou dos problemas no storage array deve ser reparada imediatamente. Os dados fornecidos pelos logs do VPLEX podem ser usados para ajudar a restringir onde os problemas ocorrem. Depois que o problema for reparado, o VPLEX restaurará automaticamente os I-Ts que agora estarão íntegros.