PowerVault ME5: O número de erros de link PHY do host é superior ao limite de erros
Summary: Os operadores do PowerVault ME5 podem observar mensagens ocasionais de número de erros de link PHY do host no Evento 663 no log do histórico de eventos, durante o uso de portas front-end do controlador fibre channel ou SAS conectadas a hosts ou switches. Esse evento foi introduzido no firmware ME5 versão ME5.1.2.1.0 ou posterior. ...
Instructions
Vá para a seção apropriada deste artigo de acordo com a configuração do módulo do controlador do PowerVault série ME5.
- Módulos de controlador que usam portas front-end fibre channel (FC)
- Módulos de controlador que usam portas front-end Serial Attached SCSI (SAS)
Controladores que usam portas front-end fibre channel (FC)
Os operadores de array do PowerVault série ME5 com módulos de controlador conectados usando transceptores SFP fibre channel (FC) podem precisar realizar ações corretivas para resolver esse sintoma. Muitas vezes, isso não afeta o processamento de E/S. No entanto, a mensagem é uma indicação antecipada de um problema de configuração, possível problema de hardware, problema de conexão do transceptor SFP ou problema do cabo de fibra óptica.
Na maioria dos casos, isso é facilmente resolvido limpando corretamente a extremidade do conector LC no cabo de fibra óptica para remover poeira ou outros contaminantes que impedem a refração da luz. Para obter instruções sobre como inspecionar e limpar a extremidade do conector dos cabos de fibra óptica, siga as orientações deste artigo da base de conhecimento: Contaminantes, como poeira, na extremidade do conector de fibra óptica causam baixo desempenho de E/S
A41844 2024-08-12 10:45:54 112 INFORMATIONAL Host link down. (port: 1) A41853 2024-08-12 10:46:30 111 INFORMATIONAL Host link up. (port: 1, speed: 32 Gbps, point-to-point, fabric) A42131 2024-10-13 18:44:37 663 ERROR The host link PHY error count is greater than the error threshold. (port: 1, type: ) A42132 2024-10-13 18:46:44 663 RESOLVED The host link PHY error count has been resolved. (port: 1, type: resolved)
A versão de firmware ME5.1.2.1.0 ou posterior do array PowerVault ME5 monitora a métrica Invalid Transmission Word Count das portas FC. Esse valor de contador significa que uma palavra não foi transmitida com êxito, resultando em erros de codificação. Esse valor de contador não é exibido no PowerVault Manager ou na CLI. No entanto, ele é registrado em cada log de depuração dos controladores de armazenamento (SCs). Os logs de depuração do SC do controlador são reunidos no pacote de suporte do PowerVault ME. Consulte PowerVault ME5: Como coletar logs de suporte do PowerVault
Se essa mensagem de ERRO for observada com frequência, os operadores poderão realizar as seguintes ações:
-
Inspecionar a instalação do cabo de fibra óptica, limpar adequadamente a extremidade do conector do cabo de fibra óptica e monitorar os registros do histórico de eventos em busca de ocorrências repetidas do Evento 663. Consulte Contaminantes, como poeira, na extremidade do conector de fibra óptica causam baixo desempenho de E/S
-
Se a limpeza dos conectores do cabo de fibra óptica não resolver o problema, fazer a substituição por um transceptor e um cabo de fibra óptica em boas condições. Verificar se as peças não estão danificadas e se elas estão sendo manuseadas corretamente.
-
Se a substituição de transceptores não resolver o sintoma, os operadores deverão usar transceptores validados, conforme listado na Matriz de suporte do sistema de armazenamento Dell PowerVault série ME5 ou entrar em contato com o fornecedor para obter suporte.
-
Em casos raros, os operadores que usam switches FC mais antigos de 8 Gb talvez precisem ajustar a configuração portCfgFillword do switch. Consulte a seção Informações adicionais abaixo.
Controladores que usam portas front-end Serial Attached SCSI (SAS)
Cada conexão de cabo SAS entre o host e o controlador forma uma porta em todo o SAS, composta por mais de um link físico (PHY). Cada PHY é um conjunto de quatro fios usados como dois pares de sinais diferenciais, permitindo que os dados sejam transmitidos em ambas as direções simultaneamente.
Geralmente, isso não afeta o processamento de E/S. O evento é esperado quando os cabos SAS são inseridos à medida que o link SAS é formado. Em configurações de controlador redundantes, o Evento 663 é gravado simultaneamente em ambos os controladores à medida que o servidor host conectado inicializa e carrega o driver SAS do sistema operacional do host. O operador não precisa realizar nenhuma outra ação.
Outras considerações:
Quando os controladores PowerVault ME estiverem conectados a um Dell SAS HBA355e. As conexões da porta do servidor host podem ser distribuídas por porta do host no relatório do PowerVault ME5 que ficou degradada durante a conexão com o controlador Dell SAS HBA355e. Após a alteração de HBAs SAS do servidor ou das portas HBA SAS usadas. Use o PowerVault Manager para verificar se o ID WWN do iniciador da porta está associado aos hosts e volumes corretos.
Certifique-se de que os cabos SAS estejam inseridos com firmeza puxando cada extremidade do cabo SAS. Se o cabo SAS se soltar da porta, reconecte-o corretamente. Você poderá ouvir um clique quando o conector se encaixar com firmeza no lugar. Se o conector do cabo SAS não puder ser fixado corretamente, verifique qual slot PCI-e está sendo usado no servidor host. A posição do slot do HBA SAS no chassi pode obstruir a inserção do conector. Para obter detalhes, consulte os modelos PowerEdge 16G: Seleção de slots PCI-e HBA355e
Exemplo de logs de histórico de eventos do PowerVault ME5 quando um host conectado ao SAS é reinicializado. Os dois controladores registram o evento, e o último evento na sequência indica que o problema foi resolvido.
B1473 2024-08-15 09:55:22 112 INFORMATIONAL Host link down. (port: 2) A3538 2024-08-15 09:55:26 112 INFORMATIONAL Host link down. (port: 2) B1483 2024-08-15 09:55:29 111 INFORMATIONAL Host link up. (port: 2, type: SAS) A3547 2024-08-15 09:55:32 111 INFORMATIONAL Host link up. (port: 2, type: SAS) A3911 2024-10-22 10:10:46 354 WARNING Host SAS topology was changed. (host port: 2, 0 out of 4 PHYs are up, link speed: Autonegotiated) B1640 2024-10-22 10:10:46 354 WARNING Host SAS topology was changed. (host port: 2, 0 out of 4 PHYs are up, link speed: Autonegotiated) A3912 2024-10-22 10:11:55 354 INFORMATIONAL Host SAS topology was changed. (host port: 2, 4 out of 4 PHYs are up, link speed: 12 Gbps) B1641 2024-10-22 10:11:55 354 INFORMATIONAL Host SAS topology was changed. (host port: 2, 4 out of 4 PHYs are up, link speed: 12 Gbps) A3913 2024-10-22 10:12:58 663 ERROR The host link PHY error count is greater than the error threshold. (port: 2, type: disparity errors, lost dword count, invalid dword count) B1642 2024-10-22 10:13:33 663 ERROR The host link PHY error count is greater than the error threshold. (port: 2, type: disparity errors, lost dword count, invalid dword count) A3914 2024-10-22 10:15:00 663 RESOLVED The host link PHY error count has been resolved. (port: 2, type: resolved)
Additional Information
Os operadores que usam switches FC Connectrix ou Brocade de gerações mais antigas, compatíveis com 8 Gb, podem definir a configuração fillword com o comando portCfgFillword . Quando os switches de 8 Gb foram introduzidos, o ARBff foi adotado em vez do IDLE, principalmente porque poderia contribuir para reduzir os erros de bit. O IDLE usado para inicialização também foi alterado para ARBff, juntamente com a alteração de palavras de fillword.
Os operadores de switches FC de geração mais antiga, que continuam a usá-los na produção, poderão observar um aumento nos contadores de Invalid Transmission Word Count e precisarão definir o valor de portcfgfillword para sempre usar ARBff. Em um switch Brocade, essa é a saída de "portcfgfillword --help."
admin> portcfgfillword --help
Usage: portCfgFillWord [SlotNumber/]PortNumber Mode [Passive]
Mode: 0/-idle-idle - IDLE in Link Init, IDLE as fill word (default)
1/-arbff-arbff - ARBFF in Link Init, ARBFF as fill word
2/-idle-arbff - IDLE inLink Init, ARBFF as fill word (SW)
3/-aa-then-ia - If ARBFF/ARBFF failed, then do IDLE/ARBFF
Passive: 0/1
admin>
0: Use IDLE for initialization as 4Gb switches do.
1: Always use ARBff.
2: Use IDLE for initialization and use ARBff for between data frames.
3: Use ARBff for initialization first. If it fails, use IDLE. Use ARBff for between data frames.