Verificação de integridade de equipamentos Data Domain HA (DDHA)
Summary: Este artigo tem como objetivo fornecer orientações para executar uma verificação básica de integridade do sistema HA após um evento de serviço. As configurações do Data Domain Highly Available (DDHA) variam de acordo com os modelos do Data Domain usados. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Os sistemas Data Domain Highly Available (DDHA) foram desenvolvidos para fazer failover entre os nós. Somente o nó ativo está em produção enquanto o nó em espera aguarda um evento de falha para tomar o lugar do nó ativo (ATIVO - PASSIVO).
É imprescindível verificar se ambos os nós do DDHA estão funcionando de forma correta e podem concluir um failover, caso ocorra uma falha.
Os comandos da CLI detalhados neste artigo ajudam a descobrir possíveis problemas que podem impedir um failover bem-sucedido.
Este guia está dividido por áreas importantes que devem ser verificadas.
# net show settings
As configurações de porta de rede variam de acordo com o nó em que o comando #net show settings está sendo executado. As portas configuradas nos sistemas DDHA têm o tipo "floating" ou "fixed". Execute
Nó ativo:
Verifique a conectividade de rede.
Analise os IPs listados em cada nó e certifique-se de que cada endereço IP configurado no nó ativo e nos nós em espera possa fazer ping no próprio gateway configurado.
Nota: O ping no ambiente de alguns clientes (ICMP) está desativado. Nesse caso, peça para o cliente confirmar a conectividade.
(active:1)# net route show gateway detailed
Faça ping no endereço IP do gateway com cada porta ethxx configurada.
# net troubleshooting duplicate-ip
Verifique se há IPs duplicados nos dois nós
Testes de fibre channel
Verifique se esses recursos estão licenciados e, em seguida, verifique se eles estão funcionando totalmente (por exemplo: Executar um teste de operações de backup na VTL)
Suporte automático e testes de alerta no nó ativo e no nó em espera
Caso CONNECTEMC (Secure Remote Services) esteja sendo usado para encaminhar o ASUPS ao Data Domain, execute o comando a seguir para verificar a conectividade nos dois nós.
O carimbo de data e hora indica quando a última conexão foi estabelecida.
Solução de problemas do Filesystem do HA
# filesys status
Verifique se o FS está ativado e em execução. O status de limpeza também pode ser exibido.
(active:1)# (standby:0)# system upgrade status
Verifique se todos os upgrades foram concluídos nos dois nós.
(active:1)# (standby:0)#Date
Certifique-se de que a hora e a data correspondam nos dois nós. Uma diferença de até 10 segundos é permitida
No nó ativo, verifique com o cliente se a replicação do DD (se configurada) está funcionando conforme o esperado.
É imprescindível verificar se ambos os nós do DDHA estão funcionando de forma correta e podem concluir um failover, caso ocorra uma falha.
Os comandos da CLI detalhados neste artigo ajudam a descobrir possíveis problemas que podem impedir um failover bem-sucedido.
Este guia está dividido por áreas importantes que devem ser verificadas.
- Hardware e configuração de HA
- Rede
- Filesystem
# net show settings
As configurações de porta de rede variam de acordo com o nó em que o comando #net show settings está sendo executado. As portas configuradas nos sistemas DDHA têm o tipo "floating" ou "fixed". Execute
"net show settings"nos dois nós e compare as saídas.
- Interfaces "floating": Verifique se qualquer porta de Placa de Rede (NIC) configurada, alias ou veth, que exibe um estado "enabled" e "running" no nó ativo, tem um estado "enabled" e "running" idêntico no nó em espera. Qualquer porta NIC configurada, alias ou veth, que esteja definida com o tipo "floating", deve ter um endereço IP exibido no nó ativo e um N/A correspondente no nó em espera.
- Interfaces "fixed": Verifique se alguma porta NIC configurada, alias ou veth, que esteja marcada como "fixed", exibe um estado "enabled" e "running". As configurações das interfaces "fixed" não são iguais nos dois nós
- Verifique se a interconexão de HA (veth99) é exibida e se todas as portas necessárias estão ativadas e em execução. Nota: O número de conexões de porta necessárias e a localização do slot para a interconexão de HA (veth99) são específicos do modelo DD
Nó ativo:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.50 255.255.255.0 fixed 2620:0:170:1608:260:16ff:fe5c:92bc** /64 fe80::260:16ff:fe5c:92bc** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no 10.25.18.63 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe51:8c60** /64 fe80::260:16ff:fe51:8c60** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no 10.25.18.60 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe52:2951** /64 fe80::260:16ff:fe52:2951** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0060:1652:0ecc /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::260:16ff:fe52:ecc** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------Nó em espera:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.49 255.255.255.0 fixed 2620:0:170:14567:260:16ff:fe5c:dr3** /64 fe80::260:16ff:fe5c3457c** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no n/a 255.255.255.0 floating 2620:0:170:1608:260:1ght6:fe51:4570** /64 fe80::260:16ff:fe51:7890** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no n/a 255.255.255.0 floating 2620:0:170:160:456:16ff:fe5234561** /64 fe80::260:16ff:fe52:3456** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0e456:1652:dft4c /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::264:16ff:fec2:ecb** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------
Verifique a conectividade de rede.
Analise os IPs listados em cada nó e certifique-se de que cada endereço IP configurado no nó ativo e nos nós em espera possa fazer ping no próprio gateway configurado.
Nota: O ping no ambiente de alguns clientes (ICMP) está desativado. Nesse caso, peça para o cliente confirmar a conectividade.
(active:1)# net route show gateway detailed
IPv4 Default Gateways gateway IP source tables interface address owner ---------- ------ ------ ----------------- ----- 10.25.18.1 static tethMa 10.25.18.50/24 none 10.25.18.1 static teth4a 10.25.18.63/24 none 10.25.18.1 static teth5b 10.25.18.60/24 none ---------- ------ ------ ----------------- -----
Faça ping no endereço IP do gateway com cada porta ethxx configurada.
#(active:1)# ping 10.25.18.1 interface ethMa PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms (active:1)# ping 10.25.18.1 interface eth4a PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms (active:1)# ping 10.25.18.1 interface eth5b PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
# net troubleshooting duplicate-ip
Verifique se há IPs duplicados nos dois nós
No duplicate IP addresses detected
Testes de fibre channel
Verifique se esses recursos estão licenciados e, em seguida, verifique se eles estão funcionando totalmente (por exemplo: Executar um teste de operações de backup na VTL)
# license show or # elicense show ## License Key Feature -- ------------------- ---------------------------------------- 1 WTXV-TSWX-HWDR-RHDX VTL 2 EZXW-SZZF-BGCS-VRZX Block services (Vdisk) 3 .... HA
Suporte automático e testes de alerta no nó ativo e no nó em espera
(active:1)## autosupport test alert-summary OK: Message sent. (active:1)## autosupport test support-notify OK: Message sent. (standby:0)# autosupport test alert-summary OK: Message sent. (standby:0)# autosupport test support-notify OK: Message sent.
Caso CONNECTEMC (Secure Remote Services) esteja sendo usado para encaminhar o ASUPS ao Data Domain, execute o comando a seguir para verificar a conectividade nos dois nós.
O carimbo de data e hora indica quando a última conexão foi estabelecida.
sysadmin@hostname# support connectemc show history File Time Transport Result --------------------------------------- --------------------- --------- -------- RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success --------------------------------------- --------------------- --------- -------- Note: It says HTTP above, but it is HTTPS
Solução de problemas do Filesystem do HA
# filesys status
Verifique se o FS está ativado e em execução. O status de limpeza também pode ser exibido.
The filesystem is enabled and running. Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge) 0.7% complete, 95911 GiB free; time: phase 0:00:09, total 0:00:09
(active:1)# (standby:0)# system upgrade status
Verifique se todos os upgrades foram concluídos nos dois nós.
Current Upgrade Status: DD OS upgrade Succeeded End time: 2016.08.20:13:27
(active:1)# (standby:0)#Date
Certifique-se de que a hora e a data correspondam nos dois nós. Uma diferença de até 10 segundos é permitida
-p1(active:1)# date Sat Aug 20 14:34:29 EDT 2016 -p0(standby:0)# date Sat Aug 20 14:34:17 EDT 2016
No nó ativo, verifique com o cliente se a replicação do DD (se configurada) está funcionando conforme o esperado.
# replication status CTX Destination Enabled Connection Sync'ed-as-of-time --- --------------------------------------------------------- ------- ---------------- ------------------ 3 mtree://ddxxx.com/data/col1/eric.dest no idle Fri Nov 6 15:16 4 mtree://ddxxx.com/data/col1/thy-repl yes idle Fri Jul 22 15:38 5 dir://ddxxxx.com/backup/replicate-rtp yes disconnected Fri Jul 22 14:55 6 mtree://ddxxxx.com/data/col1/theman_test yes idle Sat Aug 20 22:11 7 dir://ddxxx.com/backup/lakeland/sym yes Sat Aug 20 13:15 Fri Aug 19 15:09 --- --------------------------------------------------------- ------- ---------------- ----------------
Cause
Hardware e configuração de HA
No nó ativo e no nó em espera, verifique se há um alerta presente apontando para um possível problema. Os alertas nem sempre são compartilhados entre os nós, portanto, verifique os dois nós. Se um problema inesperado for identificado, registre um caso de suporte. Sempre gere um pacote de suporte de ambos os nós.
Nota. A maioria dos alertas são exibidos em apenas um dos nós. Nem todos os alertas aparecem nos dois nós.
Se o status for "highly available", o failover será habilitado.
Se o status for "degraded" ou se um dos nós não estiver mostrando o estado "online", o failover entre os nós será desativado.
# ha status detailed
O comando #ha status detailed no nó ativo pode ser usado apenas para obter informações mais detalhadas sobre o status de HA.
Qualquer uma das saídas abaixo que mostram "not ok" na seção "Mirroring Status" indica um componente que não funciona, e "HA System Status" exibe "degraded".
Qualquer estado "degraded" impede o failover entre os nós.
Nota: Esse comando não está disponível no nó em espera.
# enclosure show io-cards
Verifique se os dois nós têm configurações idênticas e compatíveis.
# enclosure show misconfiguration
Realize um teste de configuração incorreta no nó ativo e nos nós em espera para verificar se há algum problema com a configuração de hardware.
Consulte o artigo da KB https://www.dell.com/support/kbdoc/en-us/463399
Exemplos:
# enclosure show topology
Verifique a topologia dos dois nós.
Procure erros entre os pontos de conexão e certifique-se de que toda a numeração da gaveta esteja correta.
# enclosure test topology all duration 1
Nos nós ativos e em espera, realize um teste de diagnóstico de 1 minuto para todas as portas HBA SAS com armazenamento externo vinculado.
Não realize testes de topologia nos dois nós ao mesmo tempo.
O resultado esperado é que nenhum erro seja detectado nas portas com armazenamento vinculado.
Se um problema for encontrado, o teste poderá ser interrompido com uma mensagem de falha indicando a conexão SAS com falha ou pode mostrar um erro (? , ! ) em uma conexão específica.
Nota: Durante o teste de topologia, portas individuais têm uma saída separada indicando o estado. Procure por erros (? , ! ) para identificar a conexão com problema. Nenhuma saída da CLI é mostrada até que cada teste de porta seja concluído.
# system show nvram
Nos nós ativos e em espera, verifique se as baterias da NVRAM estão carregadas ou sendo carregadas e se todos os contadores de erro da NVRAM mostram um valor zero.
# alerts show current
No nó ativo e no nó em espera, verifique se há um alerta presente apontando para um possível problema. Os alertas nem sempre são compartilhados entre os nós, portanto, verifique os dois nós. Se um problema inesperado for identificado, registre um caso de suporte. Sempre gere um pacote de suporte de ambos os nós.
Nota. A maioria dos alertas são exibidos em apenas um dos nós. Nem todos os alertas aparecem nos dois nós.
Exemplos de alertas:
Severity Class Object Message -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Enclosure=1:Slot=5 EVT-ENVIRONMENT-00047: PCI communication speed is degraded -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HA EVT-HA-00003: Standby node time is off by 15 second(s). -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Port Index=1 EVT-MPATH-00003: Missing disk connection from system port 6a. -- ------------------------ -------- --------------- ------ ----------------------------------------------
# ha status
O comando #ha status no nó ativo e no nó em espera pode ser usado para determinar o status atual de HA.Se o status for "highly available", o failover será habilitado.
Se o status for "degraded" ou se um dos nós não estiver mostrando o estado "online", o failover entre os nós será desativado.
SE@hostname-p0(active:0)## ha status HA System name:hostname-n1.chaos.local HA System status: highly available Node Name Node id Role HA State ------------------------------- ------- ------- -------- hostname-p0.chaos.local 0 active online hostname-p1.chaos.local 1 standby online ------------------------------- ------- ------- --------
# ha status detailed
O comando #ha status detailed no nó ativo pode ser usado apenas para obter informações mais detalhadas sobre o status de HA.
Qualquer uma das saídas abaixo que mostram "not ok" na seção "Mirroring Status" indica um componente que não funciona, e "HA System Status" exibe "degraded".
Qualquer estado "degraded" impede o failover entre os nós.
Nota: Esse comando não está disponível no nó em espera.
SEhostname-p0(active:0)## ha status detailed HA System name: hostname.chaos.local HA System Status: highly available Interconnect Status: ok Primary Heartbeat Status: ok External LAN Heartbeat Status: not ok Hardware compatibility check: ok Software Version Check: ok Node hostname-p0.chaos.local: Role: active HA State: online Node Health: ok Node hostname-p1.chaos.local: Role: standby HA State: online Node Health: ok Mirroring Status: Component Name Status -------------- ------ nvram ok registry ok sms ok ddboost ok cifs ok -------------- ------
# enclosure show io-cards
Verifique se os dois nós têm configurações idênticas e compatíveis.
# enclosure show misconfiguration
Realize um teste de configuração incorreta no nó ativo e nos nós em espera para verificar se há algum problema com a configuração de hardware.
Consulte o artigo da KB https://www.dell.com/support/kbdoc/en-us/463399
Exemplos:
Memory DIMMs: Locator Bank Locator Size(GiB) Status ------- ------------ --------- ---------- CHCD1 7 0 missing CHDD1 7 0 missing CHAD0 4 8 wrong size CHBD0 4 8 wrong size IO Cards: Slot Device Status ---- ---------- --------- 10 Hera NVRAM extra 10 Hera NVRAM misplaced ---- ---------- --------- CPUs: No misconfiguration found. Disks: Slot Size(GiB) Type Media Status ---- --------- ---- ----- ------- 2 186 SATA SSD missing ---- --------- ---- ----- -----
# enclosure show topology
Verifique a topologia dos dois nós.
Procure erros entre os pontos de conexão e certifique-se de que toda a numeração da gaveta esteja correta.
- Erros e falhas apresentam os símbolos "?", "!" Ou "!!"
Nota: As saídas de topologia para cada nó devem estar invertidas (imagem espelhada).
(Stdby:0)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 5.A.E: 5.A.H ? 4.A.E: 4.A.H > 3.A.E: 3.A.H > 2.A.E: 2.A.H
3a
3b
3c
3d
6a !! 2.B.E: 2.B.H > 3.B.E: 3.B.H > 5.B.E: 5.B.H > ?.B.E: ?.B.H
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
(active:1)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 2.A.H: 2.A.E > 3.A.H: 3.A.E > 4.A.H: 4.A.E > 5.A.H: 5.A.E
3a
3b
3c
3d
6a > 5.B.H: 5.B.E > 4.B.H: 4.B.E > 3.B.H: 3.B.E > 2.B.H: 2.B.E
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
# enclosure test topology all duration 1
Nos nós ativos e em espera, realize um teste de diagnóstico de 1 minuto para todas as portas HBA SAS com armazenamento externo vinculado.
Não realize testes de topologia nos dois nós ao mesmo tempo.
O resultado esperado é que nenhum erro seja detectado nas portas com armazenamento vinculado.
Se um problema for encontrado, o teste poderá ser interrompido com uma mensagem de falha indicando a conexão SAS com falha ou pode mostrar um erro (? , ! ) em uma conexão específica.
Nota: Durante o teste de topologia, portas individuais têm uma saída separada indicando o estado. Procure por erros (? , ! ) para identificar a conexão com problema. Nenhuma saída da CLI é mostrada até que cada teste de porta seja concluído.
# enclosure test topology Started: 1471719316 Ended: 1471719498 Duration: 182 Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port ---- - --------------- - --------------- - --------------- - --------------- 2d > 5.A.H:5.A.E > 4.A.H:4.A.E > 3.A.H:3.A.E > 2.A.H:2.A.E ---- - --------------- - --------------- - --------------- - --------------- Error message: ----------------- No error detected -----------------
# system show nvram
Nos nós ativos e em espera, verifique se as baterias da NVRAM estão carregadas ou sendo carregadas e se todos os contadores de erro da NVRAM mostram um valor zero.
# system show nvram NVRAM Cards: Card Component Value ---- ----------------------- ---------------------------------------------------------------------- 1 Slot 0 Firmware version 0.0.80 Memory size 7.93 GiB Errors 0 memory (0 uncorrectable), 0 PCI, 0 controller Flash controller Errors 0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err Board temperature 37 C CPU temperature 47 C Number of batteries 1 ---- ----------------------- ---------------------------------------------------------------------- NVRAM Batteries: Card Battery Status Charge Charging Time To Temperature Voltage Status Full Charge ---- ------- ------ ------ -------- ----------- ----------- ------- 1 1 ok 94 % enabled 0 mins 34 C 4.016 V ---- ------- ------ ------ -------- ----------- ----------- -------
Resolution
Se precisar de mais assistência, entre em contato com o provedor de serviços contratado.
Additional Information
.
Affected Products
Data DomainProducts
Data Domain, DD OS 6.0Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.