Węzeł metro: Po uaktualnieniu do wersji 8.0.x kopia zapasowa metadanych przestaje działać
Summary: W tym artykule omówiono problem polegający na tym, że po uaktualnieniu do kodu 8.0.x kopia zapasowa metadanych przestaje działać. Ten artykuł zawiera obejście problemu w celu przywrócenia funkcji tworzenia kopii zapasowej metadanych. ...
Symptoms
Sprzęt firmy Dell, którego dotyczy problem:
Węzeł metra mn114
Węzeł metra mn215
Węzeł metra lokalny/metro
Oprogramowanie firmy Dell, którego dotyczy problem:
Metro Node OS 8.0.0.0.0.267
Metro Node OS 8.0.0.1.0.21
Metro Node OS 8.0.1.0.0.220
Działania, których dotyczy zmiana:
Po uaktualnieniu do systemu operacyjnego węzła Metro 8.0.x
Problem:
-
Skrypt
ndu pre-checkzgłasza poniższy błąd dla każdego klastra w konfiguracji węzła metro:Przykład klastra Cluster-1:
VPlexcli:/> ndu pre-check Warning: During the NDU process, multiple directors will be offline for a portion of the time. This is non-disruptive but is dependent on a host-based multipathing solution being installed, configured, and operating on all connected hosts. ================================================================================ Performing NDU pre-checks ================================================================================ Verify NDU is not in progress.. OK Verify that the directors have been running continuously for 15 days.. OK Verify director communication status.. OK . . . Verify meta-volume backup configuration.. ERROR . . . ================================================================================ Errors (x errors found) ================================================================================ cluster-1 Metadata backups are NOT created according to schedule Last backup: Mon Aug 19 00:00:00 UTC 20xx Current time: Fri Dec 13 03:41:33 UTC 20xx There has been no metadata backup for 116 day(s) Run 'metadatabackup local' on cluster-1
Przykład klastra 2:
VPlexcli:/> ndu pre-check Warning: During the NDU process, multiple directors will be offline for a portion of the time. This is non-disruptive but is dependent on a host-based multipathing solution being installed, configured, and operating on all connected hosts. ================================================================================ Performing NDU pre-checks ================================================================================ Verify NDU is not in progress.. OK Verify that the directors have been running continuously for 15 days.. OK Verify director communication status.. OK . . . Verify meta-volume backup configuration.. ERROR . . . ================================================================================ Errors (x errors found) ================================================================================ cluster-2 Metadata backups are NOT created according to schedule Last backup: Sat Mar 16 01:30:00 UTC 20xx Current time: Fri Dec 13 03:41:33 UTC 20xx There has been no metadata backup for 272 day(s) Run 'metadatabackup local' on cluster-2
-
Po wydaniu polecenia
ll ~system-volumesuruchomiono polecenie, data woluminu kopii zapasowej metadanych odzwierciedla poprzednią datę.W poniższym przykładzie kopia zapasowa metadanych przestaje działać na obu klastrach w środowisku Metro:
VPlexcli:/> ll ~system-volumes /clusters/cluster-1/system-volumes: Name Volume Type Operational Health Active Ready Geometry Component Block Block Capacity Slots --------------------------------------- -------------- Status State ------ ----- -------- Count Count Size -------- ----- --------------------------------------- -------------- ----------- ------ ------ ----- -------- --------- -------- ----- -------- ----- meta_C1_xxxxxx meta-volume ok ok true true raid-1 2 20971264 4K 80G 64000 meta_C1_xxxxxxx_backup_20xx-11-21_01-30 meta-volume ok ok false true raid-1 1 20971264 4K 80G 64000 \------------/ date and time the last backup was run /clusters/cluster-2/system-volumes: Name Volume Type Operational Health Active Ready Geometry Component Block Block Capacity Slots --------------------------------------- -------------- Status State ------ ----- -------- Count Count Size -------- ----- --------------------------------------- -------------- ----------- ------ ------ ----- -------- --------- -------- ----- -------- ----- meta_C2_xxxxxx meta-volume ok ok true true raid-1 2 20971264 4K 80G 64000 meta_C2_xxxxxxx_backup_20xx-11-20_12-43 meta-volume ok ok false true raid-1 1 20971264 4K 80G 64000 \------------/ date and time the last backup was run
Objawy:
- Kopia zapasowa metadanych przestaje działać w obu klastrach w środowisku Metro.
- Kopia zapasowa metadanych przestaje działać w jednym z klastrów w środowisku Metro
- Kopia zapasowa metadanych przestaje działać w klastrze lokalnym
Cause
Podczas zaplanowanej codziennej kopii zapasowej metadanych usługa "daily_metadata_backup.service" czasami zawiesza się w stanie aktywacji w jednym z modułów director-1-1-A, director-2-1-A lub w obu tych miejscach.
Resolution
Trwałe rozwiązanie:
Inżynierowie węzła Metro badają ten problem. Ten artykuł zostanie zaktualizowany, gdy będzie dostępna poprawka.
Obejście problemu:
-
Aby sprawdzić stan usługi "daily_metadata_backup.service", w wierszu poleceń powłoki uruchom polecenie:
sudo systemctl status daily_metadata_backup.servicew węźle A, na przykład dyrektor-1-1-A lub dyrektor-2-1-A. Sprawdź i potwierdź, że atrybut "Aktywny: aktywacja (start)" jest obecny i działa dłużej niż minutę. Jeśli tak, oznacza to, że usługa utknęła na tym konkretnym węźle A.Poniższy przykład pokazuje, że zarówno director-1-1-A, jak i director-2-1-A mają atrybut usługi "daily_metadata_backup.service" "Active: activating (start)" i działają dłużej niż minutę, co oznacza, że usługa ta utknęła na tych węzłach, jak pokazano poniżej.
Klaster-1:
service@director-2-1-a:~> sudo systemctl status daily_metadata_backup.service ● daily_metadata_backup.service - metronode automated daily metadata backups Loaded: loaded (/etc/systemd/system/daily_metadata_backup.service; static) Active: activating (start) since Sat 2024-10-xx 01:30:18 UTC; 1 month 3 days ago <--------------------------- TriggeredBy: ● daily_metadata_backup.timer Main PID: 22553 (daily_metadata_) Tasks: 1 CGroup: /system.slice/daily_metadata_backup.service └─22553 /usr/bin/python3 /opt/dell/vplex/sbin/daily_metadata_backup.py Oct xx 01:30:18 director-2-1-a systemd[1]: Starting metronode automated daily metadata backups... . . . <truncated>Klaster-2:
service@director-1-1-a:~> sudo systemctl status daily_metadata_backup.service ● daily_metadata_backup.service - metronode automated daily metadata backups Loaded: loaded (/etc/systemd/system/daily_metadata_backup.service; static) Active: activating (start) since Sat 2024-10-xx 01:30:18 UTC; 1 month 2 days ago <--------------------------- TriggeredBy: ● daily_metadata_backup.timer Main PID: 22553 (daily_metadata_) Tasks: 1 CGroup: /system.slice/daily_metadata_backup.service └─22553 /usr/bin/python3 /opt/dell/vplex/sbin/daily_metadata_backup.py Oct xx 01:30:18 director-1-1-a systemd[1]: Starting metronode automated daily metadata backups... . . . <truncated> -
Następnie, aby sprawdzić stan usługi "daily_metadata_backup.timer" w węźle A, na przykład director-1-1-A, director-2-1-A, uruchom polecenie
sudo systemctl status daily_metadata_backup.timeri upewnij się, że atrybut "Trigger:" jest wyświetlany jako "n/a". Jeśli tak, oznacza to, że usługa utknęła na tym konkretnym węźle A.Poniższy przykład pokazuje, że zarówno director-1-1-A, jak i director-2-1-A mają atrybut usługi "daily_metadata_backup.timer" "Trigger:", który jest wyświetlany jako "n/d", co oznacza, że usługa ta została zablokowana w tych węzłach.
Klaster-1:
service@director-1-1-a:~> sudo systemctl status daily_metadata_backup.timer ● daily_metadata_backup.timer - metronode automated daily metadata backups Loaded: loaded (/etc/systemd/system/daily_metadata_backup.timer; enabled; vendor preset: disabled) Drop-In: /etc/systemd/system/daily_metadata_backup.timer.d └─daily_backup.conf Active: active (running) since Wed 2024-11-20 12:46:10 UTC; 18h ago Trigger: n/a <<<<<<<<<<<< Triggers: ● daily_metadata_backup.service Nov 20 12:46:10 director-1-1-a systemd[1]: Started metronode automated daily metadata backups. service@director-1-1-a:~>
Klaster-2:
service@director-2-1-a:~> sudo systemctl status daily_metadata_backup.timer ● daily_metadata_backup.timer - metronode automated daily metadata backups Loaded: loaded (/etc/systemd/system/daily_metadata_backup.timer; enabled; vendor preset: disabled) Drop-In: /etc/systemd/system/daily_metadata_backup.timer.d └─daily_backup.conf Active: active (running) since Wed 2024-11-xx 12:46:10 UTC; 18h ago Trigger: n/a >>>>>>>>>>>>>>>>>>>>>>> Triggers: ● daily_metadata_backup.service Nov xx 12:46:10 director-2-1-a systemd[1]: Started metronode automated daily metadata backups. service@director-2-1-a:~>
-
Po potwierdzeniu, w którym węźle lub ewentualnie w obu węzłach utknęły dwie wymienione usługi, zatrzymaj usługi "daily_metadata_backup.service" i "daily_metadata_backup.timer", a następnie uruchom usługę "daily_metadata_backup.timer", aby rozwiązać ten problem i aby kopia zapasowa metadanych zaczęła działać.
UWAGA: Nie używaj polecenia "uruchom ponownie".Ponieważ w poniższym przykładzie problem dotyczy obu węzłów A, usługi są zatrzymywane i uruchamiane w następujący sposób:
sudo systemctl stop daily_metadata_backup.service
sudo systemctl stop daily_metadata_backup.timer
sudo systemctl start daily_metadata_backup.timer
-
Uruchom poniższe polecenie, aby sprawdzić stan i potwierdzić, że już nie utknął w następujący sposób:
Poniższe przykłady pokazują uruchomienie polecenia stanu dla "daily_metadata_backup.service" w celu sprawdzenia, czy wiersz "Active: inactive (dead)" oznaczający, że usługa rzeczywiście nie jest uruchomiona, co w oczekiwaniu na następny cykl tworzenia kopii zapasowej metadanych ma wartość "inactive (dead)":
service@director-2-1-a:~> sudo systemctl status daily_metadata_backup.service ● daily_metadata_backup.service - metronode automated daily metadata backups Loaded: loaded (/etc/systemd/system/daily_metadata_backup.service; static) Active: inactive (dead) since Fri 2024-11-22 21:07:41 UTC; 1min 49s ago >>>>>>>>>>>> TriggeredBy: ● daily_metadata_backup.timer Process: 9183 ExecStart=/opt/dell/vplex/sbin/daily_metadata_backup.py (code=exited, status=0/SUCCESS) Main PID: 9183 (code=exited, status=0/SUCCESS) Nov 22 21:07:36 director-2-1-a systemd[1]: Starting metronode automated daily metadata backups... Nov 22 21:07:41 director-2-1-a systemd[1]: daily_metadata_backup.service: Succeeded. Nov 22 21:07:41 director-2-1-a systemd[1]: Finished metronode automated daily metadata backups. service@director-2-1-a:~>service@director-1-1-a:~> sudo systemctl status daily_metadata_backup.service ● daily_metadata_backup.service - metronode automated daily metadata backups Loaded: loaded (/etc/systemd/system/daily_metadata_backup.service; static) Active: inactive (dead) since Fri 2024-11-22 21:07:41 UTC; 1min 49s ago >>>>>>>>>>>> TriggeredBy: ● daily_metadata_backup.timer Process: 9183 ExecStart=/opt/dell/vplex/sbin/daily_metadata_backup.py (code=exited, status=0/SUCCESS) Main PID: 9183 (code=exited, status=0/SUCCESS) Nov 22 21:07:36 director-1-1-a systemd[1]: Starting metronode automated daily metadata backups... Nov 22 21:07:41 director-1-1-a systemd[1]: daily_metadata_backup.service: Succeeded. Nov 22 21:07:41 director-1-1-a systemd[1]: Finished metronode automated daily metadata backups. service@director-2-1-a:~>Poniższy przykład pokazuje, że usługa "daily_metadata_backup.timer" powinna mieć wartość "active(waiting)", a "Trigger" powinna być ustawiona na bieżący lub bieżący dzień, co oznacza, że usługa działa teraz zgodnie z oczekiwaniami:
service@director-2-1-a:~> sudo systemctl status daily_metadata_backup.timer ● daily_metadata_backup.timer - metronode automated daily metadata backups Loaded: loaded (/etc/systemd/system/daily_metadata_backup.timer; enabled; vendor preset: disabled) Drop-In: /etc/systemd/system/daily_metadata_backup.timer.d └─daily_backup.conf Active: active (waiting) since Fri 2024-11-22 21:09:24 UTC; 14s ago >>>>>>>>>>> Trigger: Sat 2024-11-23 01:30:00 UTC; 4h 20min left >>>>>>>>>>> Triggers: ● daily_metadata_backup.service Nov 22 21:09:24 director-2-1-a systemd[1]: Started metronode automated daily metadata backups. service@director-2-1-a:~>service@director-1-1-a:~> sudo systemctl status daily_metadata_backup.timer ● daily_metadata_backup.timer - metronode automated daily metadata backups Loaded: loaded (/etc/systemd/system/daily_metadata_backup.timer; enabled; vendor preset: disabled) Drop-In: /etc/systemd/system/daily_metadata_backup.timer.d └─daily_backup.conf Active: active (waiting) since Fri 2024-11-22 21:09:24 UTC; 14s ago >>>>>>>>>>> Trigger: Sat 2024-11-23 01:30:00 UTC; 4h 20min left >>>>>>>>>>> Triggers: ● daily_metadata_backup.service Nov 22 21:09:24 director-1-1-a systemd[1]: Started metronode automated daily metadata backups. service@director-2-1-a:~> -
Poczekaj i monitoruj, aż następna kopia zapasowa metadanych zostanie ukończona, uruchamiając polecenie
ll ~system-volumespolecenie potwierdzające, że problem został rozwiązany i że tworzenie kopii zapasowej metadanych przebiega pomyślnie w następujący sposób.Przykład:
VPlexcli:/> ll ~system-volumes /clusters/cluster-1/system-volumes: Name Volume Type Operational Health Active Ready Geometry Component Block Block Capacity Slots --------------------------------------- -------------- Status State ------ ----- -------- Count Count Size -------- ----- --------------------------------------- -------------- ----------- ------ ------ ----- -------- --------- -------- ----- -------- ----- meta_C1_xxxxxx meta-volume ok ok true true raid-1 2 20971264 4K 80G 64000 meta_C1_xxxxxxx_backup_2024-11-23_01-30 meta-volume ok ok false true raid-1 1 20971264 4K 80G 64000 meta_C1_4UQT429_backup_2024-11-24_01-30 meta-volume ok ok false true raid-1 1 20971264 4K 80G 64000 /clusters/cluster-2/system-volumes: Name Volume Type Operational Health Active Ready Geometry Component Block Block Capacity Slots --------------------------------------- -------------- Status State ------ ----- -------- Count Count Size -------- ----- --------------------------------------- -------------- ----------- ------ ------ ----- -------- --------- -------- ----- -------- ----- meta_C2_xxxxxx meta-volume ok ok true true raid-1 2 20971264 4K 80G 64000 meta_C2_xxxxxxx_backup_2024-11-23_12-43 meta-volume ok ok false true raid-1 1 20971264 4K 80G 64000 meta_C2_xxxxxxx_backup_2024-11-24_12-43 meta-volume ok ok false true raid-1 1 20971264 4K 80G 64000