PowerFlex: Błędy we/wy klienta podczas korzystania z replikacji
Summary: Na serwerach klienckich występują błędy we/wy w stosunku do urządzeń wspieranych przez PowerFlex. Ogólny backend (MDM i SDS) wydaje się być w dobrej kondycji. Używana jest replikacja PowerFlex i występują błędy RPO względem co najmniej jednej grupy RCG. ...
Symptoms
- Brak zdegradowanej lub uszkodzonej pojemności
- Nie odłączono żadnych serwerów SDS, a żadne urządzenia SDS nie zgłosiły błędów
- Brak odłączonych modułów MDM
- Wykorzystywana jest funkcja replikacji
Co najmniej jeden alert w interfejsie użytkownika zgłaszający następujące błędy:
Minor - Remote Consistency Group RPO Exceeded
Major - The RCG consistent image is too large to be consumed by the destination in one piece.
Dzienniki zdarzeń MDM mogą zgłaszać następujące informacje:
2024-06-11 15:55:56.592000:0001566:RPL_PD_CAP_UTILIZATION_MINOR WARNING Protection Domain ID <pd_id> Replication journal capacity is at MINOR utilization level
...
2024-06-11 16:20:12.848000:0001567:RPL_PD_CAP_UTILIZATION_MAJOR ERROR Protection Domain ID <pd_id> Replication journal capacity is at MAJOR utilization level
...
2024-06-11 17:19:57.272000:0001584:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at VERY_HIGH utilization level
...
2024-06-11 17:52:26.352000:0001585:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at CRITICAL utilization level
...
2024-06-11 16:25:14.381000:0001576:RPL_CG_MOVED_TO_SLIM_MODE INFO Replication Consistency Group ID <rcg_id> entered slim mode
...
2024-06-11 18:27:29.738000:0001586:SDR_CRITICAL_CAP_CHANGE ERROR SDR ID <sdr_id>) handling user data changed discarded old user data and stopped to accumulate new user data due critical capacity
Wpływ
Klienci nie mogą uzyskać dostępu do woluminów, które są replikowane.
Cause
Może wystąpić rzadka wada oprogramowania, gdy MDM i komponent SDR nie zgadzają się co do wewnętrznych liczników związanych z pojemnością dziennika.
Ta rozbieżność może spowodować, że MDM nie będzie w stanie anulować (zwolnić) dodatkowej pojemności dziennika, gdy pojemność modułu SDR jest pełna, co może prowadzić do błędów we/wy na serwerach klienckich korzystających z urządzeń wspieranych przez PowerFlex.
Resolution
Wymagane jest stopniowe ponowne uruchamianie wszystkich komponentów SDR, a w celu rozwiązania problemu należy zmienić własność MDM w systemie źródłowym.
Uruchom ponownie komponenty SDR w lokacji docelowej
1. Przed przejściem do kroku 2 zidentyfikuj wszystkie moduły SDR i sprawdź, czy są w prawidłowym stanie:
scli --query_all_sdr
2. Przejdź do trybu konserwacji modułu SDR:
scli --enter_sdr_maintenance_mode --sdr_name <name>
3. Sprawdź, czy moduł SDR jest w trybie konserwacji, uruchamiając polecenie w kroku 1.
4. Uruchom ponownie komponent SDR
pkill sdr
5. Powtórz kroki 1–4 dla wszystkich modułów SDR w lokalizacji źródłowej .
6. Wyjdź z trybu konserwacji modułów SDR:
scli --exit_sdr_maintenance_mode --sdr_name <name>
7. Przełącz własność rozwiązania MDM, gdy wszystkie moduły SDR zostaną ponownie uruchomione i będą w dobrym stanie:
#3.x
scli --switch_mdm_ownership --new_master_mdm_name <name>
#4.x
scli --switch_mdm_ownership --new_primary_mdm_name <name>
8. Sprawdź, czy błędy we/wy na serwerach klienckich nie są już zgłaszane. Jeśli klient przeszedł do systemu plików tylko do odczytu, serwer klienta może wymagać ponownego uruchomienia.
Wersje, których dotyczy problem
PowerFlex 3.x
PFMP 4.x
Naprawiono w wersji
PowerFlex 4.5.3
PowerFlex 4.5.4 — uaktualnienie do wersji 4.5.4 HF1
PowerFlex 4.5.5 — brak poprawek
PowerFlex 4.5.6 i nowsze
Additional Information
Wersje, których dotyczy problem
PowerFlex 3.x
PowerFlex 4.x
Naprawiono w wersji
PowerFlex 4.5.3
PowerFlex 4.5.4 — uaktualnienie do wersji 4.5.4 HF1
PowerFlex 4.5.5 — brak poprawek.
PowerFlex 4.5.6 i nowsze