RecoverPoint dla maszyny wirtualnej: Pętla grupy spójności między stanem inicjowania a stanem błędu w środowisku skalowania
Summary: RecoverPoint dla maszyny wirtualnej: Pętla grupy spójności między stanem inicjowania a stanem błędu w środowisku skalowania
Symptoms
: zapętlanie się grupy spójności między stanem inicjalnym a błędem w środowisku
skalowania, powodujące niedostępność replikacji danych (DRU).
Objawy znalezione w dziennikach :
Dzienniki rozdzielnika ESX:
Poniższe dzienniki wskazują, że odczyt /vmfs/volumes/vsan:5xxxxxxxxxx-dxxxxxxxxxxxx nie powiódł się, więc wszystkie woluminy RPVS w sieci VSAN zostaną usunięte.
spl_esx_discover_RPvStorage_clusters_in_datastore: Nie można odczytać katalogu /vmfs/volumes/vsan:5xxxxxxxxxxxxxxxxxx-dxxxxxxxxxxxxxx, zwrócono stan Limit
czasu update_rpvs_db: jednostka LUN 1 nie została przeskanowana w ostatniej aktualizacji
widoku urządzenia RPVS_ClusterLuns_removeLunInfo: wywołano LUN=1 (nazwa RPVS_Lun00001.vmdk). Identyfikator klastra = 2xxxxxxxxxxxx
update_rpvs_db: jednostka LUN 12 nie została przeskanowana w ostatnim RPVS_ClusterLuns_removeLunInfo aktualizacji widoku
urządzenia: wywołano dla lun=12 (nazwa RPVS_Lun00012.vmdk). Identyfikator klastra = 2xxxxxxxxxxx
update_rpvs_db: jednostka LUN 13 nie została przeskanowana podczas ostatniej aktualizacji widoku urządzenia ...
* Proces wykrywania RPVS zakończył się pomyślnie, dlatego wszystkie woluminy RPVS zostaną dodane z powrotem:
parse_vmdk_file: wywoływane z plikiem /vmfs/volumes/vsan:5xxxxxxxxxxxxx/RPvStorage/4xxxxxxxxxxx/RPVS_Lun00001.vmdk
parse_vmdk_file: capacity=12000000, thinLun=0, flat_filename=RPVS_Lun00001-flat.vmdk, rawguid=0x6xxxxxxxxxxxxxxx
RPVS_ClusterLuns_addLunInfo: dodano jednostkę LUN 1, klaster 4xxxxxxxxxxxxxxxxxx parse_vmdk_file: wywoływano z plikiem /vmfs/volumes/vsan:5xxxxxxxxxxxx-dxxxxxxxxxx/RPvStorage_23d5fb88838940xxx_010/RPVS_Lun00012.vmdk parse_vmdk_file: capacity=524288000, thinLun=0, flat_filename=RPVS_Lun00012-flat.vmdk, rawguid=0x6xxxxxxxxxxxxxxx RPVS_ClusterLuns_addLunInfo: dodano jednostkę LUN 12, klaster 2xxxxxxxxxxxx
* Dziennik wskazujący, że proces wykrywania RPVS trwa długo.
CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), czas działania 32585607 mikrosekundach, liczba poleceń w kolejce: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), czas wykonania 33277695 mikrosekundach, liczba poleceń w kolejce: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), czas działania 35834242 mikrosekundach, liczba poleceń w kolejce: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), czas wykonania 36488014 mikrosekundach, liczba poleceń w kolejce: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), czas działania 37767728 mikrosekundach, num poleceń w kolejce: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), czas wykonania 49355575 mikrosekundach, liczba poleceń w kolejce: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), czas wykonania 109257427 mikrosekundach, num poleceń w kolejce: 19
Dotyczy wszystkich wersji RP4VM
Cause
Rozdzielnik ESX skanuje w poszukiwaniu woluminu RPVS (dziennika i repozytorium) co t_rpvsDiscoveryPeriodicTimerInterval (ustawienie domyślne: 30) sekund.
Skanowanie polega na odczytaniu pliku /vmfs/volumes/ i przejrzeniu każdego znajdującego się w nim katalogu w poszukiwaniu RPVS_LunXXXXX.vmdk
Wolumin RPVS znajduje się w /vmfs/volumes/<datastore>/<cluster=id>/. W środowisku vSAN znajduje się w /vmfs/volumes/vsan:<vsan-id>/<cluster=id>/
Jeśli odczyt dowolnego katalogu w /vmfs/volumes/ nie powiedzie się (przekroczenie limitu czasu, błąd przejściowy itp.), spowoduje to usunięcie wszystkich woluminów RPVS w katalogu, który uległ awarii.
Jeśli we wszystkich kolejnych uruchomieniach proces wykrywania rpvs odczytuje i odnajdzie RPVS_LunXXXXX.vmdk, odpowiednie woluminy RPVS zostaną dodane z powrotem.
To jest powód, dla którego CG zapętlają się między Error i Init.
Problem nasila się, gdy duża liczba hostów w sieci VSAN odczytuje katalogi w katalogu /vmfs/volumes/ w tym samym czasie.
Resolution
Na każdym hoście ESX w klastrze zaktualizuj wartość ustawienia rozdzielacza t_rpvsDiscoveryPeriodicTimerInterval
do wartości losowej z zakresu od 180 do 600 sekund, a następnie uruchom ponownie sterownik kdriver.
ESX Splitter Tweak można znaleźć pod adresem
/etc/kdriver/tweak/tweak.params.splitter lub /etc/config/emc/rp/kdriver/tweak/tweak.params.splitter.
Rozwiązanie:
Inżynierowie firmy Dell EMC obecnie badają ten problem. Prace nad trwałym rozwiązaniem są w toku. Skontaktuj się z pomocą techniczną Dell EMC lub przedstawicielem działu obsługi klienta, aby uzyskać pomoc i zapoznać się z identyfikatorem tego rozwiązania.