RecoverPoint for Virtual Machine : Boucle d’un groupe de cohérence entre l’état d’initialisation et l’état d’erreur dans un environnement d’évolutivité
Summary: RecoverPoint for Virtual Machine : Boucle d’un groupe de cohérence entre l’état d’initialisation et l’état d’erreur dans un environnement d’évolutivité
Symptoms
Boucle d’un groupe de cohérence entre l’état d’initialisation et l’état d’erreur dans un environnement
scale entraînant l’indisponibilité de la réplication des données (DRU).
Symptômes détectés dans les journaux :
Journaux du séparateur ESX :
Les journaux ci-dessous indiquent que la lecture de /vmfs/volumes/vsan :5xxxxxxxxxx-dxxxxxxxxxxxxxxxxxx a échoué, de sorte que tous les volumes RPVS du VSAN seront supprimés.
spl_esx_discover_RPvStorage_clusters_in_datastore : échec de lecture du répertoire /vmfs/volumes/vsan :5xxxxxxxxxxxxxxxxxxxxx-dxxxxxxxxxxx, renvoyé avec l’état Délai d’expiration
update_rpvs_db : la LUN 1 n’a pas été analysée lors de la dernière mise à jour de la vue de
l’appareil RPVS_ClusterLuns_removeLunInfo : lun=1 appelé (nom RPVS_Lun00001.vmdk). ID de cluster = 2xxxxxxxxxxxx
update_rpvs_db : la LUN 12 n’a pas été analysée lors de la dernière mise à jour de la vue de
l’appareil RPVS_ClusterLuns_removeLunInfo : LUN = 12 (nom RPVS_Lun00012.vmdk). Cluster id=2xxxxxxxxxxx
update_rpvs_db : LUN 13 was not scanned on last device view update ...
* Le processus de découverte RPVS réussit, donc tous les volumes RPVS sont rajoutés :
parse_vmdk_file : appelé avec fichier /vmfs/volumes/vsan :5xxxxxxxxxxxxxxxxxxx/RPvStorage/4xxxxxxxxxxx/RPVS_Lun00001.vmdk
parse_vmdk_file : capacity=12000000, thinLun=0, flat_filename=RPVS_Lun00001-flat.vmdk, rawguid=0x6xxxxxxxxxxxxxxxxxxxxxxxx
RPVS_ClusterLuns_addLunInfo : Ajout de la LUN 1, cluster 4xxxxxxxxxxxxxxxxxxx parse_vmdk_file : Appelé avec le fichier /vmfs/volumes/vsan :5xxxxxxxxxxxxxx-dxxxxxxxxxxxxxxxx/RPvStorage_23d5fb88838940xxx_010/RPVS_Lun00012.vmdk parse_vmdk_file : capacity=524288000, thinLun=0, flat_filename=RPVS_Lun00012-flat.vmdk, rawguid=0x6xxxxxxxxxxxxxxx RPVS_ClusterLuns_addLunInfo : Ajout de la LUN 12, cluster 2xxxxxxxxxxxxxxxxxx
* Journal indiquant que le processus de découverte RPVS prend beaucoup de temps
CommandExecuterBase_v_handleCommands_i : cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), durée d’exécution 32585607 microsecondes, num commandes en file d’attente : 11 CommandExecuterBase_v_handleCommands_i : cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), durée d’exécution 33277695 microsecondes, num commandes en file d’attente : 11 CommandExecuterBase_v_handleCommands_i : cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), durée d’exécution 35834242 microsecondes, num commandes en file d’attente : 11 CommandExecuterBase_v_handleCommands_i : cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), durée d’exécution 36488014 microsecondes, num commandes en file d’attente : 11 CommandExecuterBase_v_handleCommands_i : cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), durée d’exécution 37767728 microsecondes, num commandes en file d’attente : 11 CommandExecuterBase_v_handleCommands_i : cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), durée d’exécution 49355575 microsecondes, num commandes en file d’attente : 11 CommandExecuterBase_v_handleCommands_i : cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), durée d’exécution 109257427 microsecondes, num commandes en file d’attente : 19
Toutes les versions de RP4VM sont concernées.
Cause
Le séparateur ESX recherche le volume RPVS (journal et référentiel) tous les t_rpvsDiscoveryPeriodicTimerInterval (par défaut : 30) secondes.
L’analyse s’effectue en lisant /vmfs/volumes/ et en parcourant chaque répertoire qu’il contient, à la recherche de RPVS_LunXXXXX.vmdk
Un volume RPVS réside dans /vmfs/volumes/<datastore>/<cluster=id>/. Dans un environnement VSAN, il doit résider dans /vmfs/volumes/vsan :<vsan-id>/<cluster=id>/
Si la lecture d’un répertoire dans /vmfs/volumes/ échoue (délai d’expiration, erreur transitoire, etc.), tous les volumes RPVS du répertoire en échec sont supprimés.
Lors des exécutions suivantes, si le processus de découverte rpvs réussit à lire et à trouver RPVS_LunXXXXX.vmdk, les volumes RPVS correspondants sont rajoutés.
C’est la raison pour laquelle les CG bouclent entre Error et Init.
Le problème est amplifié lorsqu’un grand nombre d’hôtes dans le VSAN lisent simultanément les répertoires sous /vmfs/volumes/.
Resolution
Dans chaque hôte ESX du cluster, mettez à jour la valeur d’ajustement du séparateur de t_rpvsDiscoveryPeriodicTimerInterval
sur une valeur aléatoire comprise entre 180 et 600 secondes, puis redémarrez kdriver.
ESX Splitter Tweak est disponible à l’adresse
/etc/kdriver/tweak/tweak.params.splitter ou /etc/config/emc/rp/kdriver/tweak/tweak.params.splitter.
Résolution :
Les ingénieurs Dell EMC sont en train d’étudier ce problème. Un correctif permanent est encore en cours d’exécution. Contactez le Centre de support client Dell EMC ou votre responsable de services pour obtenir de l’aide et consultez l’ID de cette solution.