PowerPath : Problèmes ESXi courants et éléments à vérifier pour le dépannage
Summary: L’objectif de cet article de la base de connaissances est de fournir des informations courantes sur les problèmes ESXi et les étapes à suivre pour les résoudre.
Instructions
Cause
De nombreux éléments peuvent causer des problèmes avec un hôte ESXi.
Cette présentation est une liste de certains des éléments les plus courants que l’on peut trouver et leurs étapes de dépannage.
Résolution
-
Version : la version est-elle actuelle et toujours prise en charge ?
-
Consultez la section « Problèmes connus » des notes de mise à jour pour connaître les problèmes courants, les correctifs et les liens JIRA.
-
Les versions de PowerPath se trouvent aux emplacements suivants :
-
Version PP/rpowermt
-
Emplacement du fichier : host/commands/localcli_software-vib-list.txt
-
Problèmes et erreurs courants
Problèmes et erreurs courants
- Connectivité
- Perte permanente d’appareil
- Tous les chemins vers le bas
- PowerPath
Connectivité
Les messages s’affichent dans le vmkernel et souvent vmkwarning Sorties.
« État dans le doute ; Mise à jour de l’état Fast Path demandée »
Ces messages s’affichent lorsque le pilote de l’adaptateur de bus hôte (HBA) annule une commande, car l’exécution de la commande a pris plus de temps que le délai d’expiration du délai d’expiration de 5 s. Une opération peut prendre plus de temps que le délai d’expiration pour plusieurs raisons, notamment :
- Opérations de sauvegarde de baies (sauvegarde de LUN, réplication, etc.)
- Surcharge générale sur la baie
- Cache en lecture/écriture sur la baie (mauvaise configuration, manque de cache, etc.)
- Problèmes de fabric (liaison Inter-Switch (ISL) défectueuse, firmware obsolète, câble/GBIC de fabric défectueux)
- Latence SAN élevée
Exemple :
Dans l' /var/log/vmkernel.log de l’hôte ESXi, vous voyez des entrées similaires à :
<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>
/commands/Localcli_storage-core-adapter-stats-get.txt
Les informations ci-dessus peuvent être utiles pour vérifier l’équilibrage de charge HBA et pour résoudre les conflits de réservation.
Un déséquilibre important des commandes réussies peut indiquer une stratégie de chemin fixe ou d’autres problèmes d’équilibrage.
Les conflits de réservation peuvent indiquer des incompatibilités d’unité logique hôte (HLU) sur les baies Unity.
Dell EMC Unity/VNX/CLARiiON : VMware ne peut pas voir correctement les LUN si elles se trouvent dans plusieurs groupes de stockage et que la HLU ne correspond pas (corrigible par l’utilisateur)
Localcli_storage-core-device-stats-get.txt
L’exemple ci-dessus fournit des statistiques sur les LUN et indique quelles LUN présentent des conflits de réservation.
/commands/localcli_storage-san-fc-stats-get.txt
La commande ci-dessus est utile pour vérifier les statistiques HBA telles que :
- Trames vidées
- Link Failures Count
- Nombre de pertes de signal
- Nombre de mots de transmission non valide
/commands/Localcli_storage-san-fc-events-get.txt
Affiche les horodatages des événements FC récents, les liaisons actives ou interrompues, etc.
/var/run/log/vmksummary.log
Affiche les horodatages du moment où l’hôte a été démarré et redémarré ou ne répondait plus.
D’après ce que j’ai compris, les statistiques HBA sont réinitialisées au redémarrage.
Cela donne une période à laquelle les statistiques FC se sont produites.
Exemple :
2022-10-09T13:05:21Z bootstop: Host is rebooting 2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted
Lors de l’exécution de la maintenance d’une baie de stockage ou de toute action qui entraînerait la mise hors ligne/en ligne d’une cible de baie, le pilote FNIC natif Cisco peut ne pas se reconnecter correctement à la cible, ce qui entraîne le maintien des chemins dans un état inactif.
Ce problème est dû au fait que le pilote FNIC natif Cisco reçoit un RSCN au cours de la partie de commande REPORT_LUNS du nfnic Processus de connexion au port, ce qui entraîne l’arrêt du pilote et l’impossibilité de relancer le processus de connexion. Cela a été observé avec les baies IBM SVC et IBM V7000, mais cela aurait également été observé sur n’importe quelle baie IBM Storwize, car elles utilisent toutes la même pile logicielle. Cela s’observe également pour les baies non IBM, à condition qu’elles émettent un RSCN au cours de la commande REPORT_LUNS que le pilote envoie lors de la connexion.
Les problèmes de performances et le chemin vers le bas/APD peuvent être résolus par une mise à niveau vers nfnic 4.0.0.63 et versions ultérieures.
Contactez VMware et Cisco pour obtenir plus d’informations et obtenir un support.
Les versions des pilotes sont disponibles dans /commands/localcli_software-vib-list.txt
(Saisissez le pilote vib noms ici) (DIFS possibles avec 6.x vs 7.x)
Perte d’appareil permanente (PDL)/All Path Down (APD)
Perte permanente d’appareil (PDL)
- Un datastore est indiqué comme étant indisponible dans la vue Stockage.
- Un adaptateur de stockage indique l’état opérationnel de l’appareil en tant que Communication perdue.
- Tous les chemins d’accès au périphérique sont marqués comme inactifs.
- Dans l'
/var/log/vmkernel.log, vous voyez des entrées similaires à :
Exemple
cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0. cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763". cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible. cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0 cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0. cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.
Tous les chemins vers le bas (APD)
- Un datastore est indiqué comme étant indisponible dans la vue Stockage.
- Un adaptateur de stockage indique que l’état opérationnel de l’appareil est Dead ou Error.
- Tous les chemins d’accès au périphérique sont marqués comme inactifs.
- Vous ne parvenez pas à vous connecter directement à l’hôte ESXi à l’aide de vSphere Client.
- L’hôte ESXi s’affiche comme Déconnecté dans vCenter Server.
- Dans l'
/var/log/vmkernel.log, les entrées similaires sont vues pour :
Exemple
cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device. cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0 cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...
*Consultez l’article VMware KB# pour obtenir la résolution et des exemples supplémentaires basés sur diverses circonstances*.
**Le SAN doit être vérifié, ainsi qu’une action pour les problèmes ADP/PDL**.
PowerPath
Si PowerPath est présent, il y a quelques éléments supplémentaires à vérifier.
Compatibilité : la version de PowerPath en cours d’utilisation est-elle prise en charge avec la version en cours d’exécution d’ESXi ?
Cela peut être vérifié dans ESM.
Connectivité-
Plusieurs types de messages peuvent s’afficher lorsque PowerPath détecte un chemin perdu, notamment :
PowerPath : Comment enquêter sur la perte de chemin dans PowerPath
Paramètres NMP
Pour la plupart des baies Dell*, à l’exception de VPLEX, la permutation circulaire (policy=rr ) avec IOPS = 1 est recommandé pour des performances optimales.
Ce paramètre doit être vérifié lorsque les performances ou la latence sont mentionnées.
Vous le trouverez dans les grappins sous /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json
*Consultez toujours le guide de connectivité de l’hôte et les guides des pratiques d’excellence de stockage les plus récents pour obtenir des recommandations à jour.
Le numéro d’article VMware 2069356
Ajustement de la limite d’IOPS de permutation circulaire de la valeur par défaut 1 000 à 1 (2069356)
Guide de connectivité de l’hôte Dell EMC VMware ESXi Server
Unity - page 36
PowerStore - page 62
Guides de connectivité de l’hôte EMC XtremIO
Chapitre 3 - page 57
Exemple de paramètres NMNP dans /commands/localcli_storage-nmp-device-list.txt
Paramètres incorrects
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Corriger les paramètres
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Avertissements
ESXi 6.7 présente plusieurs problèmes connus avec Cisco nfnic Pilotes à l’origine de problèmes de performances et de connectivité.
Si le problème est lié à l’un des éléments ci-dessus, vérifiez le nfnic version du pilote et recherchez les versions concernées dans la base de connaissances VMware (KB).
La version du pilote se trouve dans la sortie de /commands/localcli_software-vib-list.txt lime.
Informations
complémentairesSi d’autres équipes doivent être impliquées, assurez-vous d’obtenir les éléments suivants :
- Journaux (commutateur/stockage)
- SN stockage#
- Date et heure du problème
Si un client demande de l’aide pour faire appel à VMware, dirigez-le vers la page VMware « Contact us ».
Options de contact du support
Additional Information
Consultez toute la documentation relative aux problèmes connus, comme les notes de mise à jour et le guide des messages courants de la CLI, pour obtenir des informations à jour sur les problèmes connus et leurs résolutions.