PowerPath/VE: Mensaje de alarma de VMware ESXi: "#PF excepción 14 en el mundo vmm0"
Summary: VMware ESXi #PF excepción 14
Symptoms
SO: Compilación
de VMware ESXi 6.5.0 Software de Dell: PowerPath/VE 6.3 (compilación 105)
Dell Software: PowerPath/VE 6.4 (compilación 103)
Dell Software: PowerPath/VE 6.5 (compilación 110)
Hardware de Dell: Symmetrix
Estado de alarma inesperado del servidor VMware ESXi sin evento desencadenante aparente
Se requiere que PowerPath/VE y Symmetrix ejecuten el código 5978 o posterior para estar expuestos a este problema.
2019-06-11T05:56:03.906Z cpu23:47993633)@BlueScreen: #PF Exception 14 in world 47993633:vmm0:FRAJXSA IP 0x418024500c9a addr 0x410006dcffc4 PTEs:0x8000853023;0x800082e023;0x80008a0023;0x0; 2019-06-11T05:56:03.907Z cpu23:47993633)Code start: 0x418024200000 VMK uptime: 69:00:05:14.200 2019-06-11T05:56:03.907Z cpu23:47993633)0x43941909bb50:[0x418024500c9a]Sched_SysServiceDone@vmkernel#nover+0x8a stack: 0x439dcb2afe80 2019-06-11T05:56:03.907Z cpu23:47993633)0x43941909bbb0:[0x4180245360ce]SCSICompleteAdapterCommand@vmkernel#nover+0x152 stack: 0x410006dd0040 2019-06-11T05:56:03.908Z cpu23:47993633)0x43941909bc30:[0x418024b69a09]SCSILinuxWorldletFn@com.vmware.driverAPI#9.2+0x3f1 stack: 0x4180242d1a38 2019-06-11T05:56:03.908Z cpu23:47993633)0x43941909bd90:[0x418024326ea8]WorldletBHHandler@vmkernel#nover+0x478 stack: 0x0 2019-06-11T05:56:03.909Z cpu23:47993633)0x43941909bef0:[0x4180242b1cb0]BH_DrainAndDisableInterrupts@vmkernel#nover+0x100 stack: 0x0 2019-06-11T05:56:03.909Z cpu23:47993633)0x43941909bf80:[0x418024319e66]VMMVMKCall_Call@vmkernel#nover+0x196 stack: 0x43941909bfec 2019-06-11T05:56:03.910Z cpu23:47993633)0x43941909bfe0:[0x41802434b8a2]VMKVMM_ArchEnterVMKernel@vmkernel#nover+0xe stack: 0x41802434b894 2019-06-11T05:56:03.913Z cpu23:47993633)base fs=0x0 gs=0x418045c00000 Kgs=0x0 2019-06-24T08:43:40.022Z cpu17:169970)@BlueScreen: #PF Exception 14 in world 169970:vmm0:FRAWINE IP 0x41802f30155a addr 0x410006d6ffc4 PTEs:0x8000053023;0x800002b023;0x800009e023;0x0; 2019-06-24T08:43:40.023Z cpu17:169970)Code start: 0x41802f000000 VMK uptime: 6:00:01:30.899 2019-06-24T08:43:40.023Z cpu17:169970)0x43923f91bd30:[0x41802f30155a]Sched_SysServiceDone@vmkernel#nover+0x8a stack: 0xfc40a085 2019-06-24T08:43:40.023Z cpu17:169970)0x43923f91bd90:[0x41802f126e31]WorldletBHHandler@vmkernel#nover+0xe1 stack: 0x418042800c00 2019-06-24T08:43:40.024Z cpu17:169970)0x43923f91bef0:[0x41802f0b1db0]BH_DrainAndDisableInterrupts@vmkernel#nover+0x100 stack: 0x0 2019-06-24T08:43:40.024Z cpu17:169970)0x43923f91bf80:[0x41802f11a186]VMMVMKCall_Call@vmkernel#nover+0x196 stack: 0x43923f91bfec 2019-06-24T08:43:40.025Z cpu17:169970)0x43923f91bfe0:[0x41802f14b8a2]VMKVMM_ArchEnterVMKernel@vmkernel#nover+0xe stack: 0x41802f14b894 2019-06-24T08:43:40.028Z cpu17:169970)base fs=0x0 gs=0x418044400000 Kgs=0x0
Cause
El equipo de ingeniería de VMware determinó que este problema se debe a una anomalía de preferencia que provoca un estado de alarma de contexto aleatorio en SchedSysServiceContextPut().
PowerPath/VE para VMware 6.3, 6.4 y 6.5 tiene un problema en la característica de impresión digital de la aplicación que puede causar una anomalía de preferencia.
Resolution
Mientras solucionaba este problema internamente, se descubrió un problema de PowerPath/VE que se relaciona con la característica de huella digital de la aplicación. Si bien no podemos estar 100% seguros de que sea la causa del pánico visto por el usuario, como precaución, recomendamos a cualquier usuario que haya experimentado este tipo de pánico que deshabilite la función de huella digital de la aplicación.
Solución alternativa (solo se aplica si está por debajo del microcódigo 5978.221 de Symmetrix):
Deshabilite la impresión digital de la aplicación.
Resolución:
Actualice a PowerPath/VE 7.0 P01 o una versión posterior que actualmente está disponible para descargar en el sitio web de soporte de Dell.
Additional Information
A continuación, se muestran los comandos rpowermt para mostrar y deshabilitar la función de "huella digital de la aplicación".
Para verificar si la función está activada:
# rpowermt display options host=<ESXi host name/IP> Show CLARiiON LUN names: true Path Latency Monitor: Off Performance Monitor: disabled Autostandby: IOs per Failure (iopf): enabled iopf aging period : 1 d iopf limit : 6000 Storage System Class Attributes ------------ ---------- Symmetrix periodic autorestore = on reactive autorestore = on auto host registration = enabled app finger printing = enabled device to array performance report = enabled device in use to array report = enabled
Para desactivar la función:
# rpowermt set app_finger_printing=off host=<ESXi host name/IP>
Para verificar si la función está deshabilitada:
# rpowermt display options host=<ESXi host name/IP> Show CLARiiON LUN names: true Path Latency Monitor: Off Performance Monitor: disabled Autostandby: IOs per Failure (iopf): enabled iopf aging period : 1 d iopf limit : 6000 Storage System Class Attributes ------------ ---------- Symmetrix periodic autorestore = on reactive autorestore = on auto host registration = enabled app finger printing = disabled device to array performance report = enabled device in use to array report = enabled
- Esta habilitación/deshabilitación de la característica no requiere ninguna actividad de mantenimiento en los hosts ESXi y es persistente entre los reinicios.
- No se requieren cambios en el lado del arreglo asociado con esta característica.
- Esta solución alternativa solo se aplica al microcódigo de Symmetrix inferior a 5978.221.
- A partir del microcódigo 5978.221 de Symmetrix y versiones posteriores, el etiquetado de I/O está habilitado en Symmetrix, lo que activa un fallo en PowerPath/VE que, a su vez, provoca una PSOD.