PatoZG

3 Mensajes

1039

23 de septiembre de 2021 10:00

PSOD no Heartbeat in ESXi 5.5 (PCPU 12: no heartbeat) in PowerEdge R730

Hello, a few days ago one of our Dell PowerEdge R730 servers which has ESXi 5.5 installed. The server suddenly froze and showed a purple screen with the following error:

PCPU 12: no heartbeat (2/2 IPIs received)
cr0=0x80010031 cr2=0xb925310 cr3=0x156df9000 cr4=0x42768
*PCPU22:34002/rhttpproxy-work
PCPU 0: VVVVVVVVVVVVSUSSSSHSSSSUS
Code start: 0x418008800000 VMK uptime: 594:06:57:43.407
Saved backtrace from: pcpu 12 Heartbeat NMI
0x41238a9dda00: [0x418008bae6b8]MemNode_NUMANodeMask2MenNodeMask@vmkernel#nover+0x48 stack: 0x=
0x41238a9ddb30: [0x418008b7ce5b]MemDistributeNUMAPolicy@vmkernel#nover+0x107 stack: 0x136be09b
0x41238a9ddca0: [0x418008b7c0cc]MemDistribute_Alloc@vmkernel#nover+0xlfc stack: 0x41238a9ddd4c
0x41238a9ddd00: [0x418008a9e15f]SchedKmem_Alloc@vmkernel#nover+0x67 stack: 0x203a353400000200
0x41238a9ddd80: [0x4180088246a1]vmk_MemPoolAlloc@vmkernel#nover+0x181 stack: 0x41095c541f01
0x41238a9ddeb0: [0x418008f63646]fusion_get_seq_num@ # +0xb6 stack:0x91
0x41238a9ddf20: [0x418008f5b804]megasas_hotplug_work@ # +0xc0 stack: 0x0
0x41238a9ddfd0: [0x418008827c6f]VmkTimerQueueWorldFunc@vmkernel#nover+0x40b stack: 0x0
0x41238a9ddff0: [0x418008a55452]CpuSched_StartWorld@vmkernel#nover+0xfa stack: 0x0
base fs=0x0 gs=0x418045800000 Ksg=0x0
2021-09-11T20:08:39.270Z cpu12:33447)NMI: IPI received. Was eip(base):ebp:cs [0x148b7(0x418008800000):0x41238a9dd970:0x

-----

After this, the server had to be restarted to get it working again.

However, I am having trouble identifying the error, what the failure was due to, and how to prevent it from happening again.

I would appreciate if you can help me with this.

Thanks.

Respuestas(5)

DiegoLopez

4 Operator

•

2.7K Mensajes

1

24 de septiembre de 2021 07:00

Hello @PatoZG,

You are writing us in the Spanish forum and I think you are writing us from Spain, so I will answer you in Spanish, but please, if you prefer an answer in English, just le me know and I will translate it.

Bien, lo que puede intentar es descartar si se trata de un problema de hardware o no. ¿Tiene acceso a la iDRAC? ¿Podría verificar el log de hardware para comprobar si se ha registrado algún evento de error relacionado con la CPU y/o la memoria?

¿Puede indicarme también las versiones de firmware de la BIOS y la IDRAC?

Un saludo.

P

PatoZG

3 Mensajes

0

27 de septiembre de 2021 07:00

Hola, gracias por tu respuesta. Lamentablemente no tengo acceso actualmente al servidor, lo único que se es que se usa para con ESXi 5.5 para mantener una serie de VMs en una red independiente. Personalmente no tengo mucha experiencia con servidores Dell, por lo que agradecería si me pudieras indicar que herramientas puedo usar para verificar el estado del hardware en este tipo de servidores.

Respecto a la versión las versiones de firmware de la BIOS y la IDRAC, tampoco tengo esa información, pero por lo que me indicaban el personal de esa planta, los servidores están aislados y jamás se le ha hecho algún tipo de actualización o mantención mas allá de limpieza.

Saludos.

DiegoLopez

4 Operator

•

2.7K Mensajes

1

28 de septiembre de 2021 00:00

Muy buenas @PatoZG,

Para verificar el estado de hardware del servidor con ESXi instalado, la mejor opción es la iDRAC, que es una consola remota a la que se accede por una IP de gestión. En esta web UI puede verificar tanto el estado de hardware, exportar logs, revisar los niveles de firmware, etc..

Yo le sugeriría que intentara verificar si esta conexión a la iDRAC es posible y si ya estuviera configurada.

El tema de las actualizaciones de firmware es también importante y quizás (aunque sea necesario un análisis más exhaustivo para confirmarlo) podrían haber sido causa del problema.

Un saludo.

P

PatoZG

3 Mensajes

0

4 de febrero de 2022 09:00

Hola, junto con saludarlos, vuelvo preguntar porque el servidor volvió a generar un error similar al anterior:

WhatsApp Image 2022-02-01 at 10.34.12.jpeg

este es el detalle:

cr0=0x8001003d cr2=0x1475000 cr3=0x73209000 cr4=0x216c
PCPU0:33054/memMap-0
PCPU 0: SSUUVSUSSUVSSSUUSSSSSSS
Code start: 0x418011800000 VMK uptime: 77:19:39:31.997
0x41238479d220:[0x41801188d0a9]PanicvPanicInt@vmkernel#nover+0x575 stack: 0x412300000008
0x41238479d280:[0x41801188d2ed]Panic_NoSave@vmkernel#nover+0x49 stack: 0x41238479d320
0x41238479d290:[0x4180118888f8]NMICheckLint1Bottom@vmkernel#nover+0x50 stack: 0x41238479d2d0
0x41238479d320:[0x41801182e9ef]BH_DrainAndDisableInterrupts@vmkernel#nover 0xf3 stack: 0x41238479d3
0x41238479d360:[0x4180118641c3]IDT_IntrHandler@vmkernel#nover+0x1af stack: 0x41238479d480
0x41238479d370:[0x4180118f1064]gate_entry@vmkernel#nover+0x64 stack: 0x4018
0x41238479d480:[0x418011ba655a]Power_HaltPCPU@vmkernel#nover+01fe stack: 0x0
0x41238479d4f0:[0x418011a50 a69]CpuSchedIdleLoopInt@vmkernel#nover+0x4bd stack: 0x412300000002
0x41238479d650:[0x418011a56b40]CpuSchedDispatch@vmkernel#nover+0x1630 stack: 0x6e0
0x41238479d6c0:[0x418011a57e75]CpuSchedWait@vmkernel+0x245 stack: 0x1412300000001
0x41238479d740:[0x418011a587d4]CpuSched_TimeWait@vmkernel#nover+0xec stack: 0x0
0x41238479dfd0:[0x418011a587d4]PagCacheAd justSize@vmkernel#nover+0x448 stack: 0x0
0x41238479dff0:[0x418011a55452]CpuSched_StartWorld@vmkernel#nover+0xfa stack:0x0
phase fs=0x0 gs=0x418040000000 Kgs=0x0
Coredump to disk. Slot 1 of 1.
Diskdump: Failed: Couldn’t dump header: 0xbad0001
file configured to dump data.
Debugger waiting(world 33054) -- no port for remote debugger. “Escape” for local debugger.

----

Ahora, igual que la vez anterior no tengo acceso físico para poder revisar el estado de hardware, sin embargo, me gustaría considerar que otros factores, además de un fallo de hardware podrian estar generando este tipo de fallas.

Agradecería cualquier ayuda.

Gracias.

DiegoLopez

4 Operator

•

2.7K Mensajes

1

7 de febrero de 2022 03:00

Hola @PatoZG,

Sin duda yo empezaría descartando un fallo de hardware y, de nuevo, para verificar el estado de hardware del servidor con ESXi instalado, la mejor opción es la iDRAC, dado que es una consola remota que se puede verificar incluso si no tiene acceso físico al servidor.

Por otro lado, podría tratarse de un fallo de software del sistema operativo. Pero en ese caso, tendría que analizar el log de eventos de ESXi.

Un saludo.

Ver todos

¡No se encontraron eventos!

Servidores PowerEdge

PSOD no Heartbeat in ESXi 5.5 (PCPU 12: no heartbeat) in PowerEdge R730