Highlighted
rdiaz02
1 Nickel

PERC H710 mini en PowerEdge R720xd: single-bit ECC error

Hola a todos,

Tengo un servidor PowerEdge R720xd. En OMSA veo este error: "Single-bit ECC error. The controller DIMM is nonfunctional. There will be no further reporting.: Controller 0 (PERC H710 Mini)".

La acción recomendada al mirar los detalles del código de error (2321) es: "Action: Replace the DIMM immediately. The DIMM is a part of the controller battery pack. See your hardware documentation for information on replacing the DIMM."

Pero tengo entendido que la DIMM no se puede cambiar en la PERC H710 mini.

 

Tengo varias preguntas:

 

1. No tengo más remedio que reemplazar la controladora; ¿es correcto?

2. Debería apagar la máquina hasta que reemplace la controladora para minimizar riesgos de pérdida de datos?

3. Puede alguien confirmar el part number? Creo que el part number de DELL es MCR5X y el del fabricante es 405-12070. Pero no soy capaz de encontrar la pieza desde https://www.dell.com/en-us/shop/partsforyourdell/index , usando el service tag o el part number o el número del fabricante.

4. ¿Entiendo (por lo que pongo en 3.) que esta controladora no se puede comprar ya a DELL?

 

Gracias

5 RESPUESTAS
Community Manager
Community Manager

Re: PERC H710 mini en PowerEdge R720xd: single-bit ECC error

Hola rdiaz02!

¡Bienvenido a la Comunidad Dell!

Estás en lo cierto. ¡Buena labor de investigación! El error "Single-bit ECC error. The controller DIMM is nonfunctional. There will be no further reporting.: Controller 0 (PERC H710 Mini)" hace referencia a un error de memoria en la memoria integrada de la PERC que controla el caché de datos.

En efecto, hay algunas controladoras PERC cuya memorias son extraibles y otras que no. Lamentablemente la de la PERC H710 no es extraible. 

Vamos pues, con la ronda de respuestas:

1) En efecto. Pero antes de reemplazar la PERC, sería interesante que revisara la versión de firmware que tiene su PERC. La última versión publicada es la 21.3.5-0002. Debería intentar actualizar este firmware si la versión que tiene es muy anterior. El problema podría solucionarse.

2) Bueno, tienes que comprender que las controladoras PERC que soportan configuraciones RAID con caché (un repositorio temporal de la información) necesitan que memoria y batería estén funcionando correctamente para una operación normal. Un fallo de memoria puede suponer un problema para retener esta información así como una batería que esté en mal estado y no permita retenerlo.

Los riesgos van desde que si la máquina tiene un apagado inesperado resulte en datos corruptos o incompletos que no puedan pasarse a disco desde el caché. O incluso, una memoria de caché defectuosa puede suponer que el dato se corrompa y cause problemas en el sistema operativo o reinicios inesperados.

Por tanto, la recomendación es que sí.. apague la máquina de ser posible.

3. Sí, el P/N MCR5X corresponde a la ASSY Controller Card, RAID Controller, PERC H710 Adapter, SAS/SATA 6Gb/s, PCI-e 2.0, 512MB, RAID-0,.. 

4. No necesariamente. Depende del país desde el que nos contacte. ¿Puede indicarme desde qué país nos escribe?

 

Espero poder servirle de ayuda.

Un saludo.

logo
 Diego López
 Spanish Digital Solutions Specialist
 Social Media and Communities Professional
 Comunidad Dell | @DellAyudaPro | Eventos en línea
rdiaz02
1 Nickel

Re: PERC H710 mini en PowerEdge R720xd: single-bit ECC error

Gracias Diego.

1. Anoto el intentar actualizar el firmware (que actualmente está con versión 21.2.0-0007), pero utilizo Debian y actualizar el firmware no es sencillo (o no lo fué la última vez). El problema, además, parece HW, correcto? Y si reactualizo el firmware, además, y tal y como dice el mensaje de error "There will be no further reporting" así que tampoco sabría si el no ver el mensaje significa que ya no esté.

2. Pero entonces, puedo funcionar sin problemas mientras no haya un problema de falta de corriente?

3. Gracias por confirmar el part number y modelo.

4. Escribo desde España.

 

Gracias de nuevo.

Community Manager
Community Manager

Re: PERC H710 mini en PowerEdge R720xd: single-bit ECC error

Hola de nuevo rdiaz02!

1. En efecto, con Debian no es sencillo. Principalmente porque hay que utilizar medios fuera de banda (con servidores de generación 12 o en adelante es mucho más sencillo a través del LCC o de la iDRAC). Con Debian puedes usar el SUU o el SLI. Perdón por las iniciales, pero en los enlaces puedes encontrar más información.

Respecto a si el problema parece HW o no... aquí es necesario que aclaremos que a menudo si hablamos de firmware estamos hablando de HW al fin y al cabo. El firmware es la capa lógica que permite que un componente físico funcione en el servidor. Por ejemplo, un error de memoria RAM, un Single Bit Error como el que tienes en esta PERC pero en un DIMM RAM puede solucionarse con una actualización de Firmware. ¿Esto es HW o no? Por eso insisto en que no debemos menospreciar el alcance de una actualización de firmware.

Y sí, el mensaje "There will be no further reporting" es auto-descriptivo.. Menudo ultimátum! Una buena idea sería... aplicar la actualización, y luego reasentar el módulo físicamente. Eso debería limpiar el registro de logs.

2. Funcionar sí.. pero el riesgo de que haya un apagón o apagado inesperado de cualquier tipo y el SO deje de estar accesible... es real. La recomendación es solucionar el problema lo antes posible. Y al menos tener claros los riesgos.

4. Vale, pues entonces puede solicitar la pieza al departamento de Piezas y Actuallizaciones. Ellos le pueden ofrecer un presupuesto sin compromiso de la pieza que necesita.

Un saludo.

 

logo
 Diego López
 Spanish Digital Solutions Specialist
 Social Media and Communities Professional
 Comunidad Dell | @DellAyudaPro | Eventos en línea
rdiaz02
1 Nickel

Re: PERC H710 mini en PowerEdge R720xd: single-bit ECC error

Diego, muchas gracias.

 

Los enlaces a SUU y SLI me serán probablemente de gran ayuda. Esto es mucho más sencillo que otras cosas que he probado en el pasado.

 

Entendidos también los riesgos de operar en estas condiciones; he pedido presupuesto a piezas y actualizaciones (muchas gracias también por el enlace directo, que yo no era capaz de ver cómo hacerlo).

 

Un saludo y gracias de nuevo.

 

Community Manager
Community Manager

Re: PERC H710 mini en PowerEdge R720xd: single-bit ECC error

Gracias rdiaz02!

Ya sabes dónde encontrarnos si vuelves a necesitar ayuda. E, igualmente, si quieres participar en la Comunidad y ayudar a otros usuarios con tus respuestas estaríamos encantados! Este es un foro abierto para todos.

Un saludo y buen día!

logo
 Diego López
 Spanish Digital Solutions Specialist
 Social Media and Communities Professional
 Comunidad Dell | @DellAyudaPro | Eventos en línea