Avamar: Hardware de 4.ª generación: Cómo abordar diversos eventos y errores del disco
Summary: En este artículo, se abordan muchos de los errores comunes relacionados con el disco informados en un nodo Gen4S, junto con las acciones necesarias.
Symptoms
Se observan eventos similares a los siguientes en la interfaz del usuario o los archivos de registro:
Controller ID: 0 Unexpected sense: PD = Port 0 - 3:2:n Information unit CRC error detected, CDB = 0x28 0x00 0xb6 0x77 0xc3 0x07 0x00 0x01 0xd0 0x00, Sense = 0x70 0x00 0x0b 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x47 0x03 0x00 0x00 0x00 0x00
Controller ID: 0 Unexpected sense: PD = Port 0 - 3:2:n Unrecovered read error, CDB = 0x28 0x00 0xd2 0x91 0xe0 0xf7 0x00 0x00 0x40 0x00, Sense = 0xf0 0x00 0x03 0xd2 0x91 0xe0 0xf7 0x0a 0x00 0x00 0x00 0x00 0x11 0x00 0x00 0x00 0x00 0x00
Controller ID: 0 Unexpected sense: PD = Port 0 - 3:2:n Hardware impending failure general hard drive failure, CDB = 0x03 0x00 0x00 0x00 0x40 0x00, Sense = 0x70 0x00 0x00 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x5d 0x10 0x00 0x00 0x00 0x00
Controller ID: 0 PD Reset: PD = Port 0 - 3:2:n, Error = 3, Path = 0x5001234567890
Controller ID: 0 Unexpected sense: PD = -:-:n Recovered data - recommended rewrite, CDB = 0x2f 0x00 0x01 0x09 0x80 0x00 0x00 0x10 0x00 0x00, Sense = 0xf0 0x00 0x01 0x01 0x09 0x8f 0xed 0x18 0x00 0x00 0x00 0x00 0x18 0x06 0x00 0x80 0x09 0x19
Controller ID: 0 Command timeout on PD: PD = Port 0 - 3:2:n No additional sense information, CDB = 0xff 0xff 0xff 0xff 0xff 0xff 0xff 0xff 0xff 0xff 0xff 0xff 0xff 0xff 0xff 0xff, Sense = , Path = 0x5001234567890
Controller ID: 0 Unexpected sense: PD = Port 0 - 3:2:n Logical block address out of range, CDB = 0x2a 0x00 0xac 0x64 0xcd 0xe6 0x00 0x00 0x08 0x00, Sense = 0xf0 0x00 0x05 0xac 0x64 0xcd 0xe6 0x0a 0x00 0x00 0x00 0x00 0x21 0x00 0x00 0x00 0x00 0x00
Controller ID: 0 Unexpected sense: PD = Port 0 - 3:2:n Power on, reset, or bus device reset occurred, CDB = 0x2a 0x00 0x41 0xab 0x7a 0x00 0x00 0x00 0x80 0x00, Sense = 0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00
Controller ID: 0 PD Predictive failure: Port 0 - 3:2:n
-
- 3:2:0 - 3:2:11 o -:-:0 - -:-:11 son los discos estándar internos
- 3:2:12 o -:-:12 es el disco SSD interno.
Cause
Consulte la sección de resolución para conocer las causas y acciones.
Resolution
1. Inicie sesión como administrador en Avamar Utility Node.
2. Eleve al privilegio raíz.
3. Cargue las claves raíz según el artículo Avamar: Cómo iniciar sesión en Avamar Server y cargar varias claves.
4. Mediante la información del evento de interfaz de usuario o la solicitud de servicio dial-home, determine el nodo que produjo el mensaje de error.
5. Conéctese al nodo como raíz mediante el siguiente comando:
ssn 0.# --user=root
(donde 0.# es el número de nodos físicos)
6. En el nodo afectado:
un. Compruebe el estado actual de los discos:
avsysreport pdisk
b. Revise el /var/log/messages File para los eventos relacionados con el disco que informa el evento.
Acciones necesarias basadas en los eventos registrados:
- Para el evento "Datos recuperados: reescritura recomendada":
- Si el disco no informó otros eventos, esto se puede ignorar de manera segura
- Si hay otros eventos, como un "Error de lectura no recuperado", comuníquese con Dell Technologies para determinar si el disco se debe reemplazar proactivamente.
- Para el evento "Dirección de bloque lógico fuera de rango":
- Si el disco no informó otros eventos, esto se puede ignorar de manera segura
- Si hay otros eventos, como un "Error de lectura no recuperado", comuníquese con Dell Technologies para determinar si el disco se debe reemplazar proactivamente.
- Para el evento "Unrecovered read error":
- Si el evento se repite más de tres veces en un solo disco, es posible que el disco en cuestión tenga un problema de integridad. Póngase en contacto con Dell Technologies para determinar si el disco se debe reemplazar proactivamente.
- Para el evento "Error de CRC de la unidad de información detectado":
- Si el disco que informa el evento es 3:2:12, indica que la SSD está fallando. Póngase en contacto con Dell Technologies para reemplazar el nodo mediante el procedimiento de trasplante de nodo.
- Si el disco que informa el evento es 3:2:0-3:2:11, indica que el disco duro está fallando. Póngase en contacto con Dell Technologies para reemplazar el disco proactivamente.
- Para el evento "Falla de hardware inminente falla general del disco duro":
-
- Si el disco que informa el evento es 3:2:12, la SSD está fallando (o ha fallado). Póngase en contacto con Dell Technologies para reemplazar el nodo mediante el procedimiento de trasplante de nodo.
- Si el disco que informa el evento es 3:2:0-3:2:11, el disco duro está fallando (o ha fallado). Póngase en contacto con Dell Technologies para reemplazar el disco proactivamente.
- Para el evento "Falla predictiva:
- Si el disco que informa el evento es 3:2:12, la SSD informó una precaución de falla predictiva a través de la función SMART e indica que la SSD está fallando. Póngase en contacto con Dell Technologies para reemplazar el nodo mediante el procedimiento de trasplante de nodo.
- Si el disco que informa el evento es 3:2:0-3:2:11, el disco duro informó una precaución de falla predictiva a través de la función SMART e indica que el disco duro está fallando. Póngase en contacto con Dell Technologies para reemplazar el disco proactivamente.
- Para el evento "Encendido, restablecimiento o se produjo el restablecimiento del dispositivo de bus":
- Consulte
/var/log/messagespara comprobar si un solo disco o varios discos informan el error.- Si un solo disco informa el error, es posible que se relacione con las comprobaciones de coherencia semanales. Póngase en contacto con Dell Technologies para determinar si el disco se debe reemplazar proactivamente.
- Si varios discos informan el error, el firmware del expansor está desactualizado o el chasis está en un estado fallido o fallando. Póngase en contacto con Dell Technologies para revisar los niveles de firmware o reemplazar el nodo mediante el procedimiento de trasplante de nodo.
- Consulte
- Para el evento "PD Reset":
- Consulte
/var/log/messagespara comprobar si un solo disco o varios discos informan el error.- Si el disco se reemplazó recientemente, este mensaje es esperable y se puede ignorar.
- Si la unidad no se ha reemplazado y reconstruido por sí sola, es posible que la unidad esté fallando o fallando. Póngase en contacto con Dell Technologies para reemplazar el disco proactivamente.
- Consulte
- Para los eventos "Tiempo de espera agotado del comando en PD" o cualquier otro error que aún no se haya mencionado, comuníquese con Dell Technologies para determinar el siguiente curso de acción.