VNX: Cómo reemplazar o reemplazar proactivamente una unidad de vault fallida o que está fallando en un arreglo VNX2. (Corregible por Dell EMC)
Summary: Cómo reemplazar o reemplazar proactivamente una unidad de vault fallida o que está fallando en un arreglo VNX2.
Symptoms
Una unidad de vault en un arreglo VNX MCx falló y se guardó en otra ubicación. Si el cliente había creado algunos LUN de usuario en las unidades de vault y desea mover esos datos de vuelta a la unidad de vault, ¿cómo se vuelven a transferir esos datos?
Con el repuesto permanente, no hay una operación de ecualización de reconstrucción automática. Cuando una unidad normal falla y se reemplaza, no se produce una operación de ecualización automática desde el repuesto permanente hasta la unidad reemplazada. La unidad que reemplazó a la unidad fallida ahora forma parte del grupo RAID.
Cuando se reemplaza una unidad de vault fallida, la nueva unidad se formatea y el espacio privado se reconstruye a partir de otras unidades de vault, pero si un cliente creó un grupo RAID/LUN en una unidad de vault, los datos de LUN no se vuelven a copiar. Permanece en la unidad en la que se reconstruyó. Para volver a copiar manualmente los datos a su ubicación original, debe usar el comando copytodisk naviseccli.
Información:
Las unidades de vault en VNX2 de última generación son las primeras 4 unidades del arreglo; 0_0, 0_1, 0_2 y 0_3.
Cada unidad de vault necesitará aproximadamente 300 GB de espacio en el sistema privado para contener el código MCx y otros datos relacionados con el arreglo.
Aunque no se recomienda poner LUN de clientes en las unidades de vault, algunos clientes sí lo hacen.
Cause
El VNX de última generación no iguala ni reconstruye los datos del cliente que se crearon en las unidades de vault. Cuando se reemplaza una unidad de vault, la nueva unidad se formatea y el espacio privado se reconstruye a partir de otras unidades de vault, perolos datos de LUN de otros usuarios no se vuelven a copiar. Para copiar manualmente los datos de vuelta a su ubicación original, deberá utilizar el comando naviseccli copytodisk.
Resolution
Situación 1: La unidad del vault falló y ya se guardó de manera permanente para otra unidad en el arreglo. Para ecualizar los datos del cliente a su ubicación de vault original, realice lo siguiente:
El comando copytodisk de naviseccli inicia la copia de datos de una unidad configurada (parte de un grupo RAID) a una unidad sin enlazar. El usuario puede usar este comando para copiar datos de cualquier disco enlazado a cualquier disco no enlazado, no solo de un repuesto permanente a una unidad de reemplazo.
En este ejemplo, copiamos de la unidad 0_1_5 a 0_0_2
naviseccli -h <ipaddress> copytodisk 0_1_5 0_0_2
PRECAUCIÓN: Los datos del disco de origen 0_1_5 se copiarán en el disco de destino 0_0_2. Este proceso no se puede anular y puede tardar mucho tiempo en completarse.
¿Desea continuar con la copia? (s/n) y
Se iniciará la operación Copy Back.
Situación 2: Los mensajes indican que la unidad está fallando. Cómo reemplazar proactivamente la unidad de vault defectuosa en las ranuras 0, 1, 2 y 3 en el bus 0
- Asegúrese de quitar todas las unidades sin enlazar en el arreglo. (Hacemos esto porque cualquier unidad sin enlazar puede convertirse en una unidad de repuesto permanente/hot spare en el arreglo VNX2)
- Compruebe las unidades en Unisphere o Naviseccli en la posición de ranura 0, 1, 2, 3 y asegúrese de que no haya una falla doble en este conjunto de unidades antes de continuar.
- Una vez transcurrido el temporizador de 5 minutos, inserte una nueva unidad en la ranura. La unidad debe extraerse durante al menos 5 minutos para que se produzca una reconstrucción completa de los LUN del cliente en la unidad de vault. Espere al menos 5 minutos**3 Quite de la ranura la unidad defectuosa o sospechosa que se reemplazará y
- La nueva unidad se conectará y la reconstrucción de sus LUN de usuario (si los LUN de usuario se configuraron en unidades de vault) se iniciarán desde las otras unidades de vault.
Nota** Es muy importante dejar la unidad extraída durante al menos 5 minutos
Flare permite que una unidad en un grupo RAID redundante esté offline durante un período de hasta 5 minutos mientras se registran las operaciones de I/O de escritura en esta unidad. Las I/O reales no se registran. Se utiliza un mapa de bits para realizar un seguimiento de los rangos de direcciones en la unidad que están alterados. Si se vuelve a acceder a la misma unidad dentro del límite de 5 minutos, el registro de reconstrucción se utilizará para realizar una reconstrucción rápida de la unidad, como en este caso. Esto se conoce como reconstrucción diferencial. Una vez que la unidad se haya quitado durante más de 5 minutos, se producirá una reconstrucción completa de los LUN de las otras unidades de vault. Si no hay LUN de usuario configurados en las unidades de vault, no habrá necesidad de reconstruir los LUN de usuario.