NetWorker: Solución de problemas de restablecimientos de SCSI y etiquetas sobrescritas en dispositivos de cinta

Resumen: En este artículo, se ayuda a los partidarios y administradores de respaldo a identificar las causas de los restablecimientos de SCSI que provocan la pérdida de datos en los volúmenes de cinta de NetWorker. ...

Este artículo se aplica a Este artículo no se aplica a Este artículo no está vinculado a ningún producto específico. No se identifican todas las versiones del producto en este artículo.

Síntomas

Algunos eventos que pueden provocar que se generen restablecimientos de SCSI en los dispositivos de cinta:

  • Cambios en la zonificación que permiten el acceso inesperado de hosts a dispositivos de cinta.
  • Cambios de zonificación que accidentalmente colocan varios iniciadores en una sola zona.
  • Cambios en la zonificación que colocan los destinos de disco y cinta en las mismas zonas.
  • Cambios en la zonificación que tienen iniciadores zonificados, incluso por separado, a destinos de cinta y disco.
  • Cambios en la zonificación que tienen incluso iniciadores separados, si están en el mismo HBA, zonificados a destinos de cinta y disco.
  • Eventos de alimentación o hardware SAN que no funciona correctamente.
  • Instalación o cambios en cualquier software en cualquier host zonificado que pueda realizar cualquier tipo de consulta o acceso a cinta.
  • Ajuste del sistema operativo, cambios de controlador o firmware para cualquier host zonificado.
  • Pérdida de datos para dispositivos de cinta físicos y virtuales
  • Volúmenes desmontables
  • Posibles problemas de robótica
  • Dispositivos con cambio de nombre para sistemas operativos Plug-n-Play

El protocolo SCSI permite que un iniciador pueda emitir un SCSI_RESET comando, que puede tener cualquiera de varios efectos según la clase de dispositivo al que se emite el restablecimiento y el estado en el que se encuentra ese dispositivo. Para los fines de este artículo, estamos analizando los restablecimientos emitidos a dispositivos de clase cinta. Para un dispositivo de clase de cinta, un SCSI_RESET No solo rompe las reservas, sino que también hace que el dispositivo de cinta se rebobine.

 

Por lo general, los restablecimientos son el resultado de una de dos condiciones: hardware que no funciona correctamente en el entorno de transporte (poco frecuente) o un proceso que intenta comunicarse con un dispositivo ocupado. Para esta última condición, el protocolo SCSI exige un restablecimiento cuando el dispositivo no responde a la solicitud del proceso.

 

El diseño de SCSI supone entornos simples de un solo descriptor de acceso donde un host y un proceso manejan todas las comunicaciones con un dispositivo. Los restablecimientos pueden ocurrir cuando varios hosts o procesos acceden a dispositivos SCSI debido a que los procesos no relacionados carecen de coordinación fuera de conjuntos de múltiples hosts, como NetWorker.

 

Los restablecimientos son perjudiciales en entornos de cinta, ya que un restablecimiento hace que una cinta se rewinde. La mayoría del software nunca espera que una cinta se rebobine durante el uso; Los controladores terminan de escribir y dejan la cinta en el final de datos (EOD) para la siguiente sesión. Los rebobinados inesperados causan daños al forzar un apéndice EOD previsto a comenzar a escribir, en lugar del comienzo físico de la cinta.

 

Los restablecimientos suelen ser difíciles de detectar. Los sistemas operativos UNIX pueden contener alguna indicación de un restablecimiento del sistema y registros de dispositivos; Por lo general, Windows no lo hace. De manera similar, NetWorker no detecta cuándo se produjo un restablecimiento y, debido a que un restablecimiento puede rebobinar una cinta, las etiquetas se pueden sobrescribir de manera accidental y silenciosa.

 

La siguiente secuencia de eventos muestra la estructura de una cinta después de que NetWorker etiqueta una cinta virtual o física y comienza a escribir en ella. Esto muestra dos bloques de etiqueta de 32 KB, bloques de datos de 256 KB, marcas de archivo entre sesiones y una marca de archivo doble que marca el final de datos lógico:

 Secuencia de la estructura de la etiqueta de cinta 

Esta representación muestra el comienzo físico de los medios, sin representación del final físico.

 

En esta etapa, el trabajo de NetWorker nsrmmd El proceso está a la espera de más datos, está conectado activamente al controlador y en la interfaz de usuario se refleja como "Escritura, Inactivo". Si algún otro proceso emite un restablecimiento de SCSI, el dispositivo se rebobina silenciosamente. Más sesiones de datos comienzan con este mismo nsrmmd, que sigue escribiendo, pero de Beginning Of Tape:

La escritura continúa desde el principio de la cinta

Ahora, la etiqueta se sobrescribe y los datos ocupan originalmente el tramo de cinta al principio. Incluso los datos que no se sobrescriben se vuelven inaccesibles debido a que la nueva marca de archivo doble/EOD lógico impide que la unidad siga leyendo.

Causa

Hay una cantidad relativamente grande de causas conocidas para los restablecimientos de SCSI:

  • Señales frecuentes de unidad de prueba lista (TUR) en sistemas operativos Microsoft (ejecución automática)
  • Otro software de respaldo configurado para utilizar la misma controladora de cinta.
  • Software de monitoreo que puede interrogar dispositivos de cinta o realizar escaneos completos de dispositivos de HBA.
  • Procesos o scripts individuales que acceden a controladores de cinta (mt, tar, algunos programas utilizados por udev etcétera).

Resolución

Los restablecimientos de SCSI son una instancia del entorno y no son causados por el software NetWorker. Para solucionar estos problemas, se deben investigar varias áreas. Si bien es posible que podamos ayudar a rastrear el problema, la causa está mucho más allá de la capacitación, la experiencia o los recursos del soporte de NetWorker.

Zonificación SAN

  • Como se indicó anteriormente, siga estas prácticas recomendadas de zonificación para facilitar la solución de problemas y la prevención de restablecimientos:
  • Solo los hosts de NetWorker de la misma zona de datos configurados para usar los dispositivos deben zonificarse (no incluya otras zonas de datos).
  • Se requiere zonificación de iniciador único; Se prefiere la zonificación 1:1; Es posible que el disco y la cinta no compartan la misma zona y, en el mejor de los casos, no sea el mismo iniciador o incluso HBA.
  • Idealmente, el tráfico de cinta y de disco debe separarse en el nivel del switch para obtener el mejor rendimiento y confiabilidad.

Procesos de host zonificados

  • Para cada host, compruebe si hay software, servicios o scripts instalados que puedan acceder a las unidades de cinta de cualquier manera.
  • Ningún otro software de respaldo de ningún tipo debe cohabitar con ningún servidor o nodo de almacenamiento de NetWorker.
  • No debe estar en ejecución ningún software de seguridad o monitoreo que intente comunicarse con dispositivos de cinta.

Configuración

del sistema operativo del host por zonasWindows

  • Asegurarse de que StorPort El controlador es actual.
  • Deshabilite la unidad de prueba Listo para el controlador de cinta: Archivo de la base de conocimientos de Microsoft Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies.
  • Los reinicios de un host de Windows pueden provocar restablecimientos a todos los dispositivos zonificados

Linux

  • No utilice udev reglas que utilizan utilidades que interrogan a las unidades en sí mismas (fuera de la caja udev se recomiendan reglas).
  • Habilite CDI y la función Reservas simples de las configuraciones del dispositivo.

Solaris

  • No utilice CDI con controladores ATape; como se espera y se recomienda encarecidamente CDI, se recomiendan controladores nativos en su lugar.

HP-UX

  • Deshabilitar dm_stape Módulo: Editar /var/stm/configuration/tools/monitor/dm_stape.cfg Para utilizar el valor POLL_INTERVAL=0 y reinicie EMS.
  • Asegurarse de que PHKL_40389 Se instaló el hot fix de cinta.
  • Asegúrese de que las reservas en el nivel del sistema operativo se restablezcan mediante la configuración del kernel ajustable st_san_safe=1.
  • Ejecutar scsimgr set_attr -d estape -a norewind_close_disabled=1.
  • Ejecutar scsimgr save_attr -d estape -a norewind_close_disabled=1.

AIX

  • Asegúrese de que las reservas estén desactivadas en el nivel del SO: /usr/sbin/chdev -l rmt<#> -a res_support=no.
  • Deshabilite la función de seguimiento dinámico de ATape.

Solución alternativa para la configuración de NetWorker Si, después de investigar y rectificar todos los puntos anteriores, no se puede identificar la causa y el problema persiste:

  1. Habilite la CDI en los dispositivos de cinta (comandos SCSI) y las reservas persistentes en todos los dispositivos de cinta de la zona de datos.
  2. Habilite también las reservas de SCSI (idealmente persistente/SCSI-3) en los sistemas operativos del filer (póngase en contacto con el proveedor para obtener más información).

Esta solución alternativa no es ideal y normalmente no debería ser necesaria, pero puede ofrecer un alivio parcial cuando no se puede identificar la causa raíz.

Análisis forense de NetWorker

  • Las cintas afectadas no se montan y NetWorker las marca como "sin etiquetar" (aunque las entradas de la base de datos de medios permanecen intactas, pero incorrectas).
  • Es posible que los volúmenes contengan una cantidad excesivamente grande de datos (debido a múltiples rebobinados no detectados).
  • Los respaldos que fallan con el error de que las cintas se marcan como "completas prematuramente" pueden indicar restablecimientos de SCSI a mitad de escritura.
  • Las primeras 20 líneas de NetWorker son la prueba más clara de que se están produciendo restablecimientos de SCSI:
    • Número de archivo inesperado, se busca 2, obtuve34 (el número real puede variar).
  • Es posible que pueda determinar cuándo se produjo el restablecimiento comparando el número obtenido en el error:
    • Savesets mostrados por mminfo con un valor de mediafile más bajo de ese número, menos 3, son aquellos que terminaron de escribir antes de que se produjera el restablecimiento, y cuya finalización condujo al período de escritura e inactividad en el que se llevó a cabo el restablecimiento: el sscomp(22) mminfo es antes del restablecimiento.
    • Savesets mostrados por mminfo con un valor de mediafile más bajo de ese número, menos 2, son aquellos que comenzaron a escribir después de que se produjo el restablecimiento y que se iniciaron durante el período de escritura inactiva (después de que se haya realizado el restablecimiento): el ssccreate(22) mminfo es después del restablecimiento.
  • El host que realiza la escritura en ese momento no es necesariamente el iniciador de restablecimiento; puede ser un host independiente con software diferente zonificado al dispositivo, interferencia de software local u otros problemas en el nivel de controlador o SAN.

Información adicional

Este artículo forma parte de una serie de Solución de problemas de medios con NetWorker. La lista está aquí:
NetWorker: Página principal de Solución de problemas de librerías de cintas

Productos afectados

NetWorker, NetWorker Series
Propiedades del artículo
Número del artículo: 000015834
Tipo de artículo: Solution
Última modificación: 24 mar 2026
Versión:  4
Encuentre respuestas a sus preguntas de otros usuarios de Dell
Servicios de soporte
Compruebe si el dispositivo está cubierto por los servicios de soporte.