NetWorker : Dépannage des réinitialisations SCSI et des étiquettes écrasées sur les lecteurs de bande

Résumé: Cet article aide les partisans et les administrateurs de sauvegarde à identifier les causes des réinitialisations SCSI qui entraînent une perte de données sur les volumes de bande NetWorker. ...

Cet article concerne Cet article ne concerne pas Cet article n’est associé à aucun produit spécifique. Toutes les versions du produit ne sont pas identifiées dans cet article.

Symptômes

Certains événements peuvent entraîner la génération de réinitialisations SCSI sur des unités de bande :

  • Modifications de zonage qui permettent à des hôtes inattendus d’accéder aux unités de bande.
  • Modifications de zonage qui placent accidentellement plusieurs initiateurs dans une seule zone.
  • Modifications de zonage qui placent les cibles de disque et de bande dans les mêmes zones.
  • Modifications de zonage dans lesquelles les initiateurs sont zonés, même séparément, sur des cibles de bande et de disque.
  • Modifications de zonage qui ont même des initiateurs distincts, s’ils se trouvent sur le même adaptateur HBA, zonés sur des cibles de bande et de disque.
  • Événements d’alimentation ou matériel SAN défectueux.
  • Installation ou modification de tout logiciel sur un hôte zoné qui peut effectuer tout type de demande ou d’accès à la bande.
  • Modifications paramétrables du système d’exploitation, du pilote ou du firmware pour n’importe quel hôte zoné.
  • Perte de données pour les lecteurs de bandes virtuels et physiques
  • Volumes démontables
  • Problèmes potentiels liés à la robotique
  • Périphériques renommés pour les systèmes d’exploitation Plug-n-Play

Le protocole SCSI permet à un initiateur d’émettre un SCSI_RESET , qui peut avoir l’un des effets suivants en fonction de la classe d’appareil vers laquelle la réinitialisation est effectuée et de l’état de l’appareil. Dans le cadre de cet article, nous abordons les réinitialisations émises sur les appareils de classe bande. Pour un lecteur de bandes, un attribut SCSI_RESET Non seulement les réservations sont rompues, mais elles entraînent également le rembobinage du lecteur de bandes.

 

Les réinitialisations sont généralement le résultat de l’une des deux conditions suivantes : matériel défectueux dans l’environnement de transport (rare) ou processus tentant de communiquer avec un périphérique occupé. Pour cette dernière condition, le protocole SCSI exige une réinitialisation lorsque l’appareil ne répond pas à la demande du processus.

 

La conception SCSI suppose des environnements simples à accès unique où un hôte et un processus gèrent toutes les communications avec un périphérique. Des réinitialisations peuvent se produire lorsque plusieurs hôtes ou processus accèdent à des périphériques SCSI, car des processus non liés manquent de coordination en dehors des suites multihôtes telles que NetWorker.

 

Les réinitialisations sont dommageables dans les environnements de bande, car une réinitialisation entraîne le rembobinage d’une bande. La plupart des logiciels ne s’attendent jamais à ce qu’une bande se rembobine pendant l’utilisation ; Les pilotes terminent l’écriture et laissent la bande à la fin des données (EOD) pour la session suivante. Les rembobinages inattendus causent des dommages en forçant une annexe EOD prévue à commencer l’écriture à partir du début physique de la bande.

 

Les réinitialisations sont souvent difficiles à détecter. Les systèmes d’exploitation UNIX peuvent contenir des indications de réinitialisation du système et des journaux de périphérique ; Ce n’est généralement pas le cas de Windows. De même, NetWorker ne détecte pas quand une réinitialisation s’est produite et, comme une réinitialisation peut rembobiner une bande, les étiquettes peuvent être écrasées par inadvertance et en silence.

 

La séquence d’événements suivante présente la structure d’une bande une fois que NetWorker a labellisé et commencé à écrire sur une bande virtuelle ou physique. Cela montre deux blocs d’étiquettes de 32 Ko, des blocs de données de 256 Ko, des marques de fichier entre les sessions et une double marque de fichier marquant la fin logique des données :

 Séquence de la structure des libellés de bande 

Cette représentation montre le début physique du média, sans représentation de la fin physique.

 

À ce stade, l’option de NetWorker nsrmmd Le processus attend plus de données, est activement connecté au pilote et s’affiche dans l’interface utilisateur comme 'Writing, Idle'. Si une réinitialisation SCSI est émise par un autre processus, le périphérique revient en arrière, en mode silencieux. D’autres sessions de données commencent par cette même nsrmmd, qui continue d’écrire, mais à partir du début de la bande :

L’écriture se poursuit depuis le début de la bande

Maintenant, l’étiquette est écrasée et les données occupaient à l’origine la bande au début. Même les données qui ne sont pas écrasées deviennent inaccessibles, car le nouveau double marquage de fichier/EOD logique empêche le lecteur de poursuivre la lecture.

Cause

Il existe un nombre relativement important de causes connues pour les réinitialisations SCSI :

  • Signaux TUR (Frequent Test Unit Ready) sur les systèmes d’exploitation Microsoft (exécution automatique)
  • Autre logiciel de sauvegarde configuré pour utiliser le même pilote de bande.
  • Logiciel de surveillance qui peut interroger les lecteurs de bandes ou effectuer des analyses complètes des périphériques HBA.
  • Processus ou scripts individuels accédant aux pilotes de bande (mt, tar, certains programmes utilisés par udev et ainsi de suite).

Résolution

Les réinitialisations SCSI sont un événement environnemental qui n’est pas dû au logiciel NetWorker. Afin de résoudre ces problèmes, plusieurs domaines doivent être étudiés. Bien que nous puissions vous aider à localiser le problème, la cause est largement indépendante de la formation, de l’expérience ou des ressources du support NetWorker.

Zonage SAN

  • Comme indiqué précédemment, suivez ces pratiques d’excellence en matière de zonage pour faciliter le dépannage et éviter les réinitialisations :
  • Seuls les hôtes NetWorker d’une même zone de données configurée pour utiliser les périphériques doivent faire l’objet d’une segmentation (n’incluez pas d’autres zones de données).
  • Un zonage à initiateur unique est requis ; Le zonage 1:1 est préférable ; Il se peut qu’un disque et une bande ne partagent pas la même zone et, idéalement, qu’ils ne partagent pas le même initiateur ou même le même adaptateur HBA.
  • Idéalement, le trafic des bandes et des disques doit être séparé au niveau du commutateur pour des performances et une fiabilité optimales.

Processus d’hôte zoné

  • Pour chaque hôte, recherchez les logiciels, services ou scripts installés susceptibles d’accéder aux lecteurs de bande d’une manière ou d’une autre.
  • Aucun autre logiciel de sauvegarde, quel qu’il soit, ne doit cohabiter avec un nœud de stockage ou un serveur NetWorker.
  • Aucun logiciel de sécurité ou de surveillance ne doit être en cours d’exécution pour tenter de communiquer avec les lecteurs de bandes.

Configuration

du système d’exploitation hôte zonéWindows

  • Assurer StorPort Le pilote est à jour.
  • Désactivez l’option Unité de test prête pour le pilote de bande : Archive de la base de connaissances Microsoft Ce lien hypertexte renvoie à un site Web extérieur à Dell Technologies.
  • Les redémarrages d’un hôte Windows peuvent provoquer des réinitialisations sur tous les appareils zonés

Linux

  • Ne pas utiliser udev règles qui utilisent tous les utilitaires qui interrogent les lecteurs eux-mêmes (prêts à l’emploi udev règles sont recommandées).
  • Activez CDI et la fonction Simple Reservations dans les configurations d’appareils.

Solaris

  • N’utilisez pas le CDI avec les pilotes ATape ; étant donné que la CDI est attendue et fortement recommandée, les pilotes natifs sont recommandés à la place.

HP-UX

  • Désactivez dm_stape Module: Modifier /var/stm/configuration/tools/monitor/dm_stape.cfg pour utiliser la valeur POLL_INTERVAL=0 et redémarrez EMS.
  • Assurer PHKL_40389 Le hot fix de bande est installé.
  • Assurez-vous que les réservations au niveau du système d’exploitation sont réinitialisées en définissant le noyau réglable st_san_safe=1.
  • Exécutez scsimgr set_attr -d estape -a norewind_close_disabled=1.
  • Exécutez scsimgr save_attr -d estape -a norewind_close_disabled=1.

AIX

  • Assurez-vous que les réservations sont désactivées au niveau du système d’exploitation : /usr/sbin/chdev -l rmt<#> -a res_support=no.
  • Désactivez la fonctionnalité de suivi dynamique ATape.

Solution de contournement de la configuration de NetWorker Si, après que les points ci-dessus ont tous été examinés et corrigés, la cause ne peut pas être identifiée et que le problème persiste :

  1. Activez la CDI sur vos unités de bande (commandes SCSI) et les réservations persistantes sur toutes les unités de bande de votre zone de données.
  2. Activez également les réservations SCSI (idéalement persistantes/SCSI-3) sur les systèmes d’exploitation de votre serveur de fichiers (contactez le fournisseur pour plus d’informations).

Cette solution n’est pas idéale et ne devrait normalement pas être nécessaire, mais elle peut offrir un soulagement partiel lorsque la cause première ne peut pas être identifiée.

NetWorker Forensics

  • Les bandes affectées ne peuvent pas être montées et sont marquées comme « non étiquetées » par NetWorker (bien que les entrées de la base de données des supports restent intactes, mais incorrectes).
  • Les volumes peuvent sembler contenir une quantité de données excessivement élevée (en raison de multiples rembobinages non détectés).
  • L’échec d’une sauvegarde avec l’erreur « Tapes are being marked full prematurely » peut indiquer des réinitialisations SCSI en cours d’écriture.
  • Les 20 premières lignes de NetWorker sont la preuve la plus évidente que des réinitialisations SCSI se produisent :
    • Numéro de dossier inattendu, j’en voulais 2, j’en ai obtenu34 (le nombre réel peut varier).
  • Vous pouvez être en mesure de déterminer quand la réinitialisation s’est produite en comparant le nombre obtenu dans l’erreur :
    • Savesets affichés par mminfo avec une valeur mediafile la plus basse de ce nombre, moins 3, sont ceux qui ont terminé l’écriture avant que la réinitialisation ne se produise, et dont l’achèvement a conduit à l’écriture, période d’inactivité lorsque la réinitialisation a eu lieu - le sscomp(22) mminfo La valeur est avant la réinitialisation.
    • Savesets affichés par mminfo avec une valeur mediafile la plus basse de ce nombre, moins 2, sont ceux qui ont commencé à écrire après la réinitialisation, et qui ont démarré pendant la période d’inactivité d’écriture (après que la réinitialisation ait eu lieu) - le ssccreate(22) mminfo La valeur est après la réinitialisation.
  • L’hôte effectuant l’écriture à ce moment-là n’est pas nécessairement l’initiateur de réinitialisation ; Il peut s’agir d’un hôte distinct avec un logiciel différent qui est zoné sur l’appareil, d’interférences logicielles locales ou d’autres problèmes au niveau du pilote ou du SAN.

Informations supplémentaires

Cet article fait partie d’une série de la section Dépannage des problèmes de support avec NetWorker. La liste est la suivante :
NetWorker : Page d’accueil du dépannage des bibliothèques de bandes

Produits concernés

NetWorker, NetWorker Series
Propriétés de l’article
Numéro d’article: 000015834
Type d’article: Solution
Dernière modification: 24 mars 2026
Version:  4
Trouvez des réponses à vos questions auprès d’autres utilisateurs Dell
Services de support
Vérifiez si votre appareil est couvert par les services de support.