NetWorker : Dépannage des réinitialisations SCSI et des étiquettes écrasées sur les lecteurs de bande
Résumé: Cet article aide les partisans et les administrateurs de sauvegarde à identifier les causes des réinitialisations SCSI qui entraînent une perte de données sur les volumes de bande NetWorker. ...
Symptômes
Certains événements peuvent entraîner la génération de réinitialisations SCSI sur des unités de bande :
- Modifications de zonage qui permettent à des hôtes inattendus d’accéder aux unités de bande.
- Modifications de zonage qui placent accidentellement plusieurs initiateurs dans une seule zone.
- Modifications de zonage qui placent les cibles de disque et de bande dans les mêmes zones.
- Modifications de zonage dans lesquelles les initiateurs sont zonés, même séparément, sur des cibles de bande et de disque.
- Modifications de zonage qui ont même des initiateurs distincts, s’ils se trouvent sur le même adaptateur HBA, zonés sur des cibles de bande et de disque.
- Événements d’alimentation ou matériel SAN défectueux.
- Installation ou modification de tout logiciel sur un hôte zoné qui peut effectuer tout type de demande ou d’accès à la bande.
- Modifications paramétrables du système d’exploitation, du pilote ou du firmware pour n’importe quel hôte zoné.
- Perte de données pour les lecteurs de bandes virtuels et physiques
- Volumes démontables
- Problèmes potentiels liés à la robotique
- Périphériques renommés pour les systèmes d’exploitation Plug-n-Play
Le protocole SCSI permet à un initiateur d’émettre un SCSI_RESET , qui peut avoir l’un des effets suivants en fonction de la classe d’appareil vers laquelle la réinitialisation est effectuée et de l’état de l’appareil. Dans le cadre de cet article, nous abordons les réinitialisations émises sur les appareils de classe bande. Pour un lecteur de bandes, un attribut SCSI_RESET Non seulement les réservations sont rompues, mais elles entraînent également le rembobinage du lecteur de bandes.
Les réinitialisations sont généralement le résultat de l’une des deux conditions suivantes : matériel défectueux dans l’environnement de transport (rare) ou processus tentant de communiquer avec un périphérique occupé. Pour cette dernière condition, le protocole SCSI exige une réinitialisation lorsque l’appareil ne répond pas à la demande du processus.
La conception SCSI suppose des environnements simples à accès unique où un hôte et un processus gèrent toutes les communications avec un périphérique. Des réinitialisations peuvent se produire lorsque plusieurs hôtes ou processus accèdent à des périphériques SCSI, car des processus non liés manquent de coordination en dehors des suites multihôtes telles que NetWorker.
Les réinitialisations sont dommageables dans les environnements de bande, car une réinitialisation entraîne le rembobinage d’une bande. La plupart des logiciels ne s’attendent jamais à ce qu’une bande se rembobine pendant l’utilisation ; Les pilotes terminent l’écriture et laissent la bande à la fin des données (EOD) pour la session suivante. Les rembobinages inattendus causent des dommages en forçant une annexe EOD prévue à commencer l’écriture à partir du début physique de la bande.
Les réinitialisations sont souvent difficiles à détecter. Les systèmes d’exploitation UNIX peuvent contenir des indications de réinitialisation du système et des journaux de périphérique ; Ce n’est généralement pas le cas de Windows. De même, NetWorker ne détecte pas quand une réinitialisation s’est produite et, comme une réinitialisation peut rembobiner une bande, les étiquettes peuvent être écrasées par inadvertance et en silence.
La séquence d’événements suivante présente la structure d’une bande une fois que NetWorker a labellisé et commencé à écrire sur une bande virtuelle ou physique. Cela montre deux blocs d’étiquettes de 32 Ko, des blocs de données de 256 Ko, des marques de fichier entre les sessions et une double marque de fichier marquant la fin logique des données :
Cette représentation montre le début physique du média, sans représentation de la fin physique.
À ce stade, l’option de NetWorker nsrmmd Le processus attend plus de données, est activement connecté au pilote et s’affiche dans l’interface utilisateur comme 'Writing, Idle'. Si une réinitialisation SCSI est émise par un autre processus, le périphérique revient en arrière, en mode silencieux. D’autres sessions de données commencent par cette même nsrmmd, qui continue d’écrire, mais à partir du début de la bande :

Maintenant, l’étiquette est écrasée et les données occupaient à l’origine la bande au début. Même les données qui ne sont pas écrasées deviennent inaccessibles, car le nouveau double marquage de fichier/EOD logique empêche le lecteur de poursuivre la lecture.
Cause
Il existe un nombre relativement important de causes connues pour les réinitialisations SCSI :
- Signaux TUR (Frequent Test Unit Ready) sur les systèmes d’exploitation Microsoft (exécution automatique)
- Autre logiciel de sauvegarde configuré pour utiliser le même pilote de bande.
- Logiciel de surveillance qui peut interroger les lecteurs de bandes ou effectuer des analyses complètes des périphériques HBA.
- Processus ou scripts individuels accédant aux pilotes de bande (
mt,tar, certains programmes utilisés parudevet ainsi de suite).
Résolution
Zonage SAN
- Comme indiqué précédemment, suivez ces pratiques d’excellence en matière de zonage pour faciliter le dépannage et éviter les réinitialisations :
- Seuls les hôtes NetWorker d’une même zone de données configurée pour utiliser les périphériques doivent faire l’objet d’une segmentation (n’incluez pas d’autres zones de données).
- Un zonage à initiateur unique est requis ; Le zonage 1:1 est préférable ; Il se peut qu’un disque et une bande ne partagent pas la même zone et, idéalement, qu’ils ne partagent pas le même initiateur ou même le même adaptateur HBA.
- Idéalement, le trafic des bandes et des disques doit être séparé au niveau du commutateur pour des performances et une fiabilité optimales.
Processus d’hôte zoné
- Pour chaque hôte, recherchez les logiciels, services ou scripts installés susceptibles d’accéder aux lecteurs de bande d’une manière ou d’une autre.
- Aucun autre logiciel de sauvegarde, quel qu’il soit, ne doit cohabiter avec un nœud de stockage ou un serveur NetWorker.
- Aucun logiciel de sécurité ou de surveillance ne doit être en cours d’exécution pour tenter de communiquer avec les lecteurs de bandes.
Configuration
du système d’exploitation hôte zonéWindows
- Assurer
StorPortLe pilote est à jour. - Désactivez l’option Unité de test prête pour le pilote de bande : Archive de la base de connaissances Microsoft
- Les redémarrages d’un hôte Windows peuvent provoquer des réinitialisations sur tous les appareils zonés
Linux
- Ne pas utiliser
udevrègles qui utilisent tous les utilitaires qui interrogent les lecteurs eux-mêmes (prêts à l’emploiudevrègles sont recommandées). - Activez CDI et la fonction Simple Reservations dans les configurations d’appareils.
Solaris
- N’utilisez pas le CDI avec les pilotes ATape ; étant donné que la CDI est attendue et fortement recommandée, les pilotes natifs sont recommandés à la place.
HP-UX
- Désactivez
dm_stapeModule: Modifier/var/stm/configuration/tools/monitor/dm_stape.cfgpour utiliser la valeurPOLL_INTERVAL=0et redémarrez EMS. - Assurer
PHKL_40389Le hot fix de bande est installé. - Assurez-vous que les réservations au niveau du système d’exploitation sont réinitialisées en définissant le noyau réglable
st_san_safe=1. - Exécutez
scsimgr set_attr -d estape -a norewind_close_disabled=1. - Exécutez
scsimgr save_attr -d estape -a norewind_close_disabled=1.
AIX
- Assurez-vous que les réservations sont désactivées au niveau du système d’exploitation :
/usr/sbin/chdev -l rmt<#> -a res_support=no. - Désactivez la fonctionnalité de suivi dynamique ATape.
Solution de contournement de la configuration de NetWorker Si, après que les points ci-dessus ont tous été examinés et corrigés, la cause ne peut pas être identifiée et que le problème persiste :
- Activez la CDI sur vos unités de bande (commandes SCSI) et les réservations persistantes sur toutes les unités de bande de votre zone de données.
- Activez également les réservations SCSI (idéalement persistantes/SCSI-3) sur les systèmes d’exploitation de votre serveur de fichiers (contactez le fournisseur pour plus d’informations).
Cette solution n’est pas idéale et ne devrait normalement pas être nécessaire, mais elle peut offrir un soulagement partiel lorsque la cause première ne peut pas être identifiée.
NetWorker Forensics
- Les bandes affectées ne peuvent pas être montées et sont marquées comme « non étiquetées » par NetWorker (bien que les entrées de la base de données des supports restent intactes, mais incorrectes).
- Les volumes peuvent sembler contenir une quantité de données excessivement élevée (en raison de multiples rembobinages non détectés).
- L’échec d’une sauvegarde avec l’erreur « Tapes are being marked full prematurely » peut indiquer des réinitialisations SCSI en cours d’écriture.
- Les 20 premières lignes de NetWorker sont la preuve la plus évidente que des réinitialisations SCSI se produisent :
- Numéro de dossier inattendu, j’en voulais 2, j’en ai obtenu34 (le nombre réel peut varier).
- Vous pouvez être en mesure de déterminer quand la réinitialisation s’est produite en comparant le nombre obtenu dans l’erreur :
- Savesets affichés par
mminfoavec une valeur mediafile la plus basse de ce nombre, moins 3, sont ceux qui ont terminé l’écriture avant que la réinitialisation ne se produise, et dont l’achèvement a conduit à l’écriture, période d’inactivité lorsque la réinitialisation a eu lieu - lesscomp(22)mminfoLa valeur est avant la réinitialisation. - Savesets affichés par
mminfoavec une valeur mediafile la plus basse de ce nombre, moins 2, sont ceux qui ont commencé à écrire après la réinitialisation, et qui ont démarré pendant la période d’inactivité d’écriture (après que la réinitialisation ait eu lieu) - lessccreate(22)mminfoLa valeur est après la réinitialisation.
- Savesets affichés par
- L’hôte effectuant l’écriture à ce moment-là n’est pas nécessairement l’initiateur de réinitialisation ; Il peut s’agir d’un hôte distinct avec un logiciel différent qui est zoné sur l’appareil, d’interférences logicielles locales ou d’autres problèmes au niveau du pilote ou du SAN.
Informations supplémentaires
Cet article fait partie d’une série de la section Dépannage des problèmes de support avec NetWorker. La liste est la suivante :
NetWorker : Page d’accueil du dépannage des bibliothèques de bandes