Cet article présente les étapes de dépannage en cas de blocs défectueux (perforations) sur les disques durs des serveurs PowerEdge équipés de contrôleurs PERC. Les informations suivantes peuvent vous aider à rétablir un disque virtuel affecté à un état optimal, en particulier lorsqu’aucune sauvegarde n’est possible.
OpenManage Server Administrator (OMSA) affiche une croix rouge devant un disque virtuel (Figure 1).
Figure 1 : Disque virtuel avec une croix rouge dans la colonne Status (exemple H800)
Le journal système de Windows affiche des erreurs de bloc défectueux (Figure 2).
Figure 2 : Erreur de bloc défectueux dans le journal système Windows
Le journal du contrôleur RAID (TTYLOG) affiche des erreurs telles que :
02/26/15 13:43:39: EVT#131878-02/26/15 13:43:39: 97=Puncturing bad block on PD XX(e0x20/s2) at 180ca4a1f
Vous trouverez plus d’informations sur la réception de ces journaux spécifiques dans notre article sur la collecte de journaux.
Les systèmes RAID ne sont pas à l’abri des erreurs de données. Le contrôleur RAID et le micrologiciel du disque dur contiennent des fonctions permettant de détecter et de corriger de nombreux types d’erreurs de données, avant qu’elles ne soient écrites sur un disque ou une matrice. Utiliser un firmware obsolète peut entraîner l’écriture de données incorrectes sur un disque ou une baie, car le firmware ne dispose pas des fonctionnalités de gestion et de correction des erreurs disponibles dans les dernières versions.
Les erreurs de données peuvent également être provoquées par des blocs physiques défectueux. Par exemple, une erreur peut se produire lorsque la tête de lecture/écriture impacte le plateau tournant (cela s’appelle également une « panne de la tête »). Les blocs peuvent également devenir défectueux avec le temps, à cause de la dégradation de la capacité du plateau à stocker magnétiquement des bits dans un emplacement spécifique. Souvent, les blocs devenus défectueux à cause de la dégradation du plateau peuvent être lus correctement. Un bloc ainsi endommagé peut n’être détecté que par intermittence ou en effectuant des diagnostics étendus sur les disques.
Un bloc, également appelé adressage de blocs logiques (LBA), peut également devenir défectueux à cause d’erreurs de données logiques. Cela se produit lorsque les données sont écrites de manière incorrecte sur un disque, même si l’opération d’écriture est signalée comme réussie. En outre, des données exactes stockées sur un disque peuvent être modifiées par inadvertance. Une « inversion de bit » peut par exemple se produire lorsque la tête de lecture/écriture passe sur ou écrit sur un emplacement à proximité et provoque un changement de valeur des données, qui passent de 0 à 1 et vice versa. Dans cette situation, la « cohérence » des données est altérée. La valeur des données sur un bloc spécifique est différente de celle des données d’origine et peut ne pas correspondre à la somme de contrôle des données. Le LBA physique fonctionne et les opérations d’écriture peuvent s’effectuer sans problème, mais il contient des données incorrectes et peut être interprété comme un bloc défectueux.
Pour plus d’informations, lisez notre article Doubles défaillances dans les systèmes RAID.
Créez une sauvegarde des données validée au niveau des fichiers.
Assurez-vous que tous les disques défectueux affichant des pannes prédictives sont remplacés.
Supprimez et recréez le disque virtuel.
Effectuez une initialisation complète du disque virtuel.
Effectuez une vérification de la cohérence du nouveau disque virtuel créé.
Les données peuvent maintenant être restaurées sur le disque virtuel sain.
Recommandation : mettez à niveau tous les firmwares de disques durs vers la version la plus récente.
OMSA permet d’effacer les avertissements concernant les blocs défectueux. Pour effacer les blocs défectueux, nous vous recommandons de procéder comme suit :
Lors de l’exécution d’une sauvegarde du disque virtuel avec l’option Verify sélectionnée, deux scénarios peuvent se produire :
Exécutez Patrol Read (sous Virtual Disk Tasks dans OMSA) et consultez le journal des événements système pour vous assurer qu’aucun nouveau bloc défectueux n’est détecté. Si des blocs défectueux existent encore, passez à l’étape suivante. Sinon, le problème est supprimé.
Pour effacer ces blocs défectueux, exécutez la tâche Clear Virtual Disk Bad Blocks. Vous pouvez effectuer cette opération dans l’interface graphique d’OMSA ou utiliser la commande de la CLI :
omconfig storage vdisk action=clearvdbadblocks controller=id vdisk=id
omreport storage controller
pour afficher les ID du contrôleur, puis saisissez omreport storage vdisk controller=ID
pour afficher les ID de disques virtuels.