Un disque peut nécessiter un remplacement en raison d’erreurs d’E/S ou si le stockage software-defined marque le disque comme défaillant ou inutilisable
Summary: Les utilisateurs peuvent demander le remplacement d’un disque en raison d’erreurs d’E/S ou si le disque est marqué comme « défectueux » ou « inutilisable » par la solution SDS (Software-Defined Storage). ...
Instructions
Il existe plusieurs solutions SDS différentes telles que Ceph (Linux), vSAN (VMware), Nutanix, etc. Plusieurs serveurs configurés de manière identique sont réunis sur un réseau pour créer un cluster de stockage. Les serveurs sont configurés avec un adaptateur de bus hôte (HBA) au lieu d’un PERC, de sorte que les disques sont présentés au système d’exploitation « en l’état ». Le système d’exploitation gère directement tous les disques de chaque serveur sans aucune intervention de l’adaptateur HBA. Le disque est répertorié comme « intègre » dans les outils de surveillance Dell (tels que iDRAC et OMSA) et les diagnostics ePSA hors ligne. Les données SMARTCTL du lecteur peuvent ou non présenter des erreurs de lecture et d’écriture non corrigées. Les tests SMART (courts, longs et étendus) réussissent et le disque est répertorié comme « intègre ».
Les solutions de stockage software-defined (SDS) déplacent tous les contrôles liés au stockage du matériel vers les logiciels à l’aide de l’adaptateur de bus hôte (HBA) pour fournir une connectivité physique aux disques.
Le contrôleur RAID (PERC) est chargé d’effectuer plusieurs activités de maintenance proactive sur les disques, notamment la lecture cohérente et les vérifications de cohérence sur les disques virtuels. Étant donné que les solutions SDS utilisent l’adaptateur de bus hôte (HBA) au lieu de PERC, le logiciel effectue désormais toutes ces activités de maintenance proactive.
Les utilisateurs peuvent signaler un SDS marquant un disque comme « défaillant ou inutilisable » ou répertorier des erreurs d’E/S sur un disque. Les outils de surveillance Dell tels que l’iDRAC et OMSA signalent que le disque est intègre et opérationnel.
Des outils tels que « SMARTMON » ou « SMARTCTL » peuvent répertorier des erreurs sur un ou plusieurs disques indiqués, mais l’intégrité globale du disque est répertoriée comme « HEALTHY » ou « OK ».
Cet écart est dû aux facteurs suivants :
- iDRAC affiche l’état d’intégrité du composant. Si le firmware du disque signale qu’il est intègre, l’iDRAC le reflète. Si le firmware du disque indique qu’il est en condition d’échec prédictif, l’iDRAC reflète la même chose.
- Tous les disques peuvent tolérer des blocs défectueux ou des erreurs non corrigibles et continuer à fonctionner sans aucun impact fonctionnel. Le seuil des blocs défectueux est programmé dans le firmware de disque par le fabricant du disque et n’est pas un nombre ou un pourcentage standard.
- Les disques restent opérationnels jusqu’à ce que le nombre total de blocs défectueux ou d’erreurs non corrigibles sur le disque dépasse le seuil de défaillance prédictive ou de défaillance.
- Une adresse de décalage sur le disque est marquée comme un bloc défectueux et les données sont déplacées UNIQUEMENT si une opération d’écriture échoue à cette adresse spécifique. Le firmware de disque ne prend pas en compte les erreurs de lecture pour marquer les secteurs comme des blocs défectueux.
- Les erreurs d’E/S consignées au niveau du système d’exploitation peuvent ne pas être reflétées dans les journaux Lifecycle.
Dans un tel scénario, les disques sont fonctionnels et respectent bien leurs paramètres opérationnels. Ils ne sont pas éligibles ni requis pour un remplacement de matériel. Le plan d’action recommandé ici consiste à effectuer les activités de maintenance nécessaires à partir de la couche logicielle pour résoudre le problème.
Dans un tel scénario, capturez un bundle complet de journaux du système d’exploitation ou des rapports d’un ou de plusieurs serveurs concernés. Contactez le service Dell SST (s’il est couvert par le contrat de garantie) ou le fournisseur du système d’exploitation pour une vérification des journaux, car ils doivent vous conseiller sur les prochaines étapes correctives.
Dell SST ou le fournisseur du système d’exploitation détermine les informations suivantes :
- Nombre total d’erreurs d’E/S enregistrées par le noyau du système d’exploitation (le cas échéant).
- Quels appareils (ou plus) les erreurs sont consignées.
- Type de corruption : Niveau fichier ou métadonnées (le cas échéant)
- Le service de stockage est-il tombé en panne ? Si oui, pourquoi ?
- Des actions correctives sont disponibles dans le SDS pour résoudre de telles erreurs.