PowerFlex : L’appareil SDS signale des erreurs bien que l’appareil soit toujours en cours d’utilisation et en bon état
Summary: Le MDM signale des erreurs d’appareil à partir d’un SDS, mais l’appareil SDS ou DAX en question est utilisé par le cluster et est en bon état.
Symptoms
Le MDM signale des erreurs d’appareils SDS ou DAX en fonction des attributs S.M.A.R.T. Le disque n’est pas éjecté tant qu’il n’y a pas de problème d’E/S.
MDM events.txt
Exemple d’appareil SDS :
2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu
Exemple d’appareil DAX :
2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0. 2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.
Le SDS éjecte le disque lorsqu’il rencontre un problème d’E/S. Ci-dessous, vous pouvez voir une erreur similaire :
2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb. 2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Notez la différence dans les messages d’erreur :
- SDS_DEV_MOVED_TO_FAILURE_STATE <<<--- device not failed - SDS_DEV_ERROR_REPORT <<<--- device failed
Notez que le système affiche les suppressions/erreurs d’E/S sur cet appareil particulier et passe à DATA_DEGRADED, ce qui entraîne une reconstruction.
La vérification des diagnostics matériels de l’hôte à partir de l’iDRAC indique que le disque présente des échecs prédictifs, tels que les suivants :
Cet impact peut être esthétique (remplissage des événements MDM) à une défaillance de disque entraînant une reconstruction.
Cause
L’agent LIA sur le nœud SDS échantillonne les attributs S.M.A.R.T. des périphériques de stockage utilisés par le SDS. Il transmet ces données au MDM, qui signale ensuite les problèmes constatés, mais n’agit pas sur les données.
Aucune action n’est effectuée car l’état S.M.A.R.T. ne fournit que deux valeurs : « seuil non dépassé » et « seuil dépassé ». Celles-ci sont souvent représentées respectivement par « disque OK » ou « panne de disque ».
La valeur « seuil dépassé » indique qu’il existe une forte probabilité que le disque tombe en panne à l’avenir, c’est-à-dire que le disque est sur le point de tomber en panne. Cela peut être catastrophique ou subtil, comme l’incapacité d’écrire dans des secteurs spécifiques ou des performances plus lentes que ce que prétend le fabricant.
Resolution
Exécutez des diagnostics matériels manuels pour déterminer si l’appareil SDS ou DAX en question doit être remplacé. Le cas échéant, adressez-vous au fournisseur du matériel.
Versions concernées
ScaleIO 2.x.x
VxFlex OS 3.0.x
PowerFlex 3.5.x
PowerFlex 3.6.0.x-3.6.1.x
Problème résolu dans la version
Le plan d’échantillonnage LIA a été amélioré dans PowerFlex 3.6.0.3.
Les événements MDM faux positifs ont été corrigés dans PowerFlex 3.6.2.