PowerFlex: Urządzenie SDS zgłasza błędy, mimo że urządzenie jest nadal używane i sprawne
Summary: MDM zgłasza błędy urządzenia z serwera SDS, ale dane urządzenie SDS lub DAX jest używane przez klaster i jest sprawne.
Symptoms
MDM zgłasza błędy urządzeń SDS lub DAX na podstawie atrybutów S.M.A.R.T. Napęd nie zostanie wysunięty, dopóki nie wystąpi problem we/wy.
events.txt MDM
Przykład urządzenia SDS:
2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu
Przykład urządzenia DAX:
2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0. 2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.
Serwer SDS wysuwa dysk, gdy napotka problem we/wy. Poniżej możesz zobaczyć podobny błąd:
2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb. 2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Zwróć uwagę na różnicę w komunikatach o błędach:
- SDS_DEV_MOVED_TO_FAILURE_STATE <<<--- device not failed - SDS_DEV_ERROR_REPORT <<<--- device failed
Należy zauważyć, że system wyświetla odrzucenie/błędy we/wy dla tego konkretnego urządzenia i przechodzi do DATA_DEGRADED, powodując odbudowę.
Sprawdzenie diagnostyki sprzętu hosta za pomocą kontrolera iDRAC pokazuje, że na dysku występują przewidywane awarie, takie jak:
Wpływ ten może być różny od nieznacznego (zapełnianie zdarzeń MDM) do awarii dysku, powodującej odbudowę.
Cause
Agent LIA w węźle SDS próbkuje atrybuty S.M.A.R.T. urządzeń pamięci masowej używanych przez SDS. Przekazuje te dane do MDM, które następnie zgłasza wszelkie zauważone problemy, ale nie podejmuje żadnych działań na podstawie danych.
Nie są podejmowane żadne działania, ponieważ stan S.M.A.R.T. zawiera tylko dwie wartości: "Nie przekroczono próg" i "Przekroczono próg". Często są one przedstawiane odpowiednio jako "dysk OK" lub "awaria dysku".
Wartość "przekroczono próg" wskazuje, że istnieje wysokie prawdopodobieństwo awarii dysku w przyszłości, czyli grozi mu awaria. Może to być katastrofalne lub subtelne, takie jak niemożność zapisu do określonych sektorów lub niższa wydajność niż twierdzi producent.
Resolution
Uruchom ręczną diagnostykę sprzętu, aby określić, czy dane urządzenie SDS lub DAX wymaga wymiany. W razie potrzeby skonsultuj się z dostawcą sprzętu.
Wersje, których dotyczy problem
ScaleIO 2.x.x
System operacyjny VxFlex 3.0.x
PowerFlex 3.5.x
PowerFlex 3.6.0.x-3.6.1.x
Naprawiono w wersji
Projekt próbkowania LIA został ulepszony w PowerFlex 3.6.0.3.
W programie PowerFlex 3.6.2 naprawiono fałszywie dodatnie zdarzenia MDM.