Dysk może wymagać wymiany z powodu błędów we/wy lub jeśli pamięć masowa zdefiniowana programowo oznaczy dysk jako uszkodzony lub bezużyteczny
Summary: Użytkownicy mogą zażądać wymiany dysku z powodu błędów we/wy lub jeśli dysk jest oznaczony jako "uszkodzony" lub "bezużyteczny" przez rozwiązanie pamięci masowej zdefiniowanej programowo (SDS). ...
Instructions
Istnieje kilka różnych rozwiązań SDS, takich jak Ceph (Linux), vSAN (VMware), Nutanix i tak dalej. Kilka identycznie skonfigurowanych serwerów jest połączonych ze sobą siecią w celu utworzenia klastra pamięci masowej. Serwery są skonfigurowane z kartą magistrali hosta (HBA) zamiast PERC, dzięki czemu dyski są prezentowane systemowi operacyjnemu "w stanie, w jakim są". System operacyjny zarządza wszystkimi dyskami na każdym serwerze bezpośrednio, bez żadnej interwencji ze strony HBA. Dysk jest wymieniony jako "W dobrej kondycji" w narzędziach monitorujących firmy Dell (takich jak iDRAC i OMSA) oraz w programie diagnostycznym ePSA w trybie offline. Dane SMARTCTL dla dysku mogą, ale nie muszą, zawierać nieskorygowane błędy odczytu i zapisu. Testy SMART (krótkie, długie i rozszerzone) kończą się pomyślnie, a dysk jest wyświetlany jako "W dobrej kondycji".
Rozwiązania pamięci zdefiniowanej programowo (SDS) przenoszą wszystkie elementy sterujące związane z pamięcią masową ze sprzętu na oprogramowanie za pomocą adaptera magistrali hosta (Host Bus Adapter, HBA) w celu zapewnienia fizycznej łączności z dyskami.
Kontroler RAID (PERC) jest odpowiedzialny za proaktywną konserwację dysków, w tym patrolowanie odczytu i sprawdzanie spójności dysków wirtualnych. Ponieważ rozwiązania SDS wykorzystują adapter magistrali hosta (Host Bus Adapter, HBA) zamiast PERC, oprogramowanie wykonuje teraz wszystkie te proaktywne czynności konserwacyjne.
Użytkownicy mogą zgłaszać, że SDS oznacza dysk jako "uszkodzony lub bezużyteczny" lub może zawierać listę błędów we/wy na dysku. Narzędzia monitorujące firmy Dell, takie jak iDRAC i OMSA, zgłaszają dysk jako sprawny i sprawny.
Narzędzia takie jak "SMARTMON" lub "SMARTCTL" mogą wyświetlać błędy dotyczące jednego lub większej liczby wskazanych dysków, ale ogólna kondycja dysku jest wyświetlana jako "ZDROWA lub OK".
Rozbieżność ta wynika z następujących czynników:
- Kontroler iDRAC wyświetla stan kondycji elementu. Jeśli oprogramowanie wewnętrzne dysku zgłasza dobrą kondycję, kontroler iDRAC odzwierciedla ten sam błąd. Jeśli oprogramowanie wewnętrzne dysku informuje, że dysk znajduje się w stanie przewidywanej awarii, kontroler iDRAC odzwierciadło to samo.
- Wszystkie dyski mogą tolerować uszkodzone bloki lub niemożliwe do naprawienia błędy i nadal działać bez wpływu na działanie. Próg uszkodzonych bloków jest programowany w oprogramowaniu wewnętrznym dysku przez producenta dysku i nie jest standardową liczbą ani procentem.
- Dyski pozostają aktywne do momentu, gdy łączna liczba uszkodzonych bloków lub niemożliwych do naprawienia błędów na dysku przekroczy próg przewidywanej awarii lub awarii.
- Adres przesunięcia na dysku jest oznaczony jako uszkodzony blok, a dane są przenoszone TYLKO wtedy, gdy operacja WRITE nie powiedzie się pod tym konkretnym adresem. Oprogramowanie wewnętrzne dysku nie uwzględnia błędów odczytu w celu oznaczania sektorów jako uszkodzonych bloków.
- Błędy we/wy rejestrowane na poziomie systemu operacyjnego mogą nie być odzwierciedlone w dziennikach cyklu eksploatacji.
W takim scenariuszu dyski są sprawne i mieszczą się w swoich parametrach eksploatacyjnych. Nie kwalifikują się one do wymiany sprzętu ani jej nie wymagają. Zalecanym planem działania jest tutaj wykonanie niezbędnych czynności konserwacyjnych z warstwy oprogramowania w celu rozwiązania problemu.
W takim przypadku przechwyć kompletny pakiet dzienników systemu operacyjnego lub raporty z jednego lub kilku serwerów, których dotyczy problem. Należy zaangażować SST firmy Dell (jeśli jest objęty umową gwarancyjną) lub dostawcę systemu operacyjnego w celu sprawdzenia dzienników, ponieważ muszą oni uzyskać informacje na temat kolejnych kroków naprawczych.
Dostawca dysku SST lub systemu operacyjnego firmy Dell określa następujące szczegóły:
- Łączna liczba błędów we/wy zarejestrowanych przez jądro systemu operacyjnego (jeśli występują).
- Dla których urządzeń (co najmniej jednego) są rejestrowane błędy.
- Typ korupcji: Poziom pliku lub metadanych (jeśli istnieje)
- Czy usługa pamięci masowej uległa awarii? Jeśli tak, to dlaczego?
- Działania naprawcze są dostępne w SDS w celu usunięcia takich błędów.