En enhet kan behöva bytas ut på grund av I/O-fel eller om programvarudefinierad lagring markerar enheten som felaktig eller oanvändbar

Summary: Användare kan begära att en enhet byts ut på grund av I/O-fel eller om enheten är markerad som "misslyckad" eller "oanvändbar" av SDS-lösningen (Software-Defined-Storage).

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Det finns flera olika SDS-lösningar som Ceph (Linux), vSAN (VMware), Nutanix och så vidare. Flera identiskt konfigurerade servrar sammanfogas via ett nätverk för att skapa ett lagringskluster. Servrarna konfigureras med en HBA (värdbussadapter) i stället för en PERC, så att enheterna presenteras för operativsystemet i befintligt skick. Operativsystemet hanterar alla enheter på varje server direkt utan någon åtgärd från HBA. Drivenheten är listad som "Felfri" i Dells övervakningsverktyg (t.ex. iDRAC och OMSA) och ePSA Offline Diagnostics. SMARTCTL-data för enheten kan ha okorrigerade läs- och skrivfel eller inte. SMART-tester (korta, långa och utökade) godkänns och enheten listas som "Felfri".

 

Lösningar för programvarudefinierad lagring (SDS) flyttar alla lagringsrelaterade kontroller från maskinvara till programvara med hjälp av värdbussadapter (HBA) för att ge fysisk anslutning till enheterna.

 

RAID-styrenheten (PERC) ansvarar för att utföra flera proaktiva underhållsaktiviteter på enheterna, vilket inkluderar patrullerings-, läs- och konsekvenskontroller på virtuella diskar. Eftersom SDS-lösningar använder HBA (Host Bus Adapter) i stället för PERC utför programvaran nu alla dessa proaktiva underhållsaktiviteter.

 

Användare kan rapportera SDS-märkning av en drivenhet som "trasig eller oanvändbar" eller så kan den visa I/O-fel på en drivenhet. Dells övervakningsverktyg som iDRAC och OMSA rapporterar enheten som felfri och i drift.

 

Verktyg som SMARTMON eller SMARTCTL kan visa vissa fel på en eller flera angivna enheter, men den övergripande enhetshälsan anges som FELFRI eller OK.

 

 

Denna avvikelse beror på följande faktorer:

  • iDRAC visar komponentens hälsostatus. Om den fasta programvaran för drivenheten rapporterar att den är problemfri återspeglar iDRAC samma sak. Om den fasta programvaran för drivenheten anger att den är i ett förutsägbart feltillstånd visar iDRAC samma sak.
  • Alla enheter kan tolerera vissa felaktiga block eller fel som inte kan korrigeras och fortsätter att fungera utan någon funktionell påverkan. Tröskelvärdet för felaktiga block programmeras in i enhetens fasta programvara av drivenhetstillverkaren och är inte ett standardtal eller en standardprocentandel.
  • Diskarna förblir i drift tills det totala antalet felaktiga block eller icke-korrigerbara fel på enheten överskrider det förutsägbara tröskelvärdet för fel eller fel.
  • En förskjutningsadress på enheten markeras som ett felaktigt block och data flyttas ENDAST om en WRITE-åtgärd misslyckas på den specifika adressen. Enhetens fasta programvara tar inte hänsyn till READ-fel för markering av sektorer som felaktiga block.
  • I/O-fel som loggas på operativsystemsnivå kanske inte återspeglas i livscykelloggarna.

 

I ett sådant scenario är frekvensomriktarna funktionella och väl inom sina driftsparametrar. De kvalificerar sig inte för och kräver inte byte av hårdvara. Den rekommenderade handlingsplanen här är att utföra nödvändiga underhållsaktiviteter från programvarulagret för att lösa problemet.

 

I ett sådant scenario samlar du in ett fullständigt loggpaket för operativsystemet eller rapporter från en eller flera berörda servrar. Kontakta Dell SST (om detta täcks av garantiavtalet) eller operativsystemetsleverantören för logggranskning eftersom de måste ge råd om nästa korrigerande steg.

 

Dells SST eller operativsystemets leverantör fastställer följande information:

  • Totalt antal I/O-fel som registrerats av operativsystemets kärna (om sådana finns).
  • Vilka enheter (en eller flera) som felen loggas mot.
  • Typ av korruption: Fil- eller metadatanivå (om sådan finns)
  • Kraschade lagringstjänsten? Om ja, varför?
  • Det finns korrigerande åtgärder i säkerhetsdatabladet för att åtgärda sådana fel.

 

Obs! De punkter som nämns ovan för Dells SST eller operativsystemsleverantör är inte en heltäckande lista. Det kan finnas flera andra referenser eller datapunkter i deras undersökning.

 

Affected Products

Rack Servers
Article Properties
Article Number: 000219050
Article Type: How To
Last Modified: 21 ذو الحجة 1446
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.