Een schijf moet mogelijk worden vervangen vanwege I/O-fouten of als softwaregedefinieerde storage de schijf als defect of onbruikbaar markeert

Summary: Gebruikers kunnen vragen om een schijf te vervangen vanwege I/O-fouten of als de schijf is gemarkeerd als "mislukt" of "onbruikbaar" door een SDS-oplossing (Software-Defined Storage).

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Er zijn verschillende SDS-oplossingen zoals Ceph (Linux), vSAN (VMware), Nutanix, enzovoort. Verschillende identiek geconfigureerde servers worden via een netwerk samengevoegd tot een storagecluster. De servers zijn geconfigureerd met een Host Bus Adapter (HBA) in plaats van een PERC, zodat de schijven ongewijzigd aan het besturingssysteem worden gepresenteerd. Het besturingssysteem beheert alle schijven in elke server rechtstreeks, zonder tussenkomst van de HBA. De schijf wordt vermeld als "in orde" in de bewakingstools van Dell (zoals iDRAC en OMSA) en ePSA Offline Diagnostics. SMARTCTL-data voor de schijf kunnen al dan niet ongecorrigeerde lees- en schrijffouten bevatten. SMART-tests (kort, lang en uitgebreid) slagen en de schijf wordt vermeld als 'In orde'.

 

Softwaregedefinieerde storageoplossingen (SDS) verplaatsen alle storage-gerelateerde controles van hardware naar software met behulp van de hostbusadapter (HBA) om fysieke connectiviteit met de schijven te bieden.

 

De RAID-controller (PERC) is verantwoordelijk voor het uitvoeren van verschillende proactieve onderhoudsactiviteiten aan de schijven, waaronder patrouillelees- en consistentiecontroles op virtuele schijven. Aangezien SDS-oplossingen gebruikmaken van Host Bus Adapter (HBA) in plaats van PERC, voert de software nu al deze proactieve onderhoudsactiviteiten uit.

 

Gebruikers kunnen melden dat SDS een schijf markeert als "defect of onbruikbaar" of er kunnen I/O-fouten op een schijf worden weergegeven. Dell monitoringtools zoals iDRAC en OMSA melden dat de schijf in orde en operationeel is.

 

Tools zoals 'SMARTMON' of 'SMARTCTL' kunnen enkele fouten weergeven op een of meer aangegeven schijven, maar de algehele schijfstatus wordt vermeld als 'GEZOND of OK'.

 

 

Deze discrepantie is te wijten aan de volgende factoren:

  • iDRAC toont de status van het component. Als de schijffirmware meldt dat deze in orde is, geeft de iDRAC hetzelfde weer. Als de schijffirmware aangeeft dat de schijf een voorspellende fout heeft, geeft de iDRAC hetzelfde weer.
  • Alle schijven kunnen enkele slechte blokken of onherstelbare fouten verdragen en blijven werken zonder enige functionele impact. De drempelwaarde voor slechte blokken wordt door de fabrikant van de schijf in de schijffirmware geprogrammeerd en is geen standaardgetal of percentage.
  • Schijven blijven operationeel totdat het totale aantal beschadigde blokken of onherstelbare fouten op de schijf de drempelwaarde voor voorspellende fouten of storingen overschrijdt.
  • Een offsetadres op de schijf wordt gemarkeerd als een slecht blok en de data worden ALLEEN verplaatst als een schrijfbewerking op dat specifieke adres mislukt. De schijffirmware houdt geen rekening met READ-fouten voor het markeren van sectoren als slechte blokken.
  • I/O-fouten die op besturingssysteemniveau worden geregistreerd, worden mogelijk niet weergegeven in de levenscycluslogboeken.

 

In een dergelijk scenario zijn de schijven functioneel en vallen ze ruim binnen hun operationele parameters. Ze komen niet in aanmerking voor en hebben geen hardwarevervanging nodig. Het aanbevolen plan van aanpak hier is om de nodige onderhoudsactiviteiten vanuit de softwarelaag uit te voeren om het probleem op te lossen.

 

Leg in een dergelijk scenario een volledige logbundel of rapporten van het besturingssysteem vast van een of meer getroffen servers. Neem contact op met Dell SST (indien gedekt door de garantieovereenkomst) of de leverancier van het besturingssysteem voor logboekcontrole, aangezien zij advies moeten geven over de volgende corrigerende stappen.

 

Dell SST of de leverancier van het besturingssysteem bepaalt de volgende details:

  • Totaal aantal I/O-fouten geregistreerd door de kernel van het besturingssysteem (indien van toepassing).
  • Op welke apparaten (een of meerdere) fouten worden geregistreerd.
  • Soort corruptie: Bestands- of metadataniveau (indien van toepassing)
  • Is de storageservice gecrasht? Zo ja, waarom?
  • De SDS biedt corrigerende maatregelen om dergelijke fouten op te lossen.

 

OPMERKING: De hierboven genoemde punten voor de Dell SST- of de leverancier van het besturingssysteem zijn geen allesomvattende lijst. Er kunnen verschillende andere referenties of datapunten in hun onderzoek zijn.

 

Affected Products

Rack Servers
Article Properties
Article Number: 000219050
Article Type: How To
Last Modified: 17 Jun 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.