Un'unità potrebbe richiedere la sostituzione a causa di errori di I/O o se il software-defined storage contrassegna l'unità come guasta o inutilizzabile

Summary: Gli utenti possono richiedere la sostituzione di un'unità a causa di errori di I/O o se l'unità è contrassegnata come "guasta" o "inutilizzabile" dalla soluzione SDS (Software-Defined-Storage). ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Sono disponibili diverse soluzioni SDS come Ceph (Linux), vSAN (VMware), Nutanix e così via. Diversi server configurati in modo identico vengono collegati in rete per creare un cluster di storage. I server sono configurati con un adattatore HBA (Host Bus Adapter) anziché con un PERC, in modo che le unità vengano presentate al sistema operativo "così come sono". Il sistema operativo gestisce direttamente tutte le unità in ciascun server senza alcun intervento da parte dell HBA. L'unità è elencata come "integra" negli strumenti di monitoraggio Dell (come iDRAC e OMSA) e nella diagnostica offline ePSA. I dati SMARTCTL per l'unità potrebbero contenere o meno errori di lettura e scrittura non corretti. I test SMART (brevi, lunghi ed estesi) vengono superati e l'unità viene elencata come "Healthy".

 

Le soluzioni di software-defined storage (SDS) spostano tutti i controlli relativi allo storage dall hardware al software con l'utilizzo di un adattatore HBA (Host Bus Adapter) per fornire connettività fisica alle unità.

 

Il controller RAID (PERC) è responsabile dell'esecuzione di diverse attività di manutenzione proattiva sulle unità, tra cui la lettura patrol e i controlli di coerenza sui dischi virtuali. Poiché le soluzioni SDS utilizzano Host Bus Adapter (HBA) anziché PERC, il software ora esegue tutte queste attività di manutenzione proattive.

 

Gli utenti potrebbero segnalare un SDS che contrassegna un'unità come "guasta o inutilizzabile" oppure potrebbero elencare gli errori di I/O su un'unità. Gli strumenti di monitoraggio Dell, come iDRAC e OMSA, segnalano l'unità come integra e operativa.

 

Strumenti come "SMARTMON" o "SMARTCTL" possono elencare alcuni errori su una o più unità indicate, ma lo stato generale dell'unità è elencato come "HEALTHY o OK".

 

 

Questa discrepanza è dovuta ai seguenti fattori:

  • iDRAC mostra lo stato di integrità del componente. Se il firmware dell'unità segnala che l'unità è integra, iDRAC lo riflette. Se il firmware dell'unità indica una condizione di errore predittivo, iDRAC riflette la stessa condizione.
  • Tutte le unità possono tollerare blocchi danneggiati o errori non correggibili e continuare a funzionare senza alcun impatto funzionale. La soglia per i blocchi danneggiati è programmata nel firmware dell'unità dal produttore dell'unità e non è un numero o una percentuale standard.
  • Le unità rimangono operative fino a quando il numero totale di blocchi danneggiati o errori non correggibili sull'unità non supera la soglia di errore o di guasto previsto.
  • Un indirizzo di offset sull'unità viene contrassegnato come blocco danneggiato e i dati vengono riposizionati SOLO se un'operazione di SCRITTURA non riesce a quell'indirizzo specifico. Il firmware dell'unità non considera gli errori di lettura per contrassegnare i settori come blocchi danneggiati.
  • Gli errori di I/O registrati a livello di sistema operativo potrebbero non corrispondere nei registri Lifecycle.

 

In uno scenario di questo tipo, le unità sono funzionanti e rientrano nei loro parametri operativi. Non sono idonei né richiedono la sostituzione dell hardware. Il piano d'azione consigliato consiste nell'eseguire le attività di manutenzione necessarie a livello software per risolvere il problema.

 

In uno scenario di questo tipo, acquisire un pacchetto di log completo del sistema operativo o report da uno o più server interessati. Contattare Dell SST (se coperto dal contratto di garanzia) o il fornitore del sistema operativo per la revisione del registro in quanto devono fornire consigli sulle successive operazioni correttive.

 

SST Dell o il fornitore del sistema operativo determina i seguenti dettagli:

  • Errori di I/O totali registrati dal kernel del sistema operativo (se presenti).
  • Quali dispositivi (uno o più) sono gli errori registrati.
  • Tipo di corruzione: Livello di file o metadati (se presenti)
  • Il servizio di archiviazione si è arrestato in modo anomalo? Se sì, perché?
  • Per risolvere tali errori, sono disponibili azioni correttive nell SDS.

 

NOTA: I punti sopra menzionati per l SST Dell o il fornitore del sistema operativo non sono un elenco completo. Potrebbero esserci molti altri riferimenti o dati nella loro indagine.

 

Affected Products

Rack Servers
Article Properties
Article Number: 000219050
Article Type: How To
Last Modified: 17 حزيران 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.