VNX/Unity: Informazioni sui settori non correggibili e sugli errori di parità (correggibile dall'utente)

Table of Contents

Detailed Article

Symptoms

Cause

Resolution

Additional Info

Affected Products

Provide Feedback

Summary: In questo articolo vengono illustrati i settori non correggibili e gli errori di parità.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

Informazioni sui settori non correggibili e sugli errori di parità su un array CLARiiON, VNX o Unity.

I messaggi del registro degli eventi, ad esempio i seguenti, possono essere visualizzati anche come Dial Home:

VNX1
Error code: codice di errore del settore di parità 0x953 non correggibile
: codice di errore del settore dati non correggibile 0x957
: codice di errore del settore di parità 0x68A non correggibile
: codice di errore del settore dati non correggibile 0x695
: 0x840 data Sector invalidato
B26 cache ha emesso CORRUPT_CRC. Lun = 309 ca_sync. c 0 309 2

Gruppo RAID VNX2 71688003 non correggibile: %2 posizione: %3 LBA: %4 Block: %5 informazioni di errore: %6 informazioni aggiuntive: %7
71688008 non correggibile gruppo RAID di settore: 10 posizione: 1 LBA: blocchi D180: 8 info errore: 0 informazioni aggiuntive: e [r5_rb FLU 8224 r5_rb]
71688008 incorreggibile settore RAID Group: 10 posizione: 1 LBA: blocchi D170: 8 info errore: 0 informazioni aggiuntive: e [r5_rb FLU 8224 r5_rb]
71688001 data Sector invalidato RAID Group: 10 posizione: 1 LBA: blocchi D121: 7 error info: 0 informazioni aggiuntive: e [r5_rb FLU 8224 r5_rb]

Consultare l'articolo 382528 VNX2: L' Array riporta eventi come 0x71688001, 0x71688002, 0x71688003, 0x71688007 o 0x71688008 (correggibili dall'utente) per altri codici evento.

Cause

Si verificano errori non correggibili quando due dischi diversi nello stesso gruppo RAID, nello stesso settore, hanno errori multimediali.
Un esempio, quando un disco con errori del supporto sta copiando su un hotspare, e un altro disco nello stesso gruppo RAID, nello stesso settore, ha anche degli errori relativi ai supporti, ciò comporterebbe un errore/un settore non correggibile.

I codici evento descritti in precedenza vengono registrati quando il sistema non è in grado di leggere i settori di dati da un disco e i tentativi successivi di ricostruire i dati da un altro disco nel gruppo RAID non sono riusciti. I messaggi "non correggibili" indicano quali dischi non sono riusciti a leggere correttamente i settori e i messaggi "invalidati" indicano quali settori di dischi sono stati contrassegnati come vuoti di informazioni valide in una posizione specifica. Questa marcatura viene eseguita per garantire che nessun dato non valido venga restituito a un sistema host. I tentativi di lettura da un percorso invalidato comporteranno un errore di stato restituito a un host.
I tentativi di scrittura in una posizione invalidata vengono completati con successo e generalmente "riempiono" (sovrascrivono) la posizione di void, correggendo in tal modo l'incorreggibile. Questo è il motivo per cui a volte gli errori non correggibili vengono rimossi dopo che un host ha sovrascritto questi settori con nuovi dati validi.

Resolution

Per VNX:
Una volta risolti tutti i problemi hardware, Dell EMC supporto tecnico dovrà eseguire una verifica manuale in background di sola lettura (ROBV) se i LUN interni interessati nel pool interessato. ROBV legge e verifica i dati per uncorrectables sull'intero LUN (interno), incluso lo spazio non utilizzato per determinare il numero di settori uncorrectables che potrebbero ancora esistere.
Una volta completato il ROBV, se uncorrectables è ancora in corso, il Dell EMC tecnico del supporto tecnico dovrà eseguire ulteriori operazioni, tra cui la raccolta e l'analisi delle informazioni sulla tabella di allocazione dello storage (SAT) per identificare le LUN specifiche degli utenti interessati (le lun interne in cui sono stati trovati i uncorrectables verranno mappate alle lun utente).
Per una spiegazione completa e per i prerequisiti necessari per l'esecuzione di un ROBV, consultare l'articolo 466638 VNX: Spiegazione di Read Only background Verify (ROBV) (utente correggibile)

Quando in un LUN utente viene trovato un settore non correggibile, i dati dell'utente dovranno essere verificati dall'applicazione host per determinare se i dati dell'utente sono danneggiati o se l'errore risiede nello spazio inutilizzato. Qualsiasi processo in grado di leggere i dati, ad esempio un backup, si adatterebbe per identificare/contrassegnare eventuali danneggiamenti.
Se si verifica un danneggiamento, è possibile eseguire il restore dei dati da un buon backup, con un restore completo, o con un restore parziale dei soli file interessati.
Se non è disponibile un buon backup, è necessario utilizzare un altro strumento per eseguire il Restore o la ricreazione dei dati dall'applicazione host.

Se non è possibile trovare l'errore non correggibile nei dati degli utenti, i processi in background potrebbero comunque rilevare l'errore in futuro, se l'I/O dell'host non sovrascrive il settore. Ciò può portare a un assessment errato che si tratta di un nuovo errore e causa ritardi nell'analisi e nel rimedio per un errore precedente che non è stato completamente risolto.
In questo caso, si consiglia vivamente di spostare i dati validi su un altro LUN ed eliminare il LUN interessato originale.

Per Unity, potrebbero esistere altri metodi per tentare di risolvere questo problema. Verificare la disponibilità di altri articoli specifici di Unity.

Additional Information

Domande frequenti:

L'Engineering ha un altro modo per ripristinare i dati dei clienti persi se un'applicazione host del cliente non sovrascrive i dati e se il restore del backup non funziona?
Non esiste altro modo per ripristinare i dati diversi da un'operazione di Restore o per ricreare i dati dall'applicazione.
Poiché i dati non correggibili sono effettivamente mancanti, non esiste alcun modo per sapere quali siano i dati per poterli riscrivere. Questo è il motivo per cui il settore è "invalidato" e viene restituito un errore rigido all'host. È preferibile restituire un errore rigido rispetto ai dati non corretti.

È possibile che un settore invalidato modifichi le posizioni su un disco?
Per un LUN standard, il settore dei dati non validi resterà sempre lo stesso.
Per un pool LUN con il tiering automatico abilitato, può spostarsi se la sezione viene rilocata.

Esiste un modo per trovare la posizione effettiva di un settore invalidato?
È molto difficile individuare la posizione di un settore invalidato, a causa della modalità di mapping delle lun all'interno di gruppi o pool RAID e di quali informazioni sono disponibili nei registri degli eventi.
Contattare Dell EMC supporto per ulteriore assistenza per identificare i Block contenenti il settore invalidato. Il team di supporto dovrà innanzitutto eseguire il processo di ripristino non correggibile e quindi eseguire l'escalation del problema al team di ripristino. .

Se il settore invalidato non sembra influire sull'area di dati del cliente, esiste un modo per liberarsene senza dissociare il lun?
Alcuni risultati sono stati riportati durante la scrittura di dati temporanei per riempire il LUN e quindi l'eliminazione dei dati temporanei. Se l'area invalidata viene scritta con dati temporanei, le posizioni annullate vengono riempite, ripristinando in tal modo il settore non valido con i dati validi.

Un cliente può eseguire solo un CHKDSK o FSCK per verificare l'integrità dei dati nel filesystem, se gli errori non correggibili sono riportati da una verifica in background di sola lettura?
Quando è presente un problema di settori non correggibili, i dati del cliente devono verificare la presenza di eventuali danneggiamenti dei file. Per fare ciò, eseguire un certo tipo di applicazione o programma che legge tutti i settori utilizzati nello spazio di LUN. Il tipo più comune di metodo è un backup completo dei dati. Non è consigliabile eseguire semplicemente un FSCK (UNIX) o CHKDSK (Windows) perché queste utilità controllano solo l'area dei metadati dei file. Se i settori non correggibili non si trovano nello spazio dei metadati, il cliente rimarrà l'impressione che i dati siano giusti quando in realtà potrebbero non essere così.

Altre domande frequenti:

Perché è necessario disabilitare la compressione dei dati?
La compressione dei dati è una funzionalità che analizza i dati su un disco e applica gli algoritmi che riducono la dimensione delle sequenze ripetitive di bit che sono intrinseche in alcuni tipi di file. Durante l'operazione di compressione di un RAID Group LUN, il software migra e comprime i dati LUN su un LUN sottile in un pool. L'LUN diventa un LUN sottile compresso. Le operazioni di compressione delle lun del pool (spesso e sottili) avvengono all'interno del pool in cui risiede il LUN compresso. Ogni volta che i dati vengono compressi, vi è uno spostamento dei dati all'interno del pool, che non consente di identificare il sollevamento del specchio corretto interessato a causa di Uncorrectables o coerenza inattesi. Pertanto, è necessario sospendere la funzione.

Perché è necessario disabilitare il tiering automatico?
La funzionalità di tiering automatico esegue la migrazione dei dati tra gli storage Tier o i diversi storage media (EFD, FC & SATA). Lo scopo dello storage su più livelli è quello di conservare i dati più utilizzati e più importanti sulle unità FAST, High Performance (più costose) e di spostare i dati meno frequenti e meno importanti alle unità a basso rendimento (meno costose). Analogamente alla compressione dei dati, vi è anche il trasferimento di dati coinvolti nell'auto-tiering, che non ci aiuta a identificare il settore del sollevamento del specchio che è interessato a causa di Uncorrectables o coerenza inatteso se non è disattivato. Pertanto, il trasferimento deve essere interrotto e la pianificazione deve essere disabilitata.

Perché è necessario disabilitare fast cache?
Fast cache deve essere disabilitata solo se l'errore di settore non correggibile viene segnalato in fast cache

perché è necessario eseguire ROBV su tutto il RAID Group (RG) e non sul particolare lun?
È necessario eseguire ROBV sull'intero RG per rendere sicure altre lun del cliente nello stesso RG.

Perché è necessario eseguire ROBV sul pool e non solo il RAID Group?
È necessario eseguire ROBV su un intero pool se viene eseguita una pianificazione di tiering automatico dal momento in cui è stata segnalata un'incorreggibile e l'avvio di ROBV è pianificato. Questa operazione è necessaria poiché le sezioni di dati possono spostare la non correggibile in un altro settore se la sezione di dati viene spostata in un altro Tier.

Perché è necessario raccogliere informazioni sulla tabella di allocazione dello storage Sat?
Le informazioni SAT quando vengono eseguite tramite gli strumenti utilizzati dal supporto di Dell EMC, determineranno il LUN/sollevamento del cliente in cui risiede il settore incorreggibile. Ciò indicherà anche se il problema si trova nello spazio dei dati o nello spazio di metadati del LUN del cliente.

Affected Products

VNX1 Series

Products

CLARiiON, CLARiiON CX4 Series, Dell EMC Unity Family |Dell EMC Unity All Flash, Dell EMC Unity Family, Dell EMC Unity Hybrid, VNX1 Series, VNX2 Series

Article Number: 000046044

Article Type: Solution

Last Modified: 06 Nov 2025

Version: 6

Check if your device is covered by Support Services.

VNX/Unity: Informazioni sui settori non correggibili e sugli errori di parità (correggibile dall'utente)

Summary: In questo articolo vengono illustrati i settori non correggibili e gli errori di parità.

Symptoms

Cause

Resolution

Additional Information

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services