PowerFlex-apparaat heeft vaste leesfouten
Summary: SDS-apparaten hebben foutmeldingen met de melding 'Apparaat heeft vaste leesfouten'.
Symptoms
Scenario
Dit kan gebeuren wanneer een SDS-apparaat leesfouten bevat die zijn gecorrigeerd door de SDS.
Dit kan gebeuren wanneer de achtergrondscanner is uitgeschakeld of ingeschakeld.
Symptomen
De opgeloste fouten op een apparaat kunnen op de volgende plaatsen worden weergegeven:
-
De GUI geeft een fout weer:
-
De uitvoer "--query_sds --sds_id <SDS_ID>" toont een teller voor elk apparaat met gecorrigeerde leesfouten:
15: Name: /dev/sdr Path: /dev/sdr Original-path: /dev/sdr ID: 2d63f7c80003000e
Storage Pool: SAS_pool1, Capacity: 1116 GB Error-fixes: 6 scanned 0 MB, Compare errors: 0 State: Normal
De counters_dump.txt in MDM getInfoDump toont de FIXED_READ_ERROR_COUNT op verschillende objecten:
ID: df7700a600120012 DEVICE_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1 ID: 1d1e4e5500000012 SDS_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1 ID: 1c34e1f700000007 STORAGE_POOL_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1 ID: b9b286df00000001 PROTECTION_DOMAIN_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1 ID: 49b6b8057d1fc84b SYSTEM_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1
Andere mogelijke symptomen: Het apparaat heeft mogelijk de status Fout. Er kunnen fouten op het blokapparaat staan in de systeemberichten of syslog:
blk_update_request: critical medium error, dev sdr, sector 94390272 sd 0:2:15:0: [sdr] tag#1 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE sd 0:2:15:0: [sdr] tag#1 Sense Key : Medium Error [current] sd 0:2:15:0: [sdr] tag#1 Add. Sense: Unrecovered read error
Er kunnen lange IO-berichten aan boord zijn in SDS trc:
contDevMngr_HandleLongInflightIoViolation:02998: IO on devId: 2d63f7c80003000e (/dev/sdr) took too long, Low threshold exceeded - waited for reaper 12250 millis contDevMngr_HandleLongInflightIoViolation:02998: IO on devId: 2d63f7c80003000e (/dev/sdr) took too long, Low threshold exceeded - waited for reaper 13250 millis contDevMngr_HandleLongInflightIoViolation:02998: IO on devId: 2d63f7c80003000e (/dev/sdr) took too long, Low threshold exceeded - waited for reaper 14250 millis
Er kunnen fouten zijn in de I/O-tellers van het apparaat in de sdbg_out.txt van SDS:
13: Dev path:/dev/sdr Size(lbs):0 Time grn:520577464
Io Counters:
GENERAL
Writes: 4852 Lbs: 2160443 MBs: 1054 Errors: 0
Reads: 49283 Lbs: 111376 MBs: 54 Errors: 12744
BM
Writes: 0 Lbs: 0 MBs: 0 Errors: 0
Reads: 0 Lbs: 0 MBs: 0 Errors: 0
COMB_MAP
Writes: 5 Lbs: 1390 MBs: 0 Errors: 2
Reads: 0 Lbs: 0 MBs: 0 Errors: 0
TOOTH_MAP
Writes: 426 Lbs: 688528 MBs: 336 Errors: 424
Reads: 0 Lbs: 0 MBs: 0 Errors: 0
IO
Writes: 4319 Lbs: 603064 MBs: 294 Errors: 16
Reads: 2076 Lbs: 16608 MBs: 8 Errors: 22
De latentie van het apparaat kan hoog zijn, afhankelijk van counters_dump.txt:
ID: 2d63f7c60003000c DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 0 ID: 2d63f7c70003000d DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 0 ID: 2d63f7c80003000e DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 11424 ID: 2d63f7c90003000f DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 0 ID: 2d63f7ca00030010 DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 0
Impact
De teller "Opgeloste leesfouten" heeft geen directe invloed op het systeem.
Het kan echter wijzen op een onderliggende aandoening die kan leiden tot het verbreken van de SDS-verbindingen, het opnieuw opbouwen van activiteiten, enz.
Cause
Dit is te zien wanneer een SDS-apparaat leesfouten heeft die zijn gecorrigeerd of gerepareerd met behulp van de gespiegelde kopie. De correctie kan plaatsvinden in de volgende gevallen:
- De achtergrondscanner kan niet lezen van één kopie van de gegevens en gebruikt de andere kopie om deze te overschrijven.
- Een SDS kan de leesverzoeken van een SDC niet uitvoeren omdat de schijf niet kan worden gelezen, en gebruikt de secundaire kopie om de I/O te bedienen en de lokale data te overschrijven.
De waarschuwing geeft aan dat de schijf mogelijk trager wordt, defect raakt of slechte blokken heeft. De hierboven beschreven mechanismen herschrijven de blokken, waardoor "zachte" slechte blokken kunnen worden gerepareerd.
Resolution
- Onderzoek de schijf. Neem indien nodig contact op met de hardwareleverancier om deze te vervangen.
De teller geeft meestal een onderliggende aandoening aan en de schijf is kapot. De hierboven uitgelegde actie van de SDS is een poging om zachte slechte blokken te repareren, maar slaagt mogelijk niet in alle scenario's.
-
Maak de toonbank leeg.
scli --reset_scanner_error_counters --protection_domain_id <pd id> --storage_pool_id <sp id> --reset_corrected_read_error_counter