PowerFlex-enheten har reparerte lesefeil
Summary: SDS-enheter har feil som sier "Enheten har løst lesefeil."
Symptoms
Scenario
Dette kan skje når en SDS-enhet har lesefeil som er korrigert av SDS.
Dette kan skje når bakgrunnsskanneren er deaktivert eller aktivert.
Symptomer
De løste feilene på en enhet kan vises på følgende steder:
-
Det grafiske grensesnittet viser en feil:
-
"--query_sds --sds_id <SDS_ID>"-utgangen viser en teller for hver enhet med korrigerte lesefeil:
15: Name: /dev/sdr Path: /dev/sdr Original-path: /dev/sdr ID: 2d63f7c80003000e
Storage Pool: SAS_pool1, Capacity: 1116 GB Error-fixes: 6 scanned 0 MB, Compare errors: 0 State: Normal
Den counters_dump.txt i MDM getInfoDump viser FIXED_READ_ERROR_COUNT på ulike objekter:
ID: df7700a600120012 DEVICE_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1 ID: 1d1e4e5500000012 SDS_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1 ID: 1c34e1f700000007 STORAGE_POOL_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1 ID: b9b286df00000001 PROTECTION_DOMAIN_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1 ID: 49b6b8057d1fc84b SYSTEM_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1
Andre mulige symptomer: Enheten kan være i en Feiltilstand. Det kan være feil på blokkeringsenheten i systemmeldingene eller syslog:
blk_update_request: critical medium error, dev sdr, sector 94390272 sd 0:2:15:0: [sdr] tag#1 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE sd 0:2:15:0: [sdr] tag#1 Sense Key : Medium Error [current] sd 0:2:15:0: [sdr] tag#1 Add. Sense: Unrecovered read error
Det kan være lange I/O-meldinger om bord i SDS trc:
contDevMngr_HandleLongInflightIoViolation:02998: IO on devId: 2d63f7c80003000e (/dev/sdr) took too long, Low threshold exceeded - waited for reaper 12250 millis contDevMngr_HandleLongInflightIoViolation:02998: IO on devId: 2d63f7c80003000e (/dev/sdr) took too long, Low threshold exceeded - waited for reaper 13250 millis contDevMngr_HandleLongInflightIoViolation:02998: IO on devId: 2d63f7c80003000e (/dev/sdr) took too long, Low threshold exceeded - waited for reaper 14250 millis
Det kan være feil i enhetens I / O-tellere i SDS 'sdbg_out.txt:
13: Dev path:/dev/sdr Size(lbs):0 Time grn:520577464
Io Counters:
GENERAL
Writes: 4852 Lbs: 2160443 MBs: 1054 Errors: 0
Reads: 49283 Lbs: 111376 MBs: 54 Errors: 12744
BM
Writes: 0 Lbs: 0 MBs: 0 Errors: 0
Reads: 0 Lbs: 0 MBs: 0 Errors: 0
COMB_MAP
Writes: 5 Lbs: 1390 MBs: 0 Errors: 2
Reads: 0 Lbs: 0 MBs: 0 Errors: 0
TOOTH_MAP
Writes: 426 Lbs: 688528 MBs: 336 Errors: 424
Reads: 0 Lbs: 0 MBs: 0 Errors: 0
IO
Writes: 4319 Lbs: 603064 MBs: 294 Errors: 16
Reads: 2076 Lbs: 16608 MBs: 8 Errors: 22
Enhetens ventetid kan være høy i henhold til counters_dump.txt:
ID: 2d63f7c60003000c DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 0 ID: 2d63f7c70003000d DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 0 ID: 2d63f7c80003000e DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 11424 ID: 2d63f7c90003000f DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 0 ID: 2d63f7ca00030010 DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 0
Innvirkning
Telleren "Faste lesefeil" har ingen direkte innvirkning på systemet.
Det kan imidlertid indikere en underliggende tilstand som kan forårsake SDS-frakoblinger, gjenoppbyggingsaktiviteter osv.
Cause
Dette kan sees når en SDS-enhet har lesefeil som er rettet eller løst ved å bruke den speilede kopien. Korrigeringen kan skje i følgende tilfeller:
- Bakgrunnsskanneren klarer ikke å lese fra én kopi av dataene, og bruker den andre kopien til å overskrive dem.
- Et SDS kan ikke betjene leseforespørsler fra SDC på grunn av manglende lesing av disken, og bruker den sekundære kopien til å betjene I/O og overskrive lokale data.
Advarselen indikerer at disken kan bremse ned, bli dårlig eller ha dårlige blokker. Mekanismene beskrevet ovenfor omskriver blokkene, som kan fikse "myke" dårlige blokker.
Resolution
- Undersøk disken. Kontakt om nødvendig maskinvareleverandøren for å erstatte den.
Telleren indikerer vanligvis en underliggende tilstand, og disken går i stykker. SDS 'handling forklart ovenfor er et forsøk på å fikse myke dårlige blokker, men kan ikke lykkes i alle scenarier.
-
Tøm telleren.
scli --reset_scanner_error_counters --protection_domain_id <pd id> --storage_pool_id <sp id> --reset_corrected_read_error_counter