Auf dem PowerFlex-Gerät sind Lesefehler behoben
Summary: Bei SDS-Geräten ist die Fehlermeldung "Gerät hat Lesefehler behoben" aufgetreten.
Symptoms
Beispiel
Dies kann auftreten, wenn ein SDS-Gerät Lesefehler aufweist, die vom SDS korrigiert wurden.
Dies kann auftreten, wenn der Hintergrundscanner deaktiviert oder aktiviert ist.
Problem
Die behobenen Fehler auf einem Gerät können an folgenden Stellen angezeigt werden:
-
Die GUI zeigt einen Fehler an:
-
Die Ausgabe "--query_sds --sds_id <SDS_ID>" zeigt für jedes Gerät einen Zähler mit korrigierten Lesefehlern an:
15: Name: /dev/sdr Path: /dev/sdr Original-path: /dev/sdr ID: 2d63f7c80003000e
Storage Pool: SAS_pool1, Capacity: 1116 GB Error-fixes: 6 scanned 0 MB, Compare errors: 0 State: Normal
Die counters_dump.txt in MDM getInfoDump zeigt die FIXED_READ_ERROR_COUNT für verschiedene Objekte an:
ID: df7700a600120012 DEVICE_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1 ID: 1d1e4e5500000012 SDS_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1 ID: 1c34e1f700000007 STORAGE_POOL_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1 ID: b9b286df00000001 PROTECTION_DOMAIN_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1 ID: 49b6b8057d1fc84b SYSTEM_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1
Weitere mögliche Symptome: Das Gerät befindet sich möglicherweise in einem Fehlerzustand. Möglicherweise sind in den Systemmeldungen oder im Syslog Fehler auf dem Blockgerät enthalten:
blk_update_request: critical medium error, dev sdr, sector 94390272 sd 0:2:15:0: [sdr] tag#1 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE sd 0:2:15:0: [sdr] tag#1 Sense Key : Medium Error [current] sd 0:2:15:0: [sdr] tag#1 Add. Sense: Unrecovered read error
Es können lange Inflight-IO-Meldungen in SDS trc vorhanden sein:
contDevMngr_HandleLongInflightIoViolation:02998: IO on devId: 2d63f7c80003000e (/dev/sdr) took too long, Low threshold exceeded - waited for reaper 12250 millis contDevMngr_HandleLongInflightIoViolation:02998: IO on devId: 2d63f7c80003000e (/dev/sdr) took too long, Low threshold exceeded - waited for reaper 13250 millis contDevMngr_HandleLongInflightIoViolation:02998: IO on devId: 2d63f7c80003000e (/dev/sdr) took too long, Low threshold exceeded - waited for reaper 14250 millis
Möglicherweise treten Fehler in den I/O-Zählern des Geräts in den sdbg_out.txt des SDS auf:
13: Dev path:/dev/sdr Size(lbs):0 Time grn:520577464
Io Counters:
GENERAL
Writes: 4852 Lbs: 2160443 MBs: 1054 Errors: 0
Reads: 49283 Lbs: 111376 MBs: 54 Errors: 12744
BM
Writes: 0 Lbs: 0 MBs: 0 Errors: 0
Reads: 0 Lbs: 0 MBs: 0 Errors: 0
COMB_MAP
Writes: 5 Lbs: 1390 MBs: 0 Errors: 2
Reads: 0 Lbs: 0 MBs: 0 Errors: 0
TOOTH_MAP
Writes: 426 Lbs: 688528 MBs: 336 Errors: 424
Reads: 0 Lbs: 0 MBs: 0 Errors: 0
IO
Writes: 4319 Lbs: 603064 MBs: 294 Errors: 16
Reads: 2076 Lbs: 16608 MBs: 8 Errors: 22
Die Latenz des Geräts kann je nach counters_dump.txt hoch sein:
ID: 2d63f7c60003000c DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 0 ID: 2d63f7c70003000d DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 0 ID: 2d63f7c80003000e DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 11424 ID: 2d63f7c90003000f DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 0 ID: 2d63f7ca00030010 DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 0
Auswirkungen
Der Zähler "Fixed Read Errors" hat keine direkten Auswirkungen auf das System.
Es kann jedoch auf eine zugrunde liegende Bedingung hinweisen, die zu SDS-Trennungen, erneuten Aufbauaktivitäten usw. führen kann.
Cause
Dies kann auftreten, wenn ein SDS-Gerät Lesefehler aufweist, die mithilfe der gespiegelten Kopie korrigiert oder behoben wurden. Die Korrektur kann in folgenden Fällen erfolgen:
- Der Hintergrundscanner kann nicht aus einer Kopie der Daten lesen und verwendet die andere Kopie, um sie zu überschreiben.
- Ein SDS kann die Leseanforderungen eines SDC aufgrund eines Fehlers beim Lesen der Festplatte nicht bedienen und verwendet die sekundäre Kopie, um die I/O zu bedienen und die lokalen Daten zu überschreiben.
Die Warnung weist darauf hin, dass das Laufwerk möglicherweise langsamer wird, fehlerhaft wird oder fehlerhafte Blöcke aufweist. Die oben beschriebenen Mechanismen schreiben die Blöcke neu, wodurch "weiche" ungültige Blöcke behoben werden können.
Resolution
- Untersuchen Sie die Festplatte. Falls erforderlich, wenden Sie sich an den Hardwareanbieter, um sie auszutauschen.
Der Zähler weist in der Regel auf eine zugrunde liegende Bedingung hin und die Festplatte ist defekt. Die oben erläuterte Aktion des SDS ist ein Versuch, weiche fehlerhafte Blöcke zu beheben, ist aber möglicherweise nicht in allen Szenarien erfolgreich.
-
Leeren Sie den Zähler.
scli --reset_scanner_error_counters --protection_domain_id <pd id> --storage_pool_id <sp id> --reset_corrected_read_error_counter