PowerFlex 3.x: SDS-tjenesten går konstant i panik med funktions drl_IsClean
Summary: I sjældne scenarier kan SDS-tjenesten kontinuerligt gå i panik med funktionen drl_IsClean. Dette problem er blevet observeret, når SDS-enhederne er større end 2 TB.
Symptoms
SDS-tjenesten går konstant i panik med følgende staksporing:
/opt/emc/scaleio/sds/logs/exp.0
2024/07/22 21:54:33.819866 Panic in file /data/build/workspace/ScaleIO-Common-Job/src/tgt/bm/drl.c, line 1238, function drl_IsClean, PID 17253.Panic Expression !(offsetInLbs < pDrl->protectedOffsetInLbs) PANIC_ID_tgt_1497349762194.
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(mosDbg_PanicPrepare+0x13a) [0x93ab8a]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(drl_IsClean+0x5e) [0x9346ae]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(mgPhyDev_IsDrlGroupClean+0x4b) [0x93476b]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(mgPhyComb_ReadIntegrityBits+0x130) [0x906040]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(mgStorageRegion_ReadRegionIntegrity+0xb4) [0x906224]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(storageRegion_ReadDirtyRegion+0xad) [0x740f4d]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(raidComb_ReadDrl+0x7d) [0x74105d]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(ioh_ReadCombDrl+0x758) [0x5eb368]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(ioh_NewRequest+0x2084) [0x5fb4a4]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(contNet_RecvIORequest+0x2c4) [0x601534]
Påvirkning
Utilgængelighed af brugerdata kan forekomme, hvis andre SDS afkobles som en del af det i en af følgende tilstande:
- Øjeblikkelig vedligeholdelsestilstand (IMM)
- Fejltilstand
- Under en igangværende genopbygning
Cause
SDS-servicepanik forårsaget af store enhedsforskydninger.
Resolution
Rettelse:
- PowerFlex 3.6.5 og derover (ophør af support)
- PowerFlex 4.5 og derover
Løsning:
Følg en af mulighederne.
Hvis mulighed 1 ikke løser problemet, skal du gå til mulighed 2.
Valgmulighed 1:
-
- Indtast SDS-noden i IMM fra scli-kommandolinjen eller præsentationsserverens brugergrænseflade.
- Hvis SDS-noden ikke kan åbne IMM, skal du stoppe SDS-dæmonen ved at køre scriptet
/opt/emc/scaleio/sds/bin/delete_service.sh.Take necessary precautions to prevent the cluster from entering a Data Unavailability (DU) state. Before stopping the SDS daemon, verify that no Rebuild is in progress. If you're unsure about the DU state, consult L2 or an SME.
- Hvis SDS-noden ikke kan åbne IMM, skal du stoppe SDS-dæmonen ved at køre scriptet
- Stop SDS-tjenesten, når SDS er placeret i IMM
/opt/emc/scaleio/sds/bin/delete_service.sh - Fjern den delte hukommelse på SDS (herunder CloudLink-delt hukommelse).
- Flyt de filer, der genereres af følgende kommando, til en midlertidig mappe
ls -l /dev/shm | egrep -i *EMC_sds* ls -l /dev/shm | egrep emc_scaleio_*
- Flyt de filer, der genereres af følgende kommando, til en midlertidig mappe
- Start SDS-tjenesten
/opt/emc/scaleio/sds/bin/create_service.sh
- Indtast SDS-noden i IMM fra scli-kommandolinjen eller præsentationsserverens brugergrænseflade.
-
- Afslut SDS fra IMM ved hjælp af scli eller præsentationsserverens brugergrænseflade. En genopbygning forventes at starte. Hvis sikkerhedsdatabladet ikke var i IMM, skal du gå til næste trin
- Kontroller outputtet af følgende kommando for at sikre, at sikkerhedsdatabladet er tilsluttet:
scli --query_all_sds
- Afslut SDS fra IMM ved hjælp af scli eller præsentationsserverens brugergrænseflade. En genopbygning forventes at starte. Hvis sikkerhedsdatabladet ikke var i IMM, skal du gå til næste trin
Valgmulighed 2:
-
Hvis systemet ikke er i en datafejltilstand, og der er tilstrækkelig ledig eller ekstra kapacitet til rådighed, skal du fjerne SDS-noden fra PowerFlex-klyngen. Når genbalanceringen er fuldført, skal du tilføje SDS-noden igen med alle SDS-enheder.
VIGTIG:
Baggrundsscanner (BGS) og Partial Device Error (PDE) kan potentielt medføre, at problemet opstår igen. Hvis det er muligt, skal du deaktivere BGS eller bruge BGS i tilstanden "kun rapport".
Vedvarende kontrolsummer bør ikke udløse problemer. Men hvis der er en kontrolsum-uoverensstemmelse, startes en lille genopbygning, hvilket kan medføre, at problemet opstår igen. Hvis det er muligt, skal du deaktivere Vedvarende kontrolsum.