PowerFlex SDS -prosessin epävakaus aiheuttaa I/O-virheen
Summary: SDS ei vastaa toistuvasti, mikä aiheuttaa I/O-virheitä, koska SDS:ää ei evakuoida järjestelmästä.
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
MDM-tapahtumissa voidaan havaita toistuvaa SDS-katkaisua (toistuva decouple-irrotus), joka saattaa aiheuttaa sovelluksen ja SDC-raportoinnin I/O-virheitä. SDS:n epävakaus havaitaan MDM-tapahtumissa:
# grep ee9b4eb200000002 events.txt | egrep -v "(OSC|SDC_CON|SDC_DISC)" 4284507 2020-10-26 23:38:02.330 SDS_RECONNECTED INFO SDS: sds-********v004 (ID ee9b4eb200000002) reconnected 4284546 2020-10-26 23:38:17.103 SDS_RECONNECTED INFO SDS: sds-********v004 (ID ee9b4eb200000002) reconnected 4284674 2020-10-26 23:40:12.318 SDS_RECONNECTED INFO SDS: sds-********v004 (ID ee9b4eb200000002) reconnected
SDC katkaisee yhteyden SDS:ään, esimerkiksi ESXi:hin:
vmkernel.0:2020-10-27T04:01:01.193Z cpu56:66319)WARNING: [14896504445] Disconnected from SDS with ID ee9b4eb200000002 vmkernel.0:2020-10-27T04:01:02.296Z cpu32:66320)WARNING: [14896505547] Connected to SDS with ID ee9b4eb200000002 vmkernel.0:2020-10-27T04:01:18.232Z cpu35:66319)WARNING: [14896521482] Disconnected from SDS with ID ee9b4eb200000002 vmkernel.0:2020-10-27T04:01:19.332Z cpu35:66319)WARNING: [14896522582] Connected to SDS with ID ee9b4eb200000002 vmkernel.0:2020-10-27T04:01:34.769Z cpu53:66320)WARNING: [14896538017] Disconnected from SDS with ID ee9b4eb200000002
I/O-virhe näkyy SDC:ssä:
2020-10-27T03:38:02.752Z cpu32:66313)WARNING: ScaleIO mapVolIO_ReportIOErrorIfNeeded:491 :[14895126141] IO-ERROR Type TEST_AND_SET. comb: 55880098015. offsetInComb 2721096. SizeInLB 1. SDS_ID 0. Comb Gen 4619. Head Gen 4b30. StartLB ad48. 2020-10-27T03:38:02.752Z cpu32:66313)WARNING: ScaleIO mapVolIO_ReportIOErrorIfNeeded:512 :Vol ID 0x735105ff0000001c. Last vol network error status NOT_CONN(4) Reason (ABORTED) RC (ABORTED) Retry count (5) chan (0) . . . 2020-10-27T04:08:20.234Z cpu35:66313)WARNING: ScaleIO netCon_IsKaNeeded:3761 :CON 0x439dc29f6700 didn't receive message for 30 iterations. Marking as down 2020-10-27T04:08:20.234Z cpu18:66894)WARNING: ScaleIO netSock_RcvIntrn:1920 :Error: Failed to receive 128 data PTR 0x439dc29f5efc socket 0x439dc29f6418 2020-10-27T04:08:20.234Z cpu33:66806)WARNING: ScaleIO netSock_RcvIntrn:1920 :Error: Failed to receive 128 data PTR 0x439dc29f817c socket 0x439dc29f8698 2020-10-27T04:08:20.234Z cpu0:66879)WARNING: ScaleIO netSock_RcvIntrn:1920 :Error: Failed to receive 128 data PTR 0x439dc29f6a7c socket 0x439dc29f6f98 2020-10-27T04:08:20.234Z cpu23:66319)WARNING: [14896943442] Disconnected from SDS with ID ee9b4eb200000002 2020-10-27T04:08:23.246Z cpu37:65868)Res6: 2346: All helpers quiesced (12 cancelled) for vol 'SD4W21AVxFlexCU03': 1280 LFBCs, 20/1 buckets allocated (4 KB), 1 flush, 0 helpers
Jos SDS-yhteys katkeaa ja yhteydet muodostetaan uudelleen, tietämyskannan artikkelissa kuvattu ongelma on todennäköisesti olemassa. Alla olevassa esimerkissä NVDIMM-laitteiston (HW) ongelma johtaa SIGBUS-virheeseen (muistin heikko käyttö) ja aiheuttaa SDS-kaatumisen signaalin 7 kanssa. Exp.0:
26/10 23:37:55.305617 Termination due to signal 7. PID 2601 Faulting address 0x7efb85004000. errno 0 26/10 23:37:55.306321 Writing backtraces for all UMTs: 26/10 23:38:10.132585 Termination due to signal 7. PID 99889 Faulting address 0x7f5485004000. errno 0 26/10 23:38:10.133167 Writing backtraces for all UMTs:
Viestit:
Oct 26 23:37:55 kernel: mce: Uncorrected hardware memory error in user-access at 3d84e04440 Oct 26 23:37:55 kernel: MCE 0x3d84e04: Killing sds-3.0.1000.20:2601 due to hardware memory corruption Oct 26 23:37:55 kernel: MCE 0x3d84e04: dax page page recovery: Recovered Oct 26 23:37:55 kernel: sds-3.0.1000.20:4006 conflicting memory types 3d84e04000-3d84e05000 uncached-minus<->write-back Oct 26 23:37:55 kernel: reserve_memtype failed [mem 0x3d84e04000-0x3d84e04fff], track uncached-minus, req uncached-minus Oct 26 23:37:55 kernel: Could not invalidate pfn=0x3d84e04 from 1:1 map Oct 26 23:37:56 sh: abrt-dump-oops: Found oopses: 1 Oct 26 23:37:56 sh: abrt-dump-oops: Creating problem directories Oct 26 23:37:56 sh: abrt-dump-oops: Not going to make dump directories world readable because PrivateReports is on Oct 26 23:37:56 systemd: Configuration file /opt/nsr/admin/networker.service is marked executable.
Cause
- Ohjelmisto- (SW) tai laitteistovirhe aiheuttaa sen, että SDS-prosessi ei vastaa ja että se irrotetaan MDM:stä.
- SDS toipuu kaatumisesta ja läpäisee "uudelleenmääritysvaiheen", joka merkitsee tämän SDS:n yleisesti saatavilla MDM:n näkökulmasta ja kaikille muille järjestelmän osille, SDC mukaan lukien.
- 15 sekunnin kuluttua SDC yrittää uudelleen I/O:ta (oletus), kun taas SDS ei vastaa uudelleen kohdassa 1 kuvatulla tavalla.
- I/O epäonnistuu aikakatkaisun yhteydessä, ja SDC-sovellus ilmoittaa I/O-virheestä.
- Vaiheet 2"→"4" voivat tapahtua uudestaan ja uudestaan, kunnes tämä käyttöturvallisuustiedote evakuoidaan järjestelmästä.
Resolution
Järjestelmä toimii suunnitellusti.
Vaihtoehto 1:
Irrota SDS klusterista. Voit poistaa käyttöturvallisuustiedotteen milloin tahansa ilman käyttökatkoja. Poiston aikana liittyvät tiedot replikoidaan eri solmuihin. Poistoprosessi on asynkroninen ja voi kestää kauan.
Korjaa laitteisto- ja ohjelmisto-ongelmat, jotka aiheuttivat SDS:n epävakauden, ja palauta SDS klusteriin.
Vaihtoehto 2:
Tarkkaile järjestelmää, ja jos SDS alkaa räpytellä vastaavissa olosuhteissa, pysäytä SDS-palvelu suorittamalla seuraava komento SDS:ssä:
Huomautus: SDS-palvelun pysäyttäminen käynnistää uudelleenmuodostuksen. Kun ongelma on ratkaistu, käynnistä SDS-palvelu uudelleen suorittamalla seuraava komento SDS:ssä:
Vaihtoehto 1:
Irrota SDS klusterista. Voit poistaa käyttöturvallisuustiedotteen milloin tahansa ilman käyttökatkoja. Poiston aikana liittyvät tiedot replikoidaan eri solmuihin. Poistoprosessi on asynkroninen ja voi kestää kauan.
Huomautus: Jos asemat käyttävät SDS:n kapasiteettia eikä kapasiteettia voi korvata tilan puutteen vuoksi, poisto epäonnistuu.
Korjaa laitteisto- ja ohjelmisto-ongelmat, jotka aiheuttivat SDS:n epävakauden, ja palauta SDS klusteriin.
Vaihtoehto 2:
Tarkkaile järjestelmää, ja jos SDS alkaa räpytellä vastaavissa olosuhteissa, pysäytä SDS-palvelu suorittamalla seuraava komento SDS:ssä:
/opt/emc/scaleio/sds/bin/delete_service.sh
Huomautus: SDS-palvelun pysäyttäminen käynnistää uudelleenmuodostuksen. Kun ongelma on ratkaistu, käynnistä SDS-palvelu uudelleen suorittamalla seuraava komento SDS:ssä:
/opt/emc/scaleio/sds/bin/create_service.sh
Additional Information
PowerFlex-ohjelmiston versiossa 4.0 suunnitellaan kykyä selviytyä tämäntyyppisistä tapahtumista.
Affected Products
PowerFlex rack, VxRackArticle Properties
Article Number: 000181511
Article Type: Solution
Last Modified: 07 May 2026
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.