PowerFlex: ESXi SDC holder op med at svare i vCenter med alle stier nede

Oversigt: ESXi-servere holder op med at reagere i vCenter på grund af APD-tilstanden (All Paths Down) på en eller flere PowerFlex-diskenheder.

Denne artikel gælder for Denne artikel gælder ikke for Denne artikel er ikke knyttet til et bestemt produkt. Det er ikke alle produktversioner, der er identificeret i denne artikel.

Symptomer

Når en ESXi SDC konstant oplever I/O-fejl på PowerFlex-diskenheder, kan den gå i tilstanden All-Path-Down (APD) i forhold til en eller flere PowerFlex-diskenheder. Denne tilstand kan medføre, at den holder op med at reagere i vCenter.

Typisk:

  • Nogle ESXi-værter vises som Frakoblet i vSphere-klienter
  • I/O-fejl akkumuleres i vmkernel.log:
2018-01-10T22:30:08.321Z cpu29:33684)ScsiDeviceIO: 2651: Cmd(0x439e41930500) 0x28, CmdSN 0x8819c3 from world 34407 to dev "eui.<mdmId+volId>" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x4 0x0 0x0.
  • hostd.log kan indeholde følgende fejl i begyndelsen af APD-tilstanden:
2017-10-24T17:06:08.144Z info hostd[2AE0BB70] [Originator@6876 sub=Vimsvc.ha-eventmgr] Event 10313 : Lost connectivity to storage device eui.<mdmId+volId>. Path vmhba64:C0:T27:L91 is down. Affected datastores: <Datastore Name>.
2017-10-24T17:06:08.144Z info hostd[2AE0BB70] [Originator@6876 sub=Hostsvc.VmkVprobSource] VmkVprobSource::Post event: (vim.event.EventEx) {
-->    key = 778923875,
-->    chainId = 1635216758,
-->    createdTime = "1970-01-01T00:00:00Z",
-->    userName = "",
-->    datacenter = (vim.event.DatacenterEventArgument) null,
-->    computeResource = (vim.event.ComputeResourceEventArgument) null,
-->    host = (vim.event.HostEventArgument) {
-->       name = "PHSVCESQL1018.partners.org",
-->       host = 'vim.HostSystem:ha-host'
-->    },
-->    vm = (vim.event.VmEventArgument) null,
-->    ds = (vim.event.DatastoreEventArgument) null,
-->    net = (vim.event.NetworkEventArgument) null,
-->    dvs = (vim.event.DvsEventArgument) null,
-->    fullFormattedMessage = <unset>,
-->    changeTag = <unset>,
-->    eventTypeId = "esx.problem.storage.apd.start",
-->    severity = <unset>,
-->    message = <unset>,
-->    arguments = (vmodl.KeyAnyValue) [
-->       (vmodl.KeyAnyValue) {
-->          key = "1",
-->          value = "eui.<mdmId+volId>"
-->       }
-->    ],
-->    objectId = "ha-eventmgr",
-->    objectType = "vim.HostSystem",
-->    objectName = <unset>,
-->    fault = (vmodl.MethodFault) null
--> }
2017-10-24T17:06:08.144Z info hostd[2AE0BB70] [Originator@6876 sub=Vimsvc.ha-eventmgr] Event 10314 : Device or filesystem with identifier eui.<mdmId+volId> has entered the All Paths Down state.
  • hostd.log har budskabet esx.problem.storage.apd.timeout når hostd Tjenesten holder op med at svare:
2017-10-24T17:06:58.277Z info hostd[29A40B70] [Originator@6876 sub=Hostsvc.VmkVprobSource] VmkVprobSource::Post event: (vim.event.EventEx) {
-->    key = 690973144,
-->    chainId = 1635216641,
-->    createdTime = "1970-01-01T00:00:00Z",
-->    userName = "",
-->    datacenter = (vim.event.DatacenterEventArgument) null,
-->    computeResource = (vim.event.ComputeResourceEventArgument) null,
-->    host = (vim.event.HostEventArgument) {
-->       name = "ESXi.host.local",
-->       host = 'vim.HostSystem:ha-host'
-->    },
-->    vm = (vim.event.VmEventArgument) null,
-->    ds = (vim.event.DatastoreEventArgument) null,
-->    net = (vim.event.NetworkEventArgument) null,
-->    dvs = (vim.event.DvsEventArgument) null,
-->    fullFormattedMessage = <unset>,
-->    changeTag = <unset>,
-->    eventTypeId = "esx.problem.storage.apd.timeout",
-->    severity = <unset>,
-->    message = <unset>,
-->    arguments = (vmodl.KeyAnyValue) [
-->       (vmodl.KeyAnyValue) {
-->          key = "1",
-->          value = "eui.<mdmId+volId>"
-->       },
-->       (vmodl.KeyAnyValue) {
-->          key = "2",
-->          value = "140"
-->       }
-->    ],
-->    objectId = "ha-eventmgr",
-->    objectType = "vim.HostSystem",
-->    objectName = <unset>,
-->    fault = (vmodl.MethodFault) null
--> }
2017-10-24T17:06:58.278Z info hostd[29A40B70] [Originator@6876 sub=Vimsvc.ha-eventmgr] Event 10336 : Device or filesystem with identifier eui.<mdmId+volId> has entered the All Paths Down Timeout state after being in the All Paths Down state for 140 seconds. I/Os will now be fast failed.
  • Uddrag af vmkwarning Det falder sammen med ovenstående hostd:
Bemærk, at kernen forsøger at fjerne vmhba64:C0:T30:L62, men det kan det ikke på grund af hostd Hold den i optaget, mens du scanner igen, og holder op med at reagere igen:
2017-10-24T17:04:38.267Z cpu8:33147)WARNING: NMP: nmpUnclaimPath:1516: NMP device "eui.<mdmId+volId>" quiesce state change failed: Busy
2017-10-24T17:04:38.267Z cpu8:33147)WARNING: ScsiPath: 4507: Path vmhba64:C0:T30:L62 is being removed
2017-10-24T17:04:38.267Z cpu8:33147)WARNING: ScsiPath: 4737: Failed to issue command 0x0 (cmdSN 0x0) on path vmhba64:C0:T30:L62: No connection
2017-10-24T17:04:38.268Z cpu8:33147)WARNING: ScsiScan: 2007: Could not delete path vmhba64:C0:T30:L62
2017-10-24T17:04:38.337Z cpu42:34088)WARNING: NMP: nmp_IssueCommandToDevice:4553: I/O could not be issued to device "eui.<mdmId+volId>" due to Not found
2017-10-24T17:04:38.337Z cpu42:34088)WARNING: NMP: nmp_DeviceRetryCommand:133: Device "eui.<mdmId+volId>": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device.
2017-10-24T17:04:38.337Z cpu42:34088)WARNING: NMP: nmp_DeviceStartLoop:725: NMP Device "eui.<mdmId+volId>" is blocked. Not starting I/O from device.
2017-10-24T17:04:38.560Z cpu32:33507)WARNING: NMP: nmpDeviceAttemptFailover:603: Retry world failover device "eui.<mdmId+volId>" - issuing command 0x43a6402bbac0
2017-10-24T17:04:38.560Z cpu32:33507)WARNING: NMP: nmpDeviceAttemptFailover:678: Retry world failover device "eui.<mdmId+volId>" - failed to issue command due to Not found (APD), try again...
  • Følgende forekommer som det ses i storagerm Logfiler: 
2017-10-24T17:05:49.274Z: Write 0xffcda788[512] -> 68 failed. 38:Function not implemented, offset=0, bufLen=512
2017-10-24T17:05:49.274Z: <Datastore Nam, 0> Write error to fd 68, error: Function not implemented
2017-10-24T17:05:49.274Z: <Datastore Nam, 0> I/Os from datastore eui.207d160928aa82202102c97700000060 took 62.962148(>= 30.000000) seconds to complete stats computation. Reducing its polling frequency.
2017-10-24T17:06:58.277Z: Write 0xffcda788[512] -> 58 failed. 6:No such device or address, offset=0, bufLen=512
2017-10-24T17:07:04.484Z: <Datastore Name, 0> Some host is down, need to reset the slot allocation
2017-10-24T17:07:08.554Z: Skipping device eui.207d160928aa82202102c9530000003e either due to VSI read error or abnormal state
2017-10-24T17:07:08.580Z: open /vmfs/volumes//<Datastore Name>/.eui.<mdmId+volId>/slotsfile(0x202, 0x0) failed: Input/output error
2017-10-24T17:07:08.580Z: Input/output error Error -1 opening/truncating file /vmfs/volumes//<Datastore Name>/.eui.<mdmId+volId>/slotsfile
  • VM er kan blive vist som /vmfs/volumes/.../...vmx filer i stedet for det viste navn.
  • DVS-porte kan begynde at svigte på grund af tab af forbindelse til vpxa og vCenter:
2017-10-24T17:06:55.704Z warning hostd[29C81B70] [Originator@6876 sub=Hostsvc.NetworkProvider] Error saving dvport 38 c1 36 50 b6 92 e4 32-1f 16 2d 37 80 dd 7b 2c-14505 to file /vmfs/volumes/59553df0-a1c109ac-b164-54ab3a16bf9d/.dvsData/38 c1 36 50 b6 92 e4 32-1f 16 2d 37 80 dd 7b 2c/14505
2017-10-24T17:06:55.943Z warning hostd[29C81B70] [Originator@6876 sub=Hostsvc.NetworkProvider] Error saving dvport 38 c1 36 50 b6 92 e4 32-1f 16 2d 37 80 dd 7b 2c-8339 to file /vmfs/volumes/59553df0-a1c109ac-b164-54ab3a16bf9d/.dvsData/38 c1 36 50 b6 92 e4 32-1f 16 2d 37 80 dd 7b 2c/8339
2017-10-24T17:06:55.994Z warning hostd[29C81B70] [Originator@6876 sub=Hostsvc.NetworkProvider] Error saving dvport 38 c1 36 50 b6 92 e4 32-1f 16 2d 37 80 dd 7b 2c-15520 to file /vmfs/volumes/59553bbc-77b8edaa-15da-54ab3a16bf9d/.dvsData/38 c1 36 50 b6 92 e4 32-1f 16 2d 37 80 dd 7b 2c/15520
2017-10-24T17:06:56.017Z warning hostd[29C81B70] [Originator@6876 sub=Hostsvc.NetworkProvider] Error saving dvport 38 c1 36 50 b6 92 e4 32-1f 16 2d 37 80 dd 7b 2c-7684 to file /vmfs/volumes/59553bbc-77b8edaa-15da-54ab3a16bf9d/.dvsData/38 c1 36 50 b6 92 e4 32-1f 16 2d 37 80 dd 7b 2c/7684
  • Tab af tilslutningsmuligheder for VM er og værter, der er tilsluttet vCenter

Også muligt:

  • Kan ikke oprette en SSH-forbindelse til ESXi eller VM er (hvis administrationsnetværket er på en distribueret vSwitch)
  • Kan ikke bruge esxcli i konsolsessionen. (Det holder op med at reagere, brug localcli i stedet. Se afsnittet Løsning.)
  • VM er, herunder SVM, kan muligvis ikke tænde eller slukke uden at dræbe processerne. 
  • ESXi-værten kan holde op med at reagere ved genstart eller opstart.
  • Startprocessen stopper normalt, men ikke nødvendigvis, med at reagere efter nfs41client modulet er indlæst. Følgende meddelelser vises på værtens konsol (DCUI).
nfs41client loaded successfully

Påvirkning

  • Manglende evne til at administrere ESXi-værter via vCenter eller oprette en SSH-forbindelse.
  • Ingen vMotion-funktioner

Årsag

I APD-tilstand I/O'er fra ESXi-brugeren (hostd agent) eller en I/O'er fra gæsteoperativsystemet, der ikke afbrydes på grund af timeout af gæsteoperativsystemet, forsøges igen på ubestemt tid, opbruger systemets ressourcer og fører til, at ESXi ikke reagerer i vCenter.

Løsning

  • Det hjælper ikke at genstarte ESXi-værter uden at rette den underliggende APD-tilstand, da værten kan åbne APD igen.
  • Hvis der er behov for at køre kommandoer på en ESXi-vært, der oplever APD, skal du bruge "localcli" i stedet for "esxcli", da sidstnævnte holder op med at svare.
F.eks.:
  • Brug følgende til at kontrollere, om datalagrene vises som monteret:
[root@92U-16:~] localcli storage filesystem list
Mount Point                                        Volume Name  UUID                                 Mounted  Type    Size           Free
-----------------------------------------------------------------------------------------------------------------------------------------
/vmfs/volumes/5975cf1e-9306f9bc-0dbc-a0369fdaccbc  SATADOM17    5975cf1e-9306f9bc-0dbc-a0369fdaccbc  true     VMFS-5    55834574848   53979643904
/vmfs/volumes/59916bcd-22a730ae-db91-a0369fdaccbc  LocalDS17    59916bcd-22a730ae-db91-a0369fdaccbc  true     VMFS-6  1920118816768  986341965824
/vmfs/volumes/5975cf15-c44cea1b-de13-a0369fdaccbc               5975cf15-c44cea1b-de13-a0369fdaccbc  true     vfat        299712512      83927040
/vmfs/volumes/16a83277-c690cda2-9723-26fe2e41d0c3               16a83277-c690cda2-9723-26fe2e41d0c3  true     vfat        261853184      97923072
/vmfs/volumes/5975cf1f-17e61cfc-a0ae-a0369fdaccbc               5975cf1f-17e61cfc-a0ae-a0369fdaccbc  true     vfat       4293591040    4260626432
/vmfs/volumes/79e9c87d-f55f1864-b3ce-6e24607afc68               79e9c87d-f55f1864-b3ce-6e24607afc68  true     vfat        261853184      99840000
  • Brug følgende til at forsøge en ny scanning på værtsniveau:
localcli storage filesystem rescan
  • Hvis der er behov for at genstarte en ESXi-vært, der allerede er i APD-tilstand, skal du notere de diskenheder, der er knyttet til den, og fjerne dem midlertidigt. Knyt dem tilbage til værten, når problemet er løst.
 
Bemærk: Hvis ESXi-værten er tilsluttet flere MDM- eller PowerFlex-systemer, er det kun enhederne fra det berørte system, der ikke er kortlagt.
 
  • Hvis unmap_volume handling er nødvendig under genoprettelsen, nogle af VM'erne skal muligvis registreres igen, efter at diskenhederne er tilknyttet, og datalagrene er tilsluttet igen.
Løsning
I version 2.0.1.3 blev PDL-funktionen (Permanent Device Loss) introduceret, som er deaktiveret som standard. Når denne funktion er aktiveret, kan den omdanne APD til PDL, når SDC ikke kan sende I/O til en diskenhed efter 60 sekunder. Denne timeoutværdi kan stadig være længere, end nogle miljøer kan holde til uden at se påvirkningen, og kan kræve yderligere justering.

Flere oplysninger

Berørte produkter

PowerFlex rack, ScaleIO
Artikelegenskaber
Artikelnummer: 000437810
Artikeltype: Solution
Senest ændret: 27 mar. 2026
Version:  3
Find svar på dine spørgsmål fra andre Dell-brugere
Supportservices
Kontrollér, om din enhed er dækket af supportservices.