PowerScale: Fehler bei Nodes mit Stack: Assertionsfehler Kernel:pdm_update_membership+0x10b2
Summary: Mehrere Nodes haben einen Fehler mit dem Stack: Assertionsfehler Kernel:pdm_update_membership+0x10b2
Symptoms
Mehrere Nodes haben einen Fehler mit dem Stack:
2022-03-03T14:40:11.340255-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: panic @ time 1646335137.652, thread 0xfffffe8ffa3b8080: Assertion Failure
2022-03-03T14:40:11.340297-05:00 <5.3> (id12) syslogd: sendto: Network is unreachable
2022-03-03T14:40:11.340317-05:00 <5.3> syslogd: last message repeated 1 times
2022-03-03T14:40:11.340322-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: time = 1646335137
2022-03-03T14:40:11.340334-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: cpuid = 15, TSC = 0xc868113bb278f
2022-03-03T14:40:11.340340-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: Panic occurred in module kernel loaded at 0xffffffff80200000:
2022-03-03T14:40:11.340347-05:00 <0.7> (id12) /boot/kernel.amd64/kernel:
2022-03-03T14:40:11.340353-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: Stack: --------------------------------------------------
2022-03-03T14:40:11.340359-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:isi_assert_halt+0x2e
2022-03-03T14:40:11.340365-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:pdm_update_membership+0x10b2
2022-03-03T14:40:11.340371-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:pdm_get_painted_domids+0x568
2022-03-03T14:40:11.340377-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:pdm_member_generate_entry+0xda
2022-03-03T14:40:11.340383-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:pdm_member_get_membership_entry+0x1b7
2022-03-03T14:40:11.340390-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:pdm_member_init_operation+0x16d
2022-03-03T14:40:11.340396-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:ifm_init_operation+0xb7
2022-03-03T14:40:11.340402-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:txn_i_include_vnode_to_list+0xc0
--
2022-03-03T14:40:11.340440-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:VOP_RENAME_APV+0x9b
2022-03-03T14:40:11.340446-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:isi_kern_renameat+0x37e
2022-03-03T14:40:11.340452-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:sys_enc_renameat+0x27
2022-03-03T14:40:11.340458-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:amd64_syscall+0x380
2022-03-03T14:40:11.340464-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: --------------------------------------------------
2022-03-03T14:40:11.340471-05:00 <0.3> (id12) /boot/kernel.amd64/kernel: *** FAILED ASSERTION !domid_vec_empty(new_domids) && !pdm_is_non_ifs_vec(new_domids) ==> new_domids->domids[0] == PDM_ROOT_DOMID @ /b/mnt/src/sys/ifs/pdm/pdm_core.c:660: Invalid membership: [ 1.000000074fc.0001 ]
Cause
Verursacht durch den folgenden Fehler: PSCALE-118595
Dieses Problem hängt mit dem ADS-Workflow (alternative Datenströme) zusammen. Alternative Datenströme sind eine Datenstruktur, die in Windows verwendet wird und Metadatentypen von Informationen zu einer Datei speichert, z. B. Kommentare zu einer Datei. Sie ist in FreeBSD (dem zugrunde liegenden Dateisystem von OneFS auf Isilon) nicht vorhanden, wird aber von OneFS unterstützt und als Datei in OneFS behandelt.
Wie kann festgestellt werden, ob ein Cluster durch dieses Problem gefährdet ist?
Das Auftreten dieses Fehlers im Feld ist selten.
Damit diese Racebedingung ausgelöst wird, müssen ALLE der folgenden Bedingungen erfüllt sein:
Auf dem Cluster wird eine OneFS-Version ausgeführt, die niedriger als 9.4.0.0 ist.
Die Datei hat mehr als ein übergeordnetes Element (fest verknüpfte Datei).
An die Datei muss ADS angehängt sein.
Die Daten der Datei befinden sich im Cloud-Speicher (keine lokalen Daten auf der Festplatte).
Benennen Sie einen der übergeordneten Links in eine andere Domain um (z. B. einen anderen Snapshot-Speicherort).
Resolution
Dauerhafte Lösung:
Führen Sie ein Upgrade auf eine dieser OneFS-Versionen oder höher durch, die folgende Korrektur enthalten:OneFS 9.4.0.0PATCH: [9.3.0.5_GA-RUP_2022-03] PSP-1956PATCH: [9.2.1.10_GA-RUP_2022-03] PSP-2075PATCH: [9.1.0.14_GA-RUP_2021-12] PSP-1722
Eine Problemumgehung wäre für dieses Szenario schwierig. Die betroffenen Dateien müssen aus dem Verzeichnis CloudPools und stellen sie nur lokal zur Verfügung. Es ist besser, ein Upgrade durchzuführen und das Problem direkt zu beheben.