PowerStore: Węzeł może nieoczekiwanie uruchomić się ponownie z powodu wycieku pamięci sterownika systemu Linux

摘要: Węzeł może się nieoczekiwanie zresetować z powodu wycieku pamięci w przestrzeni jądra dla odpowiedzi zgłoszenia LUN docelowego interfejsu SCSI (SCST)

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

System będzie zgłaszał nadmierne wiadomości, takie jak:
svc_journalctl | grep "REPORT LUNS"

Apr x 01:00:31 xxxxx-A kernel: scst: REPORT LUNS got, target='xx:xx:xx:xx:xx:xx:xx:xx', initiator='xx:xx:xx:xx:xx:xx:xx:xx'
Apr x 01:00:31 xxxxx-B kernel: scst: REPORT LUNS got, target='xx:xx:xx:xx:xx:xx:xx:xx', initiator='xx:xx:xx:xx:xx:xx:xx:xx'
Apr x 01:00:33 xxxxx-A kernel: scst: REPORT LUNS got, target='xx:xx:xx:xx:xx:xx:xx:xx', initiator='xx:xx:xx:xx:xx:xx:xx:xx'
Apr x 01:00:34 xxxxx-B kernel: scst: REPORT LUNS got, target='xx:xx:xx:xx:xx:xx:xx:xx', initiator='xx:xx:xx:xx:xx:xx:xx:xx'
Apr x 01:00:34 xxxxx-A kernel: scst: REPORT LUNS got, target='xx:xx:xx:xx:xx:xx:xx:xx', initiator='xx:xx:xx:xx:xx:xx:xx:xx'

Przydatnym poleceniem do sprawdzania liczby tych wiadomości będzie przykład:
svc_journalctl --since="today" | grep -c "REPORT LUNS"
44835

Oznaczenia przetrzymania zagłodzenia mogą zacząć pojawiać się w rejestrach:
svc_journalctl--since="today" grep -i starved

Apr x 01:47:58.501672 xxxx-A xtremapp[22524]: Apr x 01:47:58.500331 M [log_id:22772][3840(3891 nb_truck_0_sym   0x7fa0ffc20d00)]sym_ham_nbt_timer:1284: ====+ HAM: SYM NBT was starved for 550906 us (the threshold is 500000) #STARV
Apr x 03:14:00.770872 xxxx-A xtremapp[22524]: Apr x 03:14:00.745703 M [log_id:22772][3840(3891 nb_truck_0_sym   0x7fa0ffc20d00)]sym_ham_nbt_timer:1284: ====+ HAM: SYM NBT was starved for 518854 us (the threshold is 500000) #STARV
Apr x 04:35:39.509945 xxxx-A xtremapp[22524]: Apr x 04:35:39.507440 M [log_id:22772][3840(3891 nb_truck_0_sym   0x7fa0ffc20d00)]sym_ham_nbt_timer:1284: ====+ HAM: SYM NBT was starved for 523371 us (the threshold is 500000) #STARV


Zwykle dla tego zdarzenia tworzony jest plik zrzutu, ale nie jest on wymagany do analizy głównego powodu (RCA). Zobacz svc_dc list_dumps.

原因

Ten problem występuje z powodu wycieku pamięci w przestrzeni jądra dla SCST spowodowanego nadmierną ilością poleceń „Zgłoszenie jednostek LUN” z ESXi. Może to spowodować opóźnienie w komunikacji keepalive między węzłami, co spowoduje zresetowanie węzła.

解决方案

Ten problem został rozwiązany w systemie PowerStoreOS 1.0.4.0.5.006 (v1 SP 4.1).

Poprawka jest wymieniona w informacjach dotyczących wydania w sekcji MDT-261192: Węzeł może nieoczekiwanie uruchomić się ponownie z powodu wycieku pamięci sterownika systemu Linux.

受影响的产品

PowerStore, PowerStore 1000X, PowerStore 1000T, PowerStore 3000X, PowerStore 3000T, PowerStore 5000X, PowerStore 5000T, PowerStore 7000X, PowerStore 7000T, PowerStore 9000T

产品

PowerStore 9000X
文章属性
文章编号: 000185532
文章类型: Solution
上次修改时间: 04 11月 2021
版本:  5
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。