PowerStore: O nó pode reinicializar inesperadamente a partir de uma perda de memória do driver do Linux

摘要: Um nó pode ser redefinido inesperadamente devido à perda de memória dentro do espaço do kernel para a resposta de Report LUNs do destino SCSI (SCST).

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

O sistema será analisado para relatar mensagens excessivas, como:
svc_journalctl | grep "REPORT LUNS"

Apr x 01:00:31 xxxxx-A kernel: scst: REPORT LUNS got, target='xx:xx:xx:xx:xx:xx:xx:xx', initiator='xx:xx:xx:xx:xx:xx:xx:xx'
Apr x 01:00:31 xxxxx-B kernel: scst: REPORT LUNS got, target='xx:xx:xx:xx:xx:xx:xx:xx', initiator='xx:xx:xx:xx:xx:xx:xx:xx'
Apr x 01:00:33 xxxxx-A kernel: scst: REPORT LUNS got, target='xx:xx:xx:xx:xx:xx:xx:xx', initiator='xx:xx:xx:xx:xx:xx:xx:xx'
Apr x 01:00:34 xxxxx-B kernel: scst: REPORT LUNS got, target='xx:xx:xx:xx:xx:xx:xx:xx', initiator='xx:xx:xx:xx:xx:xx:xx:xx'
Apr x 01:00:34 xxxxx-A kernel: scst: REPORT LUNS got, target='xx:xx:xx:xx:xx:xx:xx:xx', initiator='xx:xx:xx:xx:xx:xx:xx:xx'

Um comando útil para verificar o número dessas mensagens seria, por exemplo:
svc_journalctl --since="today" | grep -c "REPORT LUNS"
44835

Indicações de falta podem começar a aparecer nos logs:
svc_journalctl--since="today" grep -i starved

Apr x 01:47:58.501672 xxxx-A xtremapp[22524]: Apr x 01:47:58.500331 M [log_id:22772][3840(3891 nb_truck_0_sym   0x7fa0ffc20d00)]sym_ham_nbt_timer:1284: ====+ HAM: SYM NBT was starved for 550906 us (the threshold is 500000) #STARV
Apr x 03:14:00.770872 xxxx-A xtremapp[22524]: Apr x 03:14:00.745703 M [log_id:22772][3840(3891 nb_truck_0_sym   0x7fa0ffc20d00)]sym_ham_nbt_timer:1284: ====+ HAM: SYM NBT was starved for 518854 us (the threshold is 500000) #STARV
Apr x 04:35:39.509945 xxxx-A xtremapp[22524]: Apr x 04:35:39.507440 M [log_id:22772][3840(3891 nb_truck_0_sym   0x7fa0ffc20d00)]sym_ham_nbt_timer:1284: ====+ HAM: SYM NBT was starved for 523371 us (the threshold is 500000) #STARV


Normalmente, um dump file é criado para esse evento, mas não é obrigatório para a análise de causa raiz (RCA). Consulte svc_dc list_dumps.

原因

Esse problema ocorre devido a perda de memória dentro do espaço do kernel para SCST devido ao comando excessivo "Report LUN" do ESXi. Isso pode causar um atraso na comunicação keepalive entre os nós que acionam uma redefinição de nó.

解决方案

Esse problema foi resolvido no PowerStoreOS 1.0.4.0.5.006 (V1 SP4.1).

A correção está listada nas notas da versão no MDT-261192: Um nó pode reinicializar inesperadamente devido à perda de memória do driver do Linux.

受影响的产品

PowerStore, PowerStore 1000X, PowerStore 1000T, PowerStore 3000X, PowerStore 3000T, PowerStore 5000X, PowerStore 5000T, PowerStore 7000X, PowerStore 7000T, PowerStore 9000T

产品

PowerStore 9000X
文章属性
文章编号: 000185532
文章类型: Solution
上次修改时间: 04 11月 2021
版本:  5
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。