PowerStore : Le nœud peut redémarrer de manière inattendue en raison d’une fuite de mémoire du pilote Linux

摘要: Un nœud peut se réinitialiser de manière inattendue en raison d’une fuite de mémoire au sein de l’espace du noyau pour la réponse SCSI Target (SCST) Report LUN. ...

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

Le système signale notamment les messages excessifs suivants :
svc_journalctl | grep "REPORT LUNS"

Apr x 01:00:31 xxxxx-A kernel: scst: REPORT LUNS got, target='xx:xx:xx:xx:xx:xx:xx:xx', initiator='xx:xx:xx:xx:xx:xx:xx:xx'
Apr x 01:00:31 xxxxx-B kernel: scst: REPORT LUNS got, target='xx:xx:xx:xx:xx:xx:xx:xx', initiator='xx:xx:xx:xx:xx:xx:xx:xx'
Apr x 01:00:33 xxxxx-A kernel: scst: REPORT LUNS got, target='xx:xx:xx:xx:xx:xx:xx:xx', initiator='xx:xx:xx:xx:xx:xx:xx:xx'
Apr x 01:00:34 xxxxx-B kernel: scst: REPORT LUNS got, target='xx:xx:xx:xx:xx:xx:xx:xx', initiator='xx:xx:xx:xx:xx:xx:xx:xx'
Apr x 01:00:34 xxxxx-A kernel: scst: REPORT LUNS got, target='xx:xx:xx:xx:xx:xx:xx:xx', initiator='xx:xx:xx:xx:xx:xx:xx:xx'

Pour vérifier le nombre de ces messages, il peut être utile d’utiliser, entre autres, la commande suivante :
svc_journalctl --since="today" | grep -c "REPORT LUNS"
44835

Des indications concernant la famine peuvent alors commencer à apparaître dans les journaux :
svc_journalctl--since="today" grep -i starved

Apr x 01:47:58.501672 xxxx-A xtremapp[22524]: Apr x 01:47:58.500331 M [log_id:22772][3840(3891 nb_truck_0_sym   0x7fa0ffc20d00)]sym_ham_nbt_timer:1284: ====+ HAM: SYM NBT was starved for 550906 us (the threshold is 500000) #STARV
Apr x 03:14:00.770872 xxxx-A xtremapp[22524]: Apr x 03:14:00.745703 M [log_id:22772][3840(3891 nb_truck_0_sym   0x7fa0ffc20d00)]sym_ham_nbt_timer:1284: ====+ HAM: SYM NBT was starved for 518854 us (the threshold is 500000) #STARV
Apr x 04:35:39.509945 xxxx-A xtremapp[22524]: Apr x 04:35:39.507440 M [log_id:22772][3840(3891 nb_truck_0_sym   0x7fa0ffc20d00)]sym_ham_nbt_timer:1284: ====+ HAM: SYM NBT was starved for 523371 us (the threshold is 500000) #STARV


Normalement, un fichier de vidage est créé à l’occasion de cet événement, mais il n’est pas obligatoire pour l’analyse des causes premières (RCA). Reportez-vous à l’article svc_dc list_dumps.

原因

Ce problème se produit en cas de fuite de mémoire au sein de l’espace du noyau pour SCST en raison de l’utilisation excessive de la commande « Report LUN » depuis ESXi. Cela peut ralentir la communication keepalive entre les nœuds et donc entraîner une réinitialisation de nœud.

解决方案

La version 1.0.4.0.5.006 (v1 SP 4.1) de PowerStoreOS corrige ce problème.

Le correctif est répertorié dans les notes de mise à jour sous MDT-261192 : Un nœud peut redémarrer de manière inattendue en raison d’une fuite de mémoire du pilote Linux.

受影响的产品

PowerStore, PowerStore 1000X, PowerStore 1000T, PowerStore 3000X, PowerStore 3000T, PowerStore 5000X, PowerStore 5000T, PowerStore 7000X, PowerStore 7000T, PowerStore 9000T

产品

PowerStore 9000X
文章属性
文章编号: 000185532
文章类型: Solution
上次修改时间: 04 11月 2021
版本:  5
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。