Data Domain : Fonctionnement inattendu du processus FS dans le cache d’inode lorsque la mémoire est insuffisante dans le pool d’éléments de cache

摘要: Un défaut a été détecté dans certaines versions récentes de DDOS (confirmées dans les versions 7.7.4, 7.9.0.10 et 7.10.0, s’il affecte également DDOS 7.7.3) par lequel un fonctionnement inattendu du processus FS peut se produire dans le code du cache d’inode lorsque, en fonction de la charge applicative, un pool d’éléments de cache est à court de mémoire pour d’autres allocations. ...

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

Il n’y a pas de dégradation ou d’avertissement avancé pour ce problème, qui se manifeste sous la forme d’une défaillance du processus FS (PANIC), après quoi le processus redémarre et s’affiche automatiquement.
En raison du chemin de code en cours d’exercice, le processus de système de fichiers peut présenter un fonctionnement inattendu de plusieurs manières, y compris les éléments suivants :
PANIC: ddr/sm/ddfs/ddfs_mtree.c: ddfs_mtree_list: 829: !((dd_errno(e) == ENOENT) || (dd_errno(e) == DD_ERR_FM_EATTRNOENT) || (dd_errno(e) == DD_ERR_STALE))
PANIC: ddr/fv/file_verify.c: file_verify_update_marker_attrs: 4872: Fatal Error
PANIC: ddr/fv/file_verify.c: file_verify_update_snap_attr: 4446: Fatal Error
PANIC: ddr/fv/file_verify.c: file_verify_update_marker_attrs: 4860: Fatal Error
Dans les fichiers log du processus FS (ddfs.d’informations) les messages suivants sont détectés avant chaque blocage de processus :
01/17 20:21:59.292947 [7fbbf4f98f50] dd_cache_elem_reclaim: Evict count=256, Visited count=257, Skipped elem count=0, Skipped bucket count=0, Time threshold=1539816333626910. (99% full) Complete=True
01/17 20:22:04.662303 [7fbb031ad4f0] ERROR: FM fm_iget:355 - fm_iget failed to allocate elem in dd_cache 5001

Messages indiquant que le processus interne était plein à 99 %, puis impossible d’allouer d’autres éléments, ce qui entraîne un blocage du processus. 

Remarque : Ce problème n’affecte que les versions suivantes :
  • DDOS 7.7.3.x : Non entièrement confirmé
  • DDOS 7.7.4.x
  • DD OS 7.9.0.10
  • DDOS 7.10.0.x

原因

Pour toute opération de fichier comme la lecture/écriture, une structure d’inode est allouée à partir du pool d’éléments dd_cache.
Si ce cache est plein et qu’une nouvelle demande entre en jeu, un élément est exclus de ce cache et la nouvelle demande est remplie.
Cette éviction est basée sur une règle temporelle (un élément est exclus s’il n’a pas été consulté au cours des dernières secondes x).
Si ce cache devient trop chaud (tous les éléments ont été consultés au cours des « x » dernières secondes) et qu’aucun élément ne peut être supprimé, même après plusieurs tentatives, fm_iget renvoie DD_ERR_NOMEM.
Certains appelants de cette allocation de pool d’éléments ne peuvent pas gérer l’erreur correctement et, par conséquent, provoquent un fonctionnement inattendu du processus FS et le cœur de vidage doit fonctionner « fm_iget » renvoie une erreur. C’est pourquoi il existe plusieurs signatures de fonctionnement inattendu différentes correspondant au défaut de code sous-jacent.

解决方案

Le problème de code fondamental entraînant ces blocages du processus FS est résolu à l’aide de DDOS-168410 dans les versions suivantes (et toutes les versions ultérieures dans les mêmes branches de code) :
  • DD OS 7.7.5.1
  • DD OS 7.10.1.0
  • DDOS 7.11.0
Les clients concernés par ce problème qui ne peuvent pas immédiatement effectuer une mise à niveau vers l’une des versions ci-dessus peuvent essayer une solution de contournement pour laquelle ils doivent contacter le support Dell.
Si vous exécutez une version présentant le problème (celles répertoriées ci-dessus), mais que vous n’avez pas rencontré de blocage inattendu du processus FS, mais que les symptômes de cet article de KB correspondent, il est recommandé de ne pas appliquer proactivement la solution de contournement et, au lieu de cela, de procéder à une mise à niveau vers l’une des versions corrigées ci-dessus (ou l’un de leurs successeurs) pour bénéficier des dernières mises à jour et correctifs de code.

受影响的产品

Data Domain
文章属性
文章编号: 000207919
文章类型: Solution
上次修改时间: 21 12月 2023
版本:  17
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。