Data Domain : Carte mémoire ou module DIMM avec une erreur de défaillance ou de composant défectueux

Summary: Ce document permet d’identifier l’erreur et/ou la défaillance et de fournir un chemin de résolution.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Les systèmes Data Domain (DD) surveillent l’état du matériel de mémoire système (modules DIMM). Une notification d’alerte appropriée est publiée à la moindre erreur liée aux modules DIMM.

S’applique à :
  • Tous les systèmes Data Domain
  • Toutes les versions logicielles de Data Domain Operating System (DDOS)
Notifications d’alerte possibles publiées par DDOS :
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert. 
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)

Cause

Les modules DIMM installés sur des systèmes Data Domain disposent d’un code de vérification des erreurs (ECC) qui permet de corriger à la volée les erreurs de mémoire corrigibles. Si un seuil d’erreur est dépassé, DDOS identifie la panne et génère une alerte appropriée sur le système.

Les erreurs de mémoire non corrigibles peuvent entraîner un redémarrage du système et sont considérées comme une panne de la mémoire matérielle. La défaillance totale d’un seul module DIMM ou d’une carte de montage de mémoire peut entraîner un événement d’arrêt du système et empêcher l’activation du système de fichiers. Cela est dû au fait que le processus Data Domain File System (DDFS) mobilise la majeure partie de la mémoire physique.

Remarque : d’autres symptômes ou alertes peuvent masquer des erreurs de mémoire (par exemple, des erreurs de vérification machine du processeur). Une analyse des journaux et un dépannage plus approfondis peuvent être nécessaires.

Resolution

Remarque : Si une erreur DIMM est signalée sur les systèmes basés sur Dell PowerEdge, la première action de restauration consiste à redémarrer l’unité DataDomain. Cela lance une PPR (POST Package Repair) pour récupérer la barrette DIMM.

Des efforts doivent être déployés pour déterminer la cause de l’alerte et identifier les composants DIMM, le processeur ou la carte mère concernés, et remplacer les pièces si nécessaire. 

Si possible, rassemblez un bundle de support et créez une demande de service auprès de votre prestataire de services contractuel. La vidéo suivante montre comment rassembler un bundle de support : Rassembler un bundle de support (en anglais)Ce lien hypertexte renvoie à un site Web extérieur à Dell Technologies.

Directives de résolution :

  • Pour les systèmes basés sur Dell PowerEdge, lancer un redémarrage du système pour faciliter la réparation automatique après le package (PPR). pour la récupération de la barrette DIMM.
    • Les améliorations apportées au firmware du BIOS permettent à PPR de récupérer les erreurs DIMM corrigibles et non corrigibles (référence)
  • Comparez l’état actuel du système avec une prise en charge automatique datant d’AVANT la défaillance ou l’alerte concernant le module DIMM
  • Commandes DD-CLI (SSH) utiles pour la vérification de la mémoire :
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering  ('q' to quit)
  • Utilisez les diagnostics hors ligne DDOS pour tester et déterminer la défaillance. Rendez-vous sur le support Dell afin d’accéder au Guide de l’utilisateur Dell EMC Data Domain Operating System 6.x Offline Diagnostics Suite
  • Si possible, appliquez les méthodes de dépannage physique afin d’éliminer et de déterminer les composants défectueux (à l’aide des guides et procédures de remplacement documentés).
  • Réinstallez le module DIMM, en vous assurant que les deux côtés sont correctement verrouillés.
  • Remplacez-le par un module DIMM en bon état de fonctionnement avéré issu d’un autre logement, canal, banque ou contrôleur :
  • Si un système est en panne (absence de démarrage) en raison d’une défaillance de mémoire/module DIMM suspectée, tentez un démarrage minimal (retirez les appareils périphériques ou les cartes et laissez 1 module DIMM dans le logement « 0 »)

Additional Information

Références

Affected Products

Data Domain, Integrated Data Protection Appliance Family

Products

PowerProtect Data Protection Appliance, Data Domain, Data Domain Deduplication Storage Systems, PowerProtect Data Protection Hardware
Article Properties
Article Number: 000204330
Article Type: Solution
Last Modified: 03 Mar 2025
Version:  11
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.