Data Domain : Carte mémoire ou module DIMM avec une erreur de défaillance ou de composant défectueux

Zusammenfassung: Ce document permet d’identifier l’erreur et/ou la défaillance et de fournir un chemin de résolution.

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Symptome

Les systèmes Data Domain (DD) surveillent l’état du matériel de mémoire système (modules DIMM). Une notification d’alerte appropriée est publiée à la moindre erreur liée aux modules DIMM.

S’applique à :
  • Tous les systèmes Data Domain
  • Toutes les versions logicielles de Data Domain Operating System (DDOS)
Notifications d’alerte possibles publiées par DDOS :
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert. 
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)

Ursache

Les modules DIMM installés sur des systèmes Data Domain disposent d’un code de vérification des erreurs (ECC) qui permet de corriger à la volée les erreurs de mémoire corrigibles. Si un seuil d’erreur est dépassé, DDOS identifie la panne et génère une alerte appropriée sur le système.

Les erreurs de mémoire non corrigibles peuvent entraîner un redémarrage du système et sont considérées comme une panne de la mémoire matérielle. La défaillance totale d’un seul module DIMM ou d’une carte de montage de mémoire peut entraîner un événement d’arrêt du système et empêcher l’activation du système de fichiers. Cela est dû au fait que le processus Data Domain File System (DDFS) mobilise la majeure partie de la mémoire physique.

Remarque : d’autres symptômes ou alertes peuvent masquer des erreurs de mémoire (par exemple, des erreurs de vérification machine du processeur). Une analyse des journaux et un dépannage plus approfondis peuvent être nécessaires.

Lösung

Remarque : Si une erreur DIMM est signalée sur les systèmes basés sur Dell PowerEdge, la première action de restauration consiste à redémarrer l’unité DataDomain. Cela lance une PPR (POST Package Repair) pour récupérer la barrette DIMM.

Des efforts doivent être déployés pour déterminer la cause de l’alerte et identifier les composants DIMM, le processeur ou la carte mère concernés, et remplacer les pièces si nécessaire. 

Si possible, rassemblez un bundle de support et créez une demande de service auprès de votre prestataire de services contractuel. La vidéo suivante montre comment rassembler un bundle de support : Rassembler un bundle de support (en anglais)Ce lien hypertexte renvoie à un site Web extérieur à Dell Technologies.

Directives de résolution :

  • Pour les systèmes basés sur Dell PowerEdge, lancer un redémarrage du système pour faciliter la réparation automatique après le package (PPR). pour la récupération de la barrette DIMM.
    • Les améliorations apportées au firmware du BIOS permettent à PPR de récupérer les erreurs DIMM corrigibles et non corrigibles (référence)
  • Comparez l’état actuel du système avec une prise en charge automatique datant d’AVANT la défaillance ou l’alerte concernant le module DIMM
  • Commandes DD-CLI (SSH) utiles pour la vérification de la mémoire :
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering  ('q' to quit)
  • Utilisez les diagnostics hors ligne DDOS pour tester et déterminer la défaillance. Rendez-vous sur le support Dell afin d’accéder au Guide de l’utilisateur Dell EMC Data Domain Operating System 6.x Offline Diagnostics Suite
  • Si possible, appliquez les méthodes de dépannage physique afin d’éliminer et de déterminer les composants défectueux (à l’aide des guides et procédures de remplacement documentés).
  • Réinstallez le module DIMM, en vous assurant que les deux côtés sont correctement verrouillés.
  • Remplacez-le par un module DIMM en bon état de fonctionnement avéré issu d’un autre logement, canal, banque ou contrôleur :
  • Si un système est en panne (absence de démarrage) en raison d’une défaillance de mémoire/module DIMM suspectée, tentez un démarrage minimal (retirez les appareils périphériques ou les cartes et laissez 1 module DIMM dans le logement « 0 »)

Weitere Informationen

Références

Betroffene Produkte

Data Domain, Integrated Data Protection Appliance Family

Produkte

PowerProtect Data Protection Appliance, Data Domain, Data Domain Deduplication Storage Systems, PowerProtect Data Protection Hardware
Artikeleigenschaften
Artikelnummer: 000204330
Artikeltyp: Solution
Zuletzt geändert: 15 Jan. 2026
Version:  12
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.