Data Domain : Carte mémoire ou module DIMM avec une erreur de défaillance ou de composant défectueux
Summary: Ce document permet d’identifier l’erreur et/ou la défaillance et de fournir un chemin de résolution.
Symptoms
S’applique à :
- Tous les systèmes Data Domain
- Toutes les versions logicielles de Data Domain Operating System (DDOS)
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert.
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)
Cause
Les modules DIMM installés sur des systèmes Data Domain disposent d’un code de vérification des erreurs (ECC) qui permet de corriger à la volée les erreurs de mémoire corrigibles. Si un seuil d’erreur est dépassé, DDOS identifie la panne et génère une alerte appropriée sur le système.
Les erreurs de mémoire non corrigibles peuvent entraîner un redémarrage du système et sont considérées comme une panne de la mémoire matérielle. La défaillance totale d’un seul module DIMM ou d’une carte de montage de mémoire peut entraîner un événement d’arrêt du système et empêcher l’activation du système de fichiers. Cela est dû au fait que le processus Data Domain File System (DDFS) mobilise la majeure partie de la mémoire physique.
Resolution
Remarque : Si une erreur DIMM est signalée sur les systèmes basés sur Dell PowerEdge, la première action de restauration consiste à redémarrer l’unité DataDomain. Cela lance une PPR (POST Package Repair) pour récupérer la barrette DIMM.
Des efforts doivent être déployés pour déterminer la cause de l’alerte et identifier les composants DIMM, le processeur ou la carte mère concernés, et remplacer les pièces si nécessaire.
Si possible, rassemblez un bundle de support et créez une demande de service auprès de votre prestataire de services contractuel. La vidéo suivante montre comment rassembler un bundle de support : Rassembler un bundle de support (en anglais)
Directives de résolution :
- Pour les systèmes basés sur Dell PowerEdge, lancer un redémarrage du système pour faciliter la réparation automatique après le package (PPR). pour la récupération de la barrette DIMM.
- Les améliorations apportées au firmware du BIOS permettent à PPR de récupérer les erreurs DIMM corrigibles et non corrigibles (référence)
- Comparez l’état actuel du système avec une prise en charge automatique datant d’AVANT la défaillance ou l’alerte concernant le module DIMM
- Commandes DD-CLI (SSH) utiles pour la vérification de la mémoire :
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering ('q' to quit)
- Utilisez les diagnostics hors ligne DDOS pour tester et déterminer la défaillance. Rendez-vous sur le support Dell afin d’accéder au Guide de l’utilisateur Dell EMC Data Domain Operating System 6.x Offline Diagnostics Suite
- Si possible, appliquez les méthodes de dépannage physique afin d’éliminer et de déterminer les composants défectueux (à l’aide des guides et procédures de remplacement documentés).
- Réinstallez le module DIMM, en vous assurant que les deux côtés sont correctement verrouillés.
- Remplacez-le par un module DIMM en bon état de fonctionnement avéré issu d’un autre logement, canal, banque ou contrôleur :
- Si un système est en panne (absence de démarrage) en raison d’une défaillance de mémoire/module DIMM suspectée, tentez un démarrage minimal (retirez les appareils périphériques ou les cartes et laissez 1 module DIMM dans le logement « 0 »)
Additional Information
- Voir l’article de la base de connaissances 130388 : Documents relatifs au matériel PowerProtect et Data Domain pour des informations pertinentes sur la configuration et la disposition des modules DIMM.
- Voir l’article de la base de connaissances 82030 : Data Domain : Configurations de mémoire système requises et configurations de stockage étendues