PowerEdge : Qu’est-ce que l’autoréparation DDR4 avec les processeurs Intel Xeon Scalable ?

Summary: Erreurs de mémoire corrigibles et non corrigibles sur le serveur PowerEdge avec DDR4 et modifications apportées aux étapes de dépannage

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

En quoi consiste « l’autodépannage » de la mémoire DDR4 sur les serveurs Dell PowerEdge équipés de processeurs Intel Xeon Scalable (première ou deuxième génération) avec un BIOS de version 2.1.x ou ultérieure ?

Comment ces fonctions d’autodépannage de la mémoire DDR4 (améliorations du BIOS) modifient-elles les actions recommandées pour le client et le support technique en cas d’erreurs de mémoire survenant sur un serveur ?

Quelles sont les améliorations d’autodépannage dans les versions plus récentes du BIOS ?

Cause

Le BIOS Dell PowerEdge présente des améliorations continues qui améliorent la messagerie des événements de mémoire, la gestion des erreurs et l’autodépannage déclenché au redémarrage du serveur. Cela permet d’éviter la nécessité d’une fenêtre de maintenance planifiée ou d’une présence sur place pour remplacer un module DIMM de mémoire DDR4 qui enregistrait les événements d’erreur.

Resolution

Deux principales améliorations du BIOS impliquant une capacité « d’autodépannage » liée à la mémoire ont été mises en œuvre sur les serveurs PowerEdge équipés d’une DDR4 et fonctionnant sous un BIOS de version 2.1.x ou ultérieure. Ces améliorations modifient les étapes/actions qu’il est recommandé de suivre si des événements de mémoire se produisent et sont consignées dans le journal LifeCycle.

Remarque :
  • si vous rencontrez des erreurs de mémoire avec votre DDR4 sur une version 2.0 ou inférieure du BIOS, mettez à jour le BIOS vers la dernière version pour y intégrer les nombreuses fonctionnalités et améliorations d’autodépannage de la mémoire. Nous encourageons toujours les clients à effectuer une mise à jour vers la dernière version du BIOS disponible (et celle du firmware iDRAC) afin de bénéficier des dernières améliorations d’autodépannage.
  • Les étapes de dépannage de la mémoire précédentes consistaient à déplacer les barrettes DIMM défectueuses vers un autre logement pour vérifier si les erreurs étaient liées à la barrette DIMM ou au logement DIMM. Avec le BIOS version 2.1.x ou supérieure, la première étape recommandée consiste à effectuer un redémarrage (sans déplacer les barrettes DIMM vers un autre logement), Cela permet de laisser les nouvelles améliorations du BIOS s’exécuter de manière à pouvoir éventuellement résoudre les erreurs de DIMM (grâce à la fonction d’autodépannage) sans planifier le remplacement des barrettes DIMM.
  1. Améliorations du recyclage de la mémoire

Le recyclage de la mémoire, qui se produit au cours du démarrage (au début des étapes de configuration de la mémoire), permet d’optimiser la synchronisation et les marges des signaux pour chaque barrette DIMM/logement afin de garantir un accès optimal. Les caractéristiques de synchronisation et des marges des signaux de la mémoire d’une barrette DIMM peuvent changer pour différentes raisons :

  • Modifications apportées à la configuration de la mémoire du serveur
  • Modifications du BIOS (code de référence de mémoire - MRC)
  • Différentes températures de fonctionnement du serveur ou de la barrette DIMM
  • Âge global de la DIMM

Auparavant, la détection de mises à jour du BIOS ou de modifications de configuration de la mémoire aurait entraîné un recyclage de la mémoire au démarrage suivant. À partir de la version 2.1.x du BIOS, d’autres « déclencheurs » d’erreurs de mémoire corrigibles et non corrigibles ont été ajoutées pour le recyclage planifié :

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Toutes ces erreurs consignées dans le journal SEL ou les journaux Lifecycle entraînent la planification d’un recyclage de la mémoire au prochain redémarrage (à chaud ou à froid). Le BIOS déclenche automatiquement un redémarrage à froid, quelle que soit l’action initiée.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

Cette sur plusieurs bits peut entraîner le redémarrage du serveur en raison d’une erreur fatale si le système d’exploitation ne parvient pas à gérer cette erreur. Le recyclage de la mémoire se produit automatiquement au cours de ce démarrage. Si l’erreur sur plusieurs bits se produit dans un emplacement de mémoire non stratégique que le système d’exploitation est en mesure de gérer, un redémarrage doit être planifié.

Le réentraînement de la mémoire pendant l’autotest de démarrage (POST) peut « réparer automatiquement » le module DIMM défaillant et le logement associé en optimisant la synchronisation et les marges des signaux. Avec ces erreurs, il n’est pas nécessaire de remplacer la barrette DIMM, à moins que le recyclage de la mémoire échoue (UEFI0106) au cours du démarrage ou que les mêmes erreurs se produisent.
 

  1. PPR (Post Package Repair)

La deuxième amélioration apportée à la capacité d’autodépannage de la mémoire est la PPR. La PPR répare un emplacement de mémoire défectueux en désactivant l’emplacement ou l’adresse sur la couche matérielle, ce qui permet d’utiliser à la place une ligne de mémoire de réserve. Le nombre exact de lignes de mémoire de secours disponibles dépend de la DRAM et de la taille de la DIMM.

Auparavant, cette fonctionnalité se limitait au processus de fabrication. Tout comme les améliorations apportées au recyclage de la mémoire mentionnées précédemment, il existe certaines erreurs de mémoire corrigibles qui déclenchent la planification d’une PPR sur un logement DIMM spécifique lors du prochain redémarrage (à chaud ou à froid). Le BIOS déclenche automatiquement un redémarrage à froid, quelle que soit l’action initiée. Étant donné que l’opération PPR est planifiée sur un logement de DIMM spécifique, NE modifiez PAS les emplacements des logements DIMM tant que l’opération PPR n’a pas été exécutée. Voici des exemples d’erreurs :

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Tout événement de ce type dans les journaux entraîne la planification d’une PPR pour le prochain redémarrage (à chaud ou à froid) au début de la phase de configuration de la mémoire.

Remarque : Un ID de message MEM8000 (journalisation des erreurs de mémoire corrigibles désactivée pour un appareil de mémoire à l’emplacement DIMM_XX.), sans MEM0005/MEM0701/MEM0702 correspondant sur le même emplacement DIMM, n’entraîne pas la planification d’une PPR pour le prochain redémarrage.

Reportez-vous à la mise à jour du 10 juillet 2020 pour connaître les modifications concernant l’événement MEM8000 et la mise à jour de la version 1.1 et du livre blanc le plus récent.

Après le redémarrage, vérifiez que l’opération PPR a bien été exécutée. Lorsqu’une opération PPR aboutit, vous obtenez un message semblable à ce qui suit :

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


Il n’est pas nécessaire de remplacer la barrette DIMM si vous rencontrez ces erreurs de mémoire corrigibles, sauf si l’opération PPR échoue. Exemple de message en cas d’échec critique de l’opération PPR :

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

Un livre blanc (version 1.0) récemment publié décrivant les fonctions de fiabilité, de disponibilité et de facilité de maintenance (RAS) associées aux mémoires des serveurs Dell PowerEdge est désormais disponible. Ce livre blanc décrit les diverses fonctions et fonctionnalités RAS disponibles sur les serveurs PowerEdge : Erreurs de mémoire et fonctionnalités RAS pour les mémoires des serveurs Dell PowerEdge YX4X.

 

Mis à jour le 24 avril 2020

Dell continue d’améliorer ses fonctionnalités d’autodépannage. La section suivante répertorie les mises à jour et améliorations associées aux différentes versions du BIOS.

BIOS 2.1.x : publication initiale de l’article consacré aux fonctionnalités d’autodépannage disponibles à partir de la version 2.1.6 du BIOS, contenant des exemples de messages d’erreur et des actions recommandées.

Modifications du BIOS versions 2.4.x et supérieures (décembre 2019)

  • MEM0702 (Correctable error rate exceeded…) : mise à jour du niveau de gravité du message de « critique » à « avertissement ». Mise à jour des actions recommandées pour redémarrer le serveur afin de permettre l’autodépannage, c’est-à-dire la réparation PPR.
    • Version de décembre 2019 ou une version plus récente de l’iDRAC à installer pour obtenir le message mis à jour
    • Action recommandée : Redémarrez le serveur pour permettre à la PPR de s’exécuter.
  • MEM9060 - Description du message mise à jour pour indiquer que l’autodépannage a été effectué avec succès

Modifications du BIOS 2.5.x et ultérieures (février 2020)

  • Une option « Correctable Error logging » du BIOS a été ajoutée pour permettre aux clients de désactiver toute journalisation Lifecycle ou SEL liée aux erreurs corrigibles. Toutes les fonctionnalités d’autoréparation continuent de fonctionner, c’est-à-dire que la PPR et le recyclage de la mémoire sont toujours planifiés et exécutés lors du prochain redémarrage (début du processus de configuration de la mémoire).
  • Ajout d’erreurs MEM08xx pour les modules RDIMM et LRDIMM en remplacement des messages d’erreur et des actions existants. Les messages d’erreur existants sont toujours utilisés pour les plates-formes qui ne prennent pas en charge les fonctionnalités d’autodépannage.
    • La version de février 2020 ou version ultérieure d’iDRAC est requise pour les nouveaux messages à journaliser.
Remarque : Sans la mise à jour de l’iDRAC, les nouveaux messages du BIOS sont « inconnus » dans le journal SEL ou le journal Lifecycle.
  • MEM0802 - Remplacement de MEM0702 - Correctable error rate exceeded
    • Action recommandée : Redémarrez le serveur pour permettre à la PPR de s’exécuter. Confirmez que la PPR a réussi (MEM0802).
  • MEM0804 - Remplacement de MEM9060 indiquant que la PPR a réussi. Inclut désormais l’emplacement des logements DIMM qui exécutaient la PPR.
    • Action recommandée : Aucune, l’événement indique qu’un « autodépannage » s’est produit, aucun remplacement de module DIMM n’est nécessaire.
  • MEM0805 - Remplacement de UEFI0278 indiquant l’échec de la PPR
    • Action recommandée : Remettre en place le DIMM en échec

Mis à jour le vendredi 10 juillet 2020

Modifications apportées au BIOS 2.7.x et versions supérieures (BIOS en mode bloc de juillet 2020 - ciblé mi-juillet pour la publication sur le Web)

  • MEM8000 (Journalisation des erreurs corrigibles désactivée) - À partir du BIOS ~2.0.x, les services techniques Dell ont modifié le BIOS pour améliorer le taux de détection des erreurs corrigibles susceptibles d’affecter les performances. Cette modification a entraîné une augmentation des événements MEM8000 qui n’étaient pas corroborés par les résultats de l’analyse de défaillance de barrette DIMM. À partir du BIOS 2.7.x, deux modifications sont liées à MEM8000. La première est que le signal de l’événement MEM8000 a été modifié. Deuxièmement, le BIOS planifie l’autodépannage (PPR) pour le prochain redémarrage. Les messages iDRAC ne sont pas encore mis à jour pour refléter les nouvelles actions.
    • Action recommandée : Redémarrez le serveur pour permettre l’exécution de l’autodépannage/la PPR. Confirmez que la PPR a réussi (MEM0804).
  • MEM0001 (erreur non corrigible) : entraîne une planification de l’autodépannage (PPR) au prochain redémarrage. Les messages iDRAC ne sont pas encore mis à jour pour refléter les nouvelles actions.
    • Action recommandée : aucune n’est nécessaire si MEM0001 est associé à une page critique que le système d’exploitation ne parvient pas à restaurer. Il s’agit toujours d’une erreur fatale entraînant un redémarrage. Si le MEM0001 est associé à une page non critique à partir de laquelle le système d’exploitation peut effectuer une restauration, un redémarrage doit être planifié pour que tous les autodépannages (PPR) s’effectuent. Confirmez que la PPR a réussi (MEM0804).

MISE À JOUR : 13 janvier 2021

Modifications apportées au BIOS 2.8.2 et versions supérieures (BIOS en mode bloc, septembre 2020)

  • MEM9072 (Erreur non corrigible identifiée par le processus de nettoyage de la mémoire. La page n’est pas consommée ou en cours d’utilisation) : entraîne une planification de l’autodépannage (PPR) au prochain redémarrage. Les messages iDRAC ne sont pas encore mis à jour pour refléter les nouvelles actions.
    • Action recommandée : planifiez un redémarrage prochainement. Retarder le redémarrage peut entraîner la consommation de la page et ainsi une erreur MEM0001 qui peut conduire à un redémarrage. L’autodépannage de la mémoire (PPR) s’exécute pendant ce redémarrage. Confirmez que la PPR a réussi (MEM0804).
Remarque : la dernière version du livre blanc technique (version 1.3 - date de publication le 20 novembre 2020) est disponible à l’adresse suivante :  https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
Pour du contenu Intel Xeon E et AMD EPYC, voir le livre blanc technique d’origine (version 1.0), disponible à l’adresse suivante : Livre blanc RAS sur la mémoire serveur PowerEdge YX4X v1.0 (dell.com)

Des améliorations supplémentaires apportées aux fonctions RAS sont évaluées pour être incluses dans les futures mises à jour du BIOS.

 
Remarque : pour obtenir une description détaillée et les actions recommandées pour des messages de code d’erreur spécifiques, voir le lien suivant : Recherche (dell.com). Étant donné que les codes d’erreur (tels que MEM0001) s’appliquent à plusieurs générations de serveurs et de plateformes, les actions recommandées peuvent ne pas être à jour pour la version du BIOS concernée. Les nouveaux codes d’erreur ajoutés (tels que MEM0802, MEM0804, MEM0805, etc.) s’appliquent uniquement aux serveurs équipés de processeurs Intel Xeon Scalable (première ou deuxième génération).

 

Cet article sera mis à jour lorsque de nouvelles informations seront disponibles.


Téléchargements et pilotes : Pilotes et téléchargements

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R240, OEMR R250 , OEMR XE R250, OEMR R260, OEMR XE R260, OEMR R340, OEMR R350, OEMR XE R350, OEMR R360, OEMR XE R360, OEMR R440, PowerEdge XR2, OEMR R450, OEMR R540, OEMR R550, OEMR R5500, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R660, OEMR XL R660, OEMR R660xs, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR XL R760, OEMR R760xs, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa, OEMR R960, OEMR T140, OEMR T150, OEMR T340, OEMR T350, OEMR T360, OEMR T440, OEMR T550, OEMR T560, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340, OEMR XL R660xs, OEMR XR11, OEMR XR12, OEMR XR4000r, OEMR XR4000w, OEMR XR4510c, OEMR XR4520c, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, Poweredge C4140, PowerEdge C6420, PowerEdge C6520, PowerEdge C6525, PowerEdge C6615, PowerEdge C6620, PowerEdge FC640, PowerEdge HS5610, PowerEdge HS5620, PowerEdge M640, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX760c, PowerEdge MX840C, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R660, PowerEdge R660xs, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XE9680L, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4000r, PowerEdge XR4000w, PowerEdge XR4510c, PowerEdge XR4520c, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t, PowerFlex appliance R650, PowerFlex appliance R660, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex custom node R650, PowerFlex custom node R660, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R860, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN MX750c Ready Node, Dell vSAN Ready Node MX760c, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, vSAN Ready Node R660, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R760 Ready Node, Dell EMC vSAN R840 Ready Node, Dell EMC vSAN T350 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...

Products

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 25 Nov 2025
Version:  26
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.