Serveurs PowerEdge 14G Intel et 15G : Gestion des événements de seuil d’erreur corrigible

摘要: Cet article fournit des recommandations mises à jour pour la gestion des événements de seuil d’erreur corrigibles (MEM0802 ou MEM5104) sur les modules RDIMM ou LRDIMM DDR4 installés sur les serveurs PowerEdge 14G et 15G basés sur Intel et sur les serveurs PowerEdge 15G basés sur AMD. ...

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

Remarque : Cet article ne s’applique pas aux serveurs PowerEdge basés sur AMD 14G, tels que les plates-formes 64x5 ou 74x5, car ils ne disposent pas de cette fonctionnalité de réinstallation automatique Post Package Repair, même si le DIMM lui-même la prend en charge.

À travers l’évolution des fonctionnalités de fiabilité, d’accessibilité et de facilité de maintenance (RAS) de la mémoire d’entreprise, Dell a adopté une approche prudente pour assurer la transparence vis-à-vis de ses clients. À mesure que cette évolution se poursuit, l’approche de Dell en matière de création de rapports d’erreurs se concentre sur les avis qui nécessitent une réponse plus urgente que sur les avis principalement informatifs.

À mesure que les géométries de mémoire DRAM continuent de diminuer, offrant aux clients les performances accrues qu’ils exigent, un nombre croissant d’erreurs corrigibles est attendu dans le cadre naturel d’une mise à l’échelle uniforme.

原因

Au sein de l’industrie mondiale des serveurs, il est de plus en plus admis et partagé, par Dell, que certaines erreurs corrigibles par DIMM sont inévitables et ne justifient pas en soi un remplacement du module mémoire ou même un redémarrage immédiat pour lancer une réinstallation automatique.

解决方案

Le fait de continuer à utiliser un système qui signale des erreurs corrigibles sans redémarrer l’autoréparation n’augmente pas le risque de rencontrer des erreurs non corrigibles pouvant entraîner des interruptions de service non planifiées. D’autres acteurs du secteur ont indiqué publiquement que leur gestion de la mémoire ne signalait pas d’erreurs corrigibles.

Dans le BIOS Intel PowerEdge 14G version 2.5.4 et versions ultérieures, un paramètre du BIOS appelé « Correctable Error Logging » a été ajouté pour permettre aux clients de désactiver les rapports d’erreurs corrigibles s’ils le souhaitent, et beaucoup l’ont fait. Le BIOS continue de planifier la réinstallation automatique des événements de seuil corrigibles, même sans consignation. Cette réinstallation automatique planifiée se produit automatiquement lors du redémarrage du système suivant.

Pour être plus en phase avec le secteur et les commentaires continus des clients, à compter de mars 2022, les mises à jour du BIOS Dell PowerEdge modifient le paramètre du BIOS « Correctable Error Logging » qui est désactivé par défaut. Cette option du BIOS peut être réactivée pour les clients qui souhaitent continuer à voir les événements de seuil de mémoire corrigibles. Les versions du BIOS avec cette modification des paramètres du BIOS incluses sont les suivantes :

  • Plateformes Intel 14G : BIOS version 2.13.3 ou ultérieure
  • Plateformes AMD 15G : BIOS version 2.6.5 ou ultérieure
  • Plates-formes Intel 15G : BIOS version 1.5.5 ou ultérieure.

Avantages de l’autoréparation des barrettes DIMM DDR4 par un redémarrage du système :

  • Elle permet de réparer un module DIMM DDR4 sans le retirer du système. tous les modules DIMM DDR4 provenant de Dell prennent en charge la fonctionnalité d’autoréparation de la mémoire.
 
Remarque : Les serveurs AMD PowerEdge 14G ne disposent pas de cette fonctionnalité de réinstallation automatique.
 
  • Utilise les rangées de rechange disponibles conçues dans la mémoire DRAM où une rangée défectueuse est définitivement remplacée par une rangée dont le fonctionnement a été vérifié par fusible électrique.
  • Le recyclage ultérieur de la mémoire optimise les « yeux de données » en recalibrant les points centraux pour s’assurer que le bus mémoire fonctionne au niveau le plus élevé d’intégrité de la signalisation.

Pour les événements de seuil corrigibles avec le paramètre BIOS « Correctable Error Logging » activé, si des événements de seuil de mémoire se produisent, Dell Technologies recommande de redémarrer selon le calendrier de maintenance régulier du client pour permettre la réinstallation automatique ou l’autocorrection planifiée de la mémoire. Après le redémarrage, les événements de réinstallation automatique réussie ou infructueuse sont consignés pour les modules DIMM associés.

Avec le paramètre BIOS « Correctable Error Logging » Diactivé, Dell Technologies recommande de redémarrer selon le programme de maintenance régulier du client. Lors du redémarrage, toutes les opérations de réinstallation automatique planifiées s’exécutent automatiquement. Le système consigne un événement (événements de type MEM0805 ou MEM7114) si la réinstallation automatique ou l’opération d’autocorrection échoue et recommande en outre de remplacer physiquement la barrette DIMM concernée.

Recommandation :
Dell Memory Engineering recommande aux clients des serveurs PowerEdge utilisant des versions du BIOS plus anciennes (antérieures aux versions de bloc de mars 2022) de remplacer le paramètre du BIOS « Correctable Error Logging » sur Désactivé. Cela élimine les événements de seuil de mémoire corrigibles sporadiques (tels que les événements de type MEM0802 ou MEM5104) sur l’ensemble de leur infrastructure de serveur qui recommandent des redémarrages du serveur pour permettre la réinstallation automatique ou l’autocorrection. Comme mentionné précédemment, toutes les opérations de réinstallation automatique ou d’autocorrection planifiées s’exécutent automatiquement lorsque le serveur est redémarré et que toute panne est signalée.

Le paramètre du BIOS « Correctable Error Logging » peut être modifié en redémarrant le serveur sur les paramètres F2 ou à l’aide de l’interface utilisateur Web de l’iDRAC.

Pour modifier le paramètre du BIOS à partir de F2 System Settings :

  • Redémarrez les serveurs en vous arrêtant aux paramètres F2
  • Dans la sélection Paramètres > du BIOSParamètres de mémoire, définissez la journalisation des erreurs corrigibles sur Désactivé.
  • Enregistrez les paramètres du BIOS et quittez les paramètres F2

Pour modifier les paramètres du BIOS à l’aide de l’interface utilisateur Web de l’iDRAC :

  • Connexion à l’interface utilisateur Web de l’iDRAC
  • Sous Configuration >Paramètres du BIOS, développez la section Paramètres de la mémoire
  • Définissez le paramètre Correctable Error Logging sur Disabled
  • Cliquez sur le bouton Apply pour enregistrer les paramètres de mémoire
  • N’oubliez pas de sélectionner le bouton Appliquer et redémarrer(pour redémarrer immédiatement) ou Au prochain redémarrage  pour appliquer les modifications du BIOS.

Les articles et livres blancs existants relatifs à la mémoire sont mis à jour pour refléter cette modification recommandée.
 

Remarque : Le message client approuvé est joint en tant que fichier à cet article : «Managing Correctable Error Notices Dec 2021 v1.pdf. »


Cet article est mis à jour au fur et à mesure que de nouvelles informations sont disponibles.

受影响的产品

Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, PowerEdge XR2, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R840, OEMR R940, OEMR R940xa, Poweredge C4140, PowerEdge C6420, PowerEdge C6520 , PowerEdge C6525, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX840C, PowerEdge R350, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8545, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4510c, PowerEdge XR4520c, VxFlex Ready Node R740xd, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840 ...

产品

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R340, OEMR R440 , PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R6515, OEMR R6525, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R7515, OEMR R7525, OEMR R840, OEMR R940, OEMR R940xa, OEMR T440, OEMR T550, OEMR T640, OEMR XL T640, OEMR XL R340, PowerEdge C6420, PowerEdge C6525, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R340, PowerEdge R540, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T440, PowerEdge T550, PowerEdge T640, PowerFlex appliance R650, PowerFlex appliance R6525, Powerflex appliance R750, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R750, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R7515 Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, Dell EMC XC Core XC7525 ...
文章属性
文章编号: 000194574
文章类型: Solution
上次修改时间: 07 11月 2025
版本:  5
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。