Serveurs PowerEdge 14G Intel et 15G : Gestion des événements de seuil d’erreur corrigible
摘要: Cet article fournit des recommandations mises à jour pour la gestion des événements de seuil d’erreur corrigibles (MEM0802 ou MEM5104) sur les modules RDIMM ou LRDIMM DDR4 installés sur les serveurs PowerEdge 14G et 15G basés sur Intel et sur les serveurs PowerEdge 15G basés sur AMD. ...
症状
À travers l’évolution des fonctionnalités de fiabilité, d’accessibilité et de facilité de maintenance (RAS) de la mémoire d’entreprise, Dell a adopté une approche prudente pour assurer la transparence vis-à-vis de ses clients. À mesure que cette évolution se poursuit, l’approche de Dell en matière de création de rapports d’erreurs se concentre sur les avis qui nécessitent une réponse plus urgente que sur les avis principalement informatifs.
À mesure que les géométries de mémoire DRAM continuent de diminuer, offrant aux clients les performances accrues qu’ils exigent, un nombre croissant d’erreurs corrigibles est attendu dans le cadre naturel d’une mise à l’échelle uniforme.
原因
解决方案
Le fait de continuer à utiliser un système qui signale des erreurs corrigibles sans redémarrer l’autoréparation n’augmente pas le risque de rencontrer des erreurs non corrigibles pouvant entraîner des interruptions de service non planifiées. D’autres acteurs du secteur ont indiqué publiquement que leur gestion de la mémoire ne signalait pas d’erreurs corrigibles.
Dans le BIOS Intel PowerEdge 14G version 2.5.4 et versions ultérieures, un paramètre du BIOS appelé « Correctable Error Logging » a été ajouté pour permettre aux clients de désactiver les rapports d’erreurs corrigibles s’ils le souhaitent, et beaucoup l’ont fait. Le BIOS continue de planifier la réinstallation automatique des événements de seuil corrigibles, même sans consignation. Cette réinstallation automatique planifiée se produit automatiquement lors du redémarrage du système suivant.
Pour être plus en phase avec le secteur et les commentaires continus des clients, à compter de mars 2022, les mises à jour du BIOS Dell PowerEdge modifient le paramètre du BIOS « Correctable Error Logging » qui est désactivé par défaut. Cette option du BIOS peut être réactivée pour les clients qui souhaitent continuer à voir les événements de seuil de mémoire corrigibles. Les versions du BIOS avec cette modification des paramètres du BIOS incluses sont les suivantes :
- Plateformes Intel 14G : BIOS version 2.13.3 ou ultérieure
- Plateformes AMD 15G : BIOS version 2.6.5 ou ultérieure
- Plates-formes Intel 15G : BIOS version 1.5.5 ou ultérieure.
Avantages de l’autoréparation des barrettes DIMM DDR4 par un redémarrage du système :
- Elle permet de réparer un module DIMM DDR4 sans le retirer du système. tous les modules DIMM DDR4 provenant de Dell prennent en charge la fonctionnalité d’autoréparation de la mémoire.
- Utilise les rangées de rechange disponibles conçues dans la mémoire DRAM où une rangée défectueuse est définitivement remplacée par une rangée dont le fonctionnement a été vérifié par fusible électrique.
- Le recyclage ultérieur de la mémoire optimise les « yeux de données » en recalibrant les points centraux pour s’assurer que le bus mémoire fonctionne au niveau le plus élevé d’intégrité de la signalisation.
Pour les événements de seuil corrigibles avec le paramètre BIOS « Correctable Error Logging » activé, si des événements de seuil de mémoire se produisent, Dell Technologies recommande de redémarrer selon le calendrier de maintenance régulier du client pour permettre la réinstallation automatique ou l’autocorrection planifiée de la mémoire. Après le redémarrage, les événements de réinstallation automatique réussie ou infructueuse sont consignés pour les modules DIMM associés.
Avec le paramètre BIOS « Correctable Error Logging » Diactivé, Dell Technologies recommande de redémarrer selon le programme de maintenance régulier du client. Lors du redémarrage, toutes les opérations de réinstallation automatique planifiées s’exécutent automatiquement. Le système consigne un événement (événements de type MEM0805 ou MEM7114) si la réinstallation automatique ou l’opération d’autocorrection échoue et recommande en outre de remplacer physiquement la barrette DIMM concernée.
Recommandation :
Dell Memory Engineering recommande aux clients des serveurs PowerEdge utilisant des versions du BIOS plus anciennes (antérieures aux versions de bloc de mars 2022) de remplacer le paramètre du BIOS « Correctable Error Logging » sur Désactivé. Cela élimine les événements de seuil de mémoire corrigibles sporadiques (tels que les événements de type MEM0802 ou MEM5104) sur l’ensemble de leur infrastructure de serveur qui recommandent des redémarrages du serveur pour permettre la réinstallation automatique ou l’autocorrection. Comme mentionné précédemment, toutes les opérations de réinstallation automatique ou d’autocorrection planifiées s’exécutent automatiquement lorsque le serveur est redémarré et que toute panne est signalée.
Le paramètre du BIOS « Correctable Error Logging » peut être modifié en redémarrant le serveur sur les paramètres F2 ou à l’aide de l’interface utilisateur Web de l’iDRAC.
Pour modifier le paramètre du BIOS à partir de F2 System Settings :
-
Redémarrez les serveurs en vous arrêtant aux paramètres F2
-
Dans la sélection Paramètres > du BIOSParamètres de mémoire, définissez la journalisation des erreurs corrigibles sur Désactivé.
-
Enregistrez les paramètres du BIOS et quittez les paramètres F2
Pour modifier les paramètres du BIOS à l’aide de l’interface utilisateur Web de l’iDRAC :
- Connexion à l’interface utilisateur Web de l’iDRAC
- Sous Configuration >Paramètres du BIOS, développez la section Paramètres de la mémoire
- Définissez le paramètre Correctable Error Logging sur Disabled
- Cliquez sur le bouton Apply pour enregistrer les paramètres de mémoire
- N’oubliez pas de sélectionner le bouton Appliquer et redémarrer(pour redémarrer immédiatement) ou Au prochain redémarrage pour appliquer les modifications du BIOS.
Les articles et livres blancs existants relatifs à la mémoire sont mis à jour pour refléter cette modification recommandée.
Managing Correctable Error Notices Dec 2021 v1.pdf. »
Cet article est mis à jour au fur et à mesure que de nouvelles informations sont disponibles.