VxBlock : Amélioration des fonctionnalités RAS de la mémoire pour les plates-formes Cisco UCS M5
Summary: En raison d’erreurs DIMM de mémoire et de modifications architecturales dans la gestion des erreurs de mémoire sur les processeurs Intel Xeon Scalable (anciennement nom de code « Skylake Server ») et les processeurs Intel Xeon Scalable de 2e génération (anciennement nom de code « Cascade Lake Server »), les clients Cisco UCS M5 qui rencontrent des erreurs de mémoire DIMM de mémoire peuvent rencontrer un taux plus élevé d’erreurs de mémoire non corrigibles lors de l’exécution que sur les générations précédentes avec le mode RAS de mémoire SDDC par défaut. ...
Instructions
Description du problème
Les serveurs Cisco UCS M5 équipés de certains processeurs Intel Xeon Scalable peuvent rencontrer un taux plus élevé d’erreurs de mémoire non corrigibles lors de l’exécution que les générations précédentes avec la configuration par défaut de fiabilité, de disponibilité et de facilité de maintenance (RAS) de la mémoire SDDC (Single Device Data Correction).
Informations
Les processeurs Intel Xeon Scalable et Xeon Scalable de 2e génération ont apporté des modifications au SDDC. Le SDDC est une fonctionnalité Intel RAS fondamentale disponible sur toutes les plates-formes Cisco. En conséquence de ces modifications architecturales et des erreurs DIMM (Dual Inline Memory Module), il existe une différence dans la façon dont les erreurs seront corrigées entre la génération précédente de processeurs et la génération de la famille de processeurs Xeon Scalable.
Les dernières améliorations apportées au microcode Intel et au BIOS améliorent la gestion des erreurs de mémoire en activant des fonctionnalités RAS de mémoire supplémentaires, telles que Adaptive Double Device Data Correction (ADDDC Sparing) et Post Packet Repair (PPR). Le remplacement ADDDC et la PPR sont désormais la configuration RAS de la mémoire par défaut sur les serveurs Cisco UCS M5 équipés de processeurs Intel Xeon Scalable.
Vous trouverez des informations supplémentaires sur les fonctionnalités RAS de la mémoire, telles que ADDDC et PPR, dans le document suivant : Présentation technique de la mémoire Cisco UCS HX M5 - Fonctionnalités RAS de la mémoire.
Matrice de certification des versions (RCM) concernée
- Versions RCM antérieures à la version 7.0.3.0
- Versions RCM antérieures à la version 6.7.9.0
RCM Versions antérieures à la version 6.5.16.0.
Lames UCS M5 et serveurs rack UCS M5 intégrés
Cisco UCS 4.1(1d) ou version ultérieure étend la couverture des pannes de mémoire. Cette version et les versions ultérieures incluent des fonctionnalités RAS supplémentaires, Adaptive Double Device Data Correction (ADDDC Sparing) et Post Package Repair (PPR). Ils sont activés et configurés en tant que « Platform Default » pour les configurations RAS de mémoire. Dans les versions précédentes, la configuration RAS de la mémoire était définie sur « Performances maximales ». Le firmware d’origine qui intégrait ADDDC et PPR incluait UCS Manager 4.1(1d), mais un défaut a été identifié dans cette version et peut avoir un impact sur plusieurs systèmes, à savoir CSCvr79388. En raison de ce défaut, Cisco a modifié le firmware minimum requis. Il est maintenant recommandé de mettre à niveau USC vers la version 4.1(3b) ou une version ultérieure, qui inclut le correctif pour ce défaut. La version UCS 4.1(3b) se trouve dans les versions RCM ci-dessous.
Racks UCS M5 autonomes
Dans Cisco Integrated Manager Controller (IMC) version 4.1(1d) et versions ultérieures, les fonctionnalités Adaptive Double Device Data Correction (ADDDC Sparing) et Post Package Repair (PPR) sont disponibles. Ils sont activés et configurés en tant que « Platform Default » pour les configurations RAS de mémoire. Dans les versions précédentes, la configuration RAS de la mémoire était définie sur « Performances maximales ». Le même bogue trouvé dans la version UCSM 4.1(1d) affecte également la version CIMC 4.1(1d). La version initiale de CIMC avec le correctif, 4.1(3b), est incluse dans les versions RCM répertoriées ci-dessous.
Paramètres BIOS requis
- Pour les serveurs gérés par UCS Manager dont la STRATÉGIE du BIOS pour la configuration RAS est définie sur « Valeur par défaut de la plate-forme », aucune modification n’est requise pour que la tolérance de remplacement ADDDC prenne effet.
- Pour les serveurs gérés par UCS Manager pour lesquels la STRATÉGIE du BIOS pour la configuration RAS n’est PAS définie sur « Valeur par défaut de la plate-forme », la stratégie doit être remplacée par Remplacement ADDDC (ou Valeur par défaut de la plate-forme) pour tirer parti d’ADDDC.
- Pour les serveurs autonomes (non gérés par le gestionnaire UCS), aucune modification n’est requise pour que la capacité de remplacement ADDDC prenne effet.
Matrice de certification des versions (RCM, Release Certification Matrix) avec correctif pour la version 4.1(3b)
- RCM version 7.0.3.0 et ultérieures pour les systèmes suivants
- VxBlock 340, 350, 540, 540-40G, 740 et 1000
- Extension technologique pour le calcul
- RCM version 6.7.9.0 et ultérieures pour les systèmes suivants
- Vblock 240, 340, 350, 540 et 740
- VxBlock 240, 340, 350, 540, 540-40G, 740 et 1000
- Extension technologique pour le calcul
- RCM versions 6.5.16.0 et supérieures pour les systèmes suivants
- Vblock 240, 340, 350, 540 et 740
- VxBlock 240, 340, 350, 540, 740 et 1000
*Note* Les numéros de version RCM peuvent varier selon le système VxBlock. Reportez-vous à la version RCM avant de mettre à niveau votre système VxBlock pour garantir la conformité du code.
IMPORTANT ! Effectuez une mise à niveau uniquement si vous êtes directement concerné par le problème mentionné !
Pour plus d’informations concernant le problème décrit dans cet article, reportez-vous à l’avis de terrain Cisco : Avis sur le terrain : FN - 70432
ID du défaut : CSCvq38078
Pour plus d’informations, regardez cette vidéo :