VxBlock: Покращені функції RAS пам'яті для платформ Cisco UCS M5
Summary: Через помилки DIMM пам'яті та архітектурні зміни в обробці помилок пам'яті на процесорах Intel Xeon Scalable (раніше з кодовим ім'ям «Skylake Server») та процесорах другого покоління Intel Xeon Scalable (раніше під кодовим ім'ям «Cascade Lake Server»), клієнти Cisco UCS M5, які стикаються з помилками пам'яті DIMM, можуть стикатися з більшою частотою невиправних помилок пам'яті під час виконання, ніж у попередніх поколіннях із стандартним режимом SDDC Memory RAS. ...
Instructions
Опис проблеми
Сервери Cisco UCS M5 з певними процесорами Intel Xeon Scalable можуть стикатися з більшою частотою невиправних помилок пам'яті під час виконання порівняно з попередніми поколіннями з стандартною конфігурацією надійності, доступності та обслуговування пам'яті (RAS) Single Device Data Correction (SDDC).
Тло
Процесори Intel Xeon Scalable та процесори Xeon Scalable другого покоління реалізували зміни в SDDC. SDDC — це фундаментальна функція Intel RAS, доступна на всіх платформах Cisco. Внаслідок цих архітектурних змін і помилок пам'яті з подвійним вбудованим модулем пам'яті (DIMM) існує різниця в тому, які помилки будуть виправлятися між попереднім поколінням процесорів і генерацією сімейства процесорів Xeon Scalable.
Останні покращення мікрокоду Intel та BIOS покращують управління помилками пам'яті, дозволяючи додаткові функції Memory RAS, такі як адаптивна подвійна корекція даних пристроїв (ADDDC Sparing) та Post Packet Repair (PPR). ADDDC Sparing і PPR тепер є стандартною конфігурацією Memory RAS на серверах Cisco UCS M5 з процесорами Intel Xeon Scalable.
Додаткову інформацію про функції Memory RAS, такі як ADDDC і PPR, можна знайти у наступному документі: Технічний огляд пам'яті Cisco UCS HX M5 — функції RAS пам'яті.
Матриця сертифікації випусків (RCM), що впливає
- Випуски RCM до версії 7.0.3.0
- Випуски RCM до версії 6.7.9.0
Випуски RCM до версії 6.5.16.0.
UCS M5 Blades та інтегровані UCS M5 Rack Servers
Cisco UCS 4.1(1d) або новіша версія розширює покриття несправностей пам'яті. Цей реліз та пізніші версії включають додаткові функції RAS, адаптивну подвійну корекцію даних пристрою (ADDDC Sparing) та Post Package Repair (PPR). Вони увімкнені та налаштовані як «Platform Default» для конфігурацій Memory RAS. У попередніх версіях конфігурація Memory RAS була встановлена на «Maximum Performance». Оригінальна прошивка, що включала ADDDC і PPR, включала UCS Manager 4.1(1d), однак у цій версії було виявлено дефект, який може впливати на кілька систем, зокрема CSCvr79388. Через цей дефект Cisco змінила мінімально необхідну прошивку. Зараз рекомендується оновити версію USC до 4.1(3b) або новішої версії, яка містить виправлення цього дефекту. Реліз UCS 4.1(3b) представлений у версіях RCM нижче.
Автономні стійки UCS M5
У версії Cisco Integrated Manager Controller (IMC) 4.1(1d) і новіших доступні функції адаптивної подвійної корекції даних пристроїв (ADDDC Sparing) та Post Package Repair (PPR). Вони увімкнені та налаштовані як «Platform Default» для конфігурацій Memory RAS. У попередніх версіях конфігурація Memory RAS була встановлена на «Maximum Performance». Той самий баг, що й у версії UCSM 4.1(1d), також стосується версії CIMC 4.1(1d). Початкова версія CIMC з виправленням, 4.1(3b), включена до релізів RCM, наведених нижче.
Обов'язкові налаштування BIOS
- Для серверів, керованих UCS Manager, з конфігурацією BIOS POLICY для RAS, встановленою у «Platform Default», для набуття чинності ADDDC Sparing не потрібні зміни.
- Для серверів, керованих UCS Manager, де конфігурація BIOS POLICY for RAS НЕ встановлена на «Platform Default», політику потрібно змінити на ADDDC Sparing (або Platform Default), щоб скористатися перевагами ADDDC.
- Для автономних (не керованих UCS Manager) серверів для набуття чинності ADDDC Sparing не потрібні зміни.
Матриця сертифікації релізів (RCM), включно з виправленням для випуску 4.1(3b)
- Випуск RCM 7.0.3.0 та новіші для наступних систем
- VxBlock 340, 350, 540, 540-40G, 740 і 1000
- Технічне розширення для обчислень
- Випуск RCM 6.7.9.0 та новіші для наступних систем
- Vblock 240, 340, 350, 540 та 740
- VxBlock 240, 340, 350, 540, 540-40G, 740 та 1000
- Технічне розширення для обчислень
- Випуск RCM 6.5.16.0 та новіші для наступних систем
- Vblock 240, 340, 350, 540 та 740
- VxBlock 240, 340, 350, 540, 740 і 1000
*Примітка* Кількість випусків RCM може відрізнятися залежно від системи VxBlock. Зверніться до версії RCM перед оновленням вашої системи VxBlock, щоб переконатися у відповідності нормам.
ВАЖЛИВИЙ! Оновлюйте лише якщо це безпосередньо стосується згаданої проблеми!
Для додаткової інформації щодо питання, описаного в цій статті, зверніться до Cisco Field Notice: Польове повідомлення: FN - 70432
Ідентифікатор дефекту CSCvq38078
Дивіться це відео для детальнішої інформації: