VxBlock: Улучшенные функции RAS памяти для платформ Cisco UCS M5
Summary: Из-за ошибок памяти DIMM и архитектурных изменений в обработке ошибок памяти на процессорах Intel Xeon Scalable (прежнее кодовое название «Skylake Server») и процессорах Intel Xeon Scalable второго поколения (прежнее кодовое название «Cascade Lake Server») пользователи Cisco UCS M5, которые сталкиваются с ошибками памяти DIMM, могут столкнуться с более высоким уровнем неустранимых ошибок памяти во время выполнения, чем в предыдущих поколениях с режимом RAS памяти SDDC по умолчанию. ...
Instructions
Описание проблемы
На серверах Cisco UCS M5 с определенными масштабируемыми процессорами Intel Xeon может наблюдаться более высокий уровень неустранимых ошибок памяти во время работы, чем на серверах предыдущих поколений с конфигурацией по умолчанию для обеспечения надежности, доступности и удобства обслуживания памяти (RAS) с коррекцией данных одного устройства (SDDC).
Предпосылка
В масштабируемых процессорах Intel Xeon и процессорах Xeon Scalable второго поколения реализованы изменения в программно-определяемом ЦОД. SDDC — это фундаментальная функция Intel RAS, доступная на всех платформах Cisco. Из-за этих архитектурных изменений и ошибок двухрядных модулей памяти (DIMM) различается, какие ошибки будут исправляться в предыдущем поколении процессоров и в семействе масштабируемых процессоров Xeon.
Новейшие усовершенствования микрокода Intel и BIOS улучшают управление ошибками памяти, позволяя использовать дополнительные функции RAS памяти, такие как адаптивная коррекция двойных данных устройства (ADDDC Sparing) и Post Packet Repair (PPR). Резервирование ADDDC и PPR теперь являются конфигурациями RAS памяти по умолчанию на серверах Cisco UCS M5 с масштабируемыми процессорами Intel Xeon.
Дополнительные сведения о функциях RAS памяти, таких как ADDDC и PPR, можно найти в следующем документе: Технический обзор памяти Cisco UCS HX M5 - Функции памяти RAS.
Затронутая таблица сертификации выпусков (RCM)
- Версии RCM до 7.0.3.0
- Выпуски RCM до 6.7.9.0
Выпуски RCM до 6.5.16.0.
Блейд-серверы UCS M5 и интегрированные стоечные серверы UCS M5
Cisco UCS 4.1(1d) или более поздней версии расширяет зону сбоев памяти. Этот и последующие версии включают дополнительные функции RAS, адаптивную двойную коррекцию данных устройства (ADDDC Sparing) и Post Package Repair (PPR). Они включены и настроены как «платформы по умолчанию» для конфигураций RAS памяти. В более ранних выпусках для конфигурации RAS памяти было установлено значение «Максимальная производительность». Исходная микропрограмма, которая включала ADDDC и PPR, включала UCS Manager 4.1(1d), однако в этой версии был обнаружен дефект, который может повлиять на несколько систем, а именно CSCvr79388. Из-за этого дефекта Cisco изменила минимально необходимую прошивку. Теперь рекомендуется обновить USC до версии 4.1(3b) или более поздней, которая включает исправление этого дефекта. Версия UCS 4.1(3b) представлена в версиях RCM, указанных ниже.
Автономные стойки UCS M5
В контроллере Cisco Integrated Manager (IMC) версии 4.1(1d) и более поздних версиях доступны функции Adaptive Double Device Data Correction (ADDDC Sparing) и Post Package Repair (PPR). Они включены и настроены как «платформы по умолчанию» для конфигураций RAS памяти. В более ранних выпусках для конфигурации RAS памяти было установлено значение «Максимальная производительность». Та же ошибка, обнаруженная в UCSM версии 4.1(1d), также влияет на версию CIMC 4.1(1d). Первоначальная версия CIMC с исправлением, 4.1(3b), включена в перечисленные ниже выпуски RCM.
Необходимые настройки BIOS
- Для серверов, управляемых UCS Manager, с конфигурацией BIOS POLICY для RAS, установленной на «Platform Default», не требуется никаких изменений для вступления в силу резервирования ADDDC.
- Для серверов, управляемых UCS Manager, с конфигурацией BIOS POLICY for RAS, НЕ установленной в значение «Платформа по умолчанию», необходимо изменить политику на «Резервирование ADDDC» (или «Платформа по умолчанию»), чтобы использовать преимущества ADDDC.
- Для автономных (не управляемых UCS Manager) серверов не требуется никаких изменений для того, чтобы резервирование ADDDC вступило в силу.
Таблица сертификации выпусков (RCM), включая исправление для выпуска 4.1(3b)
- RCM версии 7.0.3.0 и более поздних для следующих систем
- VxBlock 340, 350, 540, 540–40 Гбит/с, 740 и 1000
- Tech Extension для вычислительных ресурсов
- RCM выпуска 6.7.9.0 и более поздних версий для следующих систем
- Vblock 240, 340, 350, 540 и 740
- VxBlock 240, 340, 350, 540, 540–40G, 740 и 1000
- Tech Extension для вычислительных ресурсов
- RCM выпуска 6.5.16.0 и более поздних для следующих систем
- Vblock 240, 340, 350, 540 и 740
- VxBlock 240, 340, 350, 540, 740 и 1000
*Заметка* Номера выпусков RCM могут отличаться в зависимости от системы VxBlock. Перед модернизацией системы VxBlock укажите версию RCM, чтобы обеспечить надлежащую комплаенсность кода.
ВАЖНО! Выполняйте обновление только в том случае, если указанная проблема непосредственно затронута этой проблемой!
Дополнительные сведения о проблеме, описанной в этой статье, см. в Уведомлении Cisco на местах: Уведомление на местах: ФН - 70432
Идентификатор дефекта CSCvq38078
Дополнительные сведения см. в этом видео: