PowerEdge. Что такое самовосстановление DDR4 с масштабируемыми процессорами Intel Xeon
Summary: Устранимые и неустранимые ошибки памяти на сервере PowerEdge с DDR4 и изменения в действиях по устранению неполадок
Symptoms
Как эти возможности самовосстановления DDR4 (улучшения BIOS) изменяют рекомендуемые действия клиента и службы технической поддержки при возникновении ошибок памяти на сервере?
Какие улучшения самовосстановления содержатся в новых версиях BIOS?
Cause
В BIOS Dell PowerEdge постоянно совершенствуются и улучшаются сообщения о событиях памяти, обработка ошибок и самовосстановление, которые происходят при перезагрузке сервера. Это устраняет необходимость в плановом окне обслуживания или присутствии на месте для замены модуля памяти DDR4 DIMM , который регистрировал события ошибок.
Resolution
Для серверов PowerEdge с памятью DDR4, на которых установлена BIOS 2.1.x и более поздних версий, были добавлены два основных улучшения BIOS, связанные с самовосстановлением памяти. Эти улучшения значительно меняют рекомендуемые шаги или действия при возникновении ошибок памяти и их регистрации в журнале LifeCycle.
- Если при использовании DDR4 и BIOS 2.0 или более ранних версий возникают ошибки памяти, обновите BIOS до последней версии, включающей улучшения функций самовосстановления памяти. Мы всегда рекомендуем заказчикам обновлять BIOS (и микропрограмму iDRAC) до последней версии, чтобы они могли воспользоваться преимуществами последних улучшений самовосстановления.
- Предыдущие действия по устранению неисправностей памяти включали перемещение неисправных модулей DIMM в другие слоты, чтобы проверить, связаны ли ошибки с модулем DIMM или со слотом. Для BIOS 2.1.x или более поздних версий первым рекомендуемым действием является перезапуск (без перемещения модулей DIMM в другой слот). Это приведет к запуску новых улучшений BIOS, которые могут выполнить устранение (самовосстановление) ошибок модулей DIMM без планирования их замены.
- Улучшения переобучения памяти
Переобучение памяти, которое происходит во время загрузки (на ранних этапах настройки памяти), оптимизирует синхронизацию или ограничения для каждого модуля или слота DIMM для оптимизации доступа. Характеристики синхронизации и ограничения памяти модуля DIMM могут со временем измениться по нескольким причинам:
- Изменения в конфигурации памяти сервера
- Изменения в BIOS (справочный код памяти — MRC)
- Разность рабочих температур сервера или модуля DIMM
- Средний возраст модулей DIMM
Ранее обнаружение обновлений BIOS или изменений конфигурации памяти приводило к переобучению памяти во время последующей загрузки. Начиная с BIOS версии 2.1.x добавлены дополнительные «триггеры» устранимых и неустранимых ошибок памяти, которые будут инициировать запланированное переобучение:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
При регистрации любой из этих ошибок в журналах SEL или журналах жизненного цикла будет запланировано переобучение памяти для следующей перезагрузки («теплой» или «холодной»). BIOS автоматически инициирует «холодную» перезагрузку вне зависимости от того, какие процессы запущены.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Эта многобитовая ошибка может привести к перезагрузке сервера из-за неустранимой ошибки, если операционной системе не удается обработать эту ошибку. Во время загрузки автоматически выполняется переобучение памяти. Если в некритической ячейке памяти возникает многобитовая ошибка, которую может обработать операционная система, необходимо запланировать перезагрузку.
Переобучение памяти во время процедуры POST (самопроверка при включении питания) может «самовосстанавливать» неисправный модуль DIMM и связанный с ним слот путем оптимизации синхронизации сигнала и ограничения. При возникновении этих ошибок не требуется замена модуля DIMM, если во время загрузки не происходит сбой в ходе переобучения памяти (UEFI0106) или эти же ошибки не возникают снова.
- Исправление PPR (Post-Package Repair)
Второе улучшение самовосстановления памяти — это PPR. Оно восстанавливает неисправное местоположение памяти на модуле DIMM путем отключения местоположения или адреса на аппаратном уровне, что позволяет использовать вместо него резервную строку памяти. Точное количество доступных резервных строк памяти зависит от устройства DRAM и размера модуля DIMM.
Ранее эта функция была ограничена процессом производства. Как и в случае с упомянутыми выше улучшениями переобучения памяти, существуют некоторые исправимые ошибки памяти, которые приводят к тому, что для следующей перезагрузки («теплой» или «холодной») будет запланировано исправление PPR на определенном модуле DIMM. BIOS автоматически инициирует «холодную» перезагрузку вне зависимости от того, какие процессы запущены. Так как исправление PPR запланировано для конкретного разъема DIMM, НЕ меняйте местоположения разъемов DIMM до тех пор, пока оно не будет запущено. Примеры ошибок.
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Регистрация любого из этих событий в журнале приведет к тому, что для следующей перезагрузки («теплой» или «холодной») будет запланировано исправление PPR на фазе настройки памяти.
См. обновление от 10 июля 2020 г с информацией о изменениях для события MEM8000 и обновленную версию технического документа (1.1 или более новую).
После перезагрузки убедитесь, что исправление PPR выполнено успешно. Пример сообщения об успешном выполнении исправления PPR будет выглядеть примерно следующим образом:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
При возникновении этих исправимых ошибок не требуется замена модуля DIMM, если не выполняется исправление PPR. Пример сообщения о критическом сбое при выполнении исправления PPR.
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Теперь доступен недавно опубликованный технический документ (версии 1.0) с описанием функций надежности, доступности и удобства эксплуатации (RAS), связанных с памятью серверов Dell PowerEdge. В нем приведены сведения о различных функциях RAS и их возможностях, доступных на серверах PowerEdge: Ошибки памяти и функции RAS для памяти серверов Dell EMC PowerEdge YX4X.
Обновлено: 24 апреля 2020 г.
Dell продолжает расширять и улучшать возможности самовосстановления. В следующем разделе перечислены обновления и улучшения, связанные с различными версиями BIOS.
BIOS 2.1.x — Первая статья, в которой представлена информация о возможностях самовосстановления, начиная с BIOS 2.1.6 и выше, включая примеры сообщений об ошибках и рекомендуемые действия.
Изменения BIOS 2.4.x и более новых версий (декабрь 2019 г.)
- MEM0702 (Correctable error rate exceeded…) — Серьезность сообщения обновлена с «Critical» на «Warning». В список рекомендуемых действий добавлена перезагрузка сервера, чтобы разрешить «самовосстановление», например исправление PPR (Post-Package Repair).
- Для получения обновленного сообщения также требуется установить контроллер iDRAC версии от декабря 2019 г. или более поздней
- Рекомендуемое действие: Перезагрузите сервер, чтобы запустить PPR
- MEM9060 — Описание сообщения обновлено, теперь оно указывает на успешное завершение самовосстановления
Изменения BIOS 2.5.x и более новых версий (февраль 2020 г.)
- В BIOS был добавлен параметр «Ведение журнала исправимых ошибок», который позволяет заказчикам отключать все журналы жизненного цикла или SEL, связанные с устранимыми ошибками. Все функции «самовосстановления» продолжают работать, например PPR и переобучение памяти по-прежнему запланированы и выполняются во время следующей перезагрузки (на ранних этапах процесса настройки памяти).
- Добавление ошибок MEM08xx для RDIMM и LRDIMM с заменой существующих сообщений об ошибках и действий. Существующие сообщения об ошибках по-прежнему используются для платформ, которые не поддерживают возможности самовосстановления.
- Для регистрации новых сообщений требуется версия контроллера iDRAC от февраля 2020 г. или более поздняя.
- MEM0802 — Заменено сообщение MEM0702 - «correctable error rate exceeded»
- Рекомендуемое действие: Перезагрузите сервер, чтобы запустить PPR. Убедитесь, что PPR выполнена успешно (MEM0802).
- MEM0804 — Заменено сообщение MEM9060, указывающее на успешное выполнение PPR. Теперь включает расположение разъема DIMM, на котором выполнялась PPR.
- Рекомендуемое действие: Нет, это событие указывает, что выполнено самовосстановление, замена модуля DIMM не требуется.
- MEM0805 — Заменено сообщение UEFI0278, указывающее на сбой выполнения PPR.
- Рекомендуемое действие: Замените неисправный модуль DIMM.
Обновлено: 10 июля 2020 г.
Изменения BIOS 2.7.x и более новых версий (блок BIOS от июля 2020 г. — планируется разместить в Интернете в середине июля).
- MEM8000 (Correctable error logging disabled) — Начиная с BIOS ~2.0.x, инженерный отдел Dell внес изменения в BIOS, чтобы повысить скорость обнаружения устранимых ошибок, которые могут повлиять на производительность. Это изменение привело к всплеску количества событий MEM8000, которые не были подтверждены результатами анализа сбоев компонентов DIMM. Начиная с BIOS 2.7.x, внесены два изменения, касающиеся MEM8000. Первое — это изменение оповещения о событии MEM8000. Второе — BIOS планирует самовосстановления (PPR) при следующей перезагрузке. Сообщения iDRAC еще не обновлены, чтобы отражать новые действия.
- Рекомендуемое действие: Перезагрузите сервер, чтобы запустить самовосстановление/PPR. Убедитесь, что PPR выполнена успешно (MEM0804).
- MEM0001 (Uncorrectable error) — Самовосстановление (PPR) будет запланировано при следующей перезагрузке. Сообщения iDRAC еще не обновлены, чтобы отражать новые действия.
- Рекомендуемое действие: Не требуется, если MEM0001 связано с критической страницей, которую операционная система не может восстановить — по-прежнему является неустранимой ошибкой, что приводит к перезагрузке. Если MEM0001 связано с некритической страницей, с которой операционная система может восстановить работу, необходимо запланировать перезагрузку для выполнения всех операций самовосстановления (PPR). Убедитесь, что PPR выполнена успешно (MEM0804).
ОБНОВЛЕНО 13.01.2021
Изменения в BIOS 2.8.2 и более поздних версиях (блок BIOS от сентября 2020 г.)
- MEM9072 (Uncorrectable error identified by the memory patrol scrub process- page is currently not consumed or in use) — Самовосстановление (PPR) будет запланировано при следующей перезагрузке. Сообщения iDRAC еще не обновлены, чтобы отражать новые действия.
- Рекомендуемое действие: Запланируйте перезагрузку в ближайшее время. Задержка перезагрузки может привести к тому, что страница будет использована, возникнет ошибка MEM0001 и произойдет перезагрузка. Самовосстановление памяти (PPR) будет выполнено во время перезагрузки. Убедитесь, что PPR выполнена успешно (MEM0804).
Для получения материалов по Intel Xeon E и AMD EPYC перейдите к оригинальному техническому документу (версия 1.0), который можно найти по адресу: Технический документ RAS по серверной памяти PowerEdge YX4X версии 1.0 (dell.com)
В настоящее время анализируются несколько дополнительных улучшений функций RAS для включения в будущие обновления BIOS.
Эта статья будет обновляться по мере появления новой информации.
Драйверы и скачиваемые материалы: Драйверы и загружаемые материалы