PowerEdge. Что такое самовосстановление DDR4 с масштабируемыми процессорами Intel Xeon

Summary: Устранимые и неустранимые ошибки памяти на сервере PowerEdge с DDR4 и изменения в действиях по устранению неполадок

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Что такое самовосстановление DDR4 на серверах Dell PowerEdge с масштабируемыми процессорами Intel Xeon (первого или второго поколения) и BIOS версии 2.1.x или выше?

Как эти возможности самовосстановления DDR4 (улучшения BIOS) изменяют рекомендуемые действия клиента и службы технической поддержки при возникновении ошибок памяти на сервере?

Какие улучшения самовосстановления содержатся в новых версиях BIOS?

Cause

В BIOS Dell PowerEdge постоянно совершенствуются и улучшаются сообщения о событиях памяти, обработка ошибок и самовосстановление, которые происходят при перезагрузке сервера. Это устраняет необходимость в плановом окне обслуживания или присутствии на месте для замены модуля памяти DDR4 DIMM , который регистрировал события ошибок.

Resolution

Для серверов PowerEdge с памятью DDR4, на которых установлена BIOS 2.1.x и более поздних версий, были добавлены два основных улучшения BIOS, связанные с самовосстановлением памяти. Эти улучшения значительно меняют рекомендуемые шаги или действия при возникновении ошибок памяти и их регистрации в журнале LifeCycle.

Примечание.
  • Если при использовании DDR4 и BIOS 2.0 или более ранних версий возникают ошибки памяти, обновите BIOS до последней версии, включающей улучшения функций самовосстановления памяти. Мы всегда рекомендуем заказчикам обновлять BIOS (и микропрограмму iDRAC) до последней версии, чтобы они могли воспользоваться преимуществами последних улучшений самовосстановления.
  • Предыдущие действия по устранению неисправностей памяти включали перемещение неисправных модулей DIMM в другие слоты, чтобы проверить, связаны ли ошибки с модулем DIMM или со слотом. Для BIOS 2.1.x или более поздних версий первым рекомендуемым действием является перезапуск (без перемещения модулей DIMM в другой слот). Это приведет к запуску новых улучшений BIOS, которые могут выполнить устранение (самовосстановление) ошибок модулей DIMM без планирования их замены.
  1. Улучшения переобучения памяти

Переобучение памяти, которое происходит во время загрузки (на ранних этапах настройки памяти), оптимизирует синхронизацию или ограничения для каждого модуля или слота DIMM для оптимизации доступа. Характеристики синхронизации и ограничения памяти модуля DIMM могут со временем измениться по нескольким причинам:

  • Изменения в конфигурации памяти сервера
  • Изменения в BIOS (справочный код памяти — MRC)
  • Разность рабочих температур сервера или модуля DIMM
  • Средний возраст модулей DIMM

Ранее обнаружение обновлений BIOS или изменений конфигурации памяти приводило к переобучению памяти во время последующей загрузки. Начиная с BIOS версии 2.1.x добавлены дополнительные «триггеры» устранимых и неустранимых ошибок памяти, которые будут инициировать запланированное переобучение:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

При регистрации любой из этих ошибок в журналах SEL или журналах жизненного цикла будет запланировано переобучение памяти для следующей перезагрузки («теплой» или «холодной»). BIOS автоматически инициирует «холодную» перезагрузку вне зависимости от того, какие процессы запущены.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

Эта многобитовая ошибка может привести к перезагрузке сервера из-за неустранимой ошибки, если операционной системе не удается обработать эту ошибку. Во время загрузки автоматически выполняется переобучение памяти. Если в некритической ячейке памяти возникает многобитовая ошибка, которую может обработать операционная система, необходимо запланировать перезагрузку.

Переобучение памяти во время процедуры POST (самопроверка при включении питания) может «самовосстанавливать» неисправный модуль DIMM и связанный с ним слот путем оптимизации синхронизации сигнала и ограничения. При возникновении этих ошибок не требуется замена модуля DIMM, если во время загрузки не происходит сбой в ходе переобучения памяти (UEFI0106) или эти же ошибки не возникают снова.
 

  1. Исправление PPR (Post-Package Repair)

Второе улучшение самовосстановления памяти — это PPR. Оно восстанавливает неисправное местоположение памяти на модуле DIMM путем отключения местоположения или адреса на аппаратном уровне, что позволяет использовать вместо него резервную строку памяти. Точное количество доступных резервных строк памяти зависит от устройства DRAM и размера модуля DIMM.

Ранее эта функция была ограничена процессом производства. Как и в случае с упомянутыми выше улучшениями переобучения памяти, существуют некоторые исправимые ошибки памяти, которые приводят к тому, что для следующей перезагрузки («теплой» или «холодной») будет запланировано исправление PPR на определенном модуле DIMM. BIOS автоматически инициирует «холодную» перезагрузку вне зависимости от того, какие процессы запущены. Так как исправление PPR запланировано для конкретного разъема DIMM, НЕ меняйте местоположения разъемов DIMM до тех пор, пока оно не будет запущено. Примеры ошибок.

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Регистрация любого из этих событий в журнале приведет к тому, что для следующей перезагрузки («теплой» или «холодной») будет запланировано исправление PPR на фазе настройки памяти.

Примечание. Сообщение с идентификатором MEM8000 (Correctable memory error logging disabled for a memory device at location DIMM_XX.), для следующей перезагрузки не будет запланировано исправление PPR без соответствующего идентификатора MEM0005/MEM0701/MEM0702 в этом же местоположении модуля DIMM.

См. обновление от 10 июля 2020 г с информацией о изменениях для события MEM8000 и обновленную версию технического документа (1.1 или более новую).

После перезагрузки убедитесь, что исправление PPR выполнено успешно. Пример сообщения об успешном выполнении исправления PPR будет выглядеть примерно следующим образом:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


При возникновении этих исправимых ошибок не требуется замена модуля DIMM, если не выполняется исправление PPR. Пример сообщения о критическом сбое при выполнении исправления PPR.

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

Теперь доступен недавно опубликованный технический документ (версии 1.0) с описанием функций надежности, доступности и удобства эксплуатации (RAS), связанных с памятью серверов Dell PowerEdge. В нем приведены сведения о различных функциях RAS и их возможностях, доступных на серверах PowerEdge: Ошибки памяти и функции RAS для памяти серверов Dell EMC PowerEdge YX4X.

 

Обновлено: 24 апреля 2020 г.

Dell продолжает расширять и улучшать возможности самовосстановления. В следующем разделе перечислены обновления и улучшения, связанные с различными версиями BIOS.

BIOS 2.1.x — Первая статья, в которой представлена информация о возможностях самовосстановления, начиная с BIOS 2.1.6 и выше, включая примеры сообщений об ошибках и рекомендуемые действия.

Изменения BIOS 2.4.x и более новых версий (декабрь 2019 г.)

  • MEM0702 (Correctable error rate exceeded…) — Серьезность сообщения обновлена с «Critical» на «Warning». В список рекомендуемых действий добавлена перезагрузка сервера, чтобы разрешить «самовосстановление», например исправление PPR (Post-Package Repair).
    • Для получения обновленного сообщения также требуется установить контроллер iDRAC версии от декабря 2019 г. или более поздней
    • Рекомендуемое действие: Перезагрузите сервер, чтобы запустить PPR
  • MEM9060 — Описание сообщения обновлено, теперь оно указывает на успешное завершение самовосстановления

Изменения BIOS 2.5.x и более новых версий (февраль 2020 г.)

  • В BIOS был добавлен параметр «Ведение журнала исправимых ошибок», который позволяет заказчикам отключать все журналы жизненного цикла или SEL, связанные с устранимыми ошибками. Все функции «самовосстановления» продолжают работать, например PPR и переобучение памяти по-прежнему запланированы и выполняются во время следующей перезагрузки (на ранних этапах процесса настройки памяти).
  • Добавление ошибок MEM08xx для RDIMM и LRDIMM с заменой существующих сообщений об ошибках и действий. Существующие сообщения об ошибках по-прежнему используются для платформ, которые не поддерживают возможности самовосстановления.
    • Для регистрации новых сообщений требуется версия контроллера iDRAC от февраля 2020 г. или более поздняя.
Примечание. Без обновленного iDRAC новые сообщения BIOS в журналах SEL или журналах жизненного цикла будут отображаться как «unknown».
  • MEM0802 — Заменено сообщение MEM0702 - «correctable error rate exceeded»
    • Рекомендуемое действие: Перезагрузите сервер, чтобы запустить PPR. Убедитесь, что PPR выполнена успешно (MEM0802).
  • MEM0804 — Заменено сообщение MEM9060, указывающее на успешное выполнение PPR. Теперь включает расположение разъема DIMM, на котором выполнялась PPR.
    • Рекомендуемое действие: Нет, это событие указывает, что выполнено самовосстановление, замена модуля DIMM не требуется.
  • MEM0805 — Заменено сообщение UEFI0278, указывающее на сбой выполнения PPR.
    • Рекомендуемое действие: Замените неисправный модуль DIMM.

Обновлено: 10 июля 2020 г.

Изменения BIOS 2.7.x и более новых версий (блок BIOS от июля 2020 г. — планируется разместить в Интернете в середине июля).

  • MEM8000 (Correctable error logging disabled) — Начиная с BIOS ~2.0.x, инженерный отдел Dell внес изменения в BIOS, чтобы повысить скорость обнаружения устранимых ошибок, которые могут повлиять на производительность. Это изменение привело к всплеску количества событий MEM8000, которые не были подтверждены результатами анализа сбоев компонентов DIMM. Начиная с BIOS 2.7.x, внесены два изменения, касающиеся MEM8000. Первое — это изменение оповещения о событии MEM8000. Второе — BIOS планирует самовосстановления (PPR) при следующей перезагрузке. Сообщения iDRAC еще не обновлены, чтобы отражать новые действия.
    • Рекомендуемое действие: Перезагрузите сервер, чтобы запустить самовосстановление/PPR. Убедитесь, что PPR выполнена успешно (MEM0804).
  • MEM0001 (Uncorrectable error) — Самовосстановление (PPR) будет запланировано при следующей перезагрузке. Сообщения iDRAC еще не обновлены, чтобы отражать новые действия.
    • Рекомендуемое действие: Не требуется, если MEM0001 связано с критической страницей, которую операционная система не может восстановить — по-прежнему является неустранимой ошибкой, что приводит к перезагрузке. Если MEM0001 связано с некритической страницей, с которой операционная система может восстановить работу, необходимо запланировать перезагрузку для выполнения всех операций самовосстановления (PPR). Убедитесь, что PPR выполнена успешно (MEM0804).

ОБНОВЛЕНО 13.01.2021

Изменения в BIOS 2.8.2 и более поздних версиях (блок BIOS от сентября 2020 г.)

  • MEM9072 (Uncorrectable error identified by the memory patrol scrub process- page is currently not consumed or in use) — Самовосстановление (PPR) будет запланировано при следующей перезагрузке. Сообщения iDRAC еще не обновлены, чтобы отражать новые действия.
    • Рекомендуемое действие: Запланируйте перезагрузку в ближайшее время. Задержка перезагрузки может привести к тому, что страница будет использована, возникнет ошибка MEM0001 и произойдет перезагрузка. Самовосстановление памяти (PPR) будет выполнено во время перезагрузки. Убедитесь, что PPR выполнена успешно (MEM0804).
Примечание. Последняя версия технического документа (версия 1.3 — дата выпуска 20 ноября 2020 г.) находится по адресу:  https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
Для получения материалов по Intel Xeon E и AMD EPYC перейдите к оригинальному техническому документу (версия 1.0), который можно найти по адресу: Технический документ RAS по серверной памяти PowerEdge YX4X версии 1.0 (dell.com)

В настоящее время анализируются несколько дополнительных улучшений функций RAS для включения в будущие обновления BIOS.

 
Примечание. Подробное описание и рекомендуемые действия для конкретных сообщений с кодами ошибок см. по следующей ссылке: Поиск (dell.com). Поскольку коды ошибок (например, MEM0001) действительны для нескольких поколений серверов и платформ, рекомендуемые действия могут быть неактуальными для конкретной версии BIOS. Добавленные новые коды ошибок (например, MEM0802, MEM0804, MEM0805 и т. д.) применимы только к серверам с масштабируемыми процессорами Intel Xeon (первого или второго поколения).

 

Эта статья будет обновляться по мере появления новой информации.


Драйверы и скачиваемые материалы: Драйверы и загружаемые материалы

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R240, OEMR R250 , OEMR XE R250, OEMR R260, OEMR XE R260, OEMR R340, OEMR R350, OEMR XE R350, OEMR R360, OEMR XE R360, OEMR R440, PowerEdge XR2, OEMR R450, OEMR R540, OEMR R550, OEMR R5500, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R660, OEMR XL R660, OEMR R660xs, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR XL R760, OEMR R760xs, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa, OEMR R960, OEMR T140, OEMR T150, OEMR T340, OEMR T350, OEMR T360, OEMR T440, OEMR T550, OEMR T560, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340, OEMR XL R660xs, OEMR XR11, OEMR XR12, OEMR XR4000r, OEMR XR4000w, OEMR XR4510c, OEMR XR4520c, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, Poweredge C4140, PowerEdge C6420, PowerEdge C6520, PowerEdge C6525, PowerEdge C6615, PowerEdge C6620, PowerEdge FC640, PowerEdge HS5610, PowerEdge HS5620, PowerEdge M640, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX760c, PowerEdge MX840C, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R660, PowerEdge R660xs, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XE9680L, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4000r, PowerEdge XR4000w, PowerEdge XR4510c, PowerEdge XR4520c, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t, PowerFlex appliance R650, PowerFlex appliance R660, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex custom node R650, PowerFlex custom node R660, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R860, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN MX750c Ready Node, Dell vSAN Ready Node MX760c, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, vSAN Ready Node R660, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R760 Ready Node, Dell EMC vSAN R840 Ready Node, Dell EMC vSAN T350 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...

Products

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 25 Nov 2025
Version:  26
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.