Серверы PowerEdge Intel и 15G 14-го поколения: Управление событиями пороговых значений исправляемых ошибок

摘要: В этой статье представлены обновленные рекомендации по управлению событиями пороговых значений исправляемых ошибок (MEM0802 или MEM5104) на модулях DDR4 RDIMM или LRDIMM, установленных на серверах PowerEdge 14-го и 15-го поколений на базе процессоров Intel и серверах PowerEdge 15-го поколения на базе процессоров AMD. ...

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

Примечание. Эта статья не относится к серверам PowerEdge на базе процессоров AMD 14-го поколения, таким как платформы 64x5 или 74x5, так как они не поддерживают функцию автоматической переустановки Post Package Repair, хотя сама модули DIMM поддерживают ее.

В процессе эволюции функций надежности, доступности и удобства обслуживания (RAS) в памяти корпоративного класса компания Dell придерживается консервативного подхода к обеспечению прозрачности для своих заказчиков. По мере того, как эта эволюция продолжается, меняется и подход Dell к отчетам об ошибках, позволяя сосредоточиться на уведомлениях, требующих более срочного реагирования, по сравнению с уведомлениями, которые носят преимущественно информационный характер.

По мере того как геометрии памяти на основе DRAM продолжают уменьшаться, обеспечивая заказчикам необходимую им повышенную производительность, ожидается увеличение числа исправимых ошибок как естественной части равномерного масштабирования.

原因

В глобальной серверной индустрии все шире распространено мнение, и Dell считает, что некоторые устранимые ошибки в каждом модуле DIMM неизбежны и не требуют замены модуля памяти или даже немедленной перезагрузки для автоматической переустановки.

解决方案

Если продолжать работу системы, сообщающей об исправимых ошибках, без перезагрузки для самовосстановления это не увеличивает риск возникновения неустранимых ошибок, которые могут привести к незапланированным простоям. Другие представители отрасли публично сообщили, что их работа с памятью не сообщает об исправимых ошибках.

В BIOS для серверов Intel PowerEdge 14-го поколения версии 2.5.4 и новее был добавлен параметр BIOS под названием «Ведение журнала исправимых ошибок», который позволяет заказчикам при желании отключить отчеты об исправимых ошибках, что многие и сделали. BIOS продолжает планировать автоматическую переустановку для исправимых пороговых событий даже без ведения журнала. Эта запланированная автоматическая переустановка автоматически выполняется во время последующей перезагрузки системы.

Чтобы в большей степени соответствовать отраслевым рекомендациям и постоянным отзывам заказчиков, начиная с марта 2022 г. обновления Dell PowerEdge BIOS по умолчанию отключают параметр BIOS «Ведение журнала исправимых ошибок». Этот параметр BIOS можно включить повторно для заказчиков, которые хотят по-прежнему видеть исправляемые события пороговых значений памяти. Версии BIOS, в которые включено это изменение настроек BIOS:

  • Платформы Intel 14G — BIOS версии 2.13.3 или новее
  • Платформы AMD 15G — BIOS версии 2.6.5 или новее
  • Платформы Intel 15-го поколения — BIOS версии 1.5.5 или новее.

Преимущества самовосстановления DDR4 DIMM путем перезагрузки системы:

  • Она позволяет ремонтировать DDR4 DIMM без извлечения из системы; Все модули DDR4 DIMM производства Dell поддерживают функцию самовосстановления памяти.
 
Примечание. Серверы AMD PowerEdge 14-го поколения не имеют возможности автоматической переустановки.
 
  • Использует доступные резервные строки, спроектированные в DRAM, где поврежденная строка навсегда заменяется заведомо работоспособной строкой с помощью электрического предохранителя.
  • Последующее переобучение памяти оптимизирует работу «глаз данных» путем повторной калибровки центральных точек для обеспечения работы шины памяти на самом высоком уровне целостности передачи сигналов.

При возникновении событий порогового значения памяти при наступлении исправимых пороговых событий с включенным параметром BIOS «Ведение журнала исправимых ошибок» Dell Technologies рекомендует выполнить перезагрузку в соответствии с графиком планового обслуживания заказчика, чтобы выполнить автоматическую переустановку или самоисправление памяти. После перезагрузки для связанных модулей DIMM будут регистрироваться успешные или неудачные события автоматической переустановки.

Если в BIOS установлено значение «Ведение журнала исправимых ошибок» D isabled, Dell Technologies рекомендует выполнять перезагрузку в соответствии с графиком планового обслуживания заказчика. После перезагрузки все запланированные автоматические операции переустановки выполняются автоматически. Если операция автоматической переустановки или самоисправления завершилась неудачно, система регистрирует событие (события типа MEM0805 или MEM7114), после чего рекомендуется физически заменить затронутый модуль DIMM.

Рекомендация.Dell
Memory Engineering рекомендует заказчикам серверов PowerEdge на более ранних версиях BIOS (до мартовских блочных выпусков 2022 г.) изменить настройку BIOS «Ведение журнала исправимых ошибок» на «Отключено». Это устраняет спорадические исправляемые события порогового значения памяти (например, события типа MEM0802 или MEM5104) в серверной инфраструктуре, которые рекомендуют перезагрузку сервера для автоматической переустановки или самоисправления. Как упоминалось ранее, все запланированные операции автоматической переустановки или самоисправления выполняются автоматически при перезагрузке сервера и получении сообщения о каких-либо сбоях.

Параметр «Ведение журнала исправимых ошибок» в BIOS можно изменить, перезагрузив сервер до настройки F2 или используя веб-интерфейс iDRAC.

Чтобы изменить настройку BIOS с помощью клавиши F2 в системных параметрах, выполните следующие действия.

  • Перезагрузите серверы, остановившись при настройке F2
  • В разделе Настройки >BIOSПараметры памяти измените Ведение журнала исправимых ошибок на Отключено.
  • Сохраните настройки BIOS и выйдите из настроек F2

Чтобы изменить настройки BIOS с помощью веб-интерфейса iDRAC WebUI, выполните следующие действия.

  • Войдите в веб-интерфейс пользователя iDRAC.
  • В разделе Configuration >BIOS Settings разверните раздел Memory Settings
  • Измените значение параметра «Ведение журнала исправимых ошибок» на «Отключено»
  • Нажмите кнопку Apply , чтобы сохранить настройки памяти
  • Не забудьте нажать кнопку Применить и перезагрузить (для немедленной перезагрузки) или кнопку При следующей перезагрузке , чтобы применить изменения BIOS.

Существующие статьи и технические документы, связанные с памятью, обновляются с учетом этого рекомендуемого изменения.
 

Примечание. Утвержденные сообщения для клиентов прикреплены в виде файла к этой статье - "Managing Correctable Error Notices Dec 2021 v1.pdf».


Эта статья обновляется по мере поступления новой информации.

受影响的产品

Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, PowerEdge XR2, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R840, OEMR R940, OEMR R940xa, Poweredge C4140, PowerEdge C6420, PowerEdge C6520 , PowerEdge C6525, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX840C, PowerEdge R350, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8545, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4510c, PowerEdge XR4520c, VxFlex Ready Node R740xd, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840 ...

产品

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R340, OEMR R440 , PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R6515, OEMR R6525, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R7515, OEMR R7525, OEMR R840, OEMR R940, OEMR R940xa, OEMR T440, OEMR T550, OEMR T640, OEMR XL T640, OEMR XL R340, PowerEdge C6420, PowerEdge C6525, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R340, PowerEdge R540, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T440, PowerEdge T550, PowerEdge T640, PowerFlex appliance R650, PowerFlex appliance R6525, Powerflex appliance R750, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R750, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R7515 Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, Dell EMC XC Core XC7525 ...
文章属性
文章编号: 000194574
文章类型: Solution
上次修改时间: 07 11月 2025
版本:  5
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。