Серверы PowerEdge Intel и 15G 14-го поколения: Управление событиями пороговых значений исправляемых ошибок
摘要: В этой статье представлены обновленные рекомендации по управлению событиями пороговых значений исправляемых ошибок (MEM0802 или MEM5104) на модулях DDR4 RDIMM или LRDIMM, установленных на серверах PowerEdge 14-го и 15-го поколений на базе процессоров Intel и серверах PowerEdge 15-го поколения на базе процессоров AMD. ...
症状
В процессе эволюции функций надежности, доступности и удобства обслуживания (RAS) в памяти корпоративного класса компания Dell придерживается консервативного подхода к обеспечению прозрачности для своих заказчиков. По мере того, как эта эволюция продолжается, меняется и подход Dell к отчетам об ошибках, позволяя сосредоточиться на уведомлениях, требующих более срочного реагирования, по сравнению с уведомлениями, которые носят преимущественно информационный характер.
По мере того как геометрии памяти на основе DRAM продолжают уменьшаться, обеспечивая заказчикам необходимую им повышенную производительность, ожидается увеличение числа исправимых ошибок как естественной части равномерного масштабирования.
原因
解决方案
Если продолжать работу системы, сообщающей об исправимых ошибках, без перезагрузки для самовосстановления это не увеличивает риск возникновения неустранимых ошибок, которые могут привести к незапланированным простоям. Другие представители отрасли публично сообщили, что их работа с памятью не сообщает об исправимых ошибках.
В BIOS для серверов Intel PowerEdge 14-го поколения версии 2.5.4 и новее был добавлен параметр BIOS под названием «Ведение журнала исправимых ошибок», который позволяет заказчикам при желании отключить отчеты об исправимых ошибках, что многие и сделали. BIOS продолжает планировать автоматическую переустановку для исправимых пороговых событий даже без ведения журнала. Эта запланированная автоматическая переустановка автоматически выполняется во время последующей перезагрузки системы.
Чтобы в большей степени соответствовать отраслевым рекомендациям и постоянным отзывам заказчиков, начиная с марта 2022 г. обновления Dell PowerEdge BIOS по умолчанию отключают параметр BIOS «Ведение журнала исправимых ошибок». Этот параметр BIOS можно включить повторно для заказчиков, которые хотят по-прежнему видеть исправляемые события пороговых значений памяти. Версии BIOS, в которые включено это изменение настроек BIOS:
- Платформы Intel 14G — BIOS версии 2.13.3 или новее
- Платформы AMD 15G — BIOS версии 2.6.5 или новее
- Платформы Intel 15-го поколения — BIOS версии 1.5.5 или новее.
Преимущества самовосстановления DDR4 DIMM путем перезагрузки системы:
- Она позволяет ремонтировать DDR4 DIMM без извлечения из системы; Все модули DDR4 DIMM производства Dell поддерживают функцию самовосстановления памяти.
- Использует доступные резервные строки, спроектированные в DRAM, где поврежденная строка навсегда заменяется заведомо работоспособной строкой с помощью электрического предохранителя.
- Последующее переобучение памяти оптимизирует работу «глаз данных» путем повторной калибровки центральных точек для обеспечения работы шины памяти на самом высоком уровне целостности передачи сигналов.
При возникновении событий порогового значения памяти при наступлении исправимых пороговых событий с включенным параметром BIOS «Ведение журнала исправимых ошибок» Dell Technologies рекомендует выполнить перезагрузку в соответствии с графиком планового обслуживания заказчика, чтобы выполнить автоматическую переустановку или самоисправление памяти. После перезагрузки для связанных модулей DIMM будут регистрироваться успешные или неудачные события автоматической переустановки.
Если в BIOS установлено значение «Ведение журнала исправимых ошибок» D isabled, Dell Technologies рекомендует выполнять перезагрузку в соответствии с графиком планового обслуживания заказчика. После перезагрузки все запланированные автоматические операции переустановки выполняются автоматически. Если операция автоматической переустановки или самоисправления завершилась неудачно, система регистрирует событие (события типа MEM0805 или MEM7114), после чего рекомендуется физически заменить затронутый модуль DIMM.
Рекомендация.Dell
Memory Engineering рекомендует заказчикам серверов PowerEdge на более ранних версиях BIOS (до мартовских блочных выпусков 2022 г.) изменить настройку BIOS «Ведение журнала исправимых ошибок» на «Отключено». Это устраняет спорадические исправляемые события порогового значения памяти (например, события типа MEM0802 или MEM5104) в серверной инфраструктуре, которые рекомендуют перезагрузку сервера для автоматической переустановки или самоисправления. Как упоминалось ранее, все запланированные операции автоматической переустановки или самоисправления выполняются автоматически при перезагрузке сервера и получении сообщения о каких-либо сбоях.
Параметр «Ведение журнала исправимых ошибок» в BIOS можно изменить, перезагрузив сервер до настройки F2 или используя веб-интерфейс iDRAC.
Чтобы изменить настройку BIOS с помощью клавиши F2 в системных параметрах, выполните следующие действия.
-
Перезагрузите серверы, остановившись при настройке F2
-
В разделе Настройки >BIOSПараметры памяти измените Ведение журнала исправимых ошибок на Отключено.
-
Сохраните настройки BIOS и выйдите из настроек F2
Чтобы изменить настройки BIOS с помощью веб-интерфейса iDRAC WebUI, выполните следующие действия.
- Войдите в веб-интерфейс пользователя iDRAC.
- В разделе Configuration >BIOS Settings разверните раздел Memory Settings
- Измените значение параметра «Ведение журнала исправимых ошибок» на «Отключено»
- Нажмите кнопку Apply , чтобы сохранить настройки памяти
- Не забудьте нажать кнопку Применить и перезагрузить (для немедленной перезагрузки) или кнопку При следующей перезагрузке , чтобы применить изменения BIOS.
Существующие статьи и технические документы, связанные с памятью, обновляются с учетом этого рекомендуемого изменения.
Managing Correctable Error Notices Dec 2021 v1.pdf».
Эта статья обновляется по мере поступления новой информации.