BIOS серверов Dell PowerEdge постоянно совершенствуется и совершенствуется с целью передачи сообщений о событиях памяти, обработки ошибок и самовосстановления, которое происходит после перезагрузки сервера. Это устраняет необходимость в запланированном окне обслуживания или присутствии на месте для замены модуля памяти DDR4 DIMM, который регистрировал события ошибок.
Для серверов PowerEdge с памятью DDR4, на которых установлена BIOS 2.1.x и более поздних версий, были добавлены два основных улучшения BIOS, связанные с самовосстановлением памяти. Эти улучшения изменяют рекомендуемые действия или действия, которые необходимо предпринимать в случае возникновения событий памяти, которые регистрируются в журнале жизненного цикла.
Переобучение памяти, которое происходит во время загрузки (на ранних этапах настройки памяти), оптимизирует синхронизацию и ограничения сигнала для каждого модуля или разъема DIMM для обеспечения оптимального доступа. Характеристики синхронизации и ограничения сигналов памяти DIMM могут изменяться со временем по нескольким причинам:
Ранее обнаружение обновлений BIOS или изменений конфигурации памяти приводило к переобучению памяти во время последующей загрузки. Начиная с BIOS версии 2.1.x добавлены дополнительные «триггеры» устранимых и неустранимых ошибок памяти, которые будут инициировать запланированное переобучение:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Регистрация любой из этих ошибок в журнале SEL/LifeCycle приведет к тому, что для следующей перезагрузки («теплой» или «холодной») будет запланировано переобучение памяти. BIOS автоматически инициирует «холодную» перезагрузку вне зависимости от того, какие процессы запущены.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Эта многобитовая ошибка может привести к перезагрузке сервера из-за неустранимой ошибки, если операционной системе не удается обработать эту ошибку. Во время загрузки автоматически выполняется переобучение памяти. Если в некритической ячейке памяти возникает многобитовая ошибка, которую может обработать операционная система, необходимо запланировать перезагрузку.
Переобучение памяти во время процедуры POST может выполнить «самовосстановление» неисправного модуля DIMM и соответствующего разъема за счет оптимизации синхронизации и ограничения сигнала. При возникновении этих ошибок не требуется замена модуля DIMM, если во время загрузки не происходит сбой в ходе переобучения памяти (UEFI0106) или эти же ошибки не возникают снова.
Вторым «самовосстанавливающимся» улучшением памяти является PPR. PPR восстанавливает неисправную ячейку памяти, отключая местоположение или адрес на аппаратном уровне, позволяя использовать вместо нее резервную строку памяти. Точное количество доступных резервных строк памяти зависит от устройства DRAM и размера модуля DIMM.
Ранее эта функция была ограничена процессом производства. Как и в случае с упомянутыми выше улучшениями переобучения памяти, существуют некоторые исправимые ошибки памяти, которые приводят к тому, что для следующей перезагрузки («теплой» или «холодной») будет запланировано исправление PPR на определенном слоте DIMM. BIOS автоматически инициирует «холодную» перезагрузку вне зависимости от того, какие процессы запущены. Так как исправление PPR запланировано для конкретного разъема DIMM, НЕ меняйте местоположения разъемов DIMM до тех пор, пока оно не будет запущено. Примеры ошибок.
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Любое из этих событий в журналах приведет к тому, что PPR будет запланирована для следующей перезагрузки («теплой» или «холодной») на раннем этапе настройки памяти.
После перезагрузки убедитесь, что исправление PPR выполнено успешно. Пример сообщения об успешном выполнении исправления PPR будет выглядеть примерно следующим образом:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
В новом техническом документе (версия 1.0) с описанием функций, связанных с надежностью, доступностью и удобством обслуживания (RAS) на серверах Dell PowerEdge. В нем описаны различные функции и возможности RAS, доступные на серверах PowerEdge — ошибки памяти и функции RAS серверной памяти Dell EMC PowerEdge YX4X.
Для получения дополнительной информации о событиях пороговых значений исправляемых ошибок см . Серверы PowerEdge 14G Intel и 15G Intel/AMD. Память DDR4: управление событиями пороговых значений исправляемых ошибок.Обновлено: 24 апреля 2020 г.
Dell продолжает расширять возможности самовосстановления. В следующем разделе перечислены обновления и улучшения, связанные с различными версиями BIOS.
BIOS 2.1.x — Первая статья, в которой представлена информация о возможностях самовосстановления, начиная с BIOS 2.1.6 и выше, включая примеры сообщений об ошибках и рекомендуемые действия.
Изменения BIOS 2.4.x и более новых версий (декабрь 2019 г.)
Изменения BIOS 2.5.x и более новых версий (февраль 2020 г.)
Обновлено: 10 июля 2020 г.
Изменения BIOS 2.7.x и более новых версий (блок BIOS от июля 2020 г. — планируется разместить в Интернете в середине июля).
ОБНОВЛЕНО 13.01.2021
Изменения в BIOS 2.8.2 и более поздних версиях (блок BIOS от сентября 2020 г.)
В настоящее время анализируются несколько дополнительных улучшений функций RAS для включения в будущие обновления BIOS.
Эта статья будет обновляться по мере поступления новой информации.
Читайте также: Руководство по поиску и устранению неисправностей памяти путем тестовой замены: Поиск и устранение ошибок памяти в системах PowerEdge путем тестовой
заменыЗагружаемые материалы и драйверы Драйверы и загружаемые материалы | Dell, США