PowerEdge: Що таке самовідновлення DDR4 з масштабованими процесорами Intel Xeon

Summary: Виправувані та невиправні помилки пам'яті на сервері PowerEdge з DDR4 та зміни у кроках усунення несправностей

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Що таке «самовідновлення» DDR4 на серверах Dell PowerEdge з масштабованими процесорами Intel Xeon (перше або друге покоління) з BIOS версії 2.1.x або вище?

Як ці «самовідновлювальні» можливості DDR4 (покращення BIOS) змінюють рекомендовані дії клієнта та технічної підтримки при виникненні помилок пам'яті на сервері?

Які «самовідновлювальні» покращення у новіших версіях BIOS?

Cause

Постійно вдосконалюються та вдосконалюються BIOS Dell PowerEdge для покращення повідомлень пам'яті, обробки помилок і «самовідновлення», які відбуваються після перезавантаження сервера. Це уникає потреби у запланованому ремонтному вікні або присутності на місці для заміни DDR4 пам'яті DIMM, який фіксував події помилок.

Resolution

Існує два основних покращення BIOS, пов'язані з пам'яттю, які були реалізовані для серверів PowerEdge з DDR4 на BIOS версії 2.1.x і новішою. Ці покращення змінюють рекомендовані кроки або дії, які слід виконати, якщо трапляються події пам'яті і реєструються в журналі LifeCycle.

Примітка:
  • Якщо виникають помилки в пам'яті з DDR4 на BIOS 2.0 або ранніх версіях, оновіть BIOS до останньої версії, яка включає багато можливостей самовідновлення пам'яті та постійні вдосконалення. Ми завжди заохочуємо клієнтів оновлюватися до останньої доступної версії BIOS (та прошивки iDRAC), щоб вони могли скористатися найновішими покращеннями самовідновлення.
  • Попередні кроки з усунення несправностей пам'яті включали переміщення несправних DIMM у інший слот, щоб перевірити, чи помилки слідують за DIMM, чи залишаються у слоті DIMM. З BIOS 2.1.x або новішими версіями першим рекомендованим кроком є перезапуск (без переміщення DIMM в інший слот). Це дозволяє запускати нові покращення BIOS, потенційно вирішуючи (самозагоєння) помилки DIMM без планування замін DIMM.
  1. Покращення перенавчання пам'яті

Перезавантаження пам'яті, яке відбувається під час завантаження (на ранніх етапах налаштування пам'яті), оптимізує таймінг сигналу та запас для кожного DIMM/слота для найкращого доступу. Характеристики таймінгу сигналу пам'яті та маржування DIMM можуть змінюватися з часом з кількох причин:

  • Зміни в конфігурації серверної пам'яті
  • Зміни в BIOS (Memory Reference Code - MRC)
  • Різні робочі температури сервера або DIMM
  • Загальний вік DIMM

Раніше виявлення оновлень BIOS або змін у конфігурації пам'яті призводили до повторного навчання пам'яті під час наступного завантаження. Починаючи з BIOS 2.1.x, були додані додаткові «тригери» помилок пам'яті, які можна виправити та не виправляти, для запланованого перенавчання:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Будь-яка з цих помилок, що фіксується в журналах SEL або Lifecycle, призводить до запланування перенавчання пам'яті на наступне перезавантаження (тепле чи холодне). BIOS автоматично примушує холодне перезавантаження незалежно від того, що було запущено.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

Ця багатобітна помилка може призвести до перезавантаження сервера через фатальну помилку, якщо операційна система не зможе її обробити. Перезавантаження пам'яті відбувається автоматично під час цього завантаження. Якщо багатобітна помилка виникає в некритичній пам'яті, яку може обробляти ця операційна система, необхідно запланувати перезавантаження.

Перенавчання пам'яті під час POST може «самовідновити» несправний DIMM і відповідний слот шляхом оптимізації таймінгу та маргінгу сигналу. Заміна DIMM для цих помилок не потрібна, якщо не вдасться перезавантаження пам'яті (UEFI0106) під час завантаження або ці ж самі помилки не повторюються.
 

  1. Після ремонту посилки (PPR)

Друге «самозцілююче» покращення пам'яті — це PPR. PPR відновлює несправну адресу пам'яті, вимикаючи локацію або адресу на апаратному рівні, що дозволяє використовувати вільний рядок пам'яті. Точна кількість доступних рядків вільної пам'яті залежить від DRAM-пристрою та розміру DIMM.

Раніше ця функціональність обмежувалася лише виробничим процесом. Як і в згаданих раніше покращеннях перезавантаження пам'яті, існують певні виправні помилки пам'яті, через які PPR планується на певний слот DIMM для наступного перезавантаження (теплого чи холодного). BIOS автоматично примушує холодне перезавантаження незалежно від того, що було запущено. Оскільки операція PPR планується на конкретному слоті DIMM, НЕ змінюйте розташування слотів DIMM, доки не буде виконано операцію PPR. Приклади помилок:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Будь-яка з цих подій у журналах призводить до того, що PPR планується на наступне перезавантаження (тепле або холодне) на початку фази конфігурації пам'яті

Примітка: Повідомлення ID MEM8000 (вимкнено фіксацію помилки пам'яті для пристрою пам'яті в точці DIMM_XX) без відповідного MEM0005/MEM0701/MEM0702 на тому ж місці DIMM, не призводить до запланування PPR на наступне перезавантаження

.Дивіться оновлення від 10 липня 2020 року для змін для події MEM8000 та оновленої версії 1.1 та новішої білої книги.

Після перезавантаження переконайтеся, що операція PPR була успішною. Приклад успішної операції PPR схожий на:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


Заміна DIMM для цих виправних помилок пам'яті не потрібна, якщо тільки не використовується операція PPR. Приклад невдалого критичного повідомлення PPR:

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

Нещодавно опублікований Whitepaper (версія 1.0), що описує функції надійності, доступності та сервісної (RAS) пам'яті Dell PowerEdge, який описує різні функції та можливості RAS, доступні на серверах PowerEdge — Memory Errors та Dell PowerEdge YX4X Server Memory RAS Features.

 

Оновлено 24 квітня 2020 року

Dell продовжує вдосконалювати наші можливості «самозцілення». У наступному розділі наведено оновлення та покращення, пов'язані з різними версіями BIOS.

BIOS 2.1.x — Початкова публікація статті про можливості «самовідновлення», які доступні, починаючи з BIOS 2.1.6 і вище, включаючи приклади повідомлень про помилки та рекомендовані дії.

BIOS 2.4.x та новіші зміни (грудень 2019)

  • MEM0702 (Коефіцієнт коригованої помилки перевищено...) - Повідомлення оновлено з критичного рівня на попередження. З оновленням рекомендованих дій для перезавантаження сервера, щоб дозволити «самозцілення» — наприклад, після ремонту пакета.
    • У грудні 2019 року або новіші iDRAC також мають бути встановлені для отримання оновленого повідомлення
    • Рекомендовані дії: Перезавантажте сервер, щоб дозволити запустити PPR
  • MEM9060 - Опис повідомлення оновлено, щоб вказати, що «самозцілення» було успішно завершено

BIOS 2.5.x та новіші зміни (лютий 2020)

  • Було додано опцію BIOS «Коригуване журналування помилок», яка дозволяла клієнтам вимикати всі логування життєвого циклу або SEL, пов'язані з виправляними помилками. Усі функції «самовідновлення» продовжують працювати — наприклад, PPR і перенавчання пам'яті все ще плануються і запускаються під час наступного перезавантаження (на початку процесу налаштування пам'яті).
  • Додавання помилок MEM08xx для RDIMM і LRDIMM, замінюючи існуючі повідомлення про помилки та дії. Існуючі повідомлення про помилки все ще використовуються для платформ, які не підтримують можливості «самовідновлення».
    • Для логування нових повідомлень потрібен iDRAC у лютому 2020 року або новіше.
Примітка: Без оновленого iDRAC нові повідомлення BIOS залишаються «невідомими» у журналах SEL або Lifecycle.
  • MEM0802 - Замінено MEM0702 - рівень коригованої помилки перевищено
    • Рекомендовані дії: Перезавантажте сервер, щоб дозволити запустити PPR. Підтвердити, що PPR був успішним (MEM0802)
  • MEM0804 - Замінено MEM9060 вказує на успішність PPR. Тепер включає розташування слотів DIMM, яке запускало PPR
    • Рекомендовані дії: Жодної, ця подія свідчить про «самовідновлення», заміна DIMM не потрібна.
  • MEM0805 - Замінено UEFI0278 що вказує на невдалий PPR
    • Рекомендовані дії: Замініть несправний DIMM

Оновлено 10 липня 2020 року

BIOS 2.7.x та новіші зміни (блок BIOS липня 2020 року — орієнтований на середину липня для веб-публікацій)

  • MEM8000 (вимкнено кориговане журналування помилок) — починаючи з BIOS ~2.0.x, інженерія Dell внесла зміну в BIOS для підвищення частоти виправляльного виявлення помилок, що може вплинути на продуктивність. Ця зміна призвела до зростання кількості MEM8000 подій, які не були підтверджені результатами аналізу відмов DIMM. Починаючи з BIOS 2.7.x, є дві зміни, пов'язані з MEM8000. Перша полягає в тому, що сигналізація події MEM8000 була змінена. По-друге, BIOS планує самовідновлення (PPR) для наступного перезавантаження. Повідомлення iDRAC ще не оновлюються для відображення нових дій.
    • Рекомендовані дії: Перезавантажте сервер, щоб дозволити запустити самолікування/PPR. Підтверджіть, що PPR був успішним (MEM0804).
  • MEM0001 (Невиправна помилка) — призводить до запланування на наступне перезавантаження (PPR). Повідомлення iDRAC ще не оновлюються для відображення нових дій.
    • Рекомендовані дії: Не потрібно, якщо MEM0001 пов'язаний із критичною сторінкою, яку операційна система не може відновити — це все одно фатальна помилка, що призводить до перезавантаження. Якщо MEM0001 пов'язаний із некритичною сторінкою, з якої Операційна Система може відновитися, перезавантаження має бути заплановане на всі самовідновлювані процеси (PPR). Підтверджіть, що PPR був успішним (MEM0804).

ОНОВЛЕНО 13 січня 2021 року

BIOS 2.8.2 та новіші зміни (блок BIOS, вересень 2020)

  • MEM9072 (Невиправна помилка, виявлена процесом очищення патруля пам'яті — сторінка не використовується або не використовується) — Призводить до запланування самовідновлення (PPR) на наступне перезавантаження. Повідомлення iDRAC ще не оновлюються для відображення нових дій.
    • Рекомендовані дії: Заплануйте перезапуск незабаром. Затримка перезавантаження може призвести до поглинання сторінки, що призведе до MEM0001 помилки, яка може призвести до перезавантаження. Під час цього перезавантаження запускається система самовідновлення пам'яті (PPR). Підтверджіть, що PPR був успішним (MEM0804).
Примітка: Остання версія Інженерного білого паперу (версія 1.3 – дата публікації 20 листопада 2020 року) доступна за адресою:  https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
Для контенту Intel Xeon E та AMD EPYC продовжуйте посилатися на оригінальний інженерний білий документ (версія 1.0), який можна знайти за адресою: Whitepaper PowerEdge YX4X Server Memory RAS v1.0 (dell.com)

Оцінюються додаткові покращення функцій RAS для включення в майбутні оновлення BIOS.

 
Примітка: Для детального опису та рекомендованих дій для конкретних повідомлень з кодом помилок зверніться за наступним посиланням: Подивись вгору (dell.com). Оскільки коди помилок (наприклад, MEM0001) застосовуються до кількох поколінь серверів і платформ, рекомендовані дії можуть не відповідати актуальності для конкретної версії BIOS. Нові коди помилок, які були додані (наприклад, MEM0802, MEM0804, MEM0805 тощо), стосуються лише серверів із масштабованими процесорами Intel Xeon (перше або друге покоління).

 

Ця стаття оновлюється у міру появи нової інформації.


Завантаження та драйвери: Драйвери та завантаження

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R240, OEMR R250 , OEMR XE R250, OEMR R260, OEMR XE R260, OEMR R340, OEMR R350, OEMR XE R350, OEMR R360, OEMR XE R360, OEMR R440, PowerEdge XR2, OEMR R450, OEMR R540, OEMR R550, OEMR R5500, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R660, OEMR XL R660, OEMR R660xs, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR XL R760, OEMR R760xs, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa, OEMR R960, OEMR T140, OEMR T150, OEMR T340, OEMR T350, OEMR T360, OEMR T440, OEMR T550, OEMR T560, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340, OEMR XL R660xs, OEMR XR11, OEMR XR12, OEMR XR4000r, OEMR XR4000w, OEMR XR4510c, OEMR XR4520c, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, Poweredge C4140, PowerEdge C6420, PowerEdge C6520, PowerEdge C6525, PowerEdge C6615, PowerEdge C6620, PowerEdge FC640, PowerEdge HS5610, PowerEdge HS5620, PowerEdge M640, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX760c, PowerEdge MX840C, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R660, PowerEdge R660xs, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XE9680L, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4000r, PowerEdge XR4000w, PowerEdge XR4510c, PowerEdge XR4520c, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t, PowerFlex appliance R650, PowerFlex appliance R660, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex custom node R650, PowerFlex custom node R660, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R860, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN MX750c Ready Node, Dell vSAN Ready Node MX760c, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, vSAN Ready Node R660, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R760 Ready Node, Dell EMC vSAN R840 Ready Node, Dell EMC vSAN T350 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...

Products

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 25 Nov 2025
Version:  26
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.