Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Що таке самовідновлення DDR4 на серверах Dell PowerEdge із масштабованими процесорами Intel Xeon

Summary: Виправлені та невиправні помилки пам'яті на сервері PowerEdge з DDR4 та зміни в кроках усунення несправностей

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Що таке «самовідновлення» DDR4 на серверах Dell PowerEdge з процесорами Intel Xeon Scalable (перше або друге покоління) з BIOS версії 2.1.x або вище?

Як ці можливості «самовідновлення» DDR4 (удосконалення BIOS) змінюють рекомендовані дії клієнта та служби технічної підтримки при виникненні помилок пам'яті на сервері?

Які «самовідновлювальні» покращення є в нових версіях BIOS?

Cause

У BIOS Dell PowerEdge постійно вдосконалюються та вдосконалюються для покращення обміну повідомленнями про події пам'яті, обробки помилок і «самовідновлення», які відбуваються під час перезавантаження сервера. Це запобігає необхідності у вікні планового технічного обслуговування або присутності на об'єкті для заміни модуля пам'яті DDR4 DIMM, який реєстрував події помилок.

Resolution

Існує два основні покращення BIOS, пов'язані з «самовідновленням», пов'язані з пам'яттю, які були реалізовані для серверів PowerEdge із DDR4 під керуванням BIOS версії 2.1.x і новіших. Ці вдосконалення змінюють рекомендовані кроки або дії, які слід виконати, якщо відбуваються події пам'яті та реєструються в журналі життєвого циклу.

Примітка:
  • Якщо виникають помилки пам'яті з DDR4 у BIOS 2.0 або ранішої версії, оновіть BIOS до останньої версії, яка включає багато можливостей самовідновлення пам'яті та поточні вдосконалення. Ми завжди рекомендуємо користувачам оновити BIOS до останньої доступної версії (і мікропрограми iDRAC), щоб вони могли скористатися останніми вдосконаленнями для самовідновлення.
  • Попередні кроки з виправлення неполадок пам'яті включали переміщення несправних модулів DIMM в інше гніздо, щоб перевірити, чи відповідають помилки DIMM, чи залишаються в слоті DIMM. У BIOS 2.1.x або новішої версії першим рекомендованим кроком є перезавантаження (без переміщення модулів DIMM в інший слот). Це дає змогу запускати нові вдосконалення BIOS, потенційно виправляючи (самовиправляючи) помилки DIMM без планування заміни модулів DIMM.

1. Покращення перенавчання пам'яті

Перенавчання пам'яті, яке відбувається під час завантаження (на ранніх етапах налаштування пам'яті), оптимізує час сигналу та запас для кожного модуля DIMM/слота для найкращого доступу. Синхронізація сигналу пам'яті та характеристики запасу модуля DIMM можуть змінюватися з часом із кількох причин:

  • Зміни в конфігурації пам'яті сервера
  • Зміни в BIOS (Memory Reference Code - MRC)
  • Різні робочі температури сервера або модуля DIMM
  • Загальний вік модуля DIMM

Раніше виявлення оновлень BIOS або змін конфігурації пам'яті призводило до перенавчання пам'яті під час наступного завантаження. Починаючи з BIOS 2.1.x, були додані додаткові виправлені і невиправні помилки пам'яті «тригери» для планового перенавчання:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

Будь-яка з цих помилок, зареєстрованих у журналах SEL/LifeCycle, призводить до того, що перенавчання пам'яті планується на наступне перезавантаження (тепле або холодне). BIOS автоматично примусово перезавантажується холодом незалежно від того, що ініційовано.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
 

Ця багатобітова помилка може призвести до перезавантаження сервера через фатальну помилку, якщо операційна система не в змозі обробити цю помилку. Перенавчання пам'яті відбувається автоматично під час цього завантаження. Якщо багатобітова помилка виникає в некритичній області пам'яті, з якою може впоратися ця операційна система, необхідно запланувати перезавантаження.

Перенавчання пам'яті під час POST може «самовилікувати» несправний модуль DIMM і пов'язаний з ним слот шляхом оптимізації часу сигналу та запасу. Заміна модуля DIMM для цих помилок не потрібна, якщо під час завантаження не вдається перенавчати пам'ять (UEFI0106) або ці самі помилки продовжують виникати.
 

2. Ремонт після пакунка (PPR)

Другим «самовідновлювальним» поліпшенням пам'яті є ППР. PPR відновлює несправну ділянку пам'яті, вимикаючи розташування або адресу на апаратному рівні, дозволяючи замість цього використовувати рядок запасної пам'яті. Точна кількість доступних рядків вільної пам'яті залежить від пристрою DRAM і розміру модуля DIMM.

Раніше цей функціонал обмежувався процесом виготовлення. Як і у випадку з удосконаленнями перенавчання пам'яті, про які згадувалося раніше, існують певні помилки пам'яті, які можна виправити, які призводять до того, що PPR буде заплановано на певному слоті DIMM для наступного перезавантаження (теплого або холодного). BIOS автоматично примусово перезавантажується холодом незалежно від того, що ініційовано. Оскільки операція PPR запланована на певному слоті DIMM, НЕ змінюйте розташування слотів DIMM, доки операцію PPR не буде запущено. Прикладами помилок є:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

Будь-яка з цих подій в журналах призведе до того, що PPR буде заплановано на наступне перезавантаження (тепле або холодне) на початку фази налаштування пам'яті.

Примітка: Ідентифікатор повідомлення MEM8000 (журналювання помилок пам'яті, що виправляється, вимкнено для пристрою пам'яті в місці DIMM_XX.), без відповідного MEM0005/MEM0701/MEM0702 у тому самому розташуванні DIMM, не призводить до планування PPR для наступного перезавантаження.

Перегляньте оновлення від 10 липня 2020 року, щоб дізнатися про зміни для події MEM8000 року, а також оновлену версію 1.1 і новішу офіційний документ.

Після перезавантаження переконайтеся, що операція PPR була успішно виконана. Приклад успішної операції ППР схожий на:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."

Заміна модуля DIMM для цих помилок пам'яті, які можна виправити, не потрібна, якщо не виконується операція PPR. Прикладом невдалого критичного повідомлення PPR є:
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
 

Нещодавно опублікований технічний документ (версія 1.0), що описує функції надійності, доступності та обслуговування (RAS) сервера Dell PowerEdge, пов'язаних із пам'яттю, який описує різні функції та можливості RAS, доступні на серверах PowerEdge – помилки пам'яті та функції RAS серверної пам'яті Dell EMC PowerEdge YX4X.

Щоб дізнатися більше про порогові значення помилок, які можна виправити, зверніться до серверів 14G Intel і 15G Intel/AMD PowerEdge: Пам'ять DDR4: керування пороговими подіями помилок, які можна виправити.

Оновлено 24 квітня 2020 р.

Dell продовжує вдосконалювати свої можливості «самовідновлення». У наступному розділі перелічено оновлення та вдосконалення, пов'язані з різними версіями BIOS.

BIOS 2.1.x - Початкова публікація статті про можливості «самовідновлення», починаючи з BIOS 2.1.6 і вище, включаючи приклади повідомлень про помилки та рекомендовані дії.

BIOS 2.4.x і новіші зміни (грудень 2019 р.)

  • MEM0702 (Перевищено частоту помилок, які можна виправити...) - Повідомлення оновлено з критичного на попереджувальне. З оновленими рекомендованими діями для перезавантаження сервера, щоб дозволити відбуватися "самовідновлення" - Наприклад, Post Package Repair.
    • У грудні 2019 року або новішу версію iDRAC також буде інстальовано, щоб отримати оновлене повідомлення
    • Рекомендовані дії: Перезавантажте сервер, щоб дозволити PPR запуститися
  • MEM9060 - Оновлено опис повідомлення, який вказує на те, що "самовідновлення" успішно завершено

BIOS 2.5.x і новіші зміни (лютий 2020 р.)

  • Додано опцію BIOS «Виправлення помилок», яка дозволяє користувачам вимикати всі журнали життєвого циклу/SEL, пов'язані з помилками, які можна виправити. Всі функції «самовідновлення» продовжують функціонувати - наприклад, PPR і перенавчання пам'яті, як і раніше, плануються і запускаються під час наступного перезавантаження (на ранніх стадіях процесу налаштування пам'яті).
  • Додано помилки MEM08xx для RDIMM і LRDIMM, які замінюють наявні повідомлення про помилки та дії. Існуючі повідомлення про помилки все ще використовуються для платформ, які не підтримують можливості «самовідновлення».
    • Для реєстрації нових повідомлень потрібен лютий 2020 року або новіший протокол iDRAC.
Примітка: Без оновленого iDRAC нові повідомлення BIOS «невідомі» в журналах SEL або LifeCycle.
  • MEM0802 - Замінено MEM0702 - перевищено частоту помилок, які можна виправити
    • Рекомендовані дії: Перезавантажте сервер, щоб дозволити PPR запуститися. Підтвердьте, що PPR пройшов успішно (MEM0802)
  • MEM0804 - Замінено MEM9060, що вказує на успішне виконання PPR. Тепер містить розташування слота DIMM, на якому запускався PPR
    • Рекомендовані дії: Ніхто. Ця подія вказує на те, що відбулося «самовідновлення», заміна модуля DIMM не потрібна.
  • MEM0805 - Замінено UEFI0278, що вказує на несправність PPR
    • Рекомендовані дії: Заміна несправного модуля DIMM

Оновлено 10 липня 2020 р.

BIOS 2.7.x і новіші зміни (липень 2020 року блок BIOS - орієнтований на середину липня для веб-публікацій)

  • MEM8000 (Журналювання помилок, яке можна виправити, вимкнено) - Починаючи з BIOS ~2.0.x, Dell Engineering внесла зміни в BIOS, щоб підвищити швидкість виявлення помилок, які можна виправити, які можуть вплинути на продуктивність. Ця зміна призвела до зростання кількості MEM8000 подій, які не були підтверджені результатами аналізу відмов DIMM. Починаючи з BIOS 2.7.x, є дві зміни, пов'язані з MEM8000. По-перше, сигналізація події MEM8000 була змінена. По-друге, BIOS планує самовідновлення (PPR) для наступного перезавантаження. Повідомлення iDRAC ще не оновлені, щоб відобразити нові дії.
    • Рекомендовані дії: Перезавантажте сервер, щоб запустити самовідновлення/PPR. Підтвердьте, що PPR пройшов успішно (MEM0804).
  • MEM0001 (Помилка, яку не можна виправити) - призводить до самовідновлення (PPR), яке буде заплановано на наступне перезавантаження. Повідомлення iDRAC ще не оновлені, щоб відобразити нові дії.
    • Рекомендовані дії: Нічого не потрібно, якщо MEM0001 пов'язаний з критичною сторінкою, яку операційна система не в змозі відновити - все ще є фатальною помилкою, що призводить до перезавантаження. Якщо MEM0001 пов'язаний з некритичною сторінкою, з якої операційна система може відновитися, необхідно запланувати перезавантаження, щоб відбулося все самовідновлення (PPR). Підтвердьте, що PPR пройшов успішно (MEM0804).

ОНОВЛЕНО 13 січня 2021 р.

BIOS 2.8.2 і новіші зміни (вересень 2020 блок BIOS)

  • MEM9072 (Помилка, яку неможливо виправити, виявлена процесом очищення патруля пам'яті - сторінка не використовується і не використовується) - Призводить до самовідновлення (PPR), яке буде заплановано на наступне перезавантаження.  Повідомлення iDRAC ще не оновлені, щоб відобразити нові дії.
    • Рекомендовані дії: Заплануйте перезавантаження найближчим часом. Затримка перезавантаження може призвести до того, що сторінка буде використана, що призведе до помилки MEM0001, яка може призвести до перезавантаження.  Під час цього перезавантаження запускається самовідновлення пам'яті (PPR). Підтвердьте, що PPR пройшов успішно (MEM0804).
Примітка: З останньою версією Інженерної офіційної книги (версія 1.3 - дата випуску 20 листопада 2020 року) можна ознайомитися за адресою:
https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdfДля вмісту Intel Xeon E та AMD EPYC продовжуйте посилатися на оригінальний технічний документ Engineering (версія 1.0), який можна знайти за адресою: PowerEdge YX4X Server Memory RAS Whitepaper v1.0 (dell.com)

Оцінюються додаткові вдосконалення функцій RAS для включення в майбутні оновлення BIOS.

Примітка. Докладний опис і рекомендовані дії для конкретних повідомлень з кодом помилки можна знайти за наступним посиланням: Подивіться вгору (dell.com). Оскільки коди помилок (наприклад, MEM0001) застосовуються до кількох поколінь серверів і платформ, рекомендовані дії можуть бути неактуальними для конкретної версії BIOS. Нові коди помилок, які були додані (наприклад, MEM0802, MEM0804, MEM0805 тощо), застосовуються лише до серверів із масштабованими процесорами Intel Xeon (першого або другого покоління).

Ця стаття буде оновлюватися в міру надходження нової інформації.

Читайте також: Керівництво по усуненню несправностей пам'яті за допомогою тестування підкачки - Усунення помилок пам'яті в системах PowerEdge за допомогою тестування

підкачкиЗавантаження та драйвери: Драйвери та завантаження | Dell США

Article Properties


Affected Product
Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, OEMR R240, OEMR R340, OEMR R740xd2, OEMR T140, OEMR T340, OEMR XL R240, OEMR XL R340, PowerEdge C6420, PowerEdge FC640, PowerEdge M640, PowerEdge MX740C, PowerEdge R240 , PowerEdge R340, PowerEdge R440, PowerEdge R540, PowerEdge R640, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R940, PowerEdge T140, PowerEdge T340, PowerEdge T440, Dell EMC vSAN C6420 Ready Node ...
Product

VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F

Last Published Date

19 Apr 2024

Version

15

Article Type

Solution