Сервери PowerEdge 14G Intel та 15G: Керування подіями порогу помилки, які можна виправити
摘要: У цій статті наведено оновлені рекомендації щодо керування подіями порогу помилки, які можна виправити (MEM0802 або MEM5104) на RDIMM або LRDIMM, встановлених на серверах PowerEdge 14G і 15G на базі Intel і 15G PowerEdge на базі AMD. ...
症状
Завдяки еволюції функцій надійності, доступності та сервісності (RAS) у пам'яті корпоративного класу, Dell застосувала консервативний підхід до забезпечення прозорості для наших клієнтів. У міру того, як ця еволюція триває, змінюється і підхід Dell до звітування про помилки, що дозволяє зосередитися на повідомленнях, які вимагають більш термінової реакції, порівняно з повідомленнями, які мають переважно інформаційний характер.
Оскільки геометрія пам'яті на основі DRAM продовжує скорочуватися, надаючи клієнтам підвищену продуктивність, якої вони потребують, очікується все більша кількість помилок, які можна виправити, як природна частина рівномірного масштабування.
原因
解决方案
Продовження роботи системи, яка повідомляє про виправні помилки без перезавантаження для самовідновлення, не збільшує ризик виникнення невиправних помилок, які можуть призвести до незапланованих простоїв. Інші представники галузі публічно повідомили, що їхня обробка пам'яті не повідомляє про помилки, які можна виправити.
У 14G Intel PowerEdge BIOS версії 2.5.4 і новіших було додано налаштування BIOS під назвою «Журнал виправлених помилок», щоб дозволити клієнтам вимкнути звітування про помилки, які можна виправити, якщо вони цього виберуть, і багато хто так і зробив. BIOS продовжує планувати автоматичну повторну інсталяцію для виправлених порогових подій навіть без ведення журналу. Ця запланована автоматична перевстановлення автоматично відбувається під час наступного перезавантаження системи.
Щоб більше відповідати галузевим якостям і постійним відгукам клієнтів, починаючи з березня 2022 року, оновлення Dell PowerEdge BIOS змінюють налаштування BIOS, що виправляється помилками, на вимкнені за замовчуванням. Цю опцію BIOS можна повторно ввімкнути для клієнтів, які хочуть і надалі бачити події порогу пам'яті, які можна виправити. Версії BIOS з цією зміною налаштувань BIOS:
- Платформи 14G Intel - версії BIOS 2.13.3 або новіші
- 15G платформи AMD - версії BIOS 2.6.5 або новіші
- 15G Intel Platforms - версії BIOS 1.5.5 або новіше.
Переваги самовідновлення DDR4 DIMM шляхом перезавантаження системи:
- Це дозволяє виконувати ремонт модулів DDR4 DIMM без вилучення з системи; Усі модулі DDR4 DIMM від Dell підтримують функцію самовідновлення пам'яті.
- Використовує доступні запасні ряди, спроектовані в DRAM, де поганий ряд назавжди замінюється на завідомо справний ряд за допомогою електричного плавлення.
- Подальший перезаряд пам'яті оптимізує «очі даних» шляхом повторного калібрування центральних точок для забезпечення того, що шина пам'яті працює на найвищому рівні цілісності сигналізації.
Для порогових подій, які можна виправити, з увімкненим налаштуванням BIOS «Виправлення помилок logging», у разі виникнення подій порогу пам'яті, Dell Technologies рекомендує перезавантажуватися за регулярним графіком обслуговування клієнта, щоб забезпечити автоматичне повторне встановлення або самовиправлення запланованої пам'яті. Після перезавантаження успішні або невдалі події автоматичної повторної інсталяції реєструються для пов'язаних модулів DIMM.
За допомогою параметра BIOS «Виправлення помилок logging» Disabled, Dell Technologies рекомендує перезавантаження за регулярним графіком обслуговування клієнта. Після перезавантаження всі заплановані операції автоматичної повторної інсталяції виконуються автоматично. Система реєструє подію (події типу MEM0805 або MEM7114), якщо автоматична повторна інсталяція або самовиправлення не увінчалися успіхом, і додатково рекомендує фізичну заміну відповідного модуля DIMM.
Рекомендація:
Dell Memory Engineering рекомендує клієнтам PowerEdge Server на старіших версіях BIOS (до випусків березневого блоку 2022 року) змінити налаштування BIOS «Виправлення помилок журналювання» на «Вимкнено». Це усуває спорадичні порогові події в пам'яті, які можна виправити (такі як події типу MEM0802 або MEM5104) у всій інфраструктурі сервера, яка рекомендує перезавантаження сервера, щоб забезпечити автоматичне повторне встановлення або самовиправлення. Як згадувалося раніше, будь-які заплановані операції автоматичної повторної інсталяції або самовиправлення виконуються автоматично, коли сервер перезавантажується та повідомляється про будь-які збої.
Налаштування BIOS "Correctable Error Logging" можна змінити або перезавантаживши сервер до налаштувань F2, або за допомогою веб-інтерфейсу iDRAC.
Щоб змінити налаштування BIOS у розділі «Системні параметри F2», виконайте такі дії:
-
Перезавантажте сервери, зупинившись на налаштуваннях F2
-
У виборі налаштувань пам'ятіналаштувань BIOS> змініть параметр Logging Error Gingging (Журнал виправлених помилок) на Disabled (Вимкнено).
-
Збережіть налаштування BIOS і вийдіть з налаштувань F2
Щоб змінити налаштування BIOS за допомогою веб-інтерфейсу iDRAC:
- Увійдіть у веб-інтерфейс iDRAC
- У розділі «Параметри конфігурації >BIOS» розгорніть розділ «Параметри пам'яті »
- Змініть параметр «Журналювання помилок, які можна виправити» на «Вимкнено»
- Натисніть кнопку «Застосувати », щоб зберегти параметри пам'яті
- Не забудьте вибрати або кнопку «Застосувати і перезавантажити» (для негайного перезавантаження), або кнопку «При наступному перезавантаженні », щоб застосувати зміни в BIOS.
Наявні статті та офіційні документи, пов'язані з пам'яттю, оновлюються, щоб відобразити цю рекомендовану зміну.
Managing Correctable Error Notices Dec 2021 v1.pdf."
Ця стаття оновлюється в міру надходження нової інформації.