文章编号: 000139251

Подвійні несправності і проколи в RAID-масивах

摘要: RAID-масиви не захищені від помилок даних, у цій статті наведено рекомендації щодо запобігання та пом'якшення цих проблем.

本文可能已自动翻译。如果您对其质量有任何反馈，请使用此页面底部的表单告知我们。

文章内容

症状

У цій статті представлена інформація про помилки даних, подвійні несправності та проколи в RAID-масиві. Крім того, існують рекомендації щодо запобігання/пом'якшення цих проблем, а також щодо вирішення проблем після їх виникнення.

Зміст

Помилки даних і подвійні помилки
Проколів: Що це таке і чим викликані?
Запобігання проблемам до того, як вони відбудуться, і вирішення проколів після їх виникнення

Розділ 1: Помилки даних і подвійні помилки

RAID-масиви не захищені від помилок даних. RAID-контролер і прошивка жорсткого диска містять функціональність для виявлення і виправлення багатьох типів помилок даних перед їх записом на масив/диск. Використання застарілої прошивки може призвести до запису неправильних даних на масив/диск, оскільки в ньому відсутні функції обробки помилок/виправлення помилок, доступні в останніх версіях прошивки.

Помилки даних також можуть бути викликані фізичними пошкодженими блоками. Наприклад, це може статися, коли головка для читання/запису впливає на блюдо, що обертається (відоме як "Аварія голови"). Блоки також можуть стати поганими з часом через погіршення здатності пластини магнітно зберігати біти в певному місці. Пошкоджені блоки, викликані деградацією тарілки, часто можна успішно прочитати. Такий поганий блок може бути виявлений тільки періодично або з розширеною діагностикою на дисках.

Поганий блок, також відомий як погана логічна адреса блоку (LBA), також може бути викликаний помилками логічних даних. Це відбувається, коли дані неправильно записуються на диск, навіть якщо вони повідомляються як успішний запис. Крім того, хороші дані, що зберігаються на диску, можуть бути випадково змінені. Одним із прикладів є «бітове перевертання», яке може статися, коли головка читання/запису проходить або записує в сусіднє місце і змушує дані у вигляді нулів і одиниць змінюватися на інше значення. Такий стан призводить до пошкодження «узгодженості» даних. Значення даних на конкретному блоці відрізняється від вихідних даних і може більше не збігатися з контрольною сумою даних. Фізичний LBA хороший і може бути успішно написаний, але в даний час він містить неправильні дані і може бути інтерпретований як поганий блок.

Погані LBA зазвичай повідомляються як Sense Code 3/11/0. Sense Key 3 - це середня помилка. Додатковий код сенсу та додатковий кваліфікатор сенсу 11/00 визначається як невідновлена помилка читання. Не було зроблено жодної спроби виправити блок, і не зроблено визначення того, чи є пошкоджений блок результатом фізичного дефекту на пластині приводу чи помилки даних через інші причини. Наявність Sense Code 3/11/00 не означає автоматично, що фізичний диск вийшов з ладу або що його слід замінити.

Апаратні RAID-контролери Dell пропонують такі функції, як Patrol Read і Check Consistency для виправлення багатьох сценаріїв помилок даних. Patrol Read працює за замовчуванням як автоматизоване фонове завдання, яке перевіряє всі окремі блоки на жорсткому диску, щоб переконатися, що дані можуть бути правильно прочитані. Patrol Read спробує виправити погані блоки або переспівати блоки, які не підлягають виправленню, на зарезервовані. Check Consistency - це активована вручну (її також можна запланувати) функція, яка порівнює всі диски масиву один з одним, щоб переконатися, що дані та резервування правильно збігаються. Наприклад, три диска в масиві RAID 5 будуть порівнюватися, щоб переконатися, що дані і парність використовують правильні значення. Якщо буде виявлено одну помилку, решта даних та/або парність будуть використані для перезапису та виправлення поганого значення. Аналогічно, в масиві RAID 1 дані на одному диску будуть порівнюватися з іншими, щоб переконатися, що дані відображаються правильно.

Будь-яка помилка в RAID-масиві, якщо її не виправити, може призвести до більш серйозних помилок в масиві, особливо при виникненні другої помилки. Одна або кілька одиничних помилок не призведуть до втрати даних до тих пір, поки масив залишається в оптимальному стані. Ще достатньо даних плюс резервування для нормальної роботи при оптимальній роботі масиву.

Завдяки здатності контролера виправляти помилки під час нормальної роботи, не завжди легко виявити, коли існують основні проблеми в даних. Рідко виникають помилки або попередження в журналі контролера, журналах апаратного забезпечення або журналах подій операційної системи, коли існує одна або кілька умов для окремих помилок. З цієї причини масив може працювати нормально протягом дуже тривалого часу, незважаючи на наявність помилок узгодженості та/або поодиноких помилок.

SLN111497_en_US__11

Малюнок 1: Кілька одиничних несправностей в масиві RAID 5 - оптимальний масив Як показано на рисунку 1, масив

має множинні помилки. Однак, оскільки в будь-якому страйпі є лише одна помилка, контролер все одно може отримати доступ до всіх даних через надмірність RAID 5. Якщо помилка виникає на сегменті парності, всі дані залишаються незмінними, і помилка не впливає на операції читання. Якщо помилка виникає в сегменті даних, має відбутися порівняння XOR між хорошими даними та хорошими частинами парності, щоб переобчислити сегмент відсутніх/поганих даних. У будь-якому випадку, оскільки в будь-якому страйпі є лише одна помилка, існує достатня надмірність для успішного доступу до всіх даних.

Коли один або кілька дисків в RAID-масиві містять помилки даних, а інший диск в масиві перестає бути активним учасником, якщо масив вийшов з ладу, чужорідної конфігурації, видалення диска або з будь-якої іншої причини, це створює умову, відому як "подвійна помилка". Подвійна несправність призводить до негайної втрати даних будь-якої інформації в уражених смугах.

SLN111497_en_US__22

Малюнок 2: Подвійна несправність з несправним диском (дані в страйпах 1 і 2 втрачені) - Обмежений масив

Цілком можливо, що може виникнути подвійна несправність, коли масив залишиться в оптимальному стані. Це станеться з ідентичними поганими LBA на кількох жорстких дисках. Такий стан був би надзвичайно рідкісним, враховуючи величезну кількість LBA на сьогоднішніх великих жорстких дисках. Було б дуже малоймовірно, щоб один і той же LBA на декількох жорстких дисках був «поганим» одночасно.

Виконання регулярних операцій перевірки узгодженості виправить окремі несправності, будь то фізичний поганий блок або логічна помилка даних. Перевірка узгодженості також зменшить ризик подвійного стану несправності в разі додаткових помилок. Коли в будь-якому страйпі є не більше однієї помилки, перевірка узгодженості майже завжди може усунути помилку.

Повернутися до початку

Розділ 2: Проколів: Що це таке і чим викликані?

Прокол - це функція PERC-контролерів Dell, розроблена таким чином, щоб дозволити контролеру відновити резервування масиву, незважаючи на втрату даних, викликану подвійною несправністю. Інша назва проколу - «перебудовувати з помилками». RAID-контролер виявить подвійну несправність, і оскільки надмірність недостатня для відновлення даних у ураженому страйпі, контролер створює прокол у цій страйпі та дозволяє продовжити перезбирання.

Будь-яка умова, яка призводить до того, що дані стають недоступними в одному страйпі на кількох дисках, є подвійною помилкою
Подвійні несправності призводять до втрати всіх даних у межах ураженої смуги
Всі проколи є подвійними несправностями, але всі подвійні несправності НЕ є проколами

Малюнок 3: Проколоті страйпи (дані в страйпах 1 і 2 втрачаються через подвійну несправність) - оптимальний масив

Без функції проколу перебудова масиву не вдалася б і залишила масив у деградованому стані. У деяких випадках збої можуть призвести до виходу з ладу додаткових дисків і переходу масиву в автономний режим. Проколювання масиву не впливає на можливість завантаження або доступу до будь-яких даних в масиві. Будь-які пошкодження або втрачені дані через подвійну несправність вже відбулися.

Проколи можуть відбуватися в одній з двох ситуацій:

Double Fault вже існує (дані вже втрачено)
- Помилка даних на онлайновому диску поширюється (копіюється) на диск, що відновлюється

Double Fault не існує (дані втрачаються при виникненні другої помилки)
- Перебуваючи в погіршеному стані, якщо на онлайн-диску відбувається погане блокування, цей LBA проколюється

Цією перевагою проколу масиву є збереження системи доступною у виробництві та відновлення резервування масиву. Дані в ураженій смузі були втрачені незалежно від того, відбувається прокол чи ні. Основним недоліком методу LSI є те, що, хоча масив має прокол, помилки, які неможливо виправити, продовжуватимуть виникати щоразу, коли доступ до порушених даних (якщо такі є).

Прокол може відбуватися в трьох локаціях. По-перше, прокол може відбуватися в порожньому місці, яке не містить даних. Ця смуга буде недоступною, але оскільки в цьому місці немає даних, вона не матиме значного впливу. Будь-які спроби записати на проколотий страйп ОС зазнають невдачі, і дані будуть записані в інше місце.

По-друге, прокол може статися у страйпі, який містить некритичні дані, наприклад, файл README.TXT. Якщо до порушених даних немає доступу, помилки під час звичайного вводу-виводу не створюються. Під час спроб створити резервну копію файлової системи не вдається створити резервну копію файлів, на які вплинула помилка. Виконання операцій перевірки узгодженості або патрулювання Читання згенерує код Sense: 3/11/00 для відповідних LBA та/або смуг.

По-третє, прокол може статися в просторі даних, до якого здійснюється доступ. У такому випадку втрачені дані можуть спричинити різні помилки. Помилки можуть бути незначними помилками, які не впливають негативно на виробниче середовище. Помилки також можуть бути більш серйозними і можуть перешкоджати завантаженню системи в операційну систему або спричиняти збій програм.

Масив, який піддається проколу, в кінцевому підсумку доведеться видалити і відтворити заново, щоб усунути прокол. Ця процедура призводить до стирання всіх даних. Потім дані потрібно буде відтворити або відновити з резервної копії після усунення проколів. Дозвіл на прокол може бути призначений на час, більш вигідний для потреб бізнесу.

Якщо доступ до даних у межах проколотого страйпу буде продовжено, помилки продовжуватимуть повідомлятися щодо уражених badLBA без можливого виправлення. Зрештою (це можуть бути хвилини, дні, тижні, місяці тощо) таблиця керування поганими блоками (BBM) заповниться, що призведе до того, що один або кілька дисків будуть позначені як прогностична помилка. Посилаючись на малюнок 3, диск 0 зазвичай буде диском, який позначається як прогнозний збій через помилки на диску 1 і диску 2, що поширюються на нього. Диск 0 насправді може працювати нормально, і заміна диска 0 призведе лише до того, що ця заміна в кінцевому підсумку також буде позначена як передбачувана несправність.

Перевірка послідовності, проведена після індукції проколу, не вирішить проблему. Ось чому дуже важливо регулярно виконувати перевірку узгодженості. Це стає особливо важливим перед заміною дисків, коли це можливо. Масив повинен бути в оптимальному стані для виконання перевірки узгодженості.

RAID-масив, який містить одну помилку даних у поєднанні з додатковою подією помилки, такою як відмова жорсткого диска, призводить до проколу при перебудовуванні несправного або замінного диска в масив. Як приклад, оптимальний масив RAID 5 включає три складові: диск 0, диск 1 і диск 2. Якщо диск 0 виходить з ладу (рисунок 2) і замінюється, дані та парність, що залишилися на дисках 1 та 2, використовуються для перебудови відсутньої інформації назад на диск заміни 0. Однак, якщо помилка даних існує на диску 1, коли операція перебудови досягає цієї помилки, у страйпі недостатньо інформації для відновлення відсутніх даних у цьому страйпі. Диск 0 не має даних, диск 1 має погані дані, а диск 2 має хороші дані під час перебудови. У цій смузі є кілька помилок. Диск 0 і диск 1 не містять дійсних даних, тому будь-які дані в цьому страйпі не можуть бути відновлені і, отже, втрачені. Результат, як показано на малюнку 3, полягає в тому, що проколи (у смугах 1 і 2) створюються під час перебудови. Помилки поширюються на диск 0.

Прокол масиву відновлює надмірність і повертає масив до оптимального стану. Це забезпечує захист масиву від втрати додаткових даних у разі виникнення додаткових помилок або збоїв накопичувача.

Повернутися до початку

Розділ 3: Запобігання проблемам до того, як вони виникнуть, і вирішення проколів після їх виникнення

Може бути спокусливо працювати під передумовою: «Якщо він не зламаний, не виправляйте його». Хоча це може бути справедливо в багатьох областях, для найкращого захисту та управління підсистемами зберігання настійно рекомендується виконувати регулярне та регулярне технічне обслуговування. Проактивне обслуговування може виправити наявні помилки та запобігти їх виникненню. Запобігти виникненню всіх помилок неможливо, але більшість серйозних помилок можна значно пом'якшити за допомогою проактивного обслуговування. Для сховища та підсистем RAID ці кроки:

Оновлення драйверів і прошивок на контролерах, жорстких дисках, задніх планах та інших пристроях
Виконання рутинних операцій перевірки узгодженості
Перегляд журналів на наявність ознак проблем

Це не обов'язково має бути технічний огляд високого рівня, а може бути просто побіжним переглядом журналів, які шукають надзвичайно очевидні ознаки потенційних проблем
Звертайтеся до служби технічної підтримки Dell з будь-якими питаннями або проблемами Одна

з найважливіших речей, яку слід зробити, - це забезпечити актуальність прошивки. Прошивка - це місце, де знаходиться вся логіка роботи пристрою. Він забезпечує функціональність і можливості пристрою, а також різноманітні функції обробки помилок і виправлення помилок. Підтримання актуальності мікропрограми може забезпечити кращу продуктивність і менше помилок. Нові функції та вдосконалення також можна додати за допомогою оновлення мікропрограми.

Прошивка може знаходитися в декількох місцях. Контролери RAID містять прошивку, а також кожен з окремих жорстких дисків, встановлених в системі або масиві. Задні площини і зовнішні корпуси також містять прошивки, які можуть впливати на роботу накопичувачів і масивів, що містяться в них.

Ще однією попереджувальною рекомендацією щодо обслуговування є виконання «Перевірити узгодженість». Перевірка узгодженості є ручною операцією, оскільки вона споживає частину загальної доступної пропускної здатності RAID-контролера. Однак перевірка узгодженості може бути призначена на час, коли вона найменше впливає на продуктивність.

Перевірка узгодженості дозволить перевірити наявність пошкоджених блоків на дисках, але, що більш важливо, порівняє дані в масиві, щоб переконатися, що всі фрагменти збігаються правильно. Виявивши проблему, він визначить, як повинні виглядати дані, і виправить її, перевіривши дані на інших дисках масиву. Виправлення помилок даних, коли вони відносно невеликі, є найкращим способом зменшити ризик проколів, викликаних існуючими помилками даних у поєднанні з другою помилкою або збоєм. Наявність подвійних несправностей і проколів може призвести до втрати продуктивності на час, необхідний для відновлення масиву і даних до функціонального стану або навіть повної втрати всіх даних.

Коли існує подвійна несправність або умова проколу, часто відбувається втрата даних. Якщо розташування цих помилок знаходиться в порожньому просторі або некритичному просторі даних, безпосередній вплив даних на виробниче середовище відносно невеликий. Однак наявність цих помилок може означати, що можуть існувати більш серйозні проблеми. Апаратні помилки і застарілі прошивки можуть зажадати негайної уваги.

Якщо існує відома або підозрювана подвійна несправність або стан проколу, виконайте наступні дії, щоб мінімізувати ризик більш серйозних проблем:

Виконайте перевірку узгодженості (масив повинен бути оптимальним)
Визначення наявності неполадок устаткування
Перевірте журнал контролера
Виконання апаратної діагностики
За потреби зверніться до служби технічної підтримки Dell

Якщо ці кроки були зроблені, виникають додаткові побоювання. Проколи можуть призвести до того, що жорсткі диски з часом перейдуть у передбачуваний стан відмови. Помилки даних, які поширюються на диск, відображатимуться як мультимедійні помилки на диску, навіть якщо фактичних проблем з устаткуванням не існує. Кожного разу, коли доступ до LBA повідомляється про помилку. Після заповнення журналу помилок диск повідомить про себе як про передбачувану несправність.

Про один прокол LBA на диску можна повідомляти багато разів. Залежно від кількості проколів, кілька дисків в масиві можуть бути повідомлені як прогностична несправність. Заміна приводу прогнозної відмови призведе до повторного поширення наявних проколів на диск заміни, що в кінцевому підсумку призведе до того, що диск заміни також буде позначений як прогностична відмова. У такому випадку єдиною коригувальною дією є дозвіл стану проколу.

Подивившись на малюнок 3, ми бачимо, що на смужках 1 і 2 є прокол. Заміна жорстких дисків не вирішить цю проблему, оскільки недостатньо надмірності даних для відновлення вихідних даних. Будь-які дані, що містяться в проколотих страйпах, втрачаються (якщо вони не збережені в попередній резервній копії). Пам'ятайте, що прокол не призводить до втрати даних, подвійна несправність призводить до втрати даних. Прокол - це засіб для відновлення надлишковості масиву, який містить подвійну несправність.

Примітка: Ось процес, який використовується для вирішення більшості проколів. Можливо, не потрібно виконувати всі ці кроки для вирішення. Якщо виконання цих дій не вирішило проблему, зверніться по допомогу до служби технічної підтримки Dell.

Попередження: Виконання цих дій призведе до втрати всіх даних на масиві. Будь ласка, переконайтеся, що ви готові відновити дані з резервної копії або іншими способами, перш ніж виконувати ці дії. Будьте обережні, щоб виконання цих кроків не вплинуло на інші масиви.

Відкинути збережений кеш (якщо він існує)
Очистити іноземні конфігурації (якщо є)
Видалення масиву
Зсуньте положення накопичувачів на одиницю (за допомогою рисунка 1 перемістіть Диск 0 в слот 1, Диск 1 в слот 2, а Диск 2 в слот 0)
Відтворіть масив за бажанням
Виконайте повну ініціалізацію масиву (не швидку ініціалізацію)
Виконайте перевірку узгодженості масиву

Якщо перевірка узгодженості завершилася без помилок, можна сміливо вважати, що масив тепер справний і прокол видалений. Тепер дані можна відновити в справному масиві.

У більш серйозних випадках проблему може не вирішити, і помилки можуть зберігатися, незважаючи на виконання цих кроків. Якщо виконання цих дій не вирішило проблему, зверніться по допомогу до служби технічної підтримки Dell.

Можливо, доведеться більш детально проаналізувати проколи, щоб визначити, які диски спільні. Наприклад, на рисунку 3 журнал контролерів покаже прокол між дисками 0 та 1 та прокол між дисками 0 та 2. Диск 0 є загальним дисководом. Виконайте ті ж дії, описані вище, але спочатку повністю видаліть загальні диски. Отже, використовуючи приклад на рисунку 1, видаліть диск 0, а потім виконайте наведені дії. Створіть масив, використовуючи інші диски (1 і 2). Після завершення та перевірки узгодженості буде встановлено, що масив справний, додайте диск 0 назад і виконайте дії знову з усіма дисками, або за допомогою функцій RLM (міграція рівня RAID) та/або OCE (Online Capacity Expansion), щоб додати диски, що залишилися, назад до масиву.

Усі диски, позначені як прогностичні, слід видалити та не включати до процесу відновлення. Знову ж таки, використовуючи малюнок 3 як приклад, якщо диск 0 був передбачуваним збоєм, видаліть цей диск. Потім виконайте дії, як описано вище. Оскільки залишилося всього 2 диска, створений RAID-масив являє собою RAID 1, а не RAID 5.Після отримання заміни диска 0 (через прогнозну помилку) виконайте кроки ще раз, включивши всі 3 диска, або додайте Диск 0 в існуючий масив за допомогою RLM і змініть його з RAID 1 з 2 дисками на RAID 5 з 3 дисками.

Процес може бути складним, особливо враховуючи можливість втрати даних. Приказка: «Унція профілактики коштує фунта лікування», безумовно, вірна тут. Досвід показує, що майже всіх умов подвійного збою і проколу можна було уникнути, виконуючи попереджувальне обслуговування обладнання та масивів RAID.

Примітка: Ефективний моніторинг системи дозволяє своєчасно виявляти та виправляти проблеми, що також знижує ризик виникнення більш серйозних проблем.

пов'язана стаття
PERC - як виправити прокол RAID

Повернутися до початку

原因

解决方案

文章属性

受影响的产品

Servers

上次发布日期

02 7月 2024

版本

文章类型

Solution

返回页首

欢迎

欢迎访问戴尔