Ісілон: Як визначити, чи знаходиться кластер Isilon у вікні ризику втрати даних
Summary: Як визначити, чи знаходиться кластер Isilon у вікні ризику втрати даних.
Symptoms
Введення
Вікно ризику (WOR) виникає, коли достатня кількість пристроїв у кластері або пулі вузлів або пулі дисків вийшла з ладу, що дозволило досягти рівня захисту. Цей стан також відомий як «при захисті» або «надмірному захисті». Коли кластер або пул знаходиться в WOR, втрати даних ще не відбулося. Однак, якщо додаткові пристрої вийдуть з ладу, може статися втрата даних. Втрата даних залежить від різних факторів. До таких факторів належать: додаткові пристрої, які вийшли з ладу до того, як FlexProtect зможе завершити роботу, або якщо несправні пристрої були єдиним джерелом даних, про які йде мова.
У цій статті описано, як працюють рівні захисту кластера та як можна визначити, чи перебуває кластер у WOR через втрату даних.
Для цілей розрахунку WOR «вийшов з ладу» означає пристрої, які перебувають у «вимкненому» або «мертвому» стані. Пристрої, які знаходяться в стані «soft_failed», не враховуються за рівнем захисту. Дивіться розділ «Процедура» нижче, щоб дізнатися, як визначити кількість «несправних» або «мертвих» пристроїв.
ПРИМІТКА
Стан, коли з ладу виходить більше пристроїв, ніж кількість, зазначена як рівень захисту, називається «надмірним захистом». У цьому стані кластер або пул вузлів/дисків більше не може успішно відтворити всі дані, що там зберігаються.
Деталі
OneFS використовує модель захисту даних N+M. У позначенні N+M N представляє кількість вузлів. M представляє кількість одночасних вузлів, дисків або пулу вузлів/пулів дисків, з якими кластер може працювати без втрати даних. Наприклад, при захисті N+2 кластер або пул може втратити або два диски на різних вузлах, або взагалі втратити два вузли.
OneFS 6.5 і новіші також підтримують модель захисту N+M:B. У нотації N+M:B, N представляє кількість вузлів. M означає кількість несправних або несправних дисків. B означає кількість непрацюючих або несправних вузлів, з якими кластер або пул/пул дисків може впоратися без втрати даних. Наприклад, при захисті N+3:1 кластер або пул можуть втратити три диски або один вузол без втрати даних.
Кілька несправних або несправних дисків у межах одного вузла завжди означають відмову одного вузла (а не кілька відмов дисків) для цілей розрахунку WOR. Ось кілька прикладів використання 8-вузлового кластера при захисті N+3:1:
- Приклад 1: В одному кластері виходять з ладу три диски, кожен з яких знаходиться в окремому вузлі. Це ставить кластер у WOR («під захист»).
- Приклад 2: В одному кластері вийшли з ладу два диски в межах одного вузла. Оскільки диски знаходяться в одному вузлі, збої зараховуються як відмова одного вузла. Ця ситуація також ставить кластер у WOR («під захист»).
Для отримання додаткової інформації про рівні захисту даних і способи їх розрахунку зверніться до Посібника з адміністрування OneFS.
ОБЕРЕЖНІСТЬ!
Якщо ви підозрюєте або визначаєте, що ваш кластер перебуває в стані WOR, зверніться по допомогу до служби технічної підтримки Dell, перш ніж вживати подальших заходів.
ВАЖЛИВИЙ!
WOR може виникати при виході з ладу дисків або вузлів. Однак Isilon Engineering радить зберігати несправні диски або вузли в кластері до того моменту, поки операція FlexProtect не буде успішно завершена. Хоча пристрій вийшов з ладу, деякі або всі блоки даних все ще можуть бути читабельними. Залишення диска або вузла приєднаним до кластера забезпечує гнучкість, якщо виникає необхідність у спробі відновити дані з несправного пристрою.
Cause
Щоб визначити, чи знаходиться в даний момент кластер або пул вузлів/дисків у WOR, спочатку визначте рівень захисту, налаштований на кластері або пулі. Далі визначте, скільки існує відмовлених вузлів і дисків. Для цілей розрахунку WOR «вийшов з ладу» означає пристрої, які перебувають у «вимкненому» або «мертвому» стані. Дотримуйтесь інструкцій у відповідному розділі, який наведено нижче.
Resolution
Процедура
OneFS 7.2, 8.0, 9.0 і вище
- В інтерфейсі веб-адміністрування OneFS перейдіть до розділу Пули > зберігання файлової системи > SmartPools.
- Отримайте поточний рівень захисту з таблиці Levelsers & Node Pools у стовпці Requested Protection .
- Відкрийте SSH-з'єднання з вузлом і авторизуйтесь за допомогою облікового запису "root".
- Визначте, скільки пристроїв «не працюють» або «мертві», виконавши наступну команду:
isi_group_info Результат виглядає аналогічно наступному. Якщо є непрацюючі або мертві пристрої, вони на виході позначаються як «вниз» або «мертвий».
Приклад даун-вузла: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, вниз: 6 }
Приклад диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, вниз: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Приклад мертвого диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, мертві: 2:10 }
OneFS 7.1
- В інтерфейсі веб-адміністрування OneFS перейдіть до розділу Керування > файловою системою, пули > сховищ SmartPools.
- Отримайте поточний рівень захисту з таблиці Node Pools у стовпці Requested Protection .
- Відкрийте SSH-з'єднання з вузлом і авторизуйтесь за допомогою облікового запису "root".
- Визначте, скільки пристроїв «не працюють» або «мертві», виконавши наступну команду:
isi_group_info Результат виглядає аналогічно наступному. Якщо є непрацюючі або мертві пристрої, вони на виході позначаються як «вниз» або «мертвий».
Приклад даун-вузла: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, вниз: 6 }
Приклад диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, вниз: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Приклад мертвого диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, мертві: 2:10 }
Для отримання інформації про інтерпретацію вихідних даних, включаючи те, як зрозуміти, чи є несправні або мертві пристрої дисками або вузлами, див.: Розуміння змін у групі OneFS або інтерпретація групових змін.
Сервер OneFS 7.0
- В інтерфейсі веб-адміністрування OneFS перейдіть до розділу Зведення SmartPools > для керування > файловою системою.
- Отримайте поточний рівень захисту з таблиці Levelsers & Node Pools у стовпці Protection .
- Відкрийте SSH-з'єднання з вузлом і авторизуйтесь за допомогою облікового запису "root".
- Визначте, скільки пристроїв «не працюють» або «мертві», виконавши наступну команду:
isi_group_info Результат виглядає аналогічно наступному. Якщо є непрацюючі або мертві пристрої, вони на виході позначаються як «вниз» або «мертвий».
Приклад даун-вузла: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, вниз: 6 }
Приклад диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, вниз: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Приклад мертвого диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, мертві: 2:10 }
OneFS 6.5
- В інтерфейсі веб-адміністрування OneFS перейдіть до розділу Пули дисків файлової системи > SmartPools>.
- Отримайте поточний рівень захисту в стовпці Захист за замовчуванням .
- Відкрийте SSH-з'єднання з вузлом і авторизуйтесь за допомогою облікового запису "root".
- Визначте, скільки пристроїв «не працюють» або «мертві», виконавши наступну команду:
isi_group_info Результат виглядає аналогічно наступному. Якщо є непрацюючі або мертві пристрої, вони на виході позначаються як «вниз» або «мертвий».
Приклад даун-вузла: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, вниз: 6 }
Приклад диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, вниз: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Приклад мертвого диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, мертві: 2:10 }