Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Резервне копіювання Hadoop у PowerScale

Summary: У цій статті описано рекомендовані практичні поради щодо резервного копіювання не-Isilon середовищ Hadoop до кластера Isilon.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Instructions

ПРИМІТКА: Ця тема є частиною розділу Використання Hadoop з OneFS Info Hub.


Найкращі практики використання DistCp для резервного копіювання Hadoop

У цій статті описано рекомендовані практичні поради щодо резервного копіювання середовищ Hadoop, що не належать до PowerScale, до кластера Dell PowerScale. Завдяки надійному захисту даних, що кодує стирання, який забезпечує ефективність зберігання понад 80%, Dell PowerScale є ідеальною мішенню для резервного копіювання даних, розташованих у кластері Hadoop. DistCp (розподілена копія) - це стандартний інструмент, який поставляється з усіма дистрибутивами та версіями Hadoop. DistCp може копіювати цілі каталоги Hadoop. DistCp працює як завдання MapReduce для паралельного копіювання файлів, повністю використовуючи ваші системи, якщо це необхідно. Також є опція обмеження пропускної здатності, щоб контролювати вплив на інші завдання.

СЕРЕДОВИЩЕ
У цій статті використовується наступне тестове середовище:

  • Pivotal HD (PHD) 2.0.1, інстальований за допомогою Pivotal Control Center 2.0, у всіх налаштуваннях використовуються значення за замовчуванням. Зокрема, HDFS встановлюється на вузли PHD для традиційної конфігурації DAS.
  • PowerScale OneFS 7.2.0

Оскільки DistCp є стандартним інструментом Hadoop, підхід, викладений у цьому документі, застосовний до більшості, якщо не до всіх інших дистрибутивів і версій Hadoop.

Читаючи цей документ, припустімо, що дані для резервного копіювання розташовані на кластері PHD Hadoop HDFS у каталозі /mydata. Приклади створюють резервні копії цих даних у кластері PowerScale у каталозі /ifs/hadoop/backup/mydata.

Резервне копіювання кластера Hadoop в Isilon
Малюнок 1: Резервне копіювання кластера Hadoop в Isilon


СПОСОБИ РЕЗЕРВНОГО КОПІЮВАННЯ:

НАЙПРОСТІШИЙ СПОСІБ РЕЗЕРВНОГО КОПІЮВАННЯ

Найпростіша команда резервного копіювання показана нижче:

[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update /mydata hdfs://all-nc-s-hdfs/backup/mydata

Ви можете виконати вищевказану команду на будь-якому хості, на якому встановлено клієнт Hadoop (hadoop). Користувач, який виконує команду, повинен мати дозволи на читання вихідних файлів і запис цільових файлів.

Параметри - skipcrccheck і -update повинні бути вказані, щоб уникнути перевірки CRC для цільових файлів, які розміщуються на кластері PowerScale. PowerScale не зберігає Hadoop CRC, і його розрахунок був би занадто дорогим. Тому ці параметри необхідні для запобігання помилкам, пов'язаним із перевіркою CRC.

Наступний параметр "/mydata" - це вихідний шлях до вихідного кластера Hadoop. Це також може бути "/" для резервного копіювання всього простору імен HDFS. Оскільки шлях не є повністю кваліфікованим, він використовує HDFS NameNode, вказаний у параметрі fs.defaultFS core-site.xml.

Останній параметр «hdfs://all-nc-s-hdfs/backup/mydata» є цільовим шляхом на вашому кластері PowerScale. Хост-частина "all-nc-s-hdfs" може бути відносною або повною назвою DNS, наприклад all-nc-s-hdfs.example.com. Це має бути DNS-ім'я зони SmartConnect для вашого кластера PowerScale. Частина каталогу "/backup/mydata" є відносною до кореневого шляху HDFS, визначеного у вашій зоні доступу до кластера PowerScale. Якщо ваш кореневий шлях HDFS є /ifs/hadoop, то це значення відноситься до /ifs/hadoop/backup/mydata.

Файли, розміри яких однакові у вихідному та цільовому каталогах, вважаються незмінними та не копіюються. Зокрема, часові позначки файлів не використовуються для визначення змінених файлів. Для отримання більш детальної інформації про DistCp перегляньте Hadoop DistCp Version 2 Guide. Це гіперпосилання спрямовує вас на веб-сайт за межами Dell Technologies.

ДОЗВОЛИ НА
КОПІЮВАННЯЗа замовчуванням власник, група та дозволи цільових файлів скидаються до стандартних для нових файлів, створених користувачем, який ініціює DistCp. Усі власники, групи та дозволи, визначені для вихідного файлу, буде втрачено. Щоб зберегти ці дані з початкових файлів, скористайтеся параметром -p. Оскільки параметр -p має виконувати chown/chgrp, користувач, який ініціює DistCp, має бути суперкористувачем у цільовій системі. Для цього працює користувач root на кластері PowerScale. Наприклад: 

[root@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update -pugp /mydata hdfs://all-nc-s-hdfs/backup/mydata

ВИКОРИСТАННЯ ЗНІМКІВ ДЛЯ ДЖЕРЕЛА
РЕЗЕРВНОГО КОПІЮВАННЯРезервне копіювання великих наборів даних може зайняти багато часу. Файли, які існують на початку процесу DistCp під час сканування структури каталогів, можуть більше не існувати під час копіювання цього файлу. Ця зміна файлів призводить до помилок. Крім того, програма може вимагати послідовного резервного копіювання в один момент часу, щоб її можна було використовувати. Щоб вирішити ці проблеми, рекомендується створити знімок HDFS вашого джерела, щоб переконатися, що набір даних не змінюється під час процесу резервного копіювання. Це не пов'язано з функцією SnapshotIQ вашого цільового кластера PowerScale.

Щоб використовувати знімки HDFS, спочатку потрібно дозволити знімки для певного каталогу:

[gpadmin@phddas2-0 ~]$ hdfs dfsadmin -allowSnapshot /mydata
Allowing snapshot on /mydata succeeded


Безпосередньо перед резервним копіюванням за допомогою DistCp створіть знімок HDFS:

[gpadmin@phddas2-0 ~]$ hdfs dfs -createSnapshot/mydata backupsnap Створений знімок /mydata/.snapshot/backupsnap Ім'я цього знімка - backupsnap.

 Ви можете отримати доступ до нього за допомогою шляху HDFS /mydata/.snapshot/backupsnap. Будь-які зміни у ваших HDFS-файлах після цього знімка не відображаються в наступному резервному копіюванні. Ви можете створити резервну копію знімка в PowerScale за допомогою такої команди:

[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update /mydata/.snapshot/backupsnap hdfs://all-nc-s-hdfs/backup/mydata

Коли команда резервного копіювання завершить виконання, ви можете видалити знімок. Це звільняє місце, яке використовується для зберігання старіших версій файлів, які було змінено після знімка: 

[gpadmin@phddas2-0 ~]$ hdfs dfs -deleteSnapshot /mydata backupsnap

ВИКОРИСТАННЯ ЗНІМКІВ POWERSCALE ДЛЯ РЕЗЕРВНОГО КОПІЮВАННЯ
ЦІЛІНезалежно від використання знімків для джерела резервної копії, ви можете зберегти кілька знімків цільового каталогу резервної копії для відновлення старих версій файлів.

Для створення знімків на PowerScale необхідно мати ліцензію SnapshotIQ. Ви можете створювати знімки за допомогою інтерфейсу веб-адміністратора або CLI. Щоб створити один знімок PowerScale вручну за допомогою командного рядка, запустіть SSH у будь-який вузол PowerScale і виконайте наступне:

all-nc-s-1# isi snapshot snapshots create /ifs/hadoop/backup/mydata --name backup-2014-07-01 --expires 1D --verbose
Created snapshot backup-2014-07-01 with ID 6


Ви можете додати цю команду до процесу резервного копіювання, який описано в розділі Планування резервного копіювання нижче. 

Щоб дізнатися більше про знімки PowerScale OneFS, перегляньте посібник із адміністрування PowerScale OneFS CLI для вашої версії OneFS: Інформаційні центри

PowerScale OneFSРЕПЛІКАЦІЯ SYNCIQ ДЛЯ ДЕКІЛЬКОХ КЛАСТЕРІВ
PowerScaleПісля завершення резервного копіювання DistCp до кластера PowerScale ви можете використовувати OneFS SyncIQ, щоб скопіювати знімки через глобальну мережу в інші кластери PowerScale. Відтворені знімки можуть стати універсальним і ефективним компонентом вашої стратегії аварійного відновлення.

Реплікація SynIQ для декількох кластерів Isilon
Малюнок 2: Реплікація SynIQ для декількох кластерів

IsilonРОБОТА З ВИДАЛЕНИМИ ФАЙЛАМИ
За замовчуванням файли, видалені з вихідного кластера Hadoop, не видаляються з цільового кластера Hadoop. Якщо вам потрібна така поведінка, додайте аргумент -delete до команди DistCp. Під час використання цієї команди рекомендується використовувати знімки об'єкта резервного копіювання, щоб забезпечити відновлення видалених файлів.

ПЛАНУВАННЯ РЕЗЕРВНОГО КОПІЮВАННЯ
Ви можете автоматизувати та запланувати кроки для резервного копіювання кластера Hadoop за допомогою різних методів. Apache Oozie часто використовується для автоматизації завдань Hadoop, і він безпосередньо підтримує DistCp. CRON також можна використовувати для запуску скрипта оболонки. Щоб автоматизувати виконання команд у сеансі SSH, увімкніть SSH без пароля. SSH без пароля дозволяє користувачеві CRON підключатися до вашого клієнта Hadoop і вашого кластера PowerScale (якщо використовується SnapshotIQ).


МЕТОДИ ВІДНОВЛЕННЯ

РЕВЕРСИВНИЙ DISTCP

Стандартним методом відновлення резервної копії DistCp з PowerScale до традиційної інфраструктури Hadoop є запуск DistCp у зворотному напрямку. Зробіть це, помінявши місцями вихідний і цільовий шляхи.

[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update hdfs://all-nc-s-hdfs/backup/mydata /mydata

Ви можете створити знімок цільового каталогу, щоб виправити будь-які помилки, допущені під час процесу відновлення. Однак пам'ятайте про додаткове використання диска, необхідне для збереження знімків.


ПРЯМИЙ ДОСТУП ДО РЕЗЕРВНИХ КОПІЙ ДАНИХ ЗА ДОПОМОГОЮ HDFS

Цільові файли резервного копіювання в PowerScale доступні з програм Hadoop так само, як і вихідні файли, завдяки підтримці PowerScale HDFS. Ви можете використовувати резервні копії даних безпосередньо, без необхідності попередньо відновлювати їх у середовищі Hadoop з оригінальним джерелом. Ця можливість економить час аналізу. Наприклад, якщо ви запустите команду MapReduce таким чином:

hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep /mydata/mydataset1 output1 ABC

Ви можете запустити завдання MapReduce для резервного набору даних у PowerScale за допомогою такої команди:

hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep hdfs://all-nc-s-hdfs/backup/ /mydata/mydataset1 output1 ABC

Щоб вказати повний шлях Hadoop замість використання параметра fs.defaultFS, зверніться до постачальника програми, щоб дізнатися більше. Крім того, кластер PowerScale, призначений для резервного копіювання та архівування, а не для високої продуктивності, швидше за все, не забезпечить таку ж продуктивність, як ваше основне середовище Hadoop. Рекомендується провести тестування або проконсультуватися з Dell PowerScale щодо правильного розміру.


ВІДНОВЛЕННЯ З ЗНІМКІВ PowerScale

Ви можете відновити файли з попереднього знімка PowerScale. Файли доступні в каталозі /ifs/.snapshot. Докладнішу інформацію та інші параметри можна знайти в посібнику з адміністрування PowerScale OneFS CLI.

СУМІСНІСТЬ
З ВЕРСІЯМИ HDFSPowerScale сумісний з декількома версіями HDFS. Ви можете використовувати їх одночасно для доступу до одного набору даних. PowerScale може автоматично визначати відповідну версію HDFS для кожного підключення без будь-якої конфігурації. Перегляньте Посібник з адміністрування PowerScale OneFS CLI, щоб переглянути список підтримуваних дистрибутивів і версій Hadoop, або перейдіть до розділу Дистрибутиви та продукти Hadoop, що підтримуються OneFS. Сумісність версій означає, що кілька середовищ Hadoop під керуванням різних версій Hadoop можуть створювати резервні копії в одному кластері PowerScale за допомогою HDFS.

Якщо PowerScale не підтримує вашу версію Hadoop, ви все одно можете використовувати DistCp для резервного копіювання та відновлення даних Hadoop за допомогою PowerScale за допомогою HFTP. Наприклад, PHD 2.0 і пізніші версії не підтримуються в PowerScale OneFS 7.1.1 і більш ранніх версіях. У цій конфігурації ви повинні побудувати невеликий кластер Hadoop, використовуючи версію Hadoop, яку безпосередньо підтримує PowerScale. Після того, як кластер Hadoop буде створено, запустіть DistCp на цьому новому кластері за допомогою протоколу HFTP, щоб отримати доступ до вихідних даних оригінального кластера Hadoop. Протокол HFTP — це файлова система, доступна лише для читання, сумісна з різними версіями Hadoop. Наприклад:
[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update hftp://phddas2-namenode-0/mydata hdfs://all-nc-s-hdfs/backup/mydata

Розмір нового невеликого кластера, який запускає завдання DistCp MapReduce, в першу чергу залежить від обсягу необхідної пропускної здатності. Якщо вам потрібне резервне копіювання лише зі швидкістю 10 Гбіт/с, то вам потрібен лише один вузол Hadoop. Жодні ваші дані не зберігаються в цьому маленькому кластері Hadoop, тому вимоги до диска мінімальні.

Резервне копіювання кластера Hadoop в Isilon з несумісними версіями протоколів
Малюнок 3: Резервне копіювання кластера Hadoop в Isilon з несумісними версіями протоколів


ВИСНОВОК

Dell PowerScale — чудова платформа для Hadoop та інших додатків Big Data. Він використовує стираюче кодування для захисту даних з ефективністю зберігання понад 80%, на відміну від традиційної HDFS з ефективністю зберігання 33%. Dell PowerScale має кілька класів типів вузлів, від щільного NL400 до високопродуктивного S210 і X410 між ними. Різні типи вузлів дозволяють оптимізувати різні рівні PowerScale для конкретних робочих навантажень. Резервне копіювання традиційних середовищ Hadoop до PowerScale просте у виконанні та дозволяє отримати найщільнішу придатну для використання ціль резервного копіювання HDFS.

Article Properties


Affected Product

Isilon, PowerScale OneFS, Isilon with HDFS

Last Published Date

20 Sep 2023

Version

6

Article Type

How To