Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Hadoop에서 PowerScale로 백업

Summary: 이 문서에서는 Isilon이 아닌 Hadoop 환경을 Isilon Cluster에 백업할 때 권장되는 모범 사례에 대해 설명합니다.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Instructions

참고: 이 항목은 OneFS 정보 허브와 함께 Hadoop 사용하기의 일부입니다.


DistCp를 사용하여 Hadoop을 백업하기 위한 모범 사례

이 문서에서는 PowerScale이 아닌 Hadoop 환경을 Dell PowerScale Cluster에 백업할 때 권장되는 모범 사례에 대해 설명합니다. 80% 이상의 스토리지 효율성을 제공하는 강력한 삭제 코딩 데이터 보호 기능을 갖춘 Dell PowerScale은 Hadoop 클러스터에 있는 데이터에 이상적인 백업 타겟입니다. DistCp(Distributed Copy)는 모든 Hadoop 배포 및 버전과 함께 제공되는 표준 툴입니다. DistCp는 전체 Hadoop 디렉토리를 복제할 수 있습니다. DistCp는 MapReduce 작업으로 실행되어 필요한 경우 시스템을 사용하여 파일 복사를 병렬로 수행합니다. 대역폭을 제한하여 다른 작업에 미치는 영향을 제어하는 옵션도 있습니다.

환경
이 문서에서는 다음과 같은 테스트 환경을 사용합니다.

  • PHD(Pivotal HD) 2.0.1은 Pivotal Control Center 2.0을 사용하여 설치되며 모든 설정은 기본값을 사용합니다. 특히 기존 DAS 구성의 경우 HDFS가 PHD 노드에 설치됩니다.
  • PowerScale OneFS 7.2.0

DistCp는 표준 Hadoop 툴이기 때문에 이 문서에 설명된 접근 방식은 다른 모든 Hadoop 배포와 버전은 아니더라도 대부분의 시스템에 적용됩니다.

이 문서를 읽는 동안 백업할 데이터가 /mydata디렉토리의 PHD Hadoop HDFS 클러스터에 있다고 가정합니다. 이 예에서는 이 데이터를 /ifs/hadoop/backup/mydata디렉토리의 PowerScale Cluster에 백업합니다.

Isilon에 Hadoop 클러스터 백업
그림 1: Isilon에 Hadoop 클러스터 백업


백업 방법:

가장 간단한 백업 방법

가장 간단한 백업 명령은 다음과 같습니다.

[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update /mydata hdfs://all-nc-s-hdfs/backup/mydata

Hadoop 클라이언트(Hadoop)가 설치된 모든 호스트에서 위 명령을 실행할 수 있습니다. 명령을 실행하는 사용자에게 소스 파일을 읽고 타겟 파일을 쓸 수 있는 권한이 있어야 합니다.

-skipcrccheck -update 옵션을 지정하여 PowerScale Cluster에 배치된 타겟 파일에 대한 CRC 검사를 방지해야 합니다. PowerScale은 Hadoop CRC를 저장하지 않으므로 계산 비용이 너무 많이 듭니다. 따라서 CRC 검사와 관련된 오류를 방지하기 위해 이러한 옵션이 필요합니다.

다음 매개변수 "/mydata"는 소스 Hadoop 클러스터의 소스 경로입니다. 전체 HDFS 네임스페이스를 백업하기 위해 "/"가 될 수도 있습니다. 경로가 정규화되지 않았으므로 core-site.xml의 fs.defaultFS 매개변수에 지정된 HDFS NameNode를 사용합니다.

마지막 매개변수 "hdfs://all-nc-s-hdfs/backup/mydata"는 PowerScale Cluster의 타겟 경로입니다. 호스트 부분 "all-nc-s-hdfs"는 all-nc-s-hdfs.example.com과 같은 상대 또는 정규화된 DNS 이름일 수 있습니다. PowerScale Cluster의 SmartConnect Zone DNS 이름이어야 합니다. 디렉토리 부분 "/backup/mydata"는 PowerScale Cluster 액세스 영역에 정의된 HDFS 루트 경로와 관련이 있습니다. HDFS 루트 경로가 /ifs/hadoop인 경우 이 값은 /ifs/hadoop/backup/mydata디렉토리를 참조합니다.

소스 디렉토리와 타겟 디렉토리에서 크기가 동일한 파일은 변경되지 않은 것으로 간주되며 복제되지 않습니다. 특히 파일 타임스탬프는 변경된 파일을 확인하는 데 사용되지 않습니다. DistCp에 대한 자세한 내용은 Hadoop DistCp 버전 2 가이드를 참조하십시오.이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다.

사용 권한 복사
기본적으로 타겟 파일의 소유자, 그룹 및 사용 권한은 DistCp를 시작하는 사용자가 생성한 새 파일에 대해 기본값으로 재설정됩니다. 소스 파일에 대해 정의된 소유자, 그룹 및 사용 권한은 손실됩니다. 소스 파일에서 이 정보를 유지하려면 -p 옵션을 사용하십시오. -p 옵션은 chown/chgrp를 수행해야 하므로 DistCp를 시작하는 사용자는 타겟 시스템의 슈퍼 사용자여야 합니다. PowerScale Cluster의 루트 사용자가 이 목적으로 작동합니다. 예: 

[root@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update -pugp /mydata hdfs://all-nc-s-hdfs/backup/mydata

백업 소스에 스냅샷 사용
대용량 데이터 세트를 백업하는 경우 시간이 오래 걸릴 수 있습니다. 디렉토리 구조를 검사할 때 DistCp 프로세스의 시작 부분에 있는 파일은 해당 파일을 복사할 때 더 이상 존재하지 않을 수 있습니다. 이러한 파일 변경으로 인해 오류가 발생합니다. 또한 애플리케이션을 사용하려면 일관된 단일 시점 백업이 필요할 수 있습니다. 이러한 문제를 해결하려면 소스의 HDFS 스냅샷을 생성하여 백업 프로세스 중에 데이터 세트가 변경되지 않도록 하는 것이 좋습니다. 이는 타겟 PowerScale Cluster의 SnapshotIQ 기능과 관련이 없습니다.

HDFS 스냅샷을 사용하려면 먼저 특정 디렉토리에 대한 스냅샷을 허용해야 합니다.

[gpadmin@phddas2-0 ~]$ hdfs dfsadmin -allowSnapshot /mydata
Allowing snapshot on /mydata succeeded


DistCp를 사용하여 백업하기 바로 전에 다음 HDFS 스냅샷을 생성합니다.

[gpadmin@phddas2-0 ~]$ hdfs dfs -createSnapshot /mydata backupsnap Created snapshot /mydata/.snapshot/backupsnap

스냅샷 이름은 backupsnap입니다. HDFS 경로 /mydata/.snapshot/backupsnap에서 액세스할 수 있습니다. 이 스냅샷 이후의 HDFS 파일 변경 사항은 후속 백업에 반영되지 않습니다. 다음 명령을 사용하여 스냅샷을 PowerScale에 백업할 수 있습니다.

[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update /mydata/.snapshot/backupsnap hdfs://all-nc-s-hdfs/backup/mydata

백업 명령 실행이 완료되면 스냅샷을 삭제할 수 있습니다. 이렇게 하면 스냅샷 이후에 수정된 이전 버전의 파일을 보관하는 데 사용되는 공간이 모두 확보됩니다. 

[gpadmin@phddas2-0 ~]$ hdfs dfs -deleteSnapshot /mydata backupsnap

백업 타겟에 PowerScale 스냅샷 사용
백업 소스에 스냅샷을 사용하는 것과 상관없이 이전 버전의 파일을 복원하기 위해 백업 타겟 디렉토리의 스냅샷을 여러 개 유지할 수 있습니다.

PowerScale에서 스냅샷을 생성하려면 SnapshotIQ 라이선스가 있어야 합니다. 웹 관리 인터페이스 또는 CLI를 사용하여 스냅샷을 생성할 수 있습니다. CLI를 사용하여 단일 PowerScale 스냅샷을 수동으로 생성하려면 PowerScale Node에 SSH를 수행하고 다음을 실행합니다.

all-nc-s-1# isi snapshot snapshots create /ifs/hadoop/backup/mydata --name backup-2014-07-01 --expires 1D --verbose
Created snapshot backup-2014-07-01 with ID 6


아래 백업 예약 섹션에서 설명한 백업 프로세스에 이 명령을 추가할 수 있습니다. 

PowerScale OneFS 스냅샷에 대한 자세한 내용은 사용 중인 OneFS 버전의 PowerScale OneFS CLI 관리 가이드: PowerScale OneFS 정보 허브를 참조하십시오.

여러 PowerScale Cluster에 대한 SyncIQ 복제
PowerScale Cluster에 대한 DistCp 백업이 완료되면 OneFS SyncIQ를 사용하여 WAN을 통해 다른 PowerScale Cluster로 스냅샷을 복제할 수 있습니다. 복제된 스냅샷은 재해 복구 전략의 다양하고 효율적인 구성 요소를 제공할 수 있습니다.

여러 Isilon 클러스터를 위한 SynIQ 복제
그림 2: 여러 Isilon 클러스터에 대한 SynIQ 복제

삭제된 파일 처리
기본적으로 소스 Hadoop 클러스터에서 삭제된 파일은 타겟 Hadoop 클러스터에서 삭제되지 않습니다. 이 동작이 필요하면 DistCp 명령에 -delete 인수를 추가합니다. 이 명령을 사용할 때는 삭제된 파일을 복구할 수 있도록 백업 타겟에서 스냅샷을 사용하는 것이 좋습니다.

백업 예약
다양한 방법을 사용하여 Hadoop 클러스터를 백업하는 단계를 자동화하고 예약할 수 있습니다. Apache Oozie는 Hadoop 작업을 자동화하는 데 자주 사용되며 DistCp를 직접 지원합니다. CRON을 사용하여 Shell 스크립트를 실행할 수도 있습니다. SSH 세션에서 명령 실행을 자동화하려면 비밀번호가 없는 SSH를 활성화합니다. 비밀번호 없는 SSH를 통해 CRON 사용자는 Hadoop 클라이언트 및 PowerScale Cluster(SnapshotIQ를 사용하는 경우)에 연결할 수 있습니다.


복구 방법

역방향 DISTCP

PowerScale에서 기존 Hadoop 인프라스트럭처로 DistCp 백업을 복원하는 표준 방법은 역방향으로 DistCp를 실행하는 것입니다. 이 작업은 소스 경로와 타겟 경로를 바꿔 수행합니다.

[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update hdfs://all-nc-s-hdfs/backup/mydata /mydata

복구 프로세스 중에 발생한 실수를 실행 취소할 수 있도록 타겟 디렉토리의 스냅샷을 생성할 수 있습니다. 그러나 스냅샷을 유지 관리하는 데 필요한 추가 디스크 사용량에 유의합니다.


HDFS를 사용하여 백업 데이터에 직접 액세스

PowerScale에서 HDFS를 지원하는 덕분에 Hadoop 애플리케이션에서 소스 파일과 동일한 방식으로 PowerScale의 백업 타겟 파일에 액세스할 수 있습니다. 백업 데이터를 원래 소스 Hadoop 환경으로 먼저 복원할 필요 없이 직접 사용할 수 있습니다. 이 기능은 분석 시간을 절약합니다. 예를 들어, 다음과 같은 MapReduce 명령을 실행하는 경우:

hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep /mydata/mydataset1 output1 ABC

다음 명령을 사용하여 PowerScale의 백업 데이터 세트에 대해 MapReduce 작업을 실행할 수 있습니다.

hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep hdfs://all-nc-s-hdfs/backup/ /mydata/mydataset1 output1 ABC

fs.defaultFS 매개변수를 사용하는 대신 정규화된 Hadoop 경로를 지정하려면 애플리케이션 공급자에게 자세한 내용을 문의하십시오. 또한 고성능 대신 백업 및 아카이브용으로 설계된 PowerScale Cluster는 주 Hadoop 환경과 동일한 성능을 제공하지 못할 수 있습니다. 테스트를 하는 것이 좋습니다. 또는 Dell PowerScale에 문의하여 적절하게 사이징하십시오.


PowerScale 스냅샷에서 복구

이전 PowerScale 스냅샷에서 파일을 복구할 수 있습니다. 파일은 /ifs/.snapshot 디렉토리에서 사용할 수 있습니다. 자세한 내용 및 기타 옵션은 PowerScale OneFS CLI 관리 가이드를 참조하십시오.

HDFS 버전 호환성
PowerScale은 여러 버전의 HDFS와 호환됩니다. 이러한 데이터 세트를 동시에 사용하여 동일한 데이터 세트에 액세스할 수 있습니다. PowerScale은 구성 없이 연결별로 적절한 HDFS 버전을 자동으로 탐지할 수 있습니다. 지원되는 Hadoop 배포 및 버전 목록은 PowerScale OneFS CLI 관리 가이드를 참조하거나 OneFS에서 지원하는 Hadoop 배포 및 제품으로 이동하십시오. 버전 호환성은 서로 다른 버전의 Hadoop을 실행하는 여러 Hadoop 환경을 HDFS를 사용하여 단일 PowerScale Cluster에 백업할 수 있음을 의미합니다.

PowerScale이 Hadoop 버전을 지원하지 않는 경우에도 DistCp를 사용하여 HFTP를 통해 PowerScale에서 Hadoop 데이터를 백업 및 복원할 수 있습니다. 예를 들어, PHD 2.0 이상은 PowerScale OneFS 7.1.1 이하에서 지원되지 않습니다. 이 구성에서는 PowerScale이 직접 지원하는 Hadoop 버전을 사용하여 소규모 Hadoop 클러스터를 구축해야 합니다. Hadoop 클러스터가 구축되면 HFTP 프로토콜을 사용하여 이 새 클러스터에서 DistCp를 실행한 후 원래 Hadoop 클러스터의 소스 데이터에 액세스합니다. HFTP 프로토콜은 여러 버전의 Hadoop에서 호환되는 읽기 전용 파일 시스템입니다. 예:
[gpadmin@phddas2-0 ~]$ hadoop distcp -skipcrccheck -update hftp://phddas2-namenode-0/mydata hdfs://all-nc-s-hdfs/backup/mydata

DistCp MapReduce 작업을 실행하는 새 소규모 클러스터의 크기는 주로 필요한 처리량에 따라 달라집니다. 10Gbps의 속도로 백업만 필요한 경우 단일 Hadoop 노드만 있으면 됩니다. 이 소규모 Hadoop 클러스터에는 데이터가 저장되지 않으므로 디스크 요구 사항이 최소화됩니다.

호환되지 않는 프로토콜 버전을 사용하여 Isilon에 Hadoop 클러스터 백업
그림 3: 호환되지 않는 프로토콜 버전을 사용하여 Isilon에 Hadoop 클러스터 백업


결론

Dell PowerScale은 Hadoop 및 기타 빅데이터 애플리케이션에 적합한 플랫폼입니다. 어레이 효율성이 33%인 기존 HDFS와 달리 삭제 코딩을 사용하여 80% 이상의 스토리지 효율성으로 데이터를 보호합니다. Dell PowerScale은 고집적 NL400부터 고성능 S210 및 그 중간에 있는 X410에 이르기까지 여러 종류의 노드 유형을 제공합니다. 다양한 노드 유형을 통해 특정 워크로드에 대해 서로 다른 PowerScale 계층을 최적화할 수 있습니다. 기존 Hadoop 환경을 PowerScale에 백업하는 것은 매우 간편하며 사용 집적도가 가장 높은 HDFS 백업 타겟을 사용할 수 있습니다.

Article Properties


Affected Product

Isilon, PowerScale OneFS, Isilon with HDFS

Last Published Date

20 Sep 2023

Version

6

Article Type

How To