PowerScale: On-Cluster Analysis 툴 실행 방법
Summary: IOCA(Isilon On-Cluster Analysis)를 사용하여 결과를 해석하는 방법에 대한 지침입니다.
Instructions
IOCA(Isilon On-Cluster Analysis) 툴은 실행 중인 PowerScale Cluster의 상태를 분석하고 업그레이드 계획 시 이를 지원*합니다.
*IOCA는 업그레이드 작업에 대비하여 업그레이드 관련 문서의 검토를 대체하도록 설계되지 않았습니다. OneFS 업그레이드 계획 및 프로세스 가이드를 참조하십시오.
Lightning에서 IOCA 툴의 최신 릴리스를 다운로드할 수 있습니다.
참고: 다운로드 날짜가 이전이더라도 최신 릴리스가 다운로드됩니다.
참고: 다운로드한 후 클러스터로 전송되면 다음을 사용하여 IOCA 및 IOCA.sha256의 압축을 풀어야 합니다.
# tar -xvf IOCA.tar IOCA IOCA.sha256
IOCA의 무결성을 확인하기 위해 위의 tar 패키지 내의 SHA256 파일을 사용하거나 여기에 호스팅된 독립적인 IOCA.SHA256 파일을 사용하여 다운로드할 수 있습니다.
다운로드가 완료되면 IOCA 스크립트와 동일한 위치로 전송합니다(기존 IOCA.sha256을 덮어써야 함).
sha256sum을 사용하는 경우:
# sha256sum -c /home/nyhanj1/IOCA.sha256 ./IOCA: OK
위의 굵은 글씨체로 표시된 결과를 관찰하고 OK인지 확인합니다.
sha256sum이 없는 경우:
# cat IOCA.sha256 a55c9efcea29776317d3b3ed36c504dcab08d1f945161f6ac6c8bbb315f31bb0 ./IOCA
# sha256 IOCA SHA256 (IOCA) = a55c9efcea29776317d3b3ed36c504dcab08d1f945161f6ac6c8bbb315f31bb0
두 체크섬이 일치하는지 수동으로 확인합니다.
클러스터에서 IOCA를 실행하려면 다음을 수행합니다.
- 올바른 클러스터에 연결되어 있는지 확인합니다. 다음 명령을 실행하여 클러스터에 일련 번호를 표시하고 서비스 요청에 대한 일련 번호가 목록에 표시되는지 확인합니다.
isi_for_array cat /etc/isilon_serial_number
- /ifs/data/Isilon_Support/ directory 디렉토리가 없는 경우 생성하고 다음 명령을 실행하여 디렉토리를 변경합니다.
mkdir -pv /ifs/data/Isilon_Support
cd /ifs/data/Isilon_Support
-
클러스터에 최신 버전의 IOCA를 스테이징하여 /ifs/data/Isilon_Support/ 디렉토리로 이동합니다.
- 이전 버전이 있는 경우 아래 명령을 실행하여 최신 버전인지 확인하고 다운로드할 수 있는 버전과 비교합니다. 버전은 상태 점검 스크립트의 맨 위에 나와 있습니다.
perl IOCA -vIOCA 툴을 실행하여 인수를 더 추가합니다. 다음 예에서 사전 업그레이드 점검에는 9.5.1.0으로의 업그레이드 점검이 포함되며 상태 점검 결과 이후에 업그레이드 계획 권장 사항이 표시됩니다.
perl IOCA -u 9.5.1.0
- 출력을 수집하고 서비스 요청에 게시합니다.
- 확인된 모든 실패 또는 경고 메시지에 대한 상태 점검을 통해 잠재적인 문제가 있는지 검토합니다.
IOCA 출력 해석:
각 상태 점검 항목에 대해 식별된 사항이 있으면 일반적으로 이와 관련된 KB(Knowledge Base) 문서가 있습니다. 이 툴은 처음에는 내부적으로 사용되는 툴이었으며, 제공되는 일부 문서는 아직 외부에서 액세스할 수 없습니다. 외부 대상이 이러한 참조 문서에 쉽게 액세스할 수 있도록 하기 위한 작업이 진행 중입니다.
다음은 클러스터에서 BMC 또는 CMC 하드웨어 모니터링 점검 실패에 대한 예시 출력입니다.
BMC/CMC Hardware Monitoring FAIL
FAIL: Hardware monitoring issues detected on nodes: 2
INFO: 3 nodes have out of date CMC firmware versions: 1-3
INFO: Refer to KB489050 (https://support.emc.com/kb/489050) for details.
이 예에서는 하드웨어 모니터링 문제가 있는 노드 2에 대한 실패를 보여줍니다. 또한 CMC 펌웨어 버전이 노드 1~3에서 최신 버전이 아님을 보여주는 정보가 포함되어 있습니다. 마지막으로 해결 단계가 있는 KB 문서가 포함되어 있습니다.
규정 준수 모드
IOCA는 비준수 모드 클러스터와 마찬가지로 규정 준수 모드 사용 클러스터에서 동일한 방식으로 실행됩니다. sudo로 실행할 필요가 없습니다. 그러나 compadmin 사용자가 실행하려면 IOCA 스크립트의 소유자여야 합니다.
다음은 IOCA 및 사용 가능한 인수 또는 필터 사용법입니다.
Usage: IOCA [options] [destination OneFS version] -d, --debug Display debugging information -e, --extra Displays extra details as part of each check -j, --json Displays output in JSON format -v, --version Displays current script version -h, --help Displays this help screen -r <checkName>, --run=<checkName> Executes only the specified check, can be included multiple times -u, --upgradeplan Includes an upgrade plan after health checks --rolling Provide rolling reboot plans --parallel Provide parallel reboot plans [where supported] --simultaneous Provide simultaneous reboot plans [excludes node firmware] -o, --onefs Supports the following comma separated options [ex. 8.1.2,simultaneous]: <version> Uses the provided destination OneFS version simultaneous Simultaneous OneFS upgrade parallel Parallel OneFS upgrade [requires 8.2.2+] rolling Rolling OneFS upgrade exclude-nf Upgrade plans will combine OneFS + node firmware by default [9.2 feature], this option disables that -p, --patches Supports the following comma separated options [ex. none,simultaneous]: none Opt out of patch recommendations simultaneous Simultaneous patch installs parallel Parallel patch installs [requires 9.1+] rolling Rolling patch installs -nf, --node-firmware Supports the following comma separated options [ex. 10.3.3,parallel]: <version> Uses the provided version for node firmware checks none Opt out of node firmware recommendations simultaneous Simultaneous node firmware updates [requires 8.2+] parallel Parallel node firmware updates [requires 8.2+] rolling Rolling node firmware updates -df, --drive-firmware Supports the following comma separated options [ex. 1.32]: <version> Uses the provided version for drive firmware checks none Opt out of drive firmware recommendations -vf, --verify-files Runs checks on files within specified location [ex. /ifs/data/] of certain file type [ex. .isi, .tgz, .tar.gz, .tar] <file location> default location is /ifs/data/ - specify the location where the upgrade files were placed
Additional Information
개별 검사 표 및 명령 실행 시 사용되는 이름:
--run=CHECK
참고: IOCA 스크립트가 자주 업데이트됩니다. 새로운 전체 검사 목록을 보려면 Isilon Cluster에서 최신 IOCA 버전으로 업데이트하고 아래 명령을 실행하여 전체 목록을 확인합니다.
perl
onefs94-a-1# perl IOCA --run=CHECK
Isilon On-Cluster Analysis 0.1541
요청된 검사, 검사가 인식되지 않았습니다.
사용 가능한 검사:
CheckA100Root A100 노드 루트 미러의 크기를 2GB로 조정해야 하는지 검사합니다.
checkAPIAuth 8.1.2.0에서 9.2 이상으로 업그레이드하는 경우 API 인증이 기본으로 설정되어 있는지 검사합니다.
checkAccessZones 7.1.1의 업그레이드를 위해 여러 액세스 영역이 구성되어 있는지 검사합니다. SMB 공유가 중첩되는지 확인합니다. 시스템 액세스 영역이 아닌 풀이 발견되면 경고를 추가(OneFS 7.1.1의 업그레이드에만 적용)합니다.
checkAggregationMode OneFS 8 이상으로 업그레이드하기 위해 집계 모드가 레거시 FEC 모드가 아닌 것을 검사합니다.
checkAspera aspera 서비스가 활성화되어 있는지 검사합니다. OneFS 업그레이드를 수행하는 경우 업그레이드 후 다시 설치해야 합니다.
checkAuthStatus 각 노드의 인증 상태를 확인합니다. 인증 공급자가 온라인 또는 활성 상태가 아닌 경우 경고를 표시합니다. RFC2307 및 GID/UID의 자동 찾기를 검사하고 KB 000028577으로 연결합니다.
checkBBUDegCap Gen6 노드의 BBU 성능 저하 수준을 확인하고 노드가 RO 상태가 될 위험을 높일 정도로 과도한 성능 저하가 있는 노드에 플래그를 지정합니다.
checkBMCandCMC BMC/CMC 관련 문제를 검사합니다.
checkBXENodes BXE 인터페이스를 사용하는 노드가 있는지와 KB 000048172 및 KB 000064027 알려진 문제를 검사합니다.
checkBootDisks 남은 부팅 디스크 마모 수명, 펌웨어 수준 및 기록 오류 수를 확인합니다.
checkCM6FWBug FCO F022318EE 기준에 대한 드라이브 펌웨어 버전을 확인합니다.
checkCMOSTimeCentury CMOS 시간으로 구성된 세기가 현재 세기와 일치하는지 확인합니다.
checkCapacity 업그레이드 계획 및 진행 가이드에 기록된 숫자를 기반으로 클러스터 용량을 확인합니다. 근접한 경우 경고 표시
checkCloudPools CloudPools 관련 문제를 확인합니다.
checkConfCmtSyntax conf 파일을 구문 분석할 때 문제를 일으킬 수 있는 # 기호가 앞에 없는 주석에 대해 sysctl.conf를 확인합니다.
checkContact Displays contact information configured in CELog when run with the --extra argument
checkCoreDumps Checks for recent unexpected process restarts reported in /var/log/messages
checkDTA000194434 Checks for criteria of KB 000194434
checkDestinationOneFS Checks destination OneFS version
checkDiskpools Checks diskpools and class equivalence for OneFS upgrades going across 7.0
checkDriveFirmware Checks for out of date Drive Firmware and calls other related drive firmware checks
checkDriveLoad Checks the current load on the drives
checkDriveStallTimeout Checks current Drive Stall Timeout setting, recommend value is 3.5 seconds (3500000 microseconds) or higher
checkDriveSupportPackage Checks for drive firmware updates available in the Drive Support Package
checkDrivesHealth Checks health of drives and the drive stall timeout setting in sysctl
checkET004252 Checks for criteria of ET004252
checkETAs Checks for Technical Advisories
checkEmailSettings Displays E-mail settings configured in CELog when run with the --extra argument
checkEncoding Checks exports and cluster configuration for if utf-8/default encoding
checkEvents Checks events on all the nodes, failure if any critical events exist
checkFCOF022318EE Checks drive firmware versions for the criteria of FCO F022318EE
checkFCOF031617FC Checks drive firmware versions for the criteria of KB 000024620
checkFCOF042415EE Checks the cluster to see if it meets criteria for FCO F042415EE/KB 000051631
checkFileSharing Checks if Atime is enabled
checkFilepoolPolicies Checks GNA requirements and checks filepools for final match being set and names starting with a number
checkFirmwarePackages In OneFS 9.1 and later, confirms firmware packages are available
checkFlush Checks for running flush processes / active pre_flush screen sessions on clusters
checkGatewayPriority Checks for subnets with duplicate gateway priorities
checkGroups Checks nodes for all enabled protocols. Fails if group info is reporting that an enabled protocol is not functioning on any node
checkHDFS Display HDFS details, only useful when run with --extra
checkHardening Checks if FIPS is enabled on node in the cluster, this needs to be disabled prior to upgrades to 9.5 or higher and re enabled after to avoid assessment failures
checkHardwareStatus Checks battery health, power supplies, and gathers hardware details for use elsewhere
checkHardwareUpgrade Checks if there is an in progress hardware upgrade
checkHealth Verifies cluster health status and node health status
checkIBInterfaces Checks for ib0/1 as being active, checks for ETA180317 IB switch firmware versions, and checks for overlapping IB networks
checkIBPCIeSlot Checks if the InfiniBand card is installed in the wrong slot which may lead node start up issues during an upgrade to OneFS 9 and later releases
checkIDI Checks for IDI errors in the past 90 days
checkISCSI Checks for iSCSI LUNs being configured in /ifs/.ifsvar/iscsi/iscsi.conf (OneFS prior to 8.x only)
checkIndexSnapshotCurrent Checks for current snapshots that are over 2 weeks old and may contirbute to capacity issues
checkInternalPing Checks internal network by performing network ping operations
checkJobHistory Checks job history for issues, currently just MediaScan issues
checkJobStatus Checks for running jobs that would impact an upgrade
checkJobs Checks jobs
checkKB000066019 Checks size of reports.db and flags if over 100MB which may lead to issues outlined on KB 000066019
checkKB000081658 Checks for criteria of KB 000081658
checkKB000181818 Checks for criteria of KB 000181818
checkKB000192800 Checks for critera of KB 000192800
checkKB000196175 Checks for criteria of KB 000196175
checkKB000196762 Checks for criteria of KB 000196762
checkKB000197850 Checks for issues with IB queue pairs that would lead to node reboot issues if IB queue pairs are in a degraded state
checkKB000212387 Checks Authentication providers msDS-SupportedEncryptionTypes attribute to ensure a value is set and assigned, if it is not, there is potential for DU after an upgrade to 9.5 or above.
checkKB000213188 현재 버전이 9.2 미만이고 대상 버전이 9.5 이상인 SED 하드웨어 확인
checkKB201488 Checks if any node meets criteria for KB 000201488
checkKB201666 Checks if it is necessary to perform the proactive workaround from KB 000201666 for a patch installation and whether the pre-requisites are met
checkKB201933 Checks for criteria of KB 000201933
checkKB203381 Checks for criteria of KB 203381
checkKB220014 Checks for criteria of KB 220014
checkKB462202 Checks BootOrder in bios_settings.ini on Generation 5 nodes to determine if at risk for KB 000025523
checkKB489473 Checks if any node meets criteria for KB 000061983
checkKB490849 Checks if at risk for KB 000052089
checkKB496582 Checks for auth rules issues detailed in KB 000160596
checkKB496993 Checks if the cluster is at risk for KB 000061504
checkKB501267 Checks for the criteria of KB 000026510
checkKB507031 Checks for criteria outlined in KB 000035398
checkKB516613 Checks if any node meets criteria for KB 000057267
checkKB519119 Checks if nodes may be impacted by KB 519119
checkKB519388 Pre-upgrade check for issues outlined in KB 000162270
checkKB519423 Checks if the cluster config files are in a mixed mode
checkKB519890 Checks for a known issue with LAGG interfaces in LACP mode when running OneFS 8.0.0.6, 8.0.1.2, 8.1.0.2, and 8.1.1.1
checkKB521778 Checks for criteria outlined in KB 000031948
checkKB521890 Checks for criteria outlined in KB 000167681
checkKB524082 Checks if the cluster is enabled for HTTP clients and flags a compatibility issue caused by a change in Apache versions
checkKB527312 Check for criteria of KB 000166965
checkKB530050 Check for criteria of KB 000040987
checkKB533516 Checks if cluster uses an IP for AWS CloudPool accounts putting it at risk for DTA 533516
checkKB535582 Checks if at risk for KB 000060471
checkKB537785 Check for criteria of KB 000168829
checkKB540000 Checks for criteria of KB 000058599
checkKB540071 Checks for existence of files under /var/fw/fwpkg when no IsiFw package is installed
checkKB540513 Checks for criteria of KB 000174074
checkKB540872 Checks if the cluster may encounter KB 000170982 during an upgrade from OneFS 8.2 releases
checkKB540901 Checks boot disk partitions for any mismatches in uuids which may lead to boot failures
checkKB544401 Check for critera of KB 000173157
checkKB544854 Check for criteria of KB 000173432
checkKB546604 Checks for criteria of KB 000180866
checkKerberos8000 Checks for an issue with the Kerberos configuration file when upgrading to OneFS 8.0.0.0
checkLACPSFP Checks for LACP on cxgb interfaces for KB 000174095
checkLWIODLog Checks /var/log/lwiod.log for known errors occuring in the last 30 days
checkLastZoneID8000 Checks for gaps in access zones that may cause major issues when upgrading to OneFS 8.0.0.0
checkLeakFreeBlocks Checks for nodes with efs\.lbm\.leak_freed_blocks enabled.
checkLegacyLDAP OneFS 6에서 OneFS 7로 업그레이드할 때 레거시 LDAP가 활성화되어 있는지 확인합니다.
checkLicense 라이선스를 확인하고 라이선스 기능을 기반으로 지침을 제공합니다. InsigntIQ 및 vCenter 라이선스는 호환성 가이드의 정보를 제공합니다. iSCSI, instructs to only perform simultaneous OneFS upgrades and that it is not supported in 8.0
checkLinMasterPadding Checks the LIN master padding to be all zeros
checkListenQueue Checks for listen queue overflows to be less than 50,000 per node
checkLogLevel Checks LWSM log levels for NFS, SMB, HDFS, and Authentication
checkLogs Checks Log file presence and flags if any log file specified in list is not present
checkMaintenanceMode Checks if the cluster is currently in maintenance mode
checkMemory Checks each DIMM to meet criteria outlined in KB 000041666 and if the expected (per product info line) matches closely the reported RAM
checkMessagesLog Checks /var/log/messages.log for known errors occuring in the last 30 days
checkMirrors Checks the boot mirror health
checkNDMP Checks for running NDMP sessions
checkNDMP16GB Checks for LNN changes that have occurred since the isi_ndmp_d processes started which can cause issues during the HookDataMigrationUpgrade phase of an OneFS upgrade
checkNDMPUpgradeTimeout Checks for LNN changes that have occurred since the isi_ndmp_d processes started which can cause issues during the HookDataMigrationUpgrade phase of an OneFS upgrade
checkNFS Uses nfsstat to identify RPC errors
checkNetBIOS Checks if the Isilon NetBIOS Name Service (nbns) is enabled when updating to OneFS 8.0.1 and later
checkNetstat Checks connections counts for specific protocols via netstat
checkNetworkParallelUpgrade Checks for the risk of inaccessible network pools during a parallel upgrade
checkNetworkPoolIFaces Checks each network pool and their assigned interfaces, if only 1 interface is configured for any pool and IP Ranges are set, this will cause a failure for pre upgrade mandatory checks
checkNodeCompatibility Checks node compatibility for OneFS upgrades by comparing it against known supported versions
checkNodeFirmware Checks node firmware for updates
checkNodesInstalled Checks for nodes installed to display in an agregated list for visibility
checkOneFSVersions Checks running version and target version for any issues. 실패: 모든 노드에서 버전이 일치하지 않습니다.
checkOpenFiles 각 노드에서 열린 파일 수 [sysctl kern.openfiles]개를 확인하고 열려 있는 최대 파일 수 [sysctl kern.maxfiles]개와 비교합니다. 검사는 최댓값의 80% 이상에서 경고하고 최댓값의 90% 이상이 되면 실패합니다.
checkPSCALE136276 PSCALE-136276의 기준에 대해 확인합니다.
checkPartitions 시스템 파티션 공간을 확인합니다.
checkPatches 타겟 버전이 없거나 타겟 버전이 아닌 경우 현재 버전에서 권장되는 패치를 확인합니다.
checkPerformance 클러스터 성능을 확인합니다.
checkProcesses OpenSM master, MCP, isi_mca_dump 및 isi_upgrade_d 프로세스 관련 문제를 확인합니다.
checkProtectionLevel 스토리지 풀 보호 수준을 확인합니다.
checkRealACL Real ACL이 /ifs/.ifsvar or ifs/.ifsvar/patch로 구성/설정되어 있는지 확인합니다. 설정해서는 안 되며, 설정하면 업그레이드/설치 문제가 발생할 수 있습니다.
checkRemoteSupport 보호된 쉘이 활성화 되어 있고 isi_supportassist인지 확인합니다. 둘 다 활성화되어 있는 상태에서 9.7로 업그레이드하면 Support Assist 서비스가 재시작되는 문제가 발생합니다.
checkRoutingTables 각 노드에 대한 라우팅 테이블을 표시합니다.
checkSBR8000 8.0.0.0/1을 가리키는 OneFS 업그레이드 전에 SBR이 활성화되어 있는지 확인합니다.
checkSNMPDConfig SNMPD.config와 isilon_serial_number가 0바이트가 아닌지 확인합니다.
checkSPNs SPN 목록을 표시합니다.(--extra를 함께 사용할 경우에만 유용)
checkSRS 원격 연결 구성에 문제가 있는지 확인합니다.
checkSSHDConfig /etc/mcp/templates/sshd_config 파일에 알려진 문제가 있는지 확인합니다.
checkSWIFTAccounts SWIFT에 라이선스가 부여되고 9.5 이상으로 업그레이드를 수행할 때 플래그의 우선순위를 지정할 때 사용하는 SWIFT 계정을 확인합니다.
checkServices 일반적인 서비스가 예상되는 상태인지 확인합니다.
checkServicesMonitoring 활성화된 서비스가 모니터링되고 있는지 확인합니다.
checkSmartConnect SmartConnect Service IP가 모두 할당되어 있고 클라이언트 연결에 사용되지 않고 있는지 확인합니다.
checkSnapshot 스냅샷 수가 클러스터 제한(20,000)에 근접해 있는지, Autodelete가 yes로 설정되어 있는지 확인하고 스냅샷 로그를 확인합니다. 스냅샷 로그에서 EIN/EIO/EDEADLK/스냅샷 생성 실패 여부를 확인합니다.
checkStaticRouteConflict 충돌하는 정적 라우팅을 확인합니다.
checkStoragePools 스토리지 풀에서 상태/용량/프로비저닝되지 않은 드라이브 문제를 확인합니다.
checkSupportability 클러스터 하드웨어 및 소프트웨어 지원 여부를 확인합니다.
checkSwitchCompatibility 백엔드 Dell 스위치가 버전 10.5.0.6 이상인지 확인합니다.
checkSymLink /var/patch/catalog 또는 /var/patch/tmp가 Sym에 연결되어 있거나 카탈로그가 디렉토리가 아닌 파일인지 확인합니다.
checkSyncIQ 소스 및 타겟 SyncIQ 정보를 수집하고 SyncIQ 파트너에게 보고합니다. SyncIQ 보고서 파일이 많아 tar 프로세스가 다른 업그레이드 프로세스를 지연시켜 클러스터가 장시간 임시 DU 시나리오 상태가 될 수 있는 문제를 확인합니다.
checkSystemFlag 시스템 플래그가 설정된 디스크 풀을 확인합니다.
checkTimeDrift 노드 간 시간 드리프트를 확인합니다.
checkTimeSync 클러스터가 외부 서버와 동기화되도록 설정되어 있는지 확인합니다.
checkTimeZone 타겟 OneFS 코드 수준에서 누락된 시간대를 확인합니다.
checkUIDGID / 및 /var에 있는 파일의 UID/GID 값이 262143보다 큰지 확인합니다.
checkUpgrade 진행 중인 업그레이드 관련 문제를 확인합니다. isi_upgrade_d 서비스가 활성화된 경우 경고를 표시합니다. 커밋된 상태가 아닌 경우 실패합니다. 업그레이드 활동이 이미 진행 중인 경우 실패합니다. fs_fmt_version이 홀수거나 0인지 및 fs_fmt_version 문제가 발생할 가능성이 있는지 확인합니다.
checkUpgradeAgentPort isi_upgrade_agent_d 데몬에서 사용하는 포트가 다른 프로세스에서 사용되고 있지 않은지 확인합니다.
checkUpgradePath 여러 번의 점프가 필요한 영역을 확인하고 필요한 세부 사항을 제공합니다.
checkUptime 노드 가동 시간을 확인하되, 200일을 초과하면 경고를 표시하고, 가동 시간 ETA에 플래그를 지정합니다.
checkVaultCard 6세대 노드에 M.2 볼트 카드가 있는지 확인하고 해당 디바이스에서 SMART 상태 임계값을 초과하지 않았는지 확인합니다.
checkZoneLocalAuth OneFS 8.2 이상으로 업그레이드할 경우 로컬 제공자가 다른 액세스 영역에 연결되어 있는지 확인합니다.
다음은 이 주제와 관련하여 사용자를 지원할 수 있는 몇 가지 권장 리소스입니다.