PowerScale: jak uruchomić narzędzie do analizy klastrów IOCA
Summary: Instrukcje dotyczące korzystania z narzędzia Isilon On-Cluster Analysis (IOCA) i interpretacji wyników.
Instructions
Narzędzie Isilon On-Cluster Analysis (IOCA) analizuje stan uruchomionego klastra PowerScale i pomaga* w planowaniu uaktualnień.
* IOCA nie ma na celu zastąpienia przeglądu dokumentów związanych z aktualizacją w ramach przygotowań do działań związanych z aktualizacją. Zapoznaj się z przewodnikiem po planowaniu aktualizacji OneFS i procesach:
Najnowsza wersja narzędzia IOCA jest dostępna do pobrania z witryny Lightning.
UWAGA: pobierana jest najnowsza wersja, mimo że data na pobraniu jest starsza.
UWAGA: po pobraniu i przesłaniu do klastra należy rozpakować IOCA i IOCA.sha256 za pomocą
# tar -xvf IOCA.tar IOCA IOCA.sha256
Aby zweryfikować integralność IOCA, możesz użyć pliku sha256 w powyższym pakiecie tar lub, alternatywnie, możesz użyć niezależnego pliku IOCA.sha256 hostowanego tutaj do pobrania.
Po pobraniu przenieś do tej samej lokalizacji, w której znajduje się skrypt IOCA (pamiętaj, aby zastąpić istniejący IOCA.sha256).
W przypadku korzystania z sha256sum:
# sha256sum -c /home/nyhanj1/IOCA.sha256 ./IOCA: OK
Obserwuj wynik pokazany pogrubioną czcionką powyżej i potwierdź, że jest OK
Jeśli nie masz sha256sum:
# cat IOCA.sha256 a55c9efcea29776317d3b3ed36c504dcab08d1f945161f6ac6c8bbb315f31bb0 ./IOCA
# sha256 IOCA SHA256 (IOCA) = a55c9efcea29776317d3b3ed36c504dcab08d1f945161f6ac6c8bbb315f31bb0
Ręcznie sprawdź, czy obie sumy kontrolne są zgodne.
Aby uruchomić IOCA w klastrze:
- Sprawdź, czy masz połączenie z właściwym klastrem. Uruchom następujące polecenie, aby wyświetlić numery seryjne w klastrze, i sprawdź, czy numer seryjny zgłoszenia serwisowego znajduje się na liście:
isi_for_array cat /etc/isilon_serial_number
- Utwórz katalog /ifs/data/Isilon_Support/, jeśli nie istnieje, i przejdź do niego, uruchamiając następujące polecenia:
mkdir -pv /ifs/data/Isilon_Support
cd /ifs/data/Isilon_Support
-
Umieść najnowszą wersję IOCA w klastrze w katalogu /ifs/data/Isilon_Support/:
- Jeśli istnieje poprzednia wersja, sprawdź, czy jest to najnowsza wersja, uruchamiając poniższe polecenie i porównaj ją z wersją dostępną do pobrania. Wersja jest wymieniona w górnej części skryptu kontroli poprawności działania.
perl IOCA -vUruchom narzędzie IOCA, dodając dodatkowe argumenty. W poniższym przykładzie kontrola przed aktualizacją obejmuje sprawdzenie uaktualnienia do wersji 9.5.1.0 i wyświetla zalecenie dotyczące planu uaktualnienia po wynikach kontroli poprawności działania:
perl IOCA -u 9.5.1.0
- Zbierz dane wyjściowe i opublikuj w zgłoszeniu serwisowym.
- Przejrzyj kontrole poprawności działania wszystkich zidentyfikowanych komunikatów FAIL lub WARN pod kątem potencjalnych problemów.
Interpretacja danych wyjściowych IOCA:
Z każdym elementem kontroli poprawności działania, jeśli jakikolwiek element został zidentyfikowany, zazwyczaj jest powiązany artykuł z bazy wiedzy. Narzędzie to było początkowo narzędziem wewnętrznym, niektóre z prezentowanych w nim artykułów nie są jeszcze dostępne z zewnątrz. Trwają prace nad udostępnieniem tych artykułów odbiorcom zewnętrznym.
Poniżej przedstawiono przykładowe dane wyjściowe dla niepowodzenia sprawdzania monitorowania sprzętu BMC lub CMC w klastrze:
BMC/CMC Hardware Monitoring FAIL
FAIL: Hardware monitoring issues detected on nodes: 2
INFO: 3 nodes have out of date CMC firmware versions: 1-3
INFO: Refer to KB489050 (https://support.emc.com/kb/489050) for details.
W tym przykładzie pokazano błąd FAIL dla węzła 2, mającego problemy z monitorowaniem sprzętu. Zawiera również INFO pokazujące, że wersje oprogramowania wewnętrznego kontrolera CMC są nieaktualne w węzłach 1–3. I wreszcie zawiera artykuł z bazy wiedzy z etapami rozwiązania.
Tryb zgodności
IOCA uruchamia się w taki sam sposób w klastrach z włączonym trybem zgodności, jak w przypadku klastrów bez trybu zgodności. Nie ma wymogu, aby uruchamiać go za pomocą sudo. Jednakże użytkownik compadmin musi być właścicielem skryptu IOCA, aby można go było uruchomić.
Poniżej przedstawiono zastosowanie IOCA i dostępnych argumentów lub filtrów:
Usage: IOCA [options] [destination OneFS version] -d, --debug Display debugging information -e, --extra Displays extra details as part of each check -j, --json Displays output in JSON format -v, --version Displays current script version -h, --help Displays this help screen -r <checkName>, --run=<checkName> Executes only the specified check, can be included multiple times -u, --upgradeplan Includes an upgrade plan after health checks --rolling Provide rolling reboot plans --parallel Provide parallel reboot plans [where supported] --simultaneous Provide simultaneous reboot plans [excludes node firmware] -o, --onefs Supports the following comma separated options [ex. 8.1.2,simultaneous]: <version> Uses the provided destination OneFS version simultaneous Simultaneous OneFS upgrade parallel Parallel OneFS upgrade [requires 8.2.2+] rolling Rolling OneFS upgrade exclude-nf Upgrade plans will combine OneFS + node firmware by default [9.2 feature], this option disables that -p, --patches Supports the following comma separated options [ex. none,simultaneous]: none Opt out of patch recommendations simultaneous Simultaneous patch installs parallel Parallel patch installs [requires 9.1+] rolling Rolling patch installs -nf, --node-firmware Supports the following comma separated options [ex. 10.3.3,parallel]: <version> Uses the provided version for node firmware checks none Opt out of node firmware recommendations simultaneous Simultaneous node firmware updates [requires 8.2+] parallel Parallel node firmware updates [requires 8.2+] rolling Rolling node firmware updates -df, --drive-firmware Supports the following comma separated options [ex. 1.32]: <version> Uses the provided version for drive firmware checks none Opt out of drive firmware recommendations -vf, --verify-files Runs checks on files within specified location [ex. /ifs/data/] of certain file type [ex. .isi, .tgz, .tar.gz, .tar] <file location> default location is /ifs/data/ - specify the location where the upgrade files were placed
Additional Information
Tabela poszczególnych testów i nazwa używana podczas uruchamiania polecenia:
--run=CHECK
UWAGA: skrypt IOCA jest często aktualizowany. Aby wyświetlić nową pełną listę testów, należy zaktualizować środowisko Isilon do najnowszej wersji IOCA w klastrze Isilon i uruchomić poniższe polecenie, aby uzyskać pełną listę.
perl
onefs94-a-1# perl IOCA --run=CHECK
Isilon On-Cluster Analysis 0.1541
Żądane testy, test, nie zostało rozpoznane.
Dostępne testy:
checkA100Root Sprawdza, czy rozmiar kopii lustrzanych węzła głównego węzła A100 należy zmienić na 2 GB
checkAPIAuth Sprawdza, czy uwierzytelnianie API zostało ustawione na podstawowe przy uaktualnianiu z wersji 8.1.2.0 do 9.2 lub nowszej
checkAccessZones Sprawdza, czy skonfigurowano wiele stref dostępu dla aktualizacji wersji 7.1.1. Sprawdza pod kątem zagnieżdżonych lub pokrywających się udziałów SMB. Dodaje ostrzeżenia w przypadku znalezienia pul stref dostępu nienależących do systemu. Dotyczy tylko uaktualnień w OneFS 7.1.1
checkAggregationMode SPrawdza, czy trybem agregacji nie jest starszy tryb FEC dla aktualizacji do OneFS 8+
checkAspera Sprawdza, czy włączone są jakieś usługi aspera. W przypadku wykonywania uaktualnień OneFS należy je ponownie zainstalować po uaktualnieniu
checkAuthStatus Sprawdza stan uwierzytelniania każdego węzła. Ostrzega, jeśli jacyś dostawcy uwierzytelniania nie są w trybie online lub nie są aktywni. Sprawdza RFC2307 i automatyczną lokalizację identyfikatorów GID/UID oraz wskazuje na KB 000028577
checkBBUDegCap Sprawdza poziom degradacji BBU węzłów szóstej generacji i oznacza węzły z nadmierną degradacją mogacą zwiększyć ryzyko przejścia węzła w stan RO.
checkBMCandCMC Sprawdza problemy związane z BMC/CMC
checkBXENodes Sprawdza istnienie węzłów z interfejsami BXE, a także pod kątem znanych problemów opisanych w KB 000048172 i KB 000064027
checkBootDisks Sprawdza pozostały okres eksploatacji dysku rozruchowego, wersję oprogramowania wewnętrznego i liczbę błędów historycznych
checkCM6FWBug Sprawdza wersje oprogramowania wewnętrznego dysku zgodnie z kryteriami FCO F022318EE
checkCMOSTimeCentury Sprawdza, czy wiek skonfigurowany na zegarze CMOS odpowiada aktualnemu
checkCapacity Weryfikuje pojemność klastra na podstawie udokumentowanej liczby w przewodniku po planowaniu i postępie aktualizacji. Ostrzega w przypadku zbliżania się do limitu
checkCloudPools Sprawdza problemy związane z CloudPools
checkConfCmtSyntax Sprawdza plik sysctl.conf pod kątem komentarzy bez symbolu # na początku, co spowodowałoby problemy przy analizie pliku conf.
checkContact Displays contact information configured in CELog when run with the --extra argument
checkCoreDumps Checks for recent unexpected process restarts reported in /var/log/messages
checkDTA000194434 Checks for criteria of KB 000194434
checkDestinationOneFS Checks destination OneFS version
checkDiskpools Checks diskpools and class equivalence for OneFS upgrades going across 7.0
checkDriveFirmware Checks for out of date Drive Firmware and calls other related drive firmware checks
checkDriveLoad Checks the current load on the drives
checkDriveStallTimeout Checks current Drive Stall Timeout setting, recommend value is 3.5 seconds (3500000 microseconds) or higher
checkDriveSupportPackage Checks for drive firmware updates available in the Drive Support Package
checkDrivesHealth Checks health of drives and the drive stall timeout setting in sysctl
checkET004252 Checks for criteria of ET004252
checkETAs Checks for Technical Advisories
checkEmailSettings Displays E-mail settings configured in CELog when run with the --extra argument
checkEncoding Checks exports and cluster configuration for if utf-8/default encoding
checkEvents Checks events on all the nodes, failure if any critical events exist
checkFCOF022318EE Checks drive firmware versions for the criteria of FCO F022318EE
checkFCOF031617FC Checks drive firmware versions for the criteria of KB 000024620
checkFCOF042415EE Checks the cluster to see if it meets criteria for FCO F042415EE/KB 000051631
checkFileSharing Checks if Atime is enabled
checkFilepoolPolicies Checks GNA requirements and checks filepools for final match being set and names starting with a number
checkFirmwarePackages In OneFS 9.1 and later, confirms firmware packages are available
checkFlush Checks for running flush processes / active pre_flush screen sessions on clusters
checkGatewayPriority Checks for subnets with duplicate gateway priorities
checkGroups Checks nodes for all enabled protocols. Fails if group info is reporting that an enabled protocol is not functioning on any node
checkHDFS Display HDFS details, only useful when run with --extra
checkHardening Checks if FIPS is enabled on node in the cluster, this needs to be disabled prior to upgrades to 9.5 or higher and re enabled after to avoid assessment failures
checkHardwareStatus Checks battery health, power supplies, and gathers hardware details for use elsewhere
checkHardwareUpgrade Checks if there is an in progress hardware upgrade
checkHealth Verifies cluster health status and node health status
checkIBInterfaces Checks for ib0/1 as being active, checks for ETA180317 IB switch firmware versions, and checks for overlapping IB networks
checkIBPCIeSlot Checks if the InfiniBand card is installed in the wrong slot which may lead node start up issues during an upgrade to OneFS 9 and later releases
checkIDI Checks for IDI errors in the past 90 days
checkISCSI Checks for iSCSI LUNs being configured in /ifs/.ifsvar/iscsi/iscsi.conf (OneFS prior to 8.x only)
checkIndexSnapshotCurrent Checks for current snapshots that are over 2 weeks old and may contirbute to capacity issues
checkInternalPing Checks internal network by performing network ping operations
checkJobHistory Checks job history for issues, currently just MediaScan issues
checkJobStatus Checks for running jobs that would impact an upgrade
checkJobs Checks jobs
checkKB000066019 Checks size of reports.db and flags if over 100MB which may lead to issues outlined on KB 000066019
checkKB000081658 Checks for criteria of KB 000081658
checkKB000181818 Checks for criteria of KB 000181818
checkKB000192800 Checks for critera of KB 000192800
checkKB000196175 Checks for criteria of KB 000196175
checkKB000196762 Checks for criteria of KB 000196762
checkKB000197850 Checks for issues with IB queue pairs that would lead to node reboot issues if IB queue pairs are in a degraded state
checkKB000212387 Checks Authentication providers msDS-SupportedEncryptionTypes attribute to ensure a value is set and assigned, if it is not, there is potential for DU after an upgrade to 9.5 or above.
checkKB000213188 Sprawdza sprzęt SED, którego bieżąca wersja jest starsza niż 9.2, a wersja docelowa to 9.5 lub nowsza.
checkKB201488 Checks if any node meets criteria for KB 000201488
checkKB201666 Checks if it is necessary to perform the proactive workaround from KB 000201666 for a patch installation and whether the pre-requisites are met
checkKB201933 Checks for criteria of KB 000201933
checkKB203381 Checks for criteria of KB 203381
checkKB220014 Checks for criteria of KB 220014
checkKB462202 Checks BootOrder in bios_settings.ini on Generation 5 nodes to determine if at risk for KB 000025523
checkKB489473 Checks if any node meets criteria for KB 000061983
checkKB490849 Checks if at risk for KB 000052089
checkKB496582 Checks for auth rules issues detailed in KB 000160596
checkKB496993 Checks if the cluster is at risk for KB 000061504
checkKB501267 Checks for the criteria of KB 000026510
checkKB507031 Checks for criteria outlined in KB 000035398
checkKB516613 Checks if any node meets criteria for KB 000057267
checkKB519119 Checks if nodes may be impacted by KB 519119
checkKB519388 Pre-upgrade check for issues outlined in KB 000162270
checkKB519423 Checks if the cluster config files are in a mixed mode
checkKB519890 Checks for a known issue with LAGG interfaces in LACP mode when running OneFS 8.0.0.6, 8.0.1.2, 8.1.0.2, and 8.1.1.1
checkKB521778 Checks for criteria outlined in KB 000031948
checkKB521890 Checks for criteria outlined in KB 000167681
checkKB524082 Checks if the cluster is enabled for HTTP clients and flags a compatibility issue caused by a change in Apache versions
checkKB527312 Check for criteria of KB 000166965
checkKB530050 Check for criteria of KB 000040987
checkKB533516 Checks if cluster uses an IP for AWS CloudPool accounts putting it at risk for DTA 533516
checkKB535582 Checks if at risk for KB 000060471
checkKB537785 Check for criteria of KB 000168829
checkKB540000 Checks for criteria of KB 000058599
checkKB540071 Checks for existence of files under /var/fw/fwpkg when no IsiFw package is installed
checkKB540513 Checks for criteria of KB 000174074
checkKB540872 Checks if the cluster may encounter KB 000170982 during an upgrade from OneFS 8.2 releases
checkKB540901 Checks boot disk partitions for any mismatches in uuids which may lead to boot failures
checkKB544401 Check for critera of KB 000173157
checkKB544854 Check for criteria of KB 000173432
checkKB546604 Checks for criteria of KB 000180866
checkKerberos8000 Checks for an issue with the Kerberos configuration file when upgrading to OneFS 8.0.0.0
checkLACPSFP Checks for LACP on cxgb interfaces for KB 000174095
checkLWIODLog Checks /var/log/lwiod.log for known errors occuring in the last 30 days
checkLastZoneID8000 Checks for gaps in access zones that may cause major issues when upgrading to OneFS 8.0.0.0
checkLeakFreeBlocks Checks for nodes with efs\.lbm\.leak_freed_blocks enabled.
checkLegacyLDAP Sprawdza, czy starsze wersje LDAP są włączone w uaktualnieniach z OneFS 6 do OneFS 7
checkLicense Sprawdza licencje i wskazuje kierunek na podstawie licencjonowanych funkcji. Licencje InsigntIQ i vCenter, podaje informacje z przewodnika zgodności. iSCSI, instructs to only perform simultaneous OneFS upgrades and that it is not supported in 8.0
checkLinMasterPadding Checks the LIN master padding to be all zeros
checkListenQueue Checks for listen queue overflows to be less than 50,000 per node
checkLogLevel Checks LWSM log levels for NFS, SMB, HDFS, and Authentication
checkLogs Checks Log file presence and flags if any log file specified in list is not present
checkMaintenanceMode Checks if the cluster is currently in maintenance mode
checkMemory Checks each DIMM to meet criteria outlined in KB 000041666 and if the expected (per product info line) matches closely the reported RAM
checkMessagesLog Checks /var/log/messages.log for known errors occuring in the last 30 days
checkMirrors Checks the boot mirror health
checkNDMP Checks for running NDMP sessions
checkNDMP16GB Checks for LNN changes that have occurred since the isi_ndmp_d processes started which can cause issues during the HookDataMigrationUpgrade phase of an OneFS upgrade
checkNDMPUpgradeTimeout Checks for LNN changes that have occurred since the isi_ndmp_d processes started which can cause issues during the HookDataMigrationUpgrade phase of an OneFS upgrade
checkNFS Uses nfsstat to identify RPC errors
checkNetBIOS Checks if the Isilon NetBIOS Name Service (nbns) is enabled when updating to OneFS 8.0.1 and later
checkNetstat Checks connections counts for specific protocols via netstat
checkNetworkParallelUpgrade Checks for the risk of inaccessible network pools during a parallel upgrade
checkNetworkPoolIFaces Checks each network pool and their assigned interfaces, if only 1 interface is configured for any pool and IP Ranges are set, this will cause a failure for pre upgrade mandatory checks
checkNodeCompatibility Checks node compatibility for OneFS upgrades by comparing it against known supported versions
checkNodeFirmware Checks node firmware for updates
checkNodesInstalled Checks for nodes installed to display in an agregated list for visibility
checkOneFSVersions Checks running version and target version for any issues. Błąd: Każda niezgodność wersji we wszystkich węzłach
checkOpenFiles Sprawdza każdy węzeł pod kątem liczby otwartych plików [sysctl kern.openfiles] i porównuje ją z liczbą maksymalną [sysctl kern.maxfiles]. Sprawdzenie wyświetli ostrzeżenie przy ponad 80% wartości maksymalnej i zakończy się niepowodzeniem przy ponad 90% wartości maksymalnej
checkPSCALE136276 Sprawdza kryteria PSCALE-136276
checkPartitions Sprawdza miejsce na partycji systemowej
checkPatches Sprawdza wysoce zalecane poprawki do bieżącej wersji przy braku wersji docelowej, lub do wersji docelowej
checkPerformance Sprawdza wydajność klastra
checkProcesses Sprawdza pod kątem problemów związanych z procesami OpenSM master, MCP, isi_mca_dump i isi_upgrade_d
checkProtectionLevel Sprawdza poziomy ochrony pól pamięci
checkRealACL Sprawdza, czy listy Real ACL są skonfigurowane / ustawione w /ifs/.ifsvar lub ifs/.ifsvar/patch. Nie powinny być ustawione, a jeśli są, może to spowodować problem z aktualizacjami/instalacjami
checkRemoteSupport Sprawdza, czy włączono Restricted Shell i isi_supportassist; jeśli oba są włączone i następuje uaktualnienie do wersji 9.7, występuje problem z ponownym uruchomieniem usług SupportAssist.
checkRoutingTables Wyświetla tablicę routingu dla każdego węzła
checkSBR8000 Sprawdza, czy włączono SBR przed uaktualnieniem OneFS do wersji 8.0.0.0/1
checkSNMPDConfig Sprawdza, czy SNMPD.config i isilon_serial_number nie mają 0 bajtów
checkSPNs Wyświetla listę SPN; przydatne tylko przy uruchomieniu z --extra
checkSRS Sprawdza konfigurację łączności zdalnej pod kątem problemów
checkSSHDConfig Sprawdza pliki /etc/mcp/templates/sshd_config pod kątem znanych problemów
checkSWIFTAccounts Sprawdza pod kątem konta SWIFT, które jest następnie używane do ustawienia priorytetu flagi, gdy SWIFT ma licencję i uaktualnienie następuje do wersji 9.5 lub nowszej
checkServices Sprawdza, czy popularne usługi są w oczekiwanych stanach
checkServicesMonitoring Sprawdza, czy monitorowane usługi są monitorowane
checkSmartConnect Sprawdza czy przypisane są wszystkie adresy IP usługi SmartConnect i nie są używane w łączności klienta
checkSnapshot Sprawdza, czy liczba migawek zbliża się do limitu 20 000, czy opcja Autodelete ma wartość yes i sprawdza dzienniki migawek. Sprawdza dzienniki migawek pod kątem wartości EIN/EIO/EDEADLK/Failed w celu utworzenia migawki
checkStaticRouteConflict Sprawdza konflikty tras statycznych
checkStoragePools Sprawdza pule pamięci pod kątem problemów z kondycją/pojemnością/brakiem przydziału zasobów dysków
checkSupportability Sprawdza możliwość obsługi sprzętu i oprogramowania klastra
checkSwitchCompatibility Sprawdza, czy przełączniki zaplecza Dell mają co najmniej wersję 10.5.0.6
checkSymLink Sprawdza, czy /var/patch/catalog lub /var/patch/tmp mają stan Sym Linked lub czy katalog jest plikiem, a nie folderem.
checkSyncIQ Zbiera informacje źródłowe i docelowe SyncIQ oraz raportuje partnerów SyncIQ. Sprawdza problem, w którym duża liczba plików raportów SyncIQ powoduje opóźnienie procesu tar, a tym samym innych procesów aktualizacji, potencjalnie pozostawiając klaster w scenariuszu tymczasowego DU na dłuższy okres czasu
checkSystemFlag Sprawdza pule dysków z ustawioną flagą systemową
checkTimeDrift Sprawdza dryf czasowy między węzłami
checkTimeSync Sprawdza, czy klaster ma włączoną synchronizację z serwerem zewnętrznym
checkTimeZone Sprawdza, czy nie brakuje strefy czasowej w docelowej wersji kodu OneFS
checkUIDGID Sprawdza pod kątem wartości UID/GID większych niż 262143 dla plików znajdujących się w katalogach / i /var
checkUpgrade Sprawdza problemy związane z trwającymi uaktualnieniami. Ostrzega, jeśli usługa isi_upgrade_d jest włączona. Daje wynik negatywny, jeśli nie jest w stanie zadeklarowanym. Daje wynik negatywny, jeśli działanie uaktualnienia jest już w toku. Sprawdza wartość fs_fmt_version; nieparzysta lub zerowa wartość fs_fmt_version jest problematyczna
checkUpgradeAgentPort Sprawdza port używany przez isi_upgrade_agent_d daemon do upewnienia się, że nie jest używany przez inne procesy
checkUpgradePath Sprawdza miejsca wymagające wielu skoków i podaje wymagane szczegóły
checkUptime Sprawdza czas działania węzła, ostrzegając, jeśli wynosi ponad 200 dni, oznacza ETA czasu działania
checkVaultCard Sprawdza obecność karty magazynu M.2 w węzłach szóstej generacji i sprawdza, czy próg stanu SMART nie został przekroczony w tym urządzeniu
checkZoneLocalAuth W przypadku uaktualnień do wersji OneFS 8.2 i nowszych sprawdza, czy dostawcy lokalni są powiązani z innymi strefami dostępu
Poniżej przedstawiono niektóre polecane zasoby dotyczące tego tematu, które mogą Ci pomóc: