PowerScale: Como executar a ferramenta Isilon On-Cluster Analysis
Summary: Instruções sobre como usar a ferramenta Isilon On-Cluster Analysis (IOCA) e interpretar os resultados.
Instructions
A ferramenta Isilon On-Cluster Analysis (IOCA) analisa a integridade de um cluster do PowerScale em execução e auxilia* no planejamento de upgrades.
* O IOCA não foi projetada para substituir a análise dos documentos relacionados ao upgrade na preparação das atividades de upgrade. Consulte o Guia de planejamento e processo de upgrade do OneFS:
A versão mais recente da ferramenta IOCA está disponível para download no Lightning.
Nota: A versão mais recente é baixada mesmo que a data no download seja mais antiga.
Nota: Depois de fazer download e transferir para o cluster, você deve descompactar IOCA e IOCA.sha256 usando
# tar -xvf IOCA.tar IOCA IOCA.sha256
Para verificar a integridade do IOCA você pode usar o arquivo sha256 dentro do pacote tar acima, ou como alternativa, pode usar um arquivo IOCA.sha256 independente hospedado aqui para download .
Após o download, transfira para o mesmo local que o script IOCA (certifique-se de substituir o IOCA.sha256 existente).
Se estiver usando sha256sum:
# sha256sum -c /home/nyhanj1/IOCA.sha256 ./IOCA: OK
Observe o resultado em negrito acima e confirme se está OK
Se você não tiver sha256sum:
# cat IOCA.sha256 a55c9efcea29776317d3b3ed36c504dcab08d1f945161f6ac6c8bbb315f31bb0 ./IOCA
# sha256 IOCA SHA256 (IOCA) = a55c9efcea29776317d3b3ed36c504dcab08d1f945161f6ac6c8bbb315f31bb0
Verifique manualmente se as duas somas de verificação correspondem.
Para executar a IOCA em um cluster:
- Verifique se você está conectado ao cluster correto. Execute o seguinte comando para mostrar os números de série no cluster e verifique se o número de série do chamado é exibido na lista:
isi_for_array cat /etc/isilon_serial_number
- Crie o diretório /ifs/data/Isilon_Support/ se ele não existir e altere para ele executando os seguintes comandos:
mkdir -pv /ifs/data/Isilon_Support
cd /ifs/data/Isilon_Support
-
Instale a versão mais recente do IOCA no cluster no diretório/ifs/data/Isilon_Support/:
- Se existir uma versão anterior, verifique se é a versão mais recente executando o comando abaixo e compare-a com a versão que está disponível para download. A versão é listada na parte superior do script de verificação de integridade.
perl IOCA -vExecute a ferramenta IOCA, adicionando quaisquer argumentos adicionais. No exemplo a seguir, a verificação pré-upgrade inclui verificações para um upgrade para 9.5.1.0 e exibe uma recomendação de plano de upgrade depois dos resultados da verificação de integridade:
perl IOCA -u 9.5.1.0
- Copie o resultado e cole-o no chamado.
- Analise as verificações de integridade de todas as mensagens de falha ou aviso identificadas quanto a possíveis problemas.
Interpretação do resultado do IOCA:
Em cada item da verificação de integridade, se algo é identificado, geralmente há um artigo da base de conhecimento (KB) associado. Esta ferramenta foi inicialmente voltada para o público interno, alguns dos artigos apresentados ainda não estão acessíveis ao público externo. O trabalho está em andamento para facilitar que esses artigos mencionados estejam acessíveis a um público externo.
Veja a seguir um exemplo de resultado para uma falha de verificação de monitoramento de hardware do BMC ou CMC em um cluster:
BMC/CMC Hardware Monitoring FAIL
FAIL: Hardware monitoring issues detected on nodes: 2
INFO: 3 nodes have out of date CMC firmware versions: 1-3
INFO: Refer to KB489050 (https://support.emc.com/kb/489050) for details.
Neste exemplo, é exibida uma falha decorrente de problemas de monitoramento de hardware no nó 2. O resultado também informa que as versões do firmware do CMC estão desatualizadas nos nós 1 a 3. Finalmente, ele contém um artigo da base de conhecimento que contém etapas de resolução.
Modo de conformidade
O IOCA é executado da mesma forma nos clusters compatíveis e não compatíveis com o modo de conformidade. Não há requisito para executá-lo com o sudo. No entanto, o usuário compadmin deve ser o proprietário do script IOCA para executá-lo.
Veja a seguir o uso do IOCA e os argumentos ou filtros disponíveis:
Usage: IOCA [options] [destination OneFS version] -d, --debug Display debugging information -e, --extra Displays extra details as part of each check -j, --json Displays output in JSON format -v, --version Displays current script version -h, --help Displays this help screen -r <checkName>, --run=<checkName> Executes only the specified check, can be included multiple times -u, --upgradeplan Includes an upgrade plan after health checks --rolling Provide rolling reboot plans --parallel Provide parallel reboot plans [where supported] --simultaneous Provide simultaneous reboot plans [excludes node firmware] -o, --onefs Supports the following comma separated options [ex. 8.1.2,simultaneous]: <version> Uses the provided destination OneFS version simultaneous Simultaneous OneFS upgrade parallel Parallel OneFS upgrade [requires 8.2.2+] rolling Rolling OneFS upgrade exclude-nf Upgrade plans will combine OneFS + node firmware by default [9.2 feature], this option disables that -p, --patches Supports the following comma separated options [ex. none,simultaneous]: none Opt out of patch recommendations simultaneous Simultaneous patch installs parallel Parallel patch installs [requires 9.1+] rolling Rolling patch installs -nf, --node-firmware Supports the following comma separated options [ex. 10.3.3,parallel]: <version> Uses the provided version for node firmware checks none Opt out of node firmware recommendations simultaneous Simultaneous node firmware updates [requires 8.2+] parallel Parallel node firmware updates [requires 8.2+] rolling Rolling node firmware updates -df, --drive-firmware Supports the following comma separated options [ex. 1.32]: <version> Uses the provided version for drive firmware checks none Opt out of drive firmware recommendations -vf, --verify-files Runs checks on files within specified location [ex. /ifs/data/] of certain file type [ex. .isi, .tgz, .tar.gz, .tar] <file location> default location is /ifs/data/ - specify the location where the upgrade files were placed
Additional Information
Tabela das verificações individuais e o nome usado ao executar o comando:
--run=CHECK
Nota: O script da IOCA é atualizado com frequência. Se você quiser ver uma nova lista completa de verificações, atualize para a versão mais recente do IOCA no Isilon Cluster e execute o comando abaixo para obter uma lista completa.
perl
onefs94-a-1# perl IOCA --run=CHECK
Isilon On-Cluster Analysis 0.1541
Verificações solicitadas, verificação, não foi reconhecida.
As verificações disponíveis são:
checkA100Root Verifica se os espelhamentos-raiz do nó A100 precisam ser redimensionados para 2 GB
checkAPIAuth Verifica se a autenticação da API está definida como básica, ao atualizar da versão 8.1.2.0 para a 9.2 ou superior
checkAccessZones Verifica se várias zonas de acesso estão configuradas para upgrades na versão 7.1.1. Verifica se há compartilhamentos de SMB aninhados ou sobrepostos. Adiciona avisos quando algum pool de zona de acesso que não seja do sistema é encontrado; aplica-se somente a upgrades do OneFS 7.1.1
checkAggregationMode Verifica se o modo de agregação não é o modo FEC legado para upgrades para o OneFS 8+
checkAspera Verifica se algum serviço do Aspera está ativado. Se você estiver realizando upgrades do OneFS, ele deverá ser reinstalado após o upgrade
checkAuthStatus Verifica o status de autenticação em cada nó. Avisa se um provedor de autenticação não estiver on-line ou ativo. Verifica a RFC2307 e a localização automática de GID/UIDs e aponta para a KB 000028577
checkBBUDegCap Verifica o nível de degradação da BBU nos nós de 6ª geração e sinaliza todos os nós com degradação excessiva, o que aumentaria o risco de o nó entrar em um estado RO.
checkBMCandCMC Verifica se há problemas relacionados ao BMC/CMC
checkBXENodes Verifica a existência de nós com interfaces BXE, também verifica se há problemas conhecidos na KB 000048172 e KB 000064027
checkBootDisks Verifica o tempo de desgaste restante do disco de inicialização, o nível de firmware e a contagem histórica de erros.
checkCM6FWBug Verifica as versões de firmware da unidade para os critérios de FCO F022318EE
checkCMOSTimeCentury Verifica se o século configurado no horário do CMOS corresponde ao do século atual
checkCapacity Verifica a capacidade do cluster com base em números documentados no Guia de planejamento e progresso de upgrade. Avisa se estiver se aproximando
checkCloudPools Verifica se há problemas relacionados ao CloudPools
checkConfCmtSyntax Verifica o sysctl.conf em busca de comentários sem o símbolo # inicial que poderiam causar problemas na análise do arquivo conf.
checkContact Displays contact information configured in CELog when run with the --extra argument
checkCoreDumps Checks for recent unexpected process restarts reported in /var/log/messages
checkDTA000194434 Checks for criteria of KB 000194434
checkDestinationOneFS Checks destination OneFS version
checkDiskpools Checks diskpools and class equivalence for OneFS upgrades going across 7.0
checkDriveFirmware Checks for out of date Drive Firmware and calls other related drive firmware checks
checkDriveLoad Checks the current load on the drives
checkDriveStallTimeout Checks current Drive Stall Timeout setting, recommend value is 3.5 seconds (3500000 microseconds) or higher
checkDriveSupportPackage Checks for drive firmware updates available in the Drive Support Package
checkDrivesHealth Checks health of drives and the drive stall timeout setting in sysctl
checkET004252 Checks for criteria of ET004252
checkETAs Checks for Technical Advisories
checkEmailSettings Displays E-mail settings configured in CELog when run with the --extra argument
checkEncoding Checks exports and cluster configuration for if utf-8/default encoding
checkEvents Checks events on all the nodes, failure if any critical events exist
checkFCOF022318EE Checks drive firmware versions for the criteria of FCO F022318EE
checkFCOF031617FC Checks drive firmware versions for the criteria of KB 000024620
checkFCOF042415EE Checks the cluster to see if it meets criteria for FCO F042415EE/KB 000051631
checkFileSharing Checks if Atime is enabled
checkFilepoolPolicies Checks GNA requirements and checks filepools for final match being set and names starting with a number
checkFirmwarePackages In OneFS 9.1 and later, confirms firmware packages are available
checkFlush Checks for running flush processes / active pre_flush screen sessions on clusters
checkGatewayPriority Checks for subnets with duplicate gateway priorities
checkGroups Checks nodes for all enabled protocols. Fails if group info is reporting that an enabled protocol is not functioning on any node
checkHDFS Display HDFS details, only useful when run with --extra
checkHardening Checks if FIPS is enabled on node in the cluster, this needs to be disabled prior to upgrades to 9.5 or higher and re enabled after to avoid assessment failures
checkHardwareStatus Checks battery health, power supplies, and gathers hardware details for use elsewhere
checkHardwareUpgrade Checks if there is an in progress hardware upgrade
checkHealth Verifies cluster health status and node health status
checkIBInterfaces Checks for ib0/1 as being active, checks for ETA180317 IB switch firmware versions, and checks for overlapping IB networks
checkIBPCIeSlot Checks if the InfiniBand card is installed in the wrong slot which may lead node start up issues during an upgrade to OneFS 9 and later releases
checkIDI Checks for IDI errors in the past 90 days
checkISCSI Checks for iSCSI LUNs being configured in /ifs/.ifsvar/iscsi/iscsi.conf (OneFS prior to 8.x only)
checkIndexSnapshotCurrent Checks for current snapshots that are over 2 weeks old and may contirbute to capacity issues
checkInternalPing Checks internal network by performing network ping operations
checkJobHistory Checks job history for issues, currently just MediaScan issues
checkJobStatus Checks for running jobs that would impact an upgrade
checkJobs Checks jobs
checkKB000066019 Checks size of reports.db and flags if over 100MB which may lead to issues outlined on KB 000066019
checkKB000081658 Checks for criteria of KB 000081658
checkKB000181818 Checks for criteria of KB 000181818
checkKB000192800 Checks for critera of KB 000192800
checkKB000196175 Checks for criteria of KB 000196175
checkKB000196762 Checks for criteria of KB 000196762
checkKB000197850 Checks for issues with IB queue pairs that would lead to node reboot issues if IB queue pairs are in a degraded state
checkKB000212387 Checks Authentication providers msDS-SupportedEncryptionTypes attribute to ensure a value is set and assigned, if it is not, there is potential for DU after an upgrade to 9.5 or above.
checkKB000213188 Verifica o hardware SED em que a versão atual é inferior a 9.2 e a versão de destino é 9.5 ou superior.
checkKB201488 Checks if any node meets criteria for KB 000201488
checkKB201666 Checks if it is necessary to perform the proactive workaround from KB 000201666 for a patch installation and whether the pre-requisites are met
checkKB201933 Checks for criteria of KB 000201933
checkKB203381 Checks for criteria of KB 203381
checkKB220014 Checks for criteria of KB 220014
checkKB462202 Checks BootOrder in bios_settings.ini on Generation 5 nodes to determine if at risk for KB 000025523
checkKB489473 Checks if any node meets criteria for KB 000061983
checkKB490849 Checks if at risk for KB 000052089
checkKB496582 Checks for auth rules issues detailed in KB 000160596
checkKB496993 Checks if the cluster is at risk for KB 000061504
checkKB501267 Checks for the criteria of KB 000026510
checkKB507031 Checks for criteria outlined in KB 000035398
checkKB516613 Checks if any node meets criteria for KB 000057267
checkKB519119 Checks if nodes may be impacted by KB 519119
checkKB519388 Pre-upgrade check for issues outlined in KB 000162270
checkKB519423 Checks if the cluster config files are in a mixed mode
checkKB519890 Checks for a known issue with LAGG interfaces in LACP mode when running OneFS 8.0.0.6, 8.0.1.2, 8.1.0.2, and 8.1.1.1
checkKB521778 Checks for criteria outlined in KB 000031948
checkKB521890 Checks for criteria outlined in KB 000167681
checkKB524082 Checks if the cluster is enabled for HTTP clients and flags a compatibility issue caused by a change in Apache versions
checkKB527312 Check for criteria of KB 000166965
checkKB530050 Check for criteria of KB 000040987
checkKB533516 Checks if cluster uses an IP for AWS CloudPool accounts putting it at risk for DTA 533516
checkKB535582 Checks if at risk for KB 000060471
checkKB537785 Check for criteria of KB 000168829
checkKB540000 Checks for criteria of KB 000058599
checkKB540071 Checks for existence of files under /var/fw/fwpkg when no IsiFw package is installed
checkKB540513 Checks for criteria of KB 000174074
checkKB540872 Checks if the cluster may encounter KB 000170982 during an upgrade from OneFS 8.2 releases
checkKB540901 Checks boot disk partitions for any mismatches in uuids which may lead to boot failures
checkKB544401 Check for critera of KB 000173157
checkKB544854 Check for criteria of KB 000173432
checkKB546604 Checks for criteria of KB 000180866
checkKerberos8000 Checks for an issue with the Kerberos configuration file when upgrading to OneFS 8.0.0.0
checkLACPSFP Checks for LACP on cxgb interfaces for KB 000174095
checkLWIODLog Checks /var/log/lwiod.log for known errors occuring in the last 30 days
checkLastZoneID8000 Checks for gaps in access zones that may cause major issues when upgrading to OneFS 8.0.0.0
checkLeakFreeBlocks Checks for nodes with efs\.lbm\.leak_freed_blocks enabled.
checkLegacyLDAP Verifica se o LDAP legado está sendo ativado em upgrades do OneFS 6 para OneFS 7
checkLicense Verifica as licenças e apresenta instruções com base em recursos licenciados. As licenças do InsigntIQ e do vCenter apresentam informações do guia de compatibilidade. iSCSI, instructs to only perform simultaneous OneFS upgrades and that it is not supported in 8.0
checkLinMasterPadding Checks the LIN master padding to be all zeros
checkListenQueue Checks for listen queue overflows to be less than 50,000 per node
checkLogLevel Checks LWSM log levels for NFS, SMB, HDFS, and Authentication
checkLogs Checks Log file presence and flags if any log file specified in list is not present
checkMaintenanceMode Checks if the cluster is currently in maintenance mode
checkMemory Checks each DIMM to meet criteria outlined in KB 000041666 and if the expected (per product info line) matches closely the reported RAM
checkMessagesLog Checks /var/log/messages.log for known errors occuring in the last 30 days
checkMirrors Checks the boot mirror health
checkNDMP Checks for running NDMP sessions
checkNDMP16GB Checks for LNN changes that have occurred since the isi_ndmp_d processes started which can cause issues during the HookDataMigrationUpgrade phase of an OneFS upgrade
checkNDMPUpgradeTimeout Checks for LNN changes that have occurred since the isi_ndmp_d processes started which can cause issues during the HookDataMigrationUpgrade phase of an OneFS upgrade
checkNFS Uses nfsstat to identify RPC errors
checkNetBIOS Checks if the Isilon NetBIOS Name Service (nbns) is enabled when updating to OneFS 8.0.1 and later
checkNetstat Checks connections counts for specific protocols via netstat
checkNetworkParallelUpgrade Checks for the risk of inaccessible network pools during a parallel upgrade
checkNetworkPoolIFaces Checks each network pool and their assigned interfaces, if only 1 interface is configured for any pool and IP Ranges are set, this will cause a failure for pre upgrade mandatory checks
checkNodeCompatibility Checks node compatibility for OneFS upgrades by comparing it against known supported versions
checkNodeFirmware Checks node firmware for updates
checkNodesInstalled Checks for nodes installed to display in an agregated list for visibility
checkOneFSVersions Checks running version and target version for any issues. Falha: Qualquer disparidade de versão em todos os nós
checkOpenFiles Verifica cada nó quanto ao número de arquivos abertos [sysctl kern.openfiles] e compara isso com o número máximo de arquivos abertos [sysctl kern.maxfiles]. A verificação emitirá um aviso quando ultrapassar 80% do máximo e falhará quando ultrapassar 90% do máximo
checkPSCALE136276 Verifica os critérios do PSCALE-136276
checkPartitions Verifica o espaço na partição do sistema
checkPatches Verifica se há patches altamente recomendados, na versão atual se não houver versão de destino ou na versão de destino
checkPerformance Verifica o desempenho do cluster
checkProcesses Verifica se há problemas relacionados ao processo principal, MCP, isi_mca_dump e isi_upgrade_d do OpenSM
checkProtectionLevel Verifica os níveis de proteção dos pools de armazenamento
checkRealACL Verifica se as ACLs reais estão configuradas/definidas em /ifs/.ifsvar ou ifs/.ifsvar/patch. Elas não devem estar definidas e, se estiverem, causarão um problema para upgrades/instalações
checkRemoteSupport Verifica se o Shell Restrito está ativado e isi_supportassist, se ambos estiverem ativados e você atualizar para a versão 9.7, isso causará um problema para os serviços do Support Assist reiniciarem.
checkRoutingTables Exibe a tabela de roteamento para cada nó
checkSBR8000 Verifica se o SBR está ativado pré-upgrade para upgrades do OneFS com destino a 8.0.0.0/1
checkSNMPDConfig Verifica o SNMPD.config e também o isilon_serial_number para garantir que não sejam de 0 bytes
checkSPNs Exibe uma lista de SPNs, útil apenas quando executado com --extra
checkSRS Verifica a configuração de conectividade remota em busca de problemas
checkSSHDConfig Verifica os arquivos /etc/mcp/templates/sshd_config em busca de problemas conhecidos
checkSWIFTAccounts Verifica se há contas SWIFT, que são então usadas para definir a prioridade do indicador quando o SWIFT é licenciado e um upgrade para 9.5 ou superior está sendo realizado
checkServices Verifica serviços comuns para garantir que estejam nos estados esperados
checkServicesMonitoring Verifica se os serviços ativados estão sendo monitorados
checkSmartConnect Verifica se os IPs do serviço SmartConnect estão todos atribuídos e não estão sendo usados para conectividade de client
checkSnapshot Verifica se a contagem de snapshots está se aproximando do limite de cluster de 20.000, se Autodelete está definida como Yes e verifica os registros de snapshot. Verifica os logs de snapshot em busca de EIN/EIO/EDEADLK/Failed ao criar snapshots
checkStaticRouteConflict Verifica rotas estáticas conflitantes
checkStoragePools Verifica pools de armazenamento quanto a problemas de integridade/capacidade/unidade não provisionada
checkSupportability Verifica a capacidade de suporte de hardware e software do cluster
checkSwitchCompatibility Verifica switches de back-end da Dell para confirmar se eles são, pelo menos, a versão 10.5.0.6
checkSymLink Verifica se /var/patch/catalog ou /var/patch/tmp estão vinculados ao Sym ou se catalog é um arquivo em vez de diretório.
checkSyncIQ Coleta informações de origem e destino do SyncIQ e reporta os parceiros do SyncIQ. Verifica se há um problema em que ter um grande número de arquivos de relatório do SyncIQ faz com que um processo tar atrase outros processos de upgrade, possivelmente deixando o cluster em um cenário temporário de DU por um longo período
checkSystemFlag Verifica pools de discos com o indicador do sistema definido
checkTimeDrift Verifica o desvio de tempo entre os nós
checkTimeSync Verifica se o cluster está habilitado para sincronização com um servidor externo
checkTimeZone Verifica se há fuso horário ausente no nível de código do OneFS
checkUIDGID Verifica valores de UID/GID maiores que 262143 para arquivos localizados em / e /var
checkUpgrade Verifica se há problemas relacionados ao upgrade em andamento. Avisa se o serviço isi_upgrade_d service está ativado. Falha se não estiver em um estado confirmado. Falha se uma atividade de upgrade já estiver em andamento. Verifica o fs_fmt_version, um fs_fmt_version ímpar ou zero é problemático
checkUpgradeAgentPort Verifica a porta usada pelo daemon isi_upgrade_agent_d para garantir que não esteja em uso por outros processos
checkUpgradePath Verifica onde vários saltos são necessários e fornece verificações necessárias específicas
checkUptime Verifica o tempo de atividade do nó, avisa quando ultrapassar 200 dias e sinaliza as estimativas de tempo de atividade
checkVaultCard Verifica a presença da placa do cofre M.2 nos nós da 6ª geração e confirma se o limite do status SMART não foi excedido nesse dispositivo
checkZoneLocalAuth Para upgrades para o OneFS 8.2 e posteriores, verifica se os provedores locais estão associados a outras zonas de acesso
Aqui estão alguns recursos recomendados relacionados a este tópico que podem ser de ajuda: