PowerScale: Cómo ejecutar la herramienta de análisis en clúster
Summary: Instrucciones sobre cómo utilizar la herramienta de análisis en clúster de Isilon (IOCA) e interpretar los resultados.
Instructions
La herramienta de análisis en clúster de Isilon (IOCA) analiza el estado de un PowerScale Cluster en ejecución y ayuda* a planificar las actualizaciones.
* IOCA no se diseñó para reemplazar la revisión de documentos relacionados con la actualización como preparación para las actividades de actualización. Consulte la Guía de planificación y proceso de actualización de OneFS:
La versión más reciente de la herramienta IOCA está disponible para su descarga desde Lightning.
NOTA: Se descarga la versión más reciente aunque la fecha en la descarga sea anterior.
NOTA: Una vez descargada y transferida la herramienta al clúster, debe descomprimir IOCA e IOCA.sha256 mediante
# tar -xvf IOCA.tar IOCA IOCA.sha256
Para verificar la integridad de IOCA, puede usar el archivo sha256 dentro del paquete tar anterior o, como alternativa, puede usar un archivo IOCA.sha256 independiente alojado aquí para su descarga.
Una vez descargado, transfiéralo a la misma ubicación que el script de IOCA (asegúrese de sobrescribir el archivo IOCA.sha256 existente).
Si usa sha256sum:
# sha256sum -c /home/nyhanj1/IOCA.sha256 ./IOCA: OK
Observe el resultado como está en negrita arriba y confirme que sea correcto.
Si no tiene sha256sum:
# cat IOCA.sha256 a55c9efcea29776317d3b3ed36c504dcab08d1f945161f6ac6c8bbb315f31bb0 ./IOCA
# sha256 IOCA SHA256 (IOCA) = a55c9efcea29776317d3b3ed36c504dcab08d1f945161f6ac6c8bbb315f31bb0
Verifique manualmente que ambas sumas de comprobación coincidan.
Para ejecutar IOCA en un clúster:
- Verifique que esté conectado al clúster correcto. Ejecute el siguiente comando para mostrar los números de serie en el clúster y verifique que el número de serie para la solicitud de servicio aparezca en la lista:
isi_for_array cat /etc/isilon_serial_number
- Cree el directorio /ifs/data/Isilon_Support/ directory si no existe y ejecute los siguientes comandos para modificarlo:
mkdir -pv /ifs/data/Isilon_Support
cd /ifs/data/Isilon_Support
-
Almacene provisionalmente la versión más reciente de IOCA en el clúster en el directorio /ifs/data/Isilon_Support/:
- Si existe una versión anterior, verifique que sea la versión más reciente. Para ello, ejecute el siguiente comando y compare el resultado con la versión disponible para su descarga. La versión se indicará en la parte superior del script de evaluación del estado.
perl IOCA -vEjecute la herramienta IOCA y agregue los argumentos adicionales. En el siguiente ejemplo, la comprobación previa a la actualización incluye comprobaciones para una actualización a 9.5.1.0 y muestra una recomendación de plan de actualización después de los resultados de la evaluación del estado:
perl IOCA -u 9.5.1.0
- Recopile la salida y publique esto en la solicitud de servicio.
- Revise las evaluaciones del estado de todos los mensajes FAIL o WARN identificados para detectar posibles problemas.
Interpretación de la salida de IOCA:
Para cada elemento de la evaluación del estado, si se identifica algo, generalmente existe un artículo de la base de conocimientos (KB) asociado. Esta herramienta se diseñó inicialmente para uso interno; todavía no se puede acceder de manera externa a algunos de los artículos que se presentan. Se está trabajando para facilitar que estos artículos a los que se hace referencia sean accesibles para un público externo.
El siguiente es un ejemplo de salida para una falla de comprobación de monitoreo de hardware de BMC o CMC en un clúster:
BMC/CMC Hardware Monitoring FAIL
FAIL: Hardware monitoring issues detected on nodes: 2
INFO: 3 nodes have out of date CMC firmware versions: 1-3
INFO: Refer to KB489050 (https://support.emc.com/kb/489050) for details.
En este ejemplo, se muestra un ERROR en el nodo 2 con problemas de monitoreo de hardware. También se incluye INFORMACIÓN que muestra que las versiones de firmware de CMC están desactualizadas en los nodos 1 a 3. Por último, se proporciona un artículo de la base de conocimientos con los pasos de resolución.
Modo de cumplimiento
IOCA se ejecuta de la misma manera en los clústeres habilitados para el modo de cumplimiento que en los clústeres no habilitados para el modo de cumplimiento. No existe ningún requisito para ejecutar esta herramienta con sudo. Sin embargo, el usuario compadmin debe ser el propietario del script de IOCA para poder ejecutarlo.
A continuación, se muestra el uso de IOCA y los argumentos o filtros disponibles:
Usage: IOCA [options] [destination OneFS version] -d, --debug Display debugging information -e, --extra Displays extra details as part of each check -j, --json Displays output in JSON format -v, --version Displays current script version -h, --help Displays this help screen -r <checkName>, --run=<checkName> Executes only the specified check, can be included multiple times -u, --upgradeplan Includes an upgrade plan after health checks --rolling Provide rolling reboot plans --parallel Provide parallel reboot plans [where supported] --simultaneous Provide simultaneous reboot plans [excludes node firmware] -o, --onefs Supports the following comma separated options [ex. 8.1.2,simultaneous]: <version> Uses the provided destination OneFS version simultaneous Simultaneous OneFS upgrade parallel Parallel OneFS upgrade [requires 8.2.2+] rolling Rolling OneFS upgrade exclude-nf Upgrade plans will combine OneFS + node firmware by default [9.2 feature], this option disables that -p, --patches Supports the following comma separated options [ex. none,simultaneous]: none Opt out of patch recommendations simultaneous Simultaneous patch installs parallel Parallel patch installs [requires 9.1+] rolling Rolling patch installs -nf, --node-firmware Supports the following comma separated options [ex. 10.3.3,parallel]: <version> Uses the provided version for node firmware checks none Opt out of node firmware recommendations simultaneous Simultaneous node firmware updates [requires 8.2+] parallel Parallel node firmware updates [requires 8.2+] rolling Rolling node firmware updates -df, --drive-firmware Supports the following comma separated options [ex. 1.32]: <version> Uses the provided version for drive firmware checks none Opt out of drive firmware recommendations -vf, --verify-files Runs checks on files within specified location [ex. /ifs/data/] of certain file type [ex. .isi, .tgz, .tar.gz, .tar] <file location> default location is /ifs/data/ - specify the location where the upgrade files were placed
Additional Information
Tabla de las comprobaciones individuales y el nombre que se utiliza cuando se ejecuta el comando:
--run=CHECK
NOTA: El script de IOCA se actualiza con frecuencia. Si desea ver una nueva lista completa de las comprobaciones, asegúrese de actualizar a la versión más reciente de IOCA en Isilon Cluster y ejecute el siguiente comando para obtener una lista completa.
perl
onefs94-a-1# perl IOCA --run=CHECK
Análisis en el clúster de Isilon 0.1541
Comprobaciones solicitadas, la comprobación no se reconoció.
Las comprobaciones disponibles son:
checkA100Root Verifica si los espejos raíz del nodo A100 necesitan ser redimensionados a 2 GB
checkAPIAuth Verifica la autenticación de API configurada como básica al actualizar del 8.1.2.0 al 9.2 o superior
checkAccessZones Verifica si hay varias zonas de acceso configuradas para actualizaciones a partir de 7.1.1. Comprueba si existen recursos compartidos de SMB anidados o superpuestos. Agrega advertencias cuando se encuentran pools de zonas de acceso que no son del sistema. Solo se aplica a las actualizaciones en OneFS 7.1.1
checkAggregationMode Verifica que el modo de agregación no sea el modo FEC heredado para las actualizaciones a OneFS 8+
checkAspera Verifica si hay servicios de Aspera habilitados. Si se realizan actualizaciones de OneFS, se debe reinstalar después de la actualización
checkAuthStatus Verifica el estado de autenticación en cada nodo. Advierte si algún proveedor de autenticación no está en línea o activo. Verifica RFC2307 y la ubicación automática de GID/UID, y dirige al artículo de la base de conocimientos 000028577
checkBBUDegCap Verifica el nivel de degradación de BBU en los nodos Gen6 y marca cualquier nodo con degradación excesiva, lo que aumentaría el riesgo de que el nodo entre en un estado de RO.
checkBMCandCMC Verifica si hay problemas relacionados con BMC/CMC
checkBXENodes Verifica la existencia de nodos con interfaces BXE y también verifica la existencia de problemas conocidos con KB 000048172 y KB 000064027
checkBootDisks Verifica la vida útil restante del disco de arranque, el nivel de firmware y el recuento histórico de errores
checkCM6FWBug Verifica las versiones de firmware de los discos según los criterios de FCO F022318EE
checkCMOSTimeCentury Verifica si el siglo configurado en la hora CMOS coincide con el siglo actual
checkCapacity Verifica la capacidad del clúster según los números documentados en la Guía de planificación y progreso de actualización Advierte si se aproxima
checkCloudPools Verifica si hay problemas relacionados con CloudPools
checkConfCmtSyntax Verifica sysctl.conf para detectar comentarios sin el símbolo # inicial que podrían causar problemas al analizar el archivo de configuración.
checkContact Displays contact information configured in CELog when run with the --extra argument
checkCoreDumps Checks for recent unexpected process restarts reported in /var/log/messages
checkDTA000194434 Checks for criteria of KB 000194434
checkDestinationOneFS Checks destination OneFS version
checkDiskpools Checks diskpools and class equivalence for OneFS upgrades going across 7.0
checkDriveFirmware Checks for out of date Drive Firmware and calls other related drive firmware checks
checkDriveLoad Checks the current load on the drives
checkDriveStallTimeout Checks current Drive Stall Timeout setting, recommend value is 3.5 seconds (3500000 microseconds) or higher
checkDriveSupportPackage Checks for drive firmware updates available in the Drive Support Package
checkDrivesHealth Checks health of drives and the drive stall timeout setting in sysctl
checkET004252 Checks for criteria of ET004252
checkETAs Checks for Technical Advisories
checkEmailSettings Displays E-mail settings configured in CELog when run with the --extra argument
checkEncoding Checks exports and cluster configuration for if utf-8/default encoding
checkEvents Checks events on all the nodes, failure if any critical events exist
checkFCOF022318EE Checks drive firmware versions for the criteria of FCO F022318EE
checkFCOF031617FC Checks drive firmware versions for the criteria of KB 000024620
checkFCOF042415EE Checks the cluster to see if it meets criteria for FCO F042415EE/KB 000051631
checkFileSharing Checks if Atime is enabled
checkFilepoolPolicies Checks GNA requirements and checks filepools for final match being set and names starting with a number
checkFirmwarePackages In OneFS 9.1 and later, confirms firmware packages are available
checkFlush Checks for running flush processes / active pre_flush screen sessions on clusters
checkGatewayPriority Checks for subnets with duplicate gateway priorities
checkGroups Checks nodes for all enabled protocols. Fails if group info is reporting that an enabled protocol is not functioning on any node
checkHDFS Display HDFS details, only useful when run with --extra
checkHardening Checks if FIPS is enabled on node in the cluster, this needs to be disabled prior to upgrades to 9.5 or higher and re enabled after to avoid assessment failures
checkHardwareStatus Checks battery health, power supplies, and gathers hardware details for use elsewhere
checkHardwareUpgrade Checks if there is an in progress hardware upgrade
checkHealth Verifies cluster health status and node health status
checkIBInterfaces Checks for ib0/1 as being active, checks for ETA180317 IB switch firmware versions, and checks for overlapping IB networks
checkIBPCIeSlot Checks if the InfiniBand card is installed in the wrong slot which may lead node start up issues during an upgrade to OneFS 9 and later releases
checkIDI Checks for IDI errors in the past 90 days
checkISCSI Checks for iSCSI LUNs being configured in /ifs/.ifsvar/iscsi/iscsi.conf (OneFS prior to 8.x only)
checkIndexSnapshotCurrent Checks for current snapshots that are over 2 weeks old and may contirbute to capacity issues
checkInternalPing Checks internal network by performing network ping operations
checkJobHistory Checks job history for issues, currently just MediaScan issues
checkJobStatus Checks for running jobs that would impact an upgrade
checkJobs Checks jobs
checkKB000066019 Checks size of reports.db and flags if over 100MB which may lead to issues outlined on KB 000066019
checkKB000081658 Checks for criteria of KB 000081658
checkKB000181818 Checks for criteria of KB 000181818
checkKB000192800 Checks for critera of KB 000192800
checkKB000196175 Checks for criteria of KB 000196175
checkKB000196762 Checks for criteria of KB 000196762
checkKB000197850 Checks for issues with IB queue pairs that would lead to node reboot issues if IB queue pairs are in a degraded state
checkKB000212387 Checks Authentication providers msDS-SupportedEncryptionTypes attribute to ensure a value is set and assigned, if it is not, there is potential for DU after an upgrade to 9.5 or above.
checkKB000213188 Verifica el hardware de SED en el que la versión actual es inferior a 9.2 y la versión de destino es 9.5 o superior.
checkKB201488 Checks if any node meets criteria for KB 000201488
checkKB201666 Checks if it is necessary to perform the proactive workaround from KB 000201666 for a patch installation and whether the pre-requisites are met
checkKB201933 Checks for criteria of KB 000201933
checkKB203381 Checks for criteria of KB 203381
checkKB220014 Checks for criteria of KB 220014
checkKB462202 Checks BootOrder in bios_settings.ini on Generation 5 nodes to determine if at risk for KB 000025523
checkKB489473 Checks if any node meets criteria for KB 000061983
checkKB490849 Checks if at risk for KB 000052089
checkKB496582 Checks for auth rules issues detailed in KB 000160596
checkKB496993 Checks if the cluster is at risk for KB 000061504
checkKB501267 Checks for the criteria of KB 000026510
checkKB507031 Checks for criteria outlined in KB 000035398
checkKB516613 Checks if any node meets criteria for KB 000057267
checkKB519119 Checks if nodes may be impacted by KB 519119
checkKB519388 Pre-upgrade check for issues outlined in KB 000162270
checkKB519423 Checks if the cluster config files are in a mixed mode
checkKB519890 Checks for a known issue with LAGG interfaces in LACP mode when running OneFS 8.0.0.6, 8.0.1.2, 8.1.0.2, and 8.1.1.1
checkKB521778 Checks for criteria outlined in KB 000031948
checkKB521890 Checks for criteria outlined in KB 000167681
checkKB524082 Checks if the cluster is enabled for HTTP clients and flags a compatibility issue caused by a change in Apache versions
checkKB527312 Check for criteria of KB 000166965
checkKB530050 Check for criteria of KB 000040987
checkKB533516 Checks if cluster uses an IP for AWS CloudPool accounts putting it at risk for DTA 533516
checkKB535582 Checks if at risk for KB 000060471
checkKB537785 Check for criteria of KB 000168829
checkKB540000 Checks for criteria of KB 000058599
checkKB540071 Checks for existence of files under /var/fw/fwpkg when no IsiFw package is installed
checkKB540513 Checks for criteria of KB 000174074
checkKB540872 Checks if the cluster may encounter KB 000170982 during an upgrade from OneFS 8.2 releases
checkKB540901 Checks boot disk partitions for any mismatches in uuids which may lead to boot failures
checkKB544401 Check for critera of KB 000173157
checkKB544854 Check for criteria of KB 000173432
checkKB546604 Checks for criteria of KB 000180866
checkKerberos8000 Checks for an issue with the Kerberos configuration file when upgrading to OneFS 8.0.0.0
checkLACPSFP Checks for LACP on cxgb interfaces for KB 000174095
checkLWIODLog Checks /var/log/lwiod.log for known errors occuring in the last 30 days
checkLastZoneID8000 Checks for gaps in access zones that may cause major issues when upgrading to OneFS 8.0.0.0
checkLeakFreeBlocks Checks for nodes with efs\.lbm\.leak_freed_blocks enabled.
checkLegacyLDAP Verifica si se habilita LDAP heredado en las actualizaciones de OneFS 6 a OneFS 7
checkLicense Verifica las licencias y da instrucciones basadas en las funciones con licencia. Las licencias de InsigntIQ y vCenter proporcionan información de la guía de compatibilidad. iSCSI, instructs to only perform simultaneous OneFS upgrades and that it is not supported in 8.0
checkLinMasterPadding Checks the LIN master padding to be all zeros
checkListenQueue Checks for listen queue overflows to be less than 50,000 per node
checkLogLevel Checks LWSM log levels for NFS, SMB, HDFS, and Authentication
checkLogs Checks Log file presence and flags if any log file specified in list is not present
checkMaintenanceMode Checks if the cluster is currently in maintenance mode
checkMemory Checks each DIMM to meet criteria outlined in KB 000041666 and if the expected (per product info line) matches closely the reported RAM
checkMessagesLog Checks /var/log/messages.log for known errors occuring in the last 30 days
checkMirrors Checks the boot mirror health
checkNDMP Checks for running NDMP sessions
checkNDMP16GB Checks for LNN changes that have occurred since the isi_ndmp_d processes started which can cause issues during the HookDataMigrationUpgrade phase of an OneFS upgrade
checkNDMPUpgradeTimeout Checks for LNN changes that have occurred since the isi_ndmp_d processes started which can cause issues during the HookDataMigrationUpgrade phase of an OneFS upgrade
checkNFS Uses nfsstat to identify RPC errors
checkNetBIOS Checks if the Isilon NetBIOS Name Service (nbns) is enabled when updating to OneFS 8.0.1 and later
checkNetstat Checks connections counts for specific protocols via netstat
checkNetworkParallelUpgrade Checks for the risk of inaccessible network pools during a parallel upgrade
checkNetworkPoolIFaces Checks each network pool and their assigned interfaces, if only 1 interface is configured for any pool and IP Ranges are set, this will cause a failure for pre upgrade mandatory checks
checkNodeCompatibility Checks node compatibility for OneFS upgrades by comparing it against known supported versions
checkNodeFirmware Checks node firmware for updates
checkNodesInstalled Checks for nodes installed to display in an agregated list for visibility
checkOneFSVersions Checks running version and target version for any issues. Error: Cualquier discrepancia de versión en todos los nodos
checkOpenFiles Verifica cada nodo para determinar la cantidad de archivos abiertos [sysctl kern.openfiles] y la compara con la cantidad máxima de archivos abiertos [sysctl kern.maxfiles]. La verificación advertirá cuando se supere el 80 % del máximo y fallará cuando se supere el 90 % del máximo
checkPSCALE136276 Verifica los criterios de PSCALE-136276
checkPartitions Verifica el espacio de partición del sistema
checkPatches Verifica los parches altamente recomendados, en la versión actual si no se especifica una versión objetivo, o para la versión objetivo
checkPerformance Verifica el rendimiento del clúster
checkProcesses Verifica problemas relacionados con los procesos de OpenSM master, MCP, isi_mca_dump e isi_upgrade_d
checkProtectionLevel Verifica los niveles de protección de los pools de almacenamiento
checkRealACL Verifica si las ACL reales están configuradas o establecidas en /ifs/.ifsvar o ifs/.ifsvar/patch. Estas no deben configurarse y, si lo están, causaría un problema para las actualizaciones/instalaciones
checkRemoteSupport Verifica si el shell restringido está habilitado e isi_supportassist. Si ambos están habilitados y se actualiza a la versión 9.7, esto causará problemas para que los servicios de asistencia de soporte se reinicien.
checkRoutingTables Muestra la tabla de enrutamiento para cada nodo
checkSBR8000 Verifica si SBR está habilitado antes de la actualización para actualizaciones de OneFS que apuntan a 8.0.0.0/1
checkSNMPDConfig Verifica tanto SNMPD.config como isilon_serial_number para asegurarse de que no tengan 0 bytes
checkSPNs Muestra una lista de SPN, solo es útil cuando se ejecuta con --extra
checkSRS Verifica la configuración de conectividad remota para detectar problemas
checkSSHDConfig Verifica los archivos /etc/mcp/templates/sshd_config para detectar problemas conocidos
checkSWIFTAccounts Verifica las cuentas de SWIFT que se utilizan para establecer la prioridad de la marca cuando SWIFT tiene licencia y se está realizando una actualización a 9.5 o superior
checkServices Verifica los servicios comunes para asegurarse de que estén en los estados esperados
checkServicesMonitoring Verifica que los servicios habilitados estén siendo monitoreados
checkSmartConnect Verifica que las IP del servicio SmartConnect estén todas asignadas y no se estén utilizando para la conectividad del cliente
checkSnapshot Verifica si el recuento de instantáneas se acerca al límite del clúster de 20 000, si la eliminación automática está configurada en sí, y verifica los registros de instantáneas. Verifica los registros de instantáneas en busca de EIN/EIO/EDEADLK/No se pudo crear la instantánea
checkStaticRouteConflict Verifica si hay rutas estáticas en conflicto
checkStoragePools Verifica los pools de almacenamiento para determinar si hay problemas de estado/capacidad/unidades no aprovisionadas
checkSupportability Verifica la compatibilidad del hardware y el software del clúster
checkSwitchCompatibility Verifica los switches back-end Dell para confirmar que sean al menos la versión 10.5.0.6
checkSymLink Verifica si /var/patch/catalog o /var/patch/tmp están enlazados simbólicamente o si el catálogo es un archivo en lugar de un directorio.
checkSyncIQ Recopila información de SyncIQ de origen y destino, e informa a los partners de SyncIQ. Verifica un problema en el que tener una gran cantidad de archivos de informe de SyncIQ hace que un proceso tar retrase otros procesos de actualización, lo que podría dejar el clúster en una situación de DU temporal durante un período prolongado
checkSystemFlag Verifica grupos de discos con la marca de sistema establecida
checkTimeDrift Verifica la desviación de tiempo entre nodos
checkTimeSync Verifica si el clúster está habilitado para sincronizarse con un servidor externo
checkTimeZone Verifica la falta de zona horaria en el nivel de código OneFS objetivo
checkUIDGID Verifica valores de UID/GID mayores que 262143 para archivos ubicados en / y /var
checkUpgrade Verifica problemas relacionados con actualizaciones en curso. Advierte si el servicio isi_upgrade_d está habilitado. Se produce un error si el estado no es asignado. Falla si ya hay una actividad de actualización en curso. Verifica la versión fs_fmt_version; una versión impar o cero es problemática
checkUpgradeAgentPort Verifica el puerto utilizado por el demonio isi_upgrade_agent_d para asegurarse de que no esté en uso por parte de otros procesos
checkUpgradePath Verifica dónde se requieren múltiples saltos y proporciona los detalles necesarios
checkUptime Verifica el tiempo de actividad del nodo, advierte si supera los 200 días y marca las ETA del tiempo de actividad
checkVaultCard Verifica la presencia de la tarjeta de vault M.2 en nodos de Generación 6 y confirma que el umbral de estado SMART no ha sido superado en ese dispositivo
checkZoneLocalAuth Para actualizaciones a OneFS 8.2 y posteriores, verifica si los proveedores locales están asociados con otras zonas de acceso
Estos son algunos recursos recomendados relacionados con este tema que pueden ser de ayuda: