PowerScale : exécution de l’outil On-Cluster Analysis
Summary: Instructions sur l’utilisation de l’outil Isilon On-Cluster Analysis (IOCA) et l’interprétation des résultats.
Instructions
L’outil Isilon On-Cluster Analysis (IOCA) analyse l’état d’un cluster PowerScale en cours d’exécution et facilite* la planification des mises à niveau.
* L’outil IOCA n’est pas conçu pour remplacer la vérification des documents relatifs à la mise à niveau en préparation des activités de mise à niveau. Consultez le document OneFS Upgrade Planning and Process Guide :
La dernière version de l’outil IOCA peut être téléchargée depuis Lightning.
Remarque : la dernière version est téléchargée même si la date du téléchargement est antérieure.
Remarque : une fois l’outil téléchargé et transféré sur votre cluster, vous devez décompresser IOCA et IOCA.sha256 à l’aide de
# tar -xvf IOCA.tar IOCA IOCA.sha256
Pour vérifier l’intégrité d’IOCA, vous pouvez utiliser le fichier sha256 dans le package tar ci-dessus ou utiliser un fichier IOCA.sha256 indépendant disponible au téléchargement ici.
Une fois téléchargé, transférez-le au même emplacement que le script IOCA (veillez à remplacer le fichier IOCA.sha256 existant).
Si vous utilisez sha256sum :
# sha256sum -c /home/nyhanj1/IOCA.sha256 ./IOCA: OK
Observez le résultat en gras ci-dessus et confirmez qu’il indique OK
Si vous n’avez pas sha256sum :
# cat IOCA.sha256 a55c9efcea29776317d3b3ed36c504dcab08d1f945161f6ac6c8bbb315f31bb0 ./IOCA
# sha256 IOCA SHA256 (IOCA) = a55c9efcea29776317d3b3ed36c504dcab08d1f945161f6ac6c8bbb315f31bb0
Vérifiez manuellement que les deux sommes de contrôle correspondent.
Pour exécuter IOCA sur un cluster :
- Vérifiez que vous êtes connecté au cluster approprié. Exécutez la commande suivante pour afficher les numéros de série dans le cluster, puis vérifiez que le numéro de série de la demande de service figure dans la liste :
isi_for_array cat /etc/isilon_serial_number
- À l’aide des commandes suivantes, créez le répertoire /ifs/data/Isilon_Support/ s’il n’existe pas et accédez à celui-ci :
mkdir -pv /ifs/data/Isilon_Support
cd /ifs/data/Isilon_Support
-
Placez la dernière version d’IOCA sur le cluster dans le répertoire /ifs/data/Isilon_Support/ :
- Si une version antérieure existe, vérifiez qu’il s’agit bien de la dernière version en exécutant la commande ci-dessous et en comparant la version avec celle disponible pour téléchargement. La version est indiquée en haut du script de contrôle d’intégrité.
perl IOCA -vExécutez l’outil IOCA en ajoutant éventuellement des arguments supplémentaires. Dans l’exemple suivant, la vérification préalable à la mise à niveau inclut les vérifications d’une mise à niveau vers la version 9.5.1.0 et affiche une recommandation de plan de mise à niveau après les résultats du contrôle d’intégrité :
perl IOCA -u 9.5.1.0
- Collectez les résultats et ajoutez-les dans la demande de service.
- Vérifiez si les contrôles d’intégrité contiennent des messages FAIL ou WARN indiquant des problèmes potentiels.
Interprétation de la sortie de l’outil IOCA
Pour chaque élément du contrôle d’intégrité, si un problème est identifié, un article de la base de connaissances y est généralement associé. Cet outil était initialement un outil interne, certains articles qu’il présente ne sont donc pas encore accessibles en externe. Nous travaillons actuellement pour que ces articles référencés soient accessibles à un public externe.
Voici un exemple de sortie en cas d’échec de vérification de la surveillance matérielle d’un contrôleur BMC ou CMC sur un cluster :
BMC/CMC Hardware Monitoring FAIL
FAIL: Hardware monitoring issues detected on nodes: 2
INFO: 3 nodes have out of date CMC firmware versions: 1-3
INFO: Refer to KB489050 (https://support.emc.com/kb/489050) for details.
Dans cet exemple, il montre un FAIL pour le nœud 2 présentant des problèmes de surveillance du matériel. Il inclut également INFO qui indique que les versions du firmware du CMC sont obsolètes sur les nœuds 1 à 3. Enfin, il contient un article de la base de connaissances qui contient les étapes de résolution.
Mode de conformité
IOCA est exécuté de la même manière sur les clusters activés en mode de conformité que pour les clusters en mode de non-conformité. Il n’est pas nécessaire de l’exécuter avec sudo. Toutefois, l’utilisateur compadmin doit être le propriétaire du script IOCA pour pouvoir l’exécuter.
La syntaxe et les arguments ou filtres disponibles pour IOCA sont les suivants :
Usage: IOCA [options] [destination OneFS version] -d, --debug Display debugging information -e, --extra Displays extra details as part of each check -j, --json Displays output in JSON format -v, --version Displays current script version -h, --help Displays this help screen -r <checkName>, --run=<checkName> Executes only the specified check, can be included multiple times -u, --upgradeplan Includes an upgrade plan after health checks --rolling Provide rolling reboot plans --parallel Provide parallel reboot plans [where supported] --simultaneous Provide simultaneous reboot plans [excludes node firmware] -o, --onefs Supports the following comma separated options [ex. 8.1.2,simultaneous]: <version> Uses the provided destination OneFS version simultaneous Simultaneous OneFS upgrade parallel Parallel OneFS upgrade [requires 8.2.2+] rolling Rolling OneFS upgrade exclude-nf Upgrade plans will combine OneFS + node firmware by default [9.2 feature], this option disables that -p, --patches Supports the following comma separated options [ex. none,simultaneous]: none Opt out of patch recommendations simultaneous Simultaneous patch installs parallel Parallel patch installs [requires 9.1+] rolling Rolling patch installs -nf, --node-firmware Supports the following comma separated options [ex. 10.3.3,parallel]: <version> Uses the provided version for node firmware checks none Opt out of node firmware recommendations simultaneous Simultaneous node firmware updates [requires 8.2+] parallel Parallel node firmware updates [requires 8.2+] rolling Rolling node firmware updates -df, --drive-firmware Supports the following comma separated options [ex. 1.32]: <version> Uses the provided version for drive firmware checks none Opt out of drive firmware recommendations -vf, --verify-files Runs checks on files within specified location [ex. /ifs/data/] of certain file type [ex. .isi, .tgz, .tar.gz, .tar] <file location> default location is /ifs/data/ - specify the location where the upgrade files were placed
Additional Information
Tableau des vérifications individuelles et nom utilisé lors de l’exécution de la commande :
--run=CHECK
Remarque : le script IOCA est fréquemment mis à jour. Pour obtenir une nouvelle liste complète des vérifications, assurez-vous d’effectuer une mise à jour vers la dernière version d’IOCA sur le cluster Isilon et d’exécuter la commande ci-dessous.
perl
onefs94-a-1# perl IOCA --run=CHECK
Isilon On-Cluster Analysis 0.1541
Les vérifications demandées n’ont pas été reconnues.
Les vérifications disponibles sont les suivantes :
checkA100Root Vérifie si les miroirs racine du nœud A100 doivent être redimensionnés à 2 Go
checkAPIAuth Vérifie que l’authentification de l’API est définie sur « basic » lors de la mise à niveau de la version 8.1.2.0 vers la version 9.2 ou plus
checkAccessZones Vérifie si plusieurs zones d’accès sont configurées pour les mises à niveau vers la version 7.1.1. Vérifie les partages SMB imbriqués ou qui se chevauchent. Ajoute des avertissements lorsque des pools de zones d’accès non système sont détectés. S’applique uniquement aux mises à niveau vers OneFS 7.1.1
checkAggregationMode Vérifie que le mode d’agrégation n’est pas le mode FEC existant pour les mises à niveau vers OneFS 8+
checkAspera Vérifie si des services Aspera sont activés. Si des mises à niveau de OneFS sont en cours, ils doivent être réinstallés après la mise à niveau
checkAuthStatus Vérifie l’état de l’authentification sur chaque nœud. Avertit si un fournisseur d’authentification n’est pas en ligne ou actif. Vérifie la norme RFC2307 et la localisation automatique des GID/UID, et redirige vers l’article 000028577 de la base de connaissances
checkBBUDegCap Vérifie le niveau de dégradation de la BBU sur les nœuds Gen6 et signale tout nœud présentant une dégradation excessive qui augmenterait le risque de passer à l’état RO.
checkBMCandCMC Vérifie les problèmes liés à BMC/CMC
checkBXENodes Vérifie l’existence de nœuds avec des interfaces BXE, vérifie également les problèmes connus mentionnés dans les articles 000048172 et 000064027 de la base de connaissances
checkBootDisks Vérifie la durée de vie restante du disque de démarrage, le niveau du firmware et le nombre d’erreurs historiques
checkCM6FWBug Vérifie que les versions du firmware du disque répondent aux critères du FCO F022318EE
checkCMOSTimeCentury Vérifie si le siècle configuré dans l’horloge CMOS correspond au siècle actuel
checkCapacity Vérifie la capacité du cluster en fonction des numéros documentés dans le Guide de planification et de progression des mises à niveau. Avertit si la capacité approche des limites
checkCloudPools Vérifie les problèmes liés à CloudPools
checkConfCmtSyntax Recherche tout commentaire ne commençant pas par le symbole # dans sysctl.conf, ce qui poserait un problème d’analyse du fichier conf.
checkContact Displays contact information configured in CELog when run with the --extra argument
checkCoreDumps Checks for recent unexpected process restarts reported in /var/log/messages
checkDTA000194434 Checks for criteria of KB 000194434
checkDestinationOneFS Checks destination OneFS version
checkDiskpools Checks diskpools and class equivalence for OneFS upgrades going across 7.0
checkDriveFirmware Checks for out of date Drive Firmware and calls other related drive firmware checks
checkDriveLoad Checks the current load on the drives
checkDriveStallTimeout Checks current Drive Stall Timeout setting, recommend value is 3.5 seconds (3500000 microseconds) or higher
checkDriveSupportPackage Checks for drive firmware updates available in the Drive Support Package
checkDrivesHealth Checks health of drives and the drive stall timeout setting in sysctl
checkET004252 Checks for criteria of ET004252
checkETAs Checks for Technical Advisories
checkEmailSettings Displays E-mail settings configured in CELog when run with the --extra argument
checkEncoding Checks exports and cluster configuration for if utf-8/default encoding
checkEvents Checks events on all the nodes, failure if any critical events exist
checkFCOF022318EE Checks drive firmware versions for the criteria of FCO F022318EE
checkFCOF031617FC Checks drive firmware versions for the criteria of KB 000024620
checkFCOF042415EE Checks the cluster to see if it meets criteria for FCO F042415EE/KB 000051631
checkFileSharing Checks if Atime is enabled
checkFilepoolPolicies Checks GNA requirements and checks filepools for final match being set and names starting with a number
checkFirmwarePackages In OneFS 9.1 and later, confirms firmware packages are available
checkFlush Checks for running flush processes / active pre_flush screen sessions on clusters
checkGatewayPriority Checks for subnets with duplicate gateway priorities
checkGroups Checks nodes for all enabled protocols. Fails if group info is reporting that an enabled protocol is not functioning on any node
checkHDFS Display HDFS details, only useful when run with --extra
checkHardening Checks if FIPS is enabled on node in the cluster, this needs to be disabled prior to upgrades to 9.5 or higher and re enabled after to avoid assessment failures
checkHardwareStatus Checks battery health, power supplies, and gathers hardware details for use elsewhere
checkHardwareUpgrade Checks if there is an in progress hardware upgrade
checkHealth Verifies cluster health status and node health status
checkIBInterfaces Checks for ib0/1 as being active, checks for ETA180317 IB switch firmware versions, and checks for overlapping IB networks
checkIBPCIeSlot Checks if the InfiniBand card is installed in the wrong slot which may lead node start up issues during an upgrade to OneFS 9 and later releases
checkIDI Checks for IDI errors in the past 90 days
checkISCSI Checks for iSCSI LUNs being configured in /ifs/.ifsvar/iscsi/iscsi.conf (OneFS prior to 8.x only)
checkIndexSnapshotCurrent Checks for current snapshots that are over 2 weeks old and may contirbute to capacity issues
checkInternalPing Checks internal network by performing network ping operations
checkJobHistory Checks job history for issues, currently just MediaScan issues
checkJobStatus Checks for running jobs that would impact an upgrade
checkJobs Checks jobs
checkKB000066019 Checks size of reports.db and flags if over 100MB which may lead to issues outlined on KB 000066019
checkKB000081658 Checks for criteria of KB 000081658
checkKB000181818 Checks for criteria of KB 000181818
checkKB000192800 Checks for critera of KB 000192800
checkKB000196175 Checks for criteria of KB 000196175
checkKB000196762 Checks for criteria of KB 000196762
checkKB000197850 Checks for issues with IB queue pairs that would lead to node reboot issues if IB queue pairs are in a degraded state
checkKB000212387 Checks Authentication providers msDS-SupportedEncryptionTypes attribute to ensure a value is set and assigned, if it is not, there is potential for DU after an upgrade to 9.5 or above.
checkKB000213188 Recherche le matériel SED dont la version actuelle est antérieure à la 9.2 et dont la version cible correspond à la 9.5 ou plus.
checkKB201488 Checks if any node meets criteria for KB 000201488
checkKB201666 Checks if it is necessary to perform the proactive workaround from KB 000201666 for a patch installation and whether the pre-requisites are met
checkKB201933 Checks for criteria of KB 000201933
checkKB203381 Checks for criteria of KB 203381
checkKB220014 Checks for criteria of KB 220014
checkKB462202 Checks BootOrder in bios_settings.ini on Generation 5 nodes to determine if at risk for KB 000025523
checkKB489473 Checks if any node meets criteria for KB 000061983
checkKB490849 Checks if at risk for KB 000052089
checkKB496582 Checks for auth rules issues detailed in KB 000160596
checkKB496993 Checks if the cluster is at risk for KB 000061504
checkKB501267 Checks for the criteria of KB 000026510
checkKB507031 Checks for criteria outlined in KB 000035398
checkKB516613 Checks if any node meets criteria for KB 000057267
checkKB519119 Checks if nodes may be impacted by KB 519119
checkKB519388 Pre-upgrade check for issues outlined in KB 000162270
checkKB519423 Checks if the cluster config files are in a mixed mode
checkKB519890 Checks for a known issue with LAGG interfaces in LACP mode when running OneFS 8.0.0.6, 8.0.1.2, 8.1.0.2, and 8.1.1.1
checkKB521778 Checks for criteria outlined in KB 000031948
checkKB521890 Checks for criteria outlined in KB 000167681
checkKB524082 Checks if the cluster is enabled for HTTP clients and flags a compatibility issue caused by a change in Apache versions
checkKB527312 Check for criteria of KB 000166965
checkKB530050 Check for criteria of KB 000040987
checkKB533516 Checks if cluster uses an IP for AWS CloudPool accounts putting it at risk for DTA 533516
checkKB535582 Checks if at risk for KB 000060471
checkKB537785 Check for criteria of KB 000168829
checkKB540000 Checks for criteria of KB 000058599
checkKB540071 Checks for existence of files under /var/fw/fwpkg when no IsiFw package is installed
checkKB540513 Checks for criteria of KB 000174074
checkKB540872 Checks if the cluster may encounter KB 000170982 during an upgrade from OneFS 8.2 releases
checkKB540901 Checks boot disk partitions for any mismatches in uuids which may lead to boot failures
checkKB544401 Check for critera of KB 000173157
checkKB544854 Check for criteria of KB 000173432
checkKB546604 Checks for criteria of KB 000180866
checkKerberos8000 Checks for an issue with the Kerberos configuration file when upgrading to OneFS 8.0.0.0
checkLACPSFP Checks for LACP on cxgb interfaces for KB 000174095
checkLWIODLog Checks /var/log/lwiod.log for known errors occuring in the last 30 days
checkLastZoneID8000 Checks for gaps in access zones that may cause major issues when upgrading to OneFS 8.0.0.0
checkLeakFreeBlocks Checks for nodes with efs\.lbm\.leak_freed_blocks enabled.
checkLegacyLDAP Vérifie si le LDAP existant est activé dans les mises à niveau OneFS 6 vers OneFS 7
checkLicense Vérifie les licences et donne des instructions en fonction des fonctionnalités sous licence. Licences InsigntIQ et vCenter : fournit des informations provenant du guide de compatibilité. iSCSI, instructs to only perform simultaneous OneFS upgrades and that it is not supported in 8.0
checkLinMasterPadding Checks the LIN master padding to be all zeros
checkListenQueue Checks for listen queue overflows to be less than 50,000 per node
checkLogLevel Checks LWSM log levels for NFS, SMB, HDFS, and Authentication
checkLogs Checks Log file presence and flags if any log file specified in list is not present
checkMaintenanceMode Checks if the cluster is currently in maintenance mode
checkMemory Checks each DIMM to meet criteria outlined in KB 000041666 and if the expected (per product info line) matches closely the reported RAM
checkMessagesLog Checks /var/log/messages.log for known errors occuring in the last 30 days
checkMirrors Checks the boot mirror health
checkNDMP Checks for running NDMP sessions
checkNDMP16GB Checks for LNN changes that have occurred since the isi_ndmp_d processes started which can cause issues during the HookDataMigrationUpgrade phase of an OneFS upgrade
checkNDMPUpgradeTimeout Checks for LNN changes that have occurred since the isi_ndmp_d processes started which can cause issues during the HookDataMigrationUpgrade phase of an OneFS upgrade
checkNFS Uses nfsstat to identify RPC errors
checkNetBIOS Checks if the Isilon NetBIOS Name Service (nbns) is enabled when updating to OneFS 8.0.1 and later
checkNetstat Checks connections counts for specific protocols via netstat
checkNetworkParallelUpgrade Checks for the risk of inaccessible network pools during a parallel upgrade
checkNetworkPoolIFaces Checks each network pool and their assigned interfaces, if only 1 interface is configured for any pool and IP Ranges are set, this will cause a failure for pre upgrade mandatory checks
checkNodeCompatibility Checks node compatibility for OneFS upgrades by comparing it against known supported versions
checkNodeFirmware Checks node firmware for updates
checkNodesInstalled Checks for nodes installed to display in an agregated list for visibility
checkOneFSVersions Checks running version and target version for any issues. Défaillance : incompatibilité de versions entre tous les nœuds
checkOpenFiles Vérifie le nombre de fichiers ouverts [sysctl kern.openfiles] pour chaque nœud et le compare au nombre maximal de fichiers ouverts [sysctl kern.maxfiles]. Avertissement à plus de 80 % de la valeur maximale et échec à plus de 90 % de la valeur maximale
checkPSCALE136276 Vérifie les critères de PSCALE-136276
checkPartitions Vérifie l’espace de partition système
checkPatches Vérifie les correctifs fortement recommandés, sur la version actuelle si aucune version cible n’est spécifiée, ou sur la version cible
checkPerformance Vérifie les performances du cluster
checkProcesses Vérifie les problèmes liés aux processus OpenSM master, MCP, isi_mca_dump et isi_upgrade_d
checkProtectionLevel Vérifie les niveaux de protection des pools de stockage
checkRealACL Vérifie si les ACL réelles sont configurées/définies sur /ifs/.ifsvar ou ifs/.ifsvar/patch. Elles ne doivent pas être définies, au risque d’entraîner des problèmes de mise à niveau/d’installation
checkRemoteSupport Vérifie si le shell restreint et isi_supportassist sont activés. S’ils sont tous les deux activés et que vous passez à la version 9.7, les services SupportAssist rencontreront un problème au redémarrage.
checkRoutingTables Affiche la table de routage pour chaque nœud
checkSBR8000 Vérifie si SBR est activé avant la mise à niveau pour les mises à niveau OneFS ciblant la version 8.0.0.0/1
checkSNMPDConfig Vérifie à la fois SNMPD.config et isilon_serial_number pour s’assurer qu’ils ne font pas 0 octets
checkSPNs Affiche une liste de SPN, utiles uniquement lorsqu’ils sont exécutés avec --extra
checkSRS Recherche les problèmes de configuration de la connectivité à distance
checkSSHDConfig Recherche les problèmes connus dans les fichiers /etc/mcp/templates/sshd_config
checkSWIFTAccounts Vérifie les comptes SWIFT. Cette vérification est ensuite utilisée pour définir la priorité de la balise lorsque SWIFT est sous licence et qu’une mise à niveau vers la version 9.5 ou plus est en cours
checkServices Vérifie les services communs pour s’assurer qu’ils sont dans les états attendus
checkServicesMonitoring Vérifie que les services activés sont surveillés
checkSmartConnect Vérifiez que les adresses IP du service SmartConnect sont toutes attribuées et ne sont pas utilisées pour la connectivité client
checkSnapshot Vérifie si le nombre de snapshots est proche de la limite du cluster fixée à 20 000, si la suppression automatique est définie sur « oui », et vérifie les journaux des snapshots. Vérifie les journaux des snapshots pour EIN/EIO/EDEADLK/Échec de la création de snapshots
checkStaticRouteConflict Vérifie les conflits de routes statiques
checkStoragePools Recherche les problèmes d’intégrité/de capacité/de disque non provisionné dans les pools de stockage
checkSupportability Vérifie la prise en charge matérielle et logicielle du cluster
checkSwitchCompatibility Vérifie les commutateurs Dell back-end pour confirmer qu’ils sont au moins à la version 10.5.0.6
checkSymLink Vérifie que /var/patch/catalog ou /var/patch/tmp sont des liens symboliques ou si le catalogue est un fichier au lieu d’un répertoire.
checkSyncIQ Collecte les informations SyncIQ sources et cibles et signale les partenaires de SyncIQ. Recherche un problème dans lequel un grand nombre de fichiers de rapport SyncIQ entraîne le report d’autres processus de mise à niveau par un processus tar, laissant potentiellement le cluster dans un scénario DU temporaire pendant une période prolongée
checkSystemFlag Recherche les pools de disques avec l’attribut système activé
checkTimeDrift Vérifie l’écart de temps entre les nœuds
checkTimeSync Vérifie si la synchronisation avec un serveur externe est activée pour le cluster
checkTimeZone Recherche les fuseaux horaires manquants dans le niveau de code OneFS cible
checkUIDGID Recherche les valeurs UID/GID supérieures à 262143 pour les fichiers situés dans / et /var
checkUpgrade Recherche les problèmes liés aux mises à niveau en cours. Avertit si le service isi_upgrade_d est activé. Échoue s’il n’est pas dans un état validé. Échoue si une activité de mise à niveau est déjà en cours. Vérifie fs_fmt_version ; une valeur fs_fmt_version impaire ou égale à zéro est problématique
checkUpgradeAgentPort Vérifie le port utilisé par le démon isi_upgrade_agent_d pour s’assurer qu’il n’est pas utilisé par d’autres processus
checkUpgradePath Vérifie là où plusieurs sauts sont requis et fournit les détails spécifiques requis
checkUptime Vérifie le temps d’activité des nœuds, avertit s’il dépasse 200 jours et signale les estimations de redémarrage à prévoir
checkVaultCard Vérifie la présence de la carte Vault M.2 dans les nœuds Gen6 et confirme que le seuil d’état SMART n’a pas été dépassé sur cet appareil
checkZoneLocalAuth Pour les mises à niveau vers OneFS 8.2 et plus, vérifie si les fournisseurs en local sont associés à d’autres zones d’accès
Voici quelques ressources recommandées sur ce sujet susceptibles de vous aider :