PowerScale. Как запустить инструмент On-Cluster Analysis
Summary: Инструкции по использованию инструмента Isilon On-Cluster Analysis (IOCA) и интерпретации результатов.
Instructions
Инструмент Isilon On-Cluster Analysis (IOCA) анализирует состояние PowerScale Cluster и помогает* в планировании модернизаций.
* IOCA не позволяет отказаться от рассмотрения документов о модернизации при подготовке к модернизации. Ознакомьтесь с руководством по планированию и процессу модернизации OneFS.
Последняя версия инструмента IOCA доступна для скачивания на веб-сайте Lightning.
ПРИМЕЧАНИЕ. Даже если указанная при скачивании дата устарела, скачивается последняя версия инструмента.
ПРИМЕЧАНИЕ. После скачивания и передачи инструмента в кластер необходимо распаковать IOCA и IOCA.sha256 с помощью
# tar -xvf IOCA.tar IOCA IOCA.sha256
Чтобы проверить целостность IOCA, можно использовать файл sha256 в указанном выше пакете tar или независимый файл IOCA.sha256,размещенный здесь для скачивания.
После скачивания перенесите его в то же расположение, что и сценарий IOCA (обязательно перезапишите существующий файл IOCA.sha256).
Если используется sha256sum, выполните следующие действия.
# sha256sum -c /home/nyhanj1/IOCA.sha256 ./IOCA: OK
Обратите внимание на результат, выделенный полужирным шрифтом выше, и убедитесь, что он OK
Если у вас нет sha256sum, выполните следующие действия.
# cat IOCA.sha256 a55c9efcea29776317d3b3ed36c504dcab08d1f945161f6ac6c8bbb315f31bb0 ./IOCA
# sha256 IOCA SHA256 (IOCA) = a55c9efcea29776317d3b3ed36c504dcab08d1f945161f6ac6c8bbb315f31bb0
Вручную проверьте соответствие обеих контрольных сумм.
Для запуска IOCA в кластере выполните следующие действия.
- Убедитесь, что вы подключены к нужному кластеру. Выполните приведенную ниже команду для отображения серийных номеров в кластере и убедитесь, что в списке отображается серийный номер сервисной заявки:
isi_for_array cat /etc/isilon_serial_number
- Создайте каталог /ifs/data/Isilon_Support/, если он не существует, и откройте его путем выполнения следующих команд:
mkdir -pv /ifs/data/Isilon_Support
cd /ifs/data/Isilon_Support
-
Поместите последнюю версию IOCA в кластер в каталоге /ifs/data/Isilon_Support/.
- При наличии предыдущей версии инструмента убедитесь, что она является последней. Для этого выполните приведенную ниже команду и сравните версию инструмента с версией, доступной для скачивания. Версия указана в верхней части сценария диагностики системы.
perl IOCA -vЗапустите инструмент IOCA, добавив дополнительные аргументы. В приведенном ниже примере проверка перед модернизацией предусматривает проведение проверок на наличие модернизации до версии 9.5.1.0 и отображение рекомендуемого плана модернизации после получения результатов диагностики системы.
perl IOCA -u 9.5.1.0
- Соберите выходные данные и отправьте их в сервисную заявку.
- Проверьте результаты диагностики системы на наличие всех выявленных сообщений FAIL и WARN о возможных проблемах.
Интерпретация выходных данных IOCA
Как правило, к каждому элементу диагностики системы привязана статья базы знаний (KB), которую можно использовать при обнаружении проблем. Изначально IOCA представлял собой инструмент для внутреннего использования, в связи с чем некоторые статьи, на которые он ссылается, могут быть недоступны для внешнего использования. В настоящее время ведется работа по упрощению доступа к этим статьям для внешней аудитории.
Ниже приводится пример выходных данных о сбое проверки мониторинга оборудования BMC или CMC в кластере.
BMC/CMC Hardware Monitoring FAIL
FAIL: Hardware monitoring issues detected on nodes: 2
INFO: 3 nodes have out of date CMC firmware versions: 1-3
INFO: Refer to KB489050 (https://support.emc.com/kb/489050) for details.
В этом примере предусмотрено сообщение FAIL для узла 2 с проблемами мониторинга оборудования. Кроме того, в нем содержится сообщение INFO, которое показывает, что версии микропрограммы CMC на узлах 1–3 устарели. И наконец, в этот пример включена статья базы знаний, которая содержит пошаговую инструкцию по устранению проблем.
Режим соответствия
В кластерах с поддержкой режима соответствия IOCA работает так же, как в кластерах без поддержки режима соответствия. Нет необходимости запускать IOCA с использованием sudo. Тем не менее, для выполнения сценария IOCA пользователь compadmin должен быть владельцем этого сценария.
Ниже представлены сведения об использовании IOCA и доступных аргументов или фильтров.
Usage: IOCA [options] [destination OneFS version] -d, --debug Display debugging information -e, --extra Displays extra details as part of each check -j, --json Displays output in JSON format -v, --version Displays current script version -h, --help Displays this help screen -r <checkName>, --run=<checkName> Executes only the specified check, can be included multiple times -u, --upgradeplan Includes an upgrade plan after health checks --rolling Provide rolling reboot plans --parallel Provide parallel reboot plans [where supported] --simultaneous Provide simultaneous reboot plans [excludes node firmware] -o, --onefs Supports the following comma separated options [ex. 8.1.2,simultaneous]: <version> Uses the provided destination OneFS version simultaneous Simultaneous OneFS upgrade parallel Parallel OneFS upgrade [requires 8.2.2+] rolling Rolling OneFS upgrade exclude-nf Upgrade plans will combine OneFS + node firmware by default [9.2 feature], this option disables that -p, --patches Supports the following comma separated options [ex. none,simultaneous]: none Opt out of patch recommendations simultaneous Simultaneous patch installs parallel Parallel patch installs [requires 9.1+] rolling Rolling patch installs -nf, --node-firmware Supports the following comma separated options [ex. 10.3.3,parallel]: <version> Uses the provided version for node firmware checks none Opt out of node firmware recommendations simultaneous Simultaneous node firmware updates [requires 8.2+] parallel Parallel node firmware updates [requires 8.2+] rolling Rolling node firmware updates -df, --drive-firmware Supports the following comma separated options [ex. 1.32]: <version> Uses the provided version for drive firmware checks none Opt out of drive firmware recommendations -vf, --verify-files Runs checks on files within specified location [ex. /ifs/data/] of certain file type [ex. .isi, .tgz, .tar.gz, .tar] <file location> default location is /ifs/data/ - specify the location where the upgrade files were placed
Additional Information
Таблица отдельных проверок и имя, используемое при выполнении команды:
--run=CHECK
ПРИМЕЧАНИЕ. Сценарий IOCA часто обновляется. Чтобы просмотреть новый полный список проверок, обновите IOCA до последней версии в Isilon Cluster и выполните приведенную ниже команду.
perl
onefs94-a-1# perl IOCA --run=CHECK
Анализ в кластере Isilon 0.1541
Запрошенные проверки не распознаны.
Доступные проверки:
checkA100Root Проверяет, нужно ли изменить размер зеркал корня узла A100 на 2 Гбайт.
checkAPIAuth Проверяет, настроена ли API-аутентификация как базовая, при модернизации с 8.1.2.0 до 9.2 или более поздней версии.
checkAccessZones Проверяет, настроены ли несколько зон доступа для модернизаций в пределах 7.1.1. Проверяет наличие вложенных или перекрывающихся общих ресурсов SMB. Добавляет предупреждения при обнаружении пулов зон доступа, не относящихся к системе, применяется только для модернизаций в пределах OneFS 7.1.1.
checkAggregationMode Проверяет, что режим агрегирования не является режимом Legacy FEC для модернизаций до OneFS 8+.
checkAspera Проверяет, включены ли какие-либо службы aspera. При выполнении модернизаций OneFS необходимо осуществить переустановку после модернизации.
checkAuthStatus Проверяет состояние аутентификации на каждом узле. Предупреждает, если какие-либо поставщики аутентификации не находятся в оперативном режиме или не активны. Проверяет RFC2307 и автоматический поиск GID/UID и указывает на статью базы знаний 000028577.
checkBBUDegCap Проверяет уровень деградации BBU на узлах Gen6 и отмечает все узлы с чрезмерной деградацией, что увеличивает риск перехода узла в состояние RO.
checkBMCandCMC Проверяет наличие проблем, связанных с BMC/CMC.
checkBXENodes Проверяет наличие узлов с интерфейсами BXE, а также наличие известных проблем из статей базы знаний 000048172 и 000064027.
checkBootDisks Проверяет оставшийся срок службы загрузочного диска до износа, версию микропрограммы и историческое количество ошибок.
checkCM6FWBug Проверяет версии микропрограмм накопителей по критериям FCO F022318EE.
checkCMOSTimeCentury Проверяет соответствие века, настроенного для времени CMOS, текущему веку.
checkCapacity Проверяет емкость кластера на основе значений, указанных в руководстве по планированию и процессу модернизации. Предупреждает о приближении к пределу.
checkCloudPools Проверяет наличие проблем, связанных с CloudPools.
checkConfCmtSyntax Проверяет sysctl.conf на наличие комментариев без символа # в начале, которые могут вызывать проблему при анализе файла conf.
checkContact Displays contact information configured in CELog when run with the --extra argument
checkCoreDumps Checks for recent unexpected process restarts reported in /var/log/messages
checkDTA000194434 Checks for criteria of KB 000194434
checkDestinationOneFS Checks destination OneFS version
checkDiskpools Checks diskpools and class equivalence for OneFS upgrades going across 7.0
checkDriveFirmware Checks for out of date Drive Firmware and calls other related drive firmware checks
checkDriveLoad Checks the current load on the drives
checkDriveStallTimeout Checks current Drive Stall Timeout setting, recommend value is 3.5 seconds (3500000 microseconds) or higher
checkDriveSupportPackage Checks for drive firmware updates available in the Drive Support Package
checkDrivesHealth Checks health of drives and the drive stall timeout setting in sysctl
checkET004252 Checks for criteria of ET004252
checkETAs Checks for Technical Advisories
checkEmailSettings Displays E-mail settings configured in CELog when run with the --extra argument
checkEncoding Checks exports and cluster configuration for if utf-8/default encoding
checkEvents Checks events on all the nodes, failure if any critical events exist
checkFCOF022318EE Checks drive firmware versions for the criteria of FCO F022318EE
checkFCOF031617FC Checks drive firmware versions for the criteria of KB 000024620
checkFCOF042415EE Checks the cluster to see if it meets criteria for FCO F042415EE/KB 000051631
checkFileSharing Checks if Atime is enabled
checkFilepoolPolicies Checks GNA requirements and checks filepools for final match being set and names starting with a number
checkFirmwarePackages In OneFS 9.1 and later, confirms firmware packages are available
checkFlush Checks for running flush processes / active pre_flush screen sessions on clusters
checkGatewayPriority Checks for subnets with duplicate gateway priorities
checkGroups Checks nodes for all enabled protocols. Fails if group info is reporting that an enabled protocol is not functioning on any node
checkHDFS Display HDFS details, only useful when run with --extra
checkHardening Checks if FIPS is enabled on node in the cluster, this needs to be disabled prior to upgrades to 9.5 or higher and re enabled after to avoid assessment failures
checkHardwareStatus Checks battery health, power supplies, and gathers hardware details for use elsewhere
checkHardwareUpgrade Checks if there is an in progress hardware upgrade
checkHealth Verifies cluster health status and node health status
checkIBInterfaces Checks for ib0/1 as being active, checks for ETA180317 IB switch firmware versions, and checks for overlapping IB networks
checkIBPCIeSlot Checks if the InfiniBand card is installed in the wrong slot which may lead node start up issues during an upgrade to OneFS 9 and later releases
checkIDI Checks for IDI errors in the past 90 days
checkISCSI Checks for iSCSI LUNs being configured in /ifs/.ifsvar/iscsi/iscsi.conf (OneFS prior to 8.x only)
checkIndexSnapshotCurrent Checks for current snapshots that are over 2 weeks old and may contirbute to capacity issues
checkInternalPing Checks internal network by performing network ping operations
checkJobHistory Checks job history for issues, currently just MediaScan issues
checkJobStatus Checks for running jobs that would impact an upgrade
checkJobs Checks jobs
checkKB000066019 Checks size of reports.db and flags if over 100MB which may lead to issues outlined on KB 000066019
checkKB000081658 Checks for criteria of KB 000081658
checkKB000181818 Checks for criteria of KB 000181818
checkKB000192800 Checks for critera of KB 000192800
checkKB000196175 Checks for criteria of KB 000196175
checkKB000196762 Checks for criteria of KB 000196762
checkKB000197850 Checks for issues with IB queue pairs that would lead to node reboot issues if IB queue pairs are in a degraded state
checkKB000212387 Checks Authentication providers msDS-SupportedEncryptionTypes attribute to ensure a value is set and assigned, if it is not, there is potential for DU after an upgrade to 9.5 or above.
checkKB000213188 Проверяет наличие оборудования SED с текущей версией ниже 9.2 и целевой версией 9.5 или выше.
checkKB201488 Checks if any node meets criteria for KB 000201488
checkKB201666 Checks if it is necessary to perform the proactive workaround from KB 000201666 for a patch installation and whether the pre-requisites are met
checkKB201933 Checks for criteria of KB 000201933
checkKB203381 Checks for criteria of KB 203381
checkKB220014 Checks for criteria of KB 220014
checkKB462202 Checks BootOrder in bios_settings.ini on Generation 5 nodes to determine if at risk for KB 000025523
checkKB489473 Checks if any node meets criteria for KB 000061983
checkKB490849 Checks if at risk for KB 000052089
checkKB496582 Checks for auth rules issues detailed in KB 000160596
checkKB496993 Checks if the cluster is at risk for KB 000061504
checkKB501267 Checks for the criteria of KB 000026510
checkKB507031 Checks for criteria outlined in KB 000035398
checkKB516613 Checks if any node meets criteria for KB 000057267
checkKB519119 Checks if nodes may be impacted by KB 519119
checkKB519388 Pre-upgrade check for issues outlined in KB 000162270
checkKB519423 Checks if the cluster config files are in a mixed mode
checkKB519890 Checks for a known issue with LAGG interfaces in LACP mode when running OneFS 8.0.0.6, 8.0.1.2, 8.1.0.2, and 8.1.1.1
checkKB521778 Checks for criteria outlined in KB 000031948
checkKB521890 Checks for criteria outlined in KB 000167681
checkKB524082 Checks if the cluster is enabled for HTTP clients and flags a compatibility issue caused by a change in Apache versions
checkKB527312 Check for criteria of KB 000166965
checkKB530050 Check for criteria of KB 000040987
checkKB533516 Checks if cluster uses an IP for AWS CloudPool accounts putting it at risk for DTA 533516
checkKB535582 Checks if at risk for KB 000060471
checkKB537785 Check for criteria of KB 000168829
checkKB540000 Checks for criteria of KB 000058599
checkKB540071 Checks for existence of files under /var/fw/fwpkg when no IsiFw package is installed
checkKB540513 Checks for criteria of KB 000174074
checkKB540872 Checks if the cluster may encounter KB 000170982 during an upgrade from OneFS 8.2 releases
checkKB540901 Checks boot disk partitions for any mismatches in uuids which may lead to boot failures
checkKB544401 Check for critera of KB 000173157
checkKB544854 Check for criteria of KB 000173432
checkKB546604 Checks for criteria of KB 000180866
checkKerberos8000 Checks for an issue with the Kerberos configuration file when upgrading to OneFS 8.0.0.0
checkLACPSFP Checks for LACP on cxgb interfaces for KB 000174095
checkLWIODLog Checks /var/log/lwiod.log for known errors occuring in the last 30 days
checkLastZoneID8000 Checks for gaps in access zones that may cause major issues when upgrading to OneFS 8.0.0.0
checkLeakFreeBlocks Checks for nodes with efs\.lbm\.leak_freed_blocks enabled.
checkLegacyLDAP Проверяет, включен ли протокол Legacy LDAP в модернизациях OneFS 6 до OneFS 7.
checkLicense Проверяет лицензии и дает указания на основе лицензированных функций. Лицензии InsigntIQ и vCenter, предоставляет информацию из руководства по совместимости. iSCSI, instructs to only perform simultaneous OneFS upgrades and that it is not supported in 8.0
checkLinMasterPadding Checks the LIN master padding to be all zeros
checkListenQueue Checks for listen queue overflows to be less than 50,000 per node
checkLogLevel Checks LWSM log levels for NFS, SMB, HDFS, and Authentication
checkLogs Checks Log file presence and flags if any log file specified in list is not present
checkMaintenanceMode Checks if the cluster is currently in maintenance mode
checkMemory Checks each DIMM to meet criteria outlined in KB 000041666 and if the expected (per product info line) matches closely the reported RAM
checkMessagesLog Checks /var/log/messages.log for known errors occuring in the last 30 days
checkMirrors Checks the boot mirror health
checkNDMP Checks for running NDMP sessions
checkNDMP16GB Checks for LNN changes that have occurred since the isi_ndmp_d processes started which can cause issues during the HookDataMigrationUpgrade phase of an OneFS upgrade
checkNDMPUpgradeTimeout Checks for LNN changes that have occurred since the isi_ndmp_d processes started which can cause issues during the HookDataMigrationUpgrade phase of an OneFS upgrade
checkNFS Uses nfsstat to identify RPC errors
checkNetBIOS Checks if the Isilon NetBIOS Name Service (nbns) is enabled when updating to OneFS 8.0.1 and later
checkNetstat Checks connections counts for specific protocols via netstat
checkNetworkParallelUpgrade Checks for the risk of inaccessible network pools during a parallel upgrade
checkNetworkPoolIFaces Checks each network pool and their assigned interfaces, if only 1 interface is configured for any pool and IP Ranges are set, this will cause a failure for pre upgrade mandatory checks
checkNodeCompatibility Checks node compatibility for OneFS upgrades by comparing it against known supported versions
checkNodeFirmware Checks node firmware for updates
checkNodesInstalled Checks for nodes installed to display in an agregated list for visibility
checkOneFSVersions Checks running version and target version for any issues. Сбой: любое несоответствие версий на всех узлах.
checkOpenFiles Проверяет количество открытых файлов на каждом узле [sysctl kern.openfiles] и сравнивает его с максимальным количеством открытых файлов [sysctl kern.maxfiles]. Проверка будет выдавать предупреждение при превышении 80% от максимального значения и сбой при превышении 90% от максимального значения.
checkPSCALE136276 Проверяет наличие критериев PSCALE-136276.
checkPartitions Проверяет пространство системных разделов.
checkPatches Проверяет наличие настоятельно рекомендуемых исправлений в текущей версии, если нет целевой версии, или в целевой версии.
checkPerformance Проверяет производительность кластера.
checkProcesses Проверяет наличие проблем, связанных с процессами OpenSM master, MCP, isi_mca_dump и isi_upgrade_d.
checkProtectionLevel Проверяет уровни защиты пулов хранения данных.
checkRealACL Проверяет, настроены ли Real ACL и установлены ли они в /ifs/.ifsvar или ifs/.ifsvar/patch. Они не должны быть установлены. Если они установлены, это вызовет проблему для модернизаций/установок.
checkRemoteSupport Проверяет, включены ли ограниченная оболочка и isi_supportassist. Если они включены, при модернизации до 9.7 это вызовет проблему перезапуска служб SupportAssist.
checkRoutingTables Отображает таблицу маршрутизации для каждого узла.
checkSBR8000 Проверяет, включена ли маршрутизация SBR перед модернизациями OneFS до целевой версии 8.0.0.0/1.
checkSNMPDConfig Проверяет как SNMPD.config, так и isilon_serial_number, чтобы убедиться, что их размер не равен 0 байт.
checkSPNs Отображает список SPN; полезно только при выполнении с --extra.
checkSRS Проверяет конфигурацию удаленного подключения на наличие проблем.
checkSSHDConfig Проверяет файлы /etc/mcp/templates/sshd_config на наличие известных проблем
checkSWIFTAccounts Проверяет учетные записи SWIFT, которые затем используются для установки приоритета флага при лицензировании SWIFT и выполнении модернизации до версии 9.5 или выше.
checkServices Проверяет общие службы, чтобы убедиться, что они находятся в ожидаемых состояниях.
checkServicesMonitoring Проверяет, выполняется ли мониторинг включенных служб.
checkSmartConnect Проверяет, что все IP-адреса SmartConnect Service назначены и не используются для подключения клиентов.
checkSnapshot Проверяет, приближается ли количество моментальных снимков к предельному значению кластера 20 000 и установлено ли для параметра «Autodelete» значение «Yes». Проверяет журналы моментальных снимков. Проверяет журналы моментальных снимков на наличие сбоев «EIN/EIO/EDEADLK/Failed to create snapshot».
checkStaticRouteConflict Проверяет наличие конфликтующих статических маршрутов.
checkStoragePools Проверяет пулы хранения данных на наличие проблем с работоспособностью/емкостью/отмененными дисками.
checkSupportability Проверяет возможность поддержки оборудования и программного обеспечения кластера.
checkSwitchCompatibility Проверяет коммутаторы бэкенда Dell для подтверждения того, что их версия не ниже 10.5.0.6.
checkSymLink Проверяет наличие Sym Link для /var/patch/catalog или /var/patch/tmp. Проверяет, не является ли каталог файлом, а не папкой.
checkSyncIQ Собирает информацию об исходной и целевой системах SyncIQ и сообщает о партнерах SyncIQ. Проверяет наличие проблемы, при которой существование большого количества файлов отчетов SyncIQ приводит к тому, что процесс tar задерживает другие процессы модернизации, в результате чего кластер может остаться во временном сценарии DU на длительный период времени.
checkSystemFlag Проверяет наличие дисковых пулов с установленным системным флагом.
checkTimeDrift Проверяет смещение во времени между узлами.
checkTimeSync Проверяет, включена ли для кластера синхронизация с внешним сервером.
checkTimeZone Проверяет отсутствие часового пояса на целевом уровне кода OneFS.
checkUIDGID Проверяет наличие значений UIDGID выше 262143 для файлов, расположенных в / и /var.
checkUpgrade Проверяет наличие проблем, связанных с процессом модернизации. Предупреждает, если включена служба isi_upgrade_d. Выдает сбой, если она не находится в состоянии «committed». Выдает сбой, если модернизация уже выполняется. Проверяет fs_fmt_version; нечетное или нулевое значение fs_fmt_version является проблемным.
checkUpgradeAgentPort Проверяет порт, используемый управляющей программой isi_upgrade_agent_d, чтобы убедиться, что он не используется другими процессами.
checkUpgradePath Проверяет, требуется ли несколько переходов, и предоставляет необходимые детали.
checkUptime Проверяет время безотказной работы узла, выдает предупреждение, если оно превышает 200 дней, отмечает ETA времени безотказной работы.
checkVaultCard Проверяет наличие карты хранилища M.2 в узлах 6-го поколения и подтверждает, что пороговое значение состояния SMART не превышено в этом устройстве.
checkZoneLocalAuth Для модернизаций до OneFS 8.2 и более поздних версий проверяет, связаны ли локальные поставщики с другими зонами доступа.
Ниже перечислены некоторые рекомендуемые ресурсы по этой теме, которые могут вам пригодиться.