PowerScale OneFS. Поиск и устранение проблем производительности

Summary: Устраните неполадки низкой производительности PowerScale OneFS с помощью нашего всеобъемлющего руководства по настройке сети, обработке нагрузок и мониторингу с помощью InsightIQ для повышения эффективности кластера. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Клиентские компьютеры работают медленно. Определенные задания, особенно те, которые выполняются в кластере, либо не выполняются, либо занимают больше времени, чем ожидалось.

Cause

Проблемы производительности обычно возникают из-за сетевого трафика, проблем конфигурации сети, нагрузки на клиентские или кластерные системы или их сочетания. В этой статье описано несколько эффективных способов устранения проблем производительности.

Resolution

Устранение неполадок с помощью InsightIQ

Содержание:

  • Использование Isilon InsightIQ
  • Поиск и устранение неисправностей без InsightIQ
  • Пропускная способность сети
  • Распределение клиентских подключений
  • SmartConnect
  • Пропускная способность кластера
  • Обработка кластера
  • Операции в очереди
  • ЦП


Использование Isilon InsightIQ

Использование Isilon InsightIQ — это лучший способ мониторинга производительности и устранения проблем, связанных с производительностью.

Виртуальное устройство Isilon InsightIQ позволяет отслеживать и анализировать работу кластера Isilon с помощью гибких настраиваемых представлений диаграмм в веб-приложении InsightIQ. Эти диаграммы содержат подробную информацию об оборудовании кластера, программном обеспечении, файловой системе и операциях с протоколами. InsightIQ преобразует данные в визуальную информацию, которая подчеркивает любые отклонения производительности, позволяя быстро диагностировать узкие места или оптимизировать рабочие процессы.

Подробнее об использовании InsightIQ см. в руководстве пользователя InsightIQ.


Поиск и устранение неисправностей без InsightIQ

Если вы не используете InsightIQ, вы можете выполнить различные команды для изучения проблем производительности. Сначала выполните поиск и устранение проблем с производительностью, проверив пропускную способность сети и кластера, затем исследуйте обработку кластера и, наконец, проанализируйте частоту ЦП отдельных узлов.


Пропускная способность сети

Используйте инструменты тестирования сети, например Iperf Для определения пропускной способности кластера и клиентских компьютеров в сети.

Используя Iperfвыполните следующие команды на кластере и клиенте. Эти команды определяют размер окна, достаточны для определения, является ли сетевое соединение потенциальной причиной проблем с задержкой.

  • Кластера:
iperf -s -w 262144
  • Клиент.
iperf -c <cluster IP> -w 262144


Распределение клиентских подключений

Проверьте, сколько клиентов NFS и SMB подключено к кластеру, чтобы убедиться, что они подключены не к одному узлу.

  1. Подключитесь по протоколу SSH на любом узле в кластере и войдите в систему с помощью учетной записи root.
  2. Выполните следующую команду для проверки клиентов NFS:
    isi statistics query - nodes=all --stats=node.clientstats.connected.nfs,node.clientstats.active.nfs
    В выходных данных отображается количество клиентов, подключенных к каждому узлу, и количество этих клиентов активно на каждом узле.
  3. Выполните следующую команду для проверки клиентов SMB:
    isi statistics query - nodes=all --stats=node.clientstats.connected.smb,
    node.clientstats.active.smb1,node.clientstats.active.smb2
    В выходных данных отображается количество клиентов, подключенных к каждому узлу, и количество этих клиентов активно на каждом узле.


SmartConnect

Убедитесь, что узел, на котором запущено приложение SmartConnect, не перегружен сетевым трафиком.

  1. Подключитесь по протоколу SSH на любом узле в кластере и войдите в систему с помощью учетной записи root.
  2. Выполните следующую команду:
    isi_for_array -sq 'ifconfig|grep em -A3'
    В выходных данных отображается список всех IP-адресов, связанных с внешним интерфейсом.
  3. Проверьте наличие узлов, у которых на один дополнительный IP-адрес отличен от остальных.
  4. Проверьте состояние узлов, которые вы заметили на шаге 3, выполнив следующую команду.
    isi status
    Проверьте столбец «Пропускная способность» выходных данных, чтобы определить загрузку узлов, отмеченную на шаге 3.


Пропускная способность кластера

Оценка пропускной способности кластера путем проведения тестов записи и чтения, которые измеряют время, необходимое для чтения и записи в файл. Выполните хотя бы один тест записи и один тест чтения, как описано ниже.

Тест записи

  1. Подключитесь по протоколу SSH на любом узле в кластере и войдите в систему с помощью учетной записи root.
  2. Перейдите в каталог /ifs .
    cd /ifs
  3. В интерфейсе командной строки (CLI) кластера или на клиентском компьютере под управлением UNIX или Linux используйте команду dd для записи нового файла в кластер. Выполните следующую команду:
    dd if=/dev/zero of=1GBfile bs=1024k count=1024
    Эта команда создает образец файла размером 1 Гбайт и сообщает о времени, затраченном на его запись на диск.
  4. На основе выходных данных этой команды экстраполируйте количество Мбайт в секунду, которое можно записать на диск в однопотоковых рабочих процессах.
  5. Если у вас есть MAC-клиент и вы хотите провести дальнейший анализ,
    1. Запустите Activity Monitor.
    2. Выполните следующую команду, где pathToFile — это путь к целевому файлу.
      cat /dev/zero > /pathToFile
      Эта команда помогает измерить пропускную способность операций записи в кластере Isilon. (Хотя можно запустить команду dd MAC-клиента, результаты могут быть противоречивыми.)
    3. Следите за результатами команды на вкладке Network в Activity Monitor.

Читать тест
При измерении пропускной способности операций чтения не следует выполнять тесты чтения файла, созданного во время теста записи. Поскольку этот файл был кэширован, результаты тестов чтения будут неточными. Вместо этого проверьте операцию чтения файла, который не был кэширован. Найдите в кластере файл, размер которого превышает 1 Гбайт, и укажите его в тесте чтения.

  1. Подключитесь по протоколу SSH на любом узле в кластере и войдите в систему с помощью учетной записи root.
  2. В интерфейсе командной строки (CLI) или на клиентском компьютере под управлением UNIX или Linux используйте команду dd для чтения файла в кластере. Выполните следующую команду, где pathToFile — это путь к целевому файлу.
    dd if=/pathToLargeFile of=/dev/null bs=1024k
    Эта команда считывает целевой файл и сообщает о времени, затраченном на его чтение.
  3. Если у вас есть MAC-клиент и вы хотите провести дальнейший анализ,
    1. Запустите Activity Monitor.
    2. Выполните следующую команду, где pathToFile — это путь к целевому файлу.
      time cp /pathToLargeFile > /dev/null
      Эта команда помогает измерить пропускную способность операций чтения в кластере Isilon. (Хотя можно запустить команду dd MAC-клиента, результаты могут быть противоречивыми.)
    3. Следите за результатами команды на вкладке Network в Activity Monitor.


Обработка кластера

Задания
перераспределенияПеред проверкой операций ввода-вывода (I/O) кластера выполните следующие действия:

  • Определите, какие задания выполняются в кластере. Если выполняются задания перераспределения, такие как «Автобалансировка», «Сбор» или «Множественное сканирование», подумайте, почему эти задания выполняются и должны ли они продолжать выполняться.
  • Учитывайте тип используемых данных. Если клиентские компьютеры работают с большими видеофайлами или виртуальными машинами (ВМ), для задания перераспределения требуется больше операций ввода-вывода с диска, чем обычно.
  • Рассмотрите возможность временной приостановки задания перераспределения. Это может значительно повысить производительность и стать эффективным краткосрочным решением проблемы производительности.

Дисковые системы ввода-вывода
Проверка операций ввода-вывода диска может помочь определить, используются ли определенные диски слишком часто.

По кластеру

  1. Подключитесь по протоколу SSH на любом узле в кластере и войдите в систему с помощью учетной записи root.
  2. Выполните следующую команду, чтобы проверить операции ввода-вывода диска:
    isi statistics pstat
  3. В выходных данных этой команды разделите количество операций ввода-вывода в секунду на общее количество дисков в кластере. Например, для кластера из 8 узлов Isilon IQ 12000x, в каждом из которых размещается 12 дисков, количество операций ввода-вывода в секунду на диск разделить на 96.

    Для узлов серии X и узлов серии NL следует ожидать, что количество операций ввода-вывода в секунду на диске составит 70 или менее для 100% произвольных рабочих процессов или 140 или менее для 100% последовательных рабочих процессов. Поскольку узлы серии NL имеют меньше ОЗУ и меньше тактовой частоты ЦП, чем узлы серии X, узлы серии X могут обрабатывать большее количество операций ввода-вывода в секунду на диске.

По узлу и по диску

  1. Подключитесь по протоколу SSH на любом узле в кластере и войдите в систему с помощью учетной записи root.
  2. Выполните следующую команду, чтобы определить количество операций ввода-вывода в секунду для каждого узла, что может помочь обнаружить диски, которые используются слишком часто.
    isi statistics query --nodes=all --stats=node.disk.xfers.rate.sum --top
  3. Выполните следующую команду, чтобы определить, как запрашивать статистику для каждого диска:
    isi statistics describe --stats=all | grep disk
    


Операции в очереди

Еще один способ определить, используются ли диски слишком часто, — определить, сколько операций находится в очереди для каждого диска в кластере. Для однопоточного рабочего процесса на основе SMB очередь из 4 может указывать на проблему, а для операций с большим пространством имен NFS в параллельных группах очередь больше.

  1. Подключитесь по протоколу SSH на любом узле в кластере и войдите в систему с помощью учетной записи root.
  2. Выполните следующую команду, чтобы определить, сколько операций поставлено в очередь для каждого диска в кластере:
    isi_for_array -s sysctl hw.iosched | grep total_inqueue
  3. Определите задержку, вызванную операциями в очереди:
    sysctl -aN hw.iosched|grep bios_inqueue|xargs sysctl -D


ЦП

Проблемы с ЦП часто связаны с операциями, выполняемыми клиентами в кластере. С помощью команды isi statistics можно определить операции, выполняемые в кластере, каталогизированные по сетевому протоколу или клиентскому компьютеру.

  1. Подключитесь по протоколу SSH на любом узле в кластере и войдите в систему с помощью учетной записи root.
  2. Выполните следующую команду, чтобы определить, какие операции выполняются по сети, и оценить, какие из этих операций занимают больше всего времени:
    isi statistics protocol --orderby=TimeAvg --top
    Эти выходные данные команды предоставляют подробную статистику по всем сетевым протоколам, упорядоченную по времени ответа кластеру на запросы клиентов. Хотя результаты этой команды могут не определять, какая операция является самой медленной, они могут указывать правильное направление.
  3. Выполните следующую команду, чтобы получить дополнительные сведения об обработке ЦП, например, о том, ЦП каких узлов наиболее широко используются:
    isi statistics system --top
  4. Выполните следующую команду, чтобы получить четыре процесса на каждом узле, которые потребляют больше всего ресурсов ЦП:
    isi_for_array -sq 'top -d1|grep PID -A4'

Additional Information

Связанные ресурсы
Ниже приведены рекомендуемые ресурсы по данной теме, которые могут представлять интерес.

Affected Products

PowerScale, PowerScale OneFS

Products

Isilon, PowerScale OneFS
Article Properties
Article Number: 000015384
Article Type: Solution
Last Modified: 30 Jan 2025
Version:  11
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.