Data Domain — поиск и устранение ошибок сетевого фрейма
Summary: Ошибки кадров в сетевом интерфейсе указывают на проблему с пакетами данных при их перемещении между устройством и сетью.
Symptoms
В этой статье описывается, как найти и устранить ошибки сетевого кадра в Data Domain.
eth4c Link encap:Ethernet HWaddr x:C7:AA:x:12:7E
inet addr:x.x.x.7 Bcast:x.x.x.x Mask:255.255.254.0
inet6 addr: fe80::f6c7:aaff:fe58:127e/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:115362856103 errors:0 dropped:2939814 overruns:10098 frame:79198392
TX packets:29061855128 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:167162598519873 (152.0 TiB) TX bytes:25775705362014 (23.4 TiB)
Interrupt:47 Memory:b4020000-b403ffff Cause
Ошибки кадрирования могут возникать из-за различных факторов, которые часто указывают на потенциальные проблемы с оборудованием или совместимостью. Некоторые распространенные причины включают:
- Проблема совместимости между двумя приемопередатчиками, хотя это также может проявляться в выборе более низкой скорости при использовании autoneg.
- Проблемы с синхронизацией, относятся к номеру 1, но могут возникать между совместимыми приемопередатчиками.
- Неправильный тип кабеля. Например, использование кабеля InfiniBand вместо стандартного поддерживаемого кабеля Ethernet.
- Неисправный кабель
- Неисправный разъем в Data Domain или коммутаторе.
- Неисправный аппаратный приемопередатчик в системе Data Domain или коммутаторе.
- Аппаратный приемопередатчик неправильного типа или не поддерживается.
- Для медных волокон внешние сигналы могут вызывать шум на линии и приводить к ошибкам кадрирования.
Resolution
Просмотрите восемь пунктов, перечисленных выше, чтобы узнать, способствуют ли какие-либо из них возникновению проблемы.
Откройте заявку в службе поддержки Data Domain для дальнейшего поиска и устранения неисправностей, если ни один из этих пунктов не помог устранить проблему.
Проверьте наличие ошибок кадров в предыдущей поддержке авто и исторически с elysium.
- Ошибки кадра указывают на неисправный компонент, например неисправный кабель или подключаемые приемопередатчики малого форм-фактора.
- Если имеются тысячи ошибок кадров, а интерфейс оптоволоконный, это может быть неисправный приемопередатчик на стороне dd, неисправный оптический кабель или неисправный приемопередатчик на стороне коммутатора заказчика.
- Заказчик несет ответственность за замену кабелей и приемопередатчиков на своей стороне.
- Если интерфейс работает периодически или не работает и возникают ошибки кадров, компоненты необходимо заменить.
- Ошибки кадров также способствуют снижению производительности, поскольку пакеты должны передаваться несколько раз.
- В разделе «Конфигурация net show» в автоматической поддержке показан пример статистики интерфейса ниже с интерфейсом с большим количеством ошибок кадров.
Команда для вывода статистики интерфейса в интерфейсе командной строки выглядит следующим образом:
# net show config Additional Information
Как ошибки кадров влияют на производительность Data Domain
Ошибки кадров на сетевом интерфейсе указывают на повреждение кадров Ethernet, что часто вызвано неисправными кабелями, несоответствием дуплексных каналов или проблемами физического уровня. Эти ошибки заставляют сетевой стек отбрасывать и повторно передавать пакеты, что оказывает каскадное воздействие на систему Data Domain:
1. Увеличение количества повторных передач
- Каждый поврежденный кадр означает, что отправитель должен отправить данные повторно.
- В случае Data Domain трафик репликации и резервного копирования является интенсивным и непрерывным. Повторные передачи многократно увеличивают рабочую нагрузку, поскольку:
- Те же сегменты данных снова считываются с диска.
- Повторный запуск логики сжатия и дедупликации для повторно переданных фрагментов.
2. Более высокий коэффициент использования ЦП и памяти
- Data Domain использует процессы, интенсивно использующие ЦП, для:
- Дедупликация (отпечаток сегментов)
- Сжатие
- Шифрование (если включено)
- Когда кадры завершаются сбоем и данные передаются повторно, эти процессы повторяются без необходимости, потребляя дополнительные циклы ЦП и памяти.
3. Нагрузка на файловую систему
- Файловая система DD (DDFS) оптимизирована для последовательной записи и поиска сегментов.
- Повторная передача приводит к непоследовательным шаблонам ввода-вывода, заставляя файловую систему:
- Перечитайте фрагменты.
- Пересчитайте хеши.
- Обеспечьте согласованность для частично завершенных операций записи.
- Это приводит к дополнительным поискам дисков и нагрузке на кэш, что снижает общую пропускную способность.
4. Увеличение длительности резервного копирования
- Из-за того, что эффективная пропускная способность сети падает (из-за повторных передач и ошибок), резервное копирование занимает гораздо больше времени.
- Система DD чувствует себя обремененной, потому что:
- На единицу доставленных данных приходится выполнять больше работы.
- Остановка сети приводит к неэффективности трубопроводов; Потоки ожидают данных, увеличивая задержку.
Подводя черту
Ошибки фрейма создают порочный круг:
- Поврежденные кадры → повторной передаче → повторяющейся дедупликации/сжатия → дополнительным операциям ввода-вывода диска → нагрузкой на ЦП → замедлением резервного копирования.
Рекомендуемое решение
- Проверьте состояние физической сети:
- Замените неисправные кабели.
- Проверьте настройки скорости сетевой платы (NIC) или дуплексного режима.
- Отслеживание ошибок портов коммутатора.
- Убедитесь, что настройки MTU совпадают по всему пути.
- Если ошибки не будут устранены, рассмотрите возможность проблем с сетевой платой или оборудованием коммутатора.