PowerFlex SDS: закрытие сокетов без проблем с сетью

Сводка: SDS сообщает о закрытых сокетах без каких-либо сетевых событий или признаков проблем с сетью.

Данная статья применяется к Данная статья не применяется к Эта статья не привязана к какому-либо конкретному продукту. В этой статье указаны не все версии продуктов.

Симптомы

Сценарий
SDS сообщает о закрытых сокетах удаленными процессами (SDC, SDS, MDM) и отсутствии наблюдаемых событий сбоя сетевой платы, пропуска кадров или потери пакетов. 

Симптомы
Журнал событий сообщает о потере подключения SDS, либо об отсоединении, либо о повторном подключении: 

2017-11-11 16:52:12.101 SDS_RECONNECTED           INFO     	 SDS: xyz_d35 (ID 67211111110089) reconnected 
2017-11-11 16:52:13.690 MDM_DATA_FAILED           CRITICAL 	 The system is now in DATA FAILURE state. Some data is unavailable. 
2017-11-11 16:52:15.791 MDM_DATA_DEGRADED         ERROR    	 The system is now in DEGRADED state. 

До этого в трассировках SDS мы видим ошибки, подобные следующей.

SDS попыталась отправить, и на ответ ушла >1 секунда:

11/11 16:52:04.527408 0x7ff0b19eaeb0:contNet_OscillationNotif:01720: Con 672cb111110099 - Oscillation of type 5 (RPC_LINGERED_1SEC) reported

Сокет с пиром был закрыт с другой стороны из-за того, что они не получили от нас отправки проверок более низкого уровня:

11/11 16:52:06.241105 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b5d00000078 - Oscillation of type 1 (SOCKET_DOWN) reported 

Другой пример выглядит так:

11/11 16:52:06.241224 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b3c00000057 - Oscillation of type 2 (IO_ERROR) reported

Другие индикаторы:
Итерации
Низкоуровневый сетевой таймер keepalive ScaleIO измеряется итерациями, которые длятся 100 миллисекунд.

Тайм-аут активности MDM-SDS> составляет 20 итераций, или 2 с, а тайм-аут поддержания активности MDM-MDM — 3 итерации или 300 мс.

Двадцать итераций превысили:

11/11 16:52:11.685281 0x7ff752d1beb0:netPath_IsKaNeeded:01858:  :: Connected Live CLIENT path 0x7ff6e2192a00 of portal 0x7ff6e2192900 net 0x7ff7480e1110 socket 210 inflights 0 didn't receive message for 20 iterations from 10.124.162.109:7072. Marking as down  

Разъемы не установлены Эти отпечатки трассировки указывают, когда сокеты вышли из строя:

11/11 16:52:09.787793 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.130.109 - Oscillation of type SOCKET_DOWN reported

11/11 16:52:11.685290 0x7ff752d1beb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type RCV_KA_DISCONNECT reported
11/11 16:52:11.685308 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type SOCKET_DOWN reported

Этот принт означает, что последний разъем SDS вышел из строя и является точкой, в которой SDS считается отсоединенным:

11/11 16:52:11.685319 0x7ff752cf7eb0:tgtMgr_TgtDisconnectCB:07818: Tgt: 672cba7400000089 ConId: 672cba7400000089

MDM выполнит команду addmdm, чтобы переподключить SDS. 

Сбой ввода-вывода заблокирован Мы
знаем, что IO_FAULT_BLOCKED происходит, когда SDS отклоняет ввод-вывод, потому что не может связаться с MDM, но эта информация неполная.

SDS отправляет keepalives в MDM каждую секунду, и если MDM не получает их в течение 5 секунд, SDS считается истекшим и помечается как несвязанная.

Каждую секунду MDM отправляет SDS сообщение «продолжайте работать». Если SDS не получает это сообщение в течение 5 секунд, он отклоняет ввод-вывод с помощью IO_FAULT_BLOCKED: 

11/11 16:52:12.007045 0x7ff0b0cdfeb0:ioh_NewRequest:05490: Write to comb f778038007f - Done rc is IO_FAULT_BLOCKED (Lba 6721528 8), volume 6e1a2f4a0000075d (dit)
11/11 16:52:12.008825 0x7ff0b0ec5eb0:ioh_NewRequest:05490: Write to comb f78803903fc - Done rc is IO_FAULT_BLOCKED (Lba 5031040 6), volume 6e1a2f4c0000075f (dit)
11/11 16:52:12.017262 0x7ff0b26daeb0:ioh_NewRequest:05490: Write to comb f768037003e - Done rc is IO_FAULT_BLOCKED (Lba 15106144 16), volume 6e1a2f490000075c (dit)

 

Воздействие

Потеря подключения к программно-определяемому хранилищу

Во время data_degraded или в режиме мгновенного обслуживания это может приводить к DU.

Причина

Причина сбоя ввода-вывода в данном примере заключалась в том, что не истек срок аренды SDS (5 с), но истек тайм-аут сети более низкого уровня (2 с).

Корневой причиной может быть одна или несколько из следующих причин: 

1. Проблемы
с TCP/сетью A- Скорее всего, это будет проявляться при повторной передаче данных по протоколу TCP, что указывает на проблемы с оборудованием/конфигурацией. (Проблемы с кабелем, сетевой платой, коммутатором и т. д.) как видно из выходных данных 

sar -n ETCP 1

Который выводится следующим образом:

 Linux 3.10.0-693.5.2.el7.x86_64 (SIO-DCOE-96O-3)        12/13/2017      _x86_64_        (48 CPU)

04:33:44 PM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s
04:33:45 PM      0.00      0.00     50.00      0.00      0.00
04:33:46 PM      2.00      0.00     75.00      0.00      0.00
04:33:47 PM      0.00      0.00    223.00      0.00      0.00
04:33:48 PM      0.00      0.00    106.00      0.00      0.00
04:33:49 PM      2.00      0.00     58.00      0.00      0.00
04:33:50 PM      0.00      0.00      5.00      0.00      0.00
04:33:51 PM      0.00      0.00      7.00      0.00      0.00
04:33:52 PM      2.00      0.00      2.00      0.00      0.00
04:33:53 PM      0.00      0.00      1.00      0.00      0.00
^C

04:33:53 PM      0.00      0.00      0.00      0.00      0.00
Average:         0.65      0.00     99.00      0.00      0.00

Для справки:

  • Зеленый = однозначные числа/с
  • Желтый = высокие двузначные числа до 50/с
  • Красный = >50/с

B-В случае старых дистрибутивов Linux, таких как SusE 11 SP3 на наших SVM, можно отслеживать сетевые ретрансляции с помощью следующей команды:

watch -d -n 2 "netstat -s |grep retrans"

Что выводит как показано ниже, выделяя символы, которые обновились в течение последнего интервала:

Every 2.0s: netstat -s |grep retrans                                                                                                                                                   Wed Dec 13 09:55:10 2017

    1244070 segments retransmited

2. Проблемы с ЦП, нехватка процессов.
Это проявляется в виде одновременной приостановки в трассировках каждого компонента SIO, при этом многие сокеты закрываются первыми строками трассировки при возобновлении. 
Файл LIA, SDS, MDM/TB, SDC/MESSAGES показывает пробел.
Трассировка LIA, например, показывает, что сокеты LIA→SDS закрываются после тайм-аута в 3 с (30 итераций x 100 мс):

11/11 16:52:11.597227 0x7f44c41c6eb0:netPath_IsKaNeeded:01858:  :: Connected Live SERVER path 0x7f44c4195690 of portal 0x7f44c4192bb0 net 0x83b040 socket 8 inflights 0 didn't receive message for 30 iterations from 127.0.0.1:43228. Marking as down
11/11 16:52:12.031195 0x7f44c419eeb0:liaNet_DisconnectedNotif:01553: Con aed disconnected
11/11 16:52:12.158383 0x7f44c419eeb0:liaNet_ConnectedNotif:01483: Con aed  connected

3- Возможно, у нас где-то в SIO есть ошибка. Вероятно, несетевой поток удерживает процессор и не позволяет работать чему-то еще и т. д.

Разрешение

Временное решение

Нет общего временного решения

Затронутые версии

All

Исправлено в версии

Затронутые продукты

PowerFlex Software, VxFlex Product Family, VxFlex Ready Node, Ready Node Series
Свойства статьи
Номер статьи: 000203040
Тип статьи: Solution
Последнее изменение: 15 May 2026
Версия:  5
Получите ответы на свои вопросы от других пользователей Dell
Услуги технической поддержки
Проверьте, распространяются ли на ваше устройство услуги технической поддержки.