PowerFlex: Вирішення проблем із конфліктом ресурсів

요약: Проблеми з конфліктом ресурсів PowerFlex та усунення несправностей

이 문서는 다음에 적용됩니다. 이 문서는 다음에 적용되지 않습니다. 이 문서는 특정 제품과 관련이 없습니다. 모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.

증상

Аномальна поведінка процесів PowerFlex виникає, коли процеси PowerFlex стикаються з конкуренцією ресурсів з іншими програмними або апаратними компонентами.

Симптоми тут можуть бути різноманітними і різноманітними. Це частковий перелік симптомів і наслідків

 

Проблеми з MDM:

 - Аварійне перемикання власності MDM виникає, коли процеси MDM застрягають і втрачають зв'язок з іншими MDM

From exp.0:
Panic in file /emc/svc_flashbld/workspace/ScaleIO-RHEL7/src/mos/umt/mos_umt_sched_thrd.c, line 1798, function mosUmtSchedThrd_SuspendCK, PID 36721.Panic Expression ALWAYS_ASSERT Scheduler guard seems to be dead.
 
From trc.*
24/02 15:54:16.087919 0:schedThrdGuard_SampleLivnes:01463: WARNING: pThread 0x106d9360(0) in scheduler 0x7fff580c4880, running UMT 0x7f39ad00ceb8, found to be stuck.
24/02 15:54:16.088226 ad417eb8:actorLoop_IsSchedThredStuck:10932: Stuck scheduler thread identified
24/02 15:54:16.088253 ad417eb8:actor_Loop:11257: Lost quorum. ourVoters: 0 votersOwnedByOther: [0,0]
24/02 15:54:16.088299 ---Planned crash, reason: Lost quorum, going down to let another MDM become master ---

 

 - Процес MDM постійно відключається і знову підключається протягом певного часу

2017-02-23 14:00:43.241 MDM_CLUSTER_LOST_CONNECTION 	WARNING  	The MDM, ID 089012db4d536880, lost connection 
2017-02-23 14:00:43.422 MDM_CLUSTER_CONNECTED     	INFO     	The MDM, ID 089012db4d536880, connected 
2017-02-23 23:05:25.852 MDM_CLUSTER_LOST_CONNECTION 	WARNING  	The MDM, ID 089012db4d536880, lost connection 
2017-02-23 23:05:26.422 MDM_CLUSTER_CONNECTED     	INFO     	The MDM, ID 089012db4d536880, connected 
2017-02-24 15:54:16.141 MDM_CLUSTER_LOST_CONNECTION 	WARNING  	The MDM, ID 089012db4d536880, lost connection 
2017-02-24 15:54:16.238 MDM_CLUSTER_CONNECTED    	INFO     	The MDM, ID 089012db4d536880, connected 

 

 

Проблеми з SDS:

 - SDS постійно відключається і знову підключається протягом певного часу

2017-02-15 13:18:16.881 SDS_RECONNECTED           INFO     	 SDS: siosds2 (ID 1eb052fe00000001) reconnected
2017-02-16 03:37:37.327 SDS_DECOUPLED             ERROR    	 SDS: siosds2 (id: 1eb052fe00000001) decoupled.
2017-02-16 03:39:54.300 SDS_RECONNECTED           INFO     	 SDS: siosds2 (ID 1eb052fe00000001) reconnected
2017-02-17 04:03:41.757 SDS_DECOUPLED             ERROR    	 SDS: siosds2 (id: 1eb052fe00000001) decoupled.
2017-02-17 04:09:13.604 SDS_RECONNECTED           INFO     	 SDS: siosds2 (ID 1eb052fe00000001) reconnected

 

 - SDS може показувати коливання помилок у файлах trc щодо втрати зв'язку з іншими вузлами SDS:

14/02 19:13:24.096983 1be7eb8:contNet_OscillationNotif:01675: Con 1eb052fe00000005 - Oscillation of type 5 (RPC_LINGERED_1SEC) reported
14/02 19:13:24.196814 1be7eb8:contNet_OscillationNotif:01675: Con 1eb053000000000b - Oscillation of type 5 (RPC_LINGERED_1SEC) reported
14/02 19:13:24.296713 1be7eb8:contNet_OscillationNotif:01675: Con 1eb0530000000007 - Oscillation of type 5 (RPC_LINGERED_1SEC) reported
14/02 21:48:43.917218 afb28eb8:contNet_OscillationNotif:01675: Con 1eb052fe00000007 - Oscillation of type 1 (SOCKET_DOWN) reported
14/02 21:48:43.917296 afb28eb8:contNet_OscillationNotif:01675: Con 1eb052fe00000005 - Oscillation of type 1 (SOCKET_DOWN) reported

 

 - SDS може показувати заблоковані або застрягли потоки у файлах trc: 

 
14/02 19:13:24.147938 9aa4eeb8:netPath_IsKaNeeded:01789: DEBUG ASSERT, Reason:Socket deadlocked. Crashing.
14/02 19:13:24.148113 9aa4eeb8:netPath_IsKaNeeded:01789: DEBUG ASSERT, Reason:Socket deadlocked. Crashing.
14/02 19:13:24.148121 9aa4eeb8:netPath_IsKaNeeded:01789: DEBUG ASSERT, Reason:Socket deadlocked. Crashing.
 
14/02 20:52:54.097765 242f0eb8:kalive_StartIntr:00346: KA aborted due to stuck sched thread
14/02 21:48:43.510602 7fa30eb8:kalive_StartIntr:00346: KA aborted due to stuck sched thread
14/02 21:48:44.776713 1b67ceb8:kalive_StartIntr:00346: KA aborted due to stuck sched thread
 
14/02 02:44:41.532007 e2239eb8:contNet_OscillationNotif:01675: Con 1eb052fd00000001 - Oscillation of type 3 (RCV_KA_DISCONNECT) reported
14/02 02:44:43.799135 0:schedThrdGuard_SampleLivnes:01463: WARNING: pThread 0x1a0de10(0) in scheduler 0x7fff01bec400, running UMT 0x7f94e221eeb8, found to be stuck.
14/02 02:44:43.799155 0:schedThrdGuard_SampleLivnes:01463: WARNING: pThread 0x1a0e050(1) in scheduler 0x7fff01bec400, running UMT 0x7f94e2227eb8, found to be stuck.
14/02 02:44:43.799257 e0e38eb8:cont_IsSchedThredStuck:01678: Stuck scheduler thread identified
14/02 02:44:43.799267 e0e38eb8:kalive_StartIntr:00346: KA aborted due to stuck sched thread
 

 

 - SDS може показувати «помилкове розгалуження» у файлах trc:

01/09 00:37:51.329020 0x7f1001c58eb0:mosDbg_BackTraceAllOsThreads:00673: Error forking.

 

 - SDS не може запустити через нездатність виділяти необхідну пам'ять.
У файлах журналу exp зазначено наступне:

07/09 00:41:52.713502 Panic in file /data/build/workspace/ScaleIO-SLES12-2/src/mos/usr/mos_utils.c, line 235, function mos_AllocPageAlignedOrPanic, PID 25342.Panic Expression pMem != ((void *)0) .

 

 - ОС також може мати певні симптоми у /var/log/messages або журналах системних подій:

/var/log/messages:
Feb  14 13:25:08 ScaleIO-192-168-1-2 kernel: [7461116.683555] TCP: Possible SYN flooding on port 7072. Sending cookies.
Feb  14 13:25:08 ScaleIO-192-168-1-2 kernel: [7461116.683561] TCP: Possible SYN flooding on port 7072. Sending cookies.
Feb  14 13:25:08 ScaleIO-192-168-1-2 kernel: [7461116.683566] TCP: Possible SYN flooding on port 7072. Sending cookies.
Feb  14 13:25:08 ScaleIO-192-168-1-2 kernel: [7461116.683570] TCP: Possible SYN flooding on port 7072. Sending cookies.
Feb  14 13:27:39 ScaleIO-192-168-1-2 kernel: [7461266.566145] sched: RT throttling activated

 

Повідомлення «SYN flooding on port 7072» означають, що пакети мережевих даних надсилаються на SDS на цьому хості, і SDS не може приймати пакети на цьому порті. SDS за замовчуванням використовує порт 7072.
«RT throttling активовано» — це повідомлення про те, що планувальник ОС виявив деякі потоки реального часу, які захоплюють процесор і позбавляють інших потоків. ОС робить це, намагаючись обмежити ці завдання в реальному часі та не дати ОС зависати чи збоїти.  

 
 
Проблеми SDC:

SDC також може зазнавати помилок виводу, якщо SDS часто відключаються або не можуть достатньо швидко реагувати на SDC і все ще намагаються обслуговувати блоки введення, які він належить.

 

Вплив

Вищезазначені симптоми можуть призвести до DATA_DEGRADED, DATA_FAILED подій, а також CLUSTER_DEGRADED.

원인

Якщо всі вищезазначені симптоми збігаються, найімовірніше, це проблема з нестачею ресурсів процесора або пам'яті. Шукайте сторонні додатки або процеси, які можуть виснажувати процесор і пам'ять у MDM або SDS-процесах.

У віртуальному середовища кілька разів процесор мав низьку продуктивність. Це спричинено тим, що SVM визначені в одному пулі ресурсів.

У таких випадках слід радити не відносити SVM до пулу ресурсів, а мати їхні виділені ресурси відповідно до визначеності в SVM.

해결

Переконайтеся, що компоненти PowerFlex (MDM, SDS, SDC) налаштовані під параметри продуктивності. Ознайомтеся з посібниками з «Fine-Tuning» та «Troubleshooting» з продуктивності, які можна знайти тут.

 

Огляд конфігурації:

  1. По-перше, переконайтеся, що налаштування процесора та оперативної пам'яті SVM відповідають найкращій практиці: 
    1. Налаштування процесора SVM: (Можна налаштувати на ходу)
      1. Ядра на сокет: все в одному гнізді, тому значення "Гнізди" дорівнює "1". (Загальна кількість ядер визначається потребами SDS, який він хостить: All-flash, FG, DASCache, Cloudlink, 3.5 тощо — усе це впливає (збільшує) вимогу до процесора.)
      2. Бронювання: Виберіть значення «Максимум» у випадаючому меню
      3. Акцій: Високий
      4. Це має виглядати так: 

Налаштування процесора SVM

 

b. Налаштування оперативної пам'яті SVM: (Можна налаштувати на ходу)

  1. Перевірка «Зарезервувати всю пам'ять гостя (Всі заблоковані)»
  2. Акцій: Високий
  3. Це має виглядати так:

Налаштування оперативної пам'яті SVM

 

 

c. Вбудовані налаштування надмірного фіксування пам'яті SVM OS: (Потрібне перезавантаження)

    1. Запустіть sysctl -a|grep overcommit, щоб переконатися, що налаштування overcommit правильні:
      # sysctl -a|grep overcommit
      vm.overcommit_memory = 2
      vm.overcommit_ratio = 100
    2. Якщо наведені вище значення не встановлені, частина пам'яті SVM стане непридатною для SDS-процесу. Виправте це, відредагувавши /etc/sysctl.conf та додавши вищезазначені значення

    3. Встановіть SDS у режим обслуговування і перезавантажте SVM, щоб застосувати налаштування
    4. Перевірте, запустивши "cat /etc/sysctl.conf|grep overcommit" після перезавантаження
    5. Режим технічного обслуговування на виході
  1. Щоб знайти це в журналах:
    1. Конфігурація SVM (vmsupport):
      1. Правильно налаштований .vmx файл SVM міститиме наступне:

sched.cpu.units = "mhz"
sched.cpu.affinity = "all"
sched.cpu.min = "25930"     (nonzero value that's equal to core speed * the # of cores allocated)
sched.cpu.shares = "high"
sched.mem.min = "24576"     (nonzero value that's a full allocation of configured memory)
sched.mem.minSize = "24576" (nonzero value that's a full allocation of configured memory)
sched.mem.shares = "high"
cpuid.coresPerSocket = "10" (value equal to total # of cores allocated, so they're all in one socket)
sched.mem.pin = "TRUE"

 

  1. Неправильні (застарілі) SVMconfigs матимуть наступне:
sched.cpu.min = "0"
sched.cpu.shares = "normal"
sched.mem.pin = "FALSE"
sched.mem.shares = "normal"
cpuid.coresPerSocket = "4" (value less than total # of cores allocated, usually 1/2 or 1/4)
 
Конфігурація ОС у гості (getinfo):
  1. Правильно налаштований overcommit пам'яті:

    Файловий сервер/sysctl.txt містить:

vm.overcommit_memory = 2
vm.overcommit_ratio = 100

 

  1. PowerFlex використовує значну кількість оперативної пам'яті для кожного сервісу, щоб працювати в пам'яті та на високій швидкості. Саме тому він не підтримує використання swap для розвантаження будь-яких сервісів PowerFlex.

    Налаштування за замовчуванням, яке очікується для Storage Only та SVM у HCI-рішеннях, — це перевантаження пам'яті 2. Таким чином ядро не буде перепідписатися на пам'ять, а без налаштувань не використовувати swap гарантує, що жодне значення commit_as не буде більшим за загальну вільну/доступну пам'ять.

    Співвідношення 100 також гарантує, що не використовується заміна блоків, що дає більше контролю до блоку.

  2. Неправильно налаштований overcommit пам'яті:
    Файловий сервер/sysctl.txt містить:

vm.overcommit_memory = 0  (value not 2)
vm.overcommit_ratio = 50  (value less than 95)

 

Інші можливі обхідні шляхи:

  1. Зупиніть використання додатків, які спричиняють нестачу ресурсів процесора/пам'яті, або перевірте у постачальника додатків оновлення, щоб зменшити навантаження ресурсів. 
  2. Використовуйте інструменти для оцінки трендів CPU/пам'яті (top/sar/cron jobs/тощо), щоб дізнатися, який додаток використовує ресурси. Рекомендується робити інтервали в 1 секунду, щоб отримати необхідну детальність для виявлення, коли виникла проблема і хто несе відповідальність
  3. Оновіть процесор хоста та/або пам'ять, щоб отримати більше ресурсів
  4. Реархітектуру на двошарову систему замість конвергентної системи (якщо SDS/SDC знаходяться на одному хості)

추가 정보

문서 속성
문서 번호: 000167765
문서 유형: Solution
마지막 수정 시간: 24 11월 2025
버전:  5
다른 Dell 사용자에게 질문에 대한 답변 찾기
지원 서비스
디바이스에 지원 서비스가 적용되는지 확인하십시오.