Авамар: Сітка переходить у режим адміністратора через відмінності розділів даних і розріджених файлів
Summary: У цій статті розглядається проблема, коли кількість розріджених файлів відрізняється між розділами даних, через що сітка переходить у режим адміністратора.
Symptoms
Усі операції резервного копіювання та призначення реплікації не виходять з ладу.
Сервер Avamar працює в адміністративному режимі.
Пропускна здатність нижча за diskreadonly цінність.
Кількість смуг на всіх розділах даних схожа:
status.dpn
Thu Jul 16 09:41:28 CEST 2015 [avamar.emc.com] Thu Jul 16 07:41:27 2020 UTC (Initialized Thu Jan 16 16:42:42 2014 UTC)
Node IP Address Version State Runlevel Srvr+Root+User Dis Suspend Load UsedMB Errlen %Full Percent Full and Stripe Status by Disk
0.0 10.10.10.10 7.1.1-145 ONLINE fullaccess mhpu+0hpu+0000 1 false 0.03 35759 80935381 1.6% 1%(onl:1414) 1%(onl:1418) 1%(onl:1408) 1%(onl:1414) 1%(onl:1414) 1%(onl:1412)
Srvr+Root+User Modes = migrate + hfswriteable + persistwriteable + useraccntwriteable
System ID: 1434729928@00:50:56:8A:24:53
All reported states=(ONLINE), runlevels=(fullaccess), modes=(mhpu+0hpu+0000)
System-Status: ok
Access-Status: admin
No checkpoint yet
No GC yet
No hfscheck yet
Maintenance windows scheduler capacity profile is active.
The backup window is currently running.
Next backup window start time: Thu Jul 16 20:00:00 2020 CEST
Next maintenance window start time: Thu Jul 16 12:00:00 2020 CEST
Вихід наступної команди вказує, що сітка перебуває в адміністративному режимі через щось, що називається diskbeat:
(diskbeat це активність, яка змінила режим доступу до сервера)
avmaint nodelist --xmlperline=99 | grep activityaccess
<activityaccessmodes adminuser="mhpu+0hpu+0hpu" checkpoint="mhpu+0hpu+0hpu" conversion="mhpu+0hpu+0hpu" diskbeat="mhpu+0hpu+0000" garbagecollect="mhpu+0hpu+0hpu"
heartbeat="mhpu+0hpu+0hpu" hfscheckserver="mhpu+0hpu+0hpu" hfscheckexecute="mhpu+0hpu+0hpu" nodebeat="mhpu+0hpu+0hpu" runlevel="mhpu+0hpu+0hpu"
testintegrity="mhpu+0hpu+0hpu" removehashes="mhpu+0hpu+0hpu" rebuildstripe="mhpu+0hpu+0hpu" diskfull="mhpu+0hpu+0hpu" hashrefcheck="mhpu+0hpu+0hpu"/>
The df Команда показує значну розбіжність між розділами даних:
Приклад:
df -h
Filesystem Size Used Avail Use% Mounted on
/dev/sda2 7.9G 6.2G 1.4G 82% /
udev 18G 288K 18G 1% /dev
tmpfs 18G 0 18G 0% /dev/shm
/dev/sda1 130M 62M 61M 51% /boot
/dev/sda7 1.5G 227M 1.2G 17% /var
/dev/sda9 77G 50G 23G 70% /space
/dev/sdb1 1.0T 190G 835G 19% /data01
/dev/sdc1 1.0T 183G 842G 18% /data02
/dev/sdd1 1.0T 185G 839G 19% /data03
/dev/sde1 1.0T 416G 608G 41% /data04
/dev/sdf1 1.0T 190G 835G 19% /data05
/dev/sdg1 1.0T 187G 838G 19% /data06
У цьому виході /data04 використовується 41%, тоді як інші розділи даних — 18%-19%.
Ця різниця в розмірах між розділами даних перевищує freespaceunbalance цінність.
(freespaceunbalance — максимальна різниця ємності між розділами даних)
Подальше розслідування показує:
Контрольний пункт (cp) накладні витрати подібні між розділами даних, але розмір CUR менший на одному або кількох розділах:
cps -blk
Checkpoint usage by partition:
188.020 /data01/cur
181.944 /data02/cur
186.020 /data03/cur
435.234 /data04/cur
190.617 /data05/cur
187.797 /data06/cur
0.540 /data01/cp.20200716082941
0.542 /data02/cp.20200716082941
0.548 /data03/cp.20200716082941
0.038 /data04/cp.20200716082941
0.523 /data05/cp.20200716082941
0.493 /data06/cp.20200716082941
0.759 /data01/cp.20200716080454
0.777 /data02/cp.20200716080454
0.781 /data03/cp.20200716080454
0.336 /data04/cp.20200716080454
0.751 /data05/cp.20200716080454
0.721 /data06/cp.20200716080454
GB used %use Total checkpoint usage by node:
6593.815 Total blocks on node Thu Jul 16 10:41:56 2020
5198.045 78.83 Total blocks available
1369.633 20.77 cur Thu Jul 16 10:33:14 2020
2.683 0.04 cp.20200716082941 Thu Jul 16 10:32:42 2020
4.125 0.06 cp.20200716080454 Thu Jul 16 10:14:15 2020
1376.440 20.87 Total blocks used by dpn
Існує велика різниця між видимим розміром розділу CUR (розміром, який бачать застосунки) та використанням диска CUR (скільки фактичного простору займають файли):
du -sh --apparent-size /data??/cur
458G /data01/cur
456G /data02/cur
456G /data03/cur
455G /data04/cur
457G /data05/cur
456G /data06/cur
du -sh /data??/cur
176G /data01/cur
170G /data02/cur
174G /data03/cur
406G /data04/cur
178G /data05/cur
175G /data06/curCause
Один або кілька розділів даних мають більше розріджених файлів, ніж інші розділи даних.
Розріджений файл — це тип файлу, який намагається ефективніше використовувати простір у файловій системі, коли виділені для файлу блоки здебільшого порожні
.(Наприклад: Блоки, які містять лише нулі або нічого, фактично не зберігаються на диску.)
Натомість він записує коротку інформацію (метадані), що представляють порожні блоки, на диск.
Ця проблема зазвичай пов'язана з високою швидкістю змін, що призводить до значного збільшення накладних витрат на контрольних пунктах.
Resolution
1. Запустіть такі команди:
status.dpn
avmaint nodelist --xmlperline=99 | grep activityaccess
df -h
cps -blk
du -sh --apparent-size /data??/cur
du -sh /data??/cur
2. Створіть запит на сервіс разом із командою підтримки Dell Technologies Avamar, посилаючись на цю статтю та надаючи наведені вище результати.