Avamar. Сетка переходит в режим администратора из-за различий в разделах данных разреженных файлов
Summary: В этой статье рассматривается проблема, из-за которой количество разреженных файлов в разделах данных различается, что приводит к переходу сетки в режим администратора.
Symptoms
Все операции резервного копирования и целевого ресурса репликации завершаются сбоем.
Avamar Server находится в режиме администратора.
Емкость ниже diskreadonly ценность.
Количество полос на всех разделах данных одинаково:
status.dpn
Thu Jul 16 09:41:28 CEST 2015 [avamar.emc.com] Thu Jul 16 07:41:27 2020 UTC (Initialized Thu Jan 16 16:42:42 2014 UTC)
Node IP Address Version State Runlevel Srvr+Root+User Dis Suspend Load UsedMB Errlen %Full Percent Full and Stripe Status by Disk
0.0 10.10.10.10 7.1.1-145 ONLINE fullaccess mhpu+0hpu+0000 1 false 0.03 35759 80935381 1.6% 1%(onl:1414) 1%(onl:1418) 1%(onl:1408) 1%(onl:1414) 1%(onl:1414) 1%(onl:1412)
Srvr+Root+User Modes = migrate + hfswriteable + persistwriteable + useraccntwriteable
System ID: 1434729928@00:50:56:8A:24:53
All reported states=(ONLINE), runlevels=(fullaccess), modes=(mhpu+0hpu+0000)
System-Status: ok
Access-Status: admin
No checkpoint yet
No GC yet
No hfscheck yet
Maintenance windows scheduler capacity profile is active.
The backup window is currently running.
Next backup window start time: Thu Jul 16 20:00:00 2020 CEST
Next maintenance window start time: Thu Jul 16 12:00:00 2020 CEST
Выходные данные следующей команды указывают на то, что сеть находится в режиме администратора из-за того, что называется diskbeat:
(diskbeat — действие, которое изменило режим доступа к серверу)
avmaint nodelist --xmlperline=99 | grep activityaccess
<activityaccessmodes adminuser="mhpu+0hpu+0hpu" checkpoint="mhpu+0hpu+0hpu" conversion="mhpu+0hpu+0hpu" diskbeat="mhpu+0hpu+0000" garbagecollect="mhpu+0hpu+0hpu"
heartbeat="mhpu+0hpu+0hpu" hfscheckserver="mhpu+0hpu+0hpu" hfscheckexecute="mhpu+0hpu+0hpu" nodebeat="mhpu+0hpu+0hpu" runlevel="mhpu+0hpu+0hpu"
testintegrity="mhpu+0hpu+0hpu" removehashes="mhpu+0hpu+0hpu" rebuildstripe="mhpu+0hpu+0hpu" diskfull="mhpu+0hpu+0hpu" hashrefcheck="mhpu+0hpu+0hpu"/>
Переменная df показывает большое расхождение между разделами данных:
Пример:
df -h
Filesystem Size Used Avail Use% Mounted on
/dev/sda2 7.9G 6.2G 1.4G 82% /
udev 18G 288K 18G 1% /dev
tmpfs 18G 0 18G 0% /dev/shm
/dev/sda1 130M 62M 61M 51% /boot
/dev/sda7 1.5G 227M 1.2G 17% /var
/dev/sda9 77G 50G 23G 70% /space
/dev/sdb1 1.0T 190G 835G 19% /data01
/dev/sdc1 1.0T 183G 842G 18% /data02
/dev/sdd1 1.0T 185G 839G 19% /data03
/dev/sde1 1.0T 416G 608G 41% /data04
/dev/sdf1 1.0T 190G 835G 19% /data05
/dev/sdg1 1.0T 187G 838G 19% /data06
В этом выводе /data04 используется 41%, тогда как другие разделы данных используются 18–19%.
Эта разница в размере между разделами данных превышает freespaceunbalance ценность.
(freespaceunbalance — максимальная разница емкостей между разделами данных)
Дальнейшее расследование показывает:
Контрольная точка (cp) Общие издержки в аналогичных разделах данных, но размер текущих данных меньше в одной или нескольких секциях:
cps -blk
Checkpoint usage by partition:
188.020 /data01/cur
181.944 /data02/cur
186.020 /data03/cur
435.234 /data04/cur
190.617 /data05/cur
187.797 /data06/cur
0.540 /data01/cp.20200716082941
0.542 /data02/cp.20200716082941
0.548 /data03/cp.20200716082941
0.038 /data04/cp.20200716082941
0.523 /data05/cp.20200716082941
0.493 /data06/cp.20200716082941
0.759 /data01/cp.20200716080454
0.777 /data02/cp.20200716080454
0.781 /data03/cp.20200716080454
0.336 /data04/cp.20200716080454
0.751 /data05/cp.20200716080454
0.721 /data06/cp.20200716080454
GB used %use Total checkpoint usage by node:
6593.815 Total blocks on node Thu Jul 16 10:41:56 2020
5198.045 78.83 Total blocks available
1369.633 20.77 cur Thu Jul 16 10:33:14 2020
2.683 0.04 cp.20200716082941 Thu Jul 16 10:32:42 2020
4.125 0.06 cp.20200716080454 Thu Jul 16 10:14:15 2020
1376.440 20.87 Total blocks used by dpn
Существует большая разница между видимым размером раздела CUR (размером, видимым приложениями) и использованием диска CUR (фактическим объемом пространства, занимаемого файлами):
du -sh --apparent-size /data??/cur
458G /data01/cur
456G /data02/cur
456G /data03/cur
455G /data04/cur
457G /data05/cur
456G /data06/cur
du -sh /data??/cur
176G /data01/cur
170G /data02/cur
174G /data03/cur
406G /data04/cur
178G /data05/cur
175G /data06/curCause
Одна или несколько секций данных содержат больше разреженных файлов, чем другие разделы данных.
Разреженный файл — это тип файла, который пытается более эффективно использовать пространство файловой системы, когда блоки, выделенные файлу, в основном пусты.
(Например: Блоки, содержащие только нули или ничего, на самом деле не хранятся на диске.)
Вместо этого он записывает на диск краткую информацию (метаданные), представляющие пустые блоки.
Эта проблема обычно связана с высокой частотой изменений, что приводит к резкому увеличению накладных расходов на контрольные точки.
Resolution
1. Выполните следующие команды:
status.dpn
avmaint nodelist --xmlperline=99 | grep activityaccess
df -h
cps -blk
du -sh --apparent-size /data??/cur
du -sh /data??/cur
2. Создайте сервисную заявку в службе поддержки Dell Technologies Avamar, укажите эту статью и выходные данные, собранные выше.