Avamar: A grade entra no modo de administrador devido a diferenças em partições de dados, arquivos fragmentados
Summary: Este artigo aborda um problema em que o número de arquivos fragmentados difere entre as partições de dados, fazendo com que a grade entre no modo admin.
Symptoms
Todos os backups e atividades de destino de replicação estão falhando.
O Avamar Server está no modo de administrador.
A capacidade está abaixo do diskreadonly valor.
O número de faixas em todas as partições de dados é semelhante:
status.dpn
Thu Jul 16 09:41:28 CEST 2015 [avamar.emc.com] Thu Jul 16 07:41:27 2020 UTC (Initialized Thu Jan 16 16:42:42 2014 UTC)
Node IP Address Version State Runlevel Srvr+Root+User Dis Suspend Load UsedMB Errlen %Full Percent Full and Stripe Status by Disk
0.0 10.10.10.10 7.1.1-145 ONLINE fullaccess mhpu+0hpu+0000 1 false 0.03 35759 80935381 1.6% 1%(onl:1414) 1%(onl:1418) 1%(onl:1408) 1%(onl:1414) 1%(onl:1414) 1%(onl:1412)
Srvr+Root+User Modes = migrate + hfswriteable + persistwriteable + useraccntwriteable
System ID: 1434729928@00:50:56:8A:24:53
All reported states=(ONLINE), runlevels=(fullaccess), modes=(mhpu+0hpu+0000)
System-Status: ok
Access-Status: admin
No checkpoint yet
No GC yet
No hfscheck yet
Maintenance windows scheduler capacity profile is active.
The backup window is currently running.
Next backup window start time: Thu Jul 16 20:00:00 2020 CEST
Next maintenance window start time: Thu Jul 16 12:00:00 2020 CEST
O resultado do seguinte comando indica que a grade está no modo admin devido a algo chamado diskbeat:
(diskbeat é a atividade que alterou o modo de acesso ao servidor)
avmaint nodelist --xmlperline=99 | grep activityaccess
<activityaccessmodes adminuser="mhpu+0hpu+0hpu" checkpoint="mhpu+0hpu+0hpu" conversion="mhpu+0hpu+0hpu" diskbeat="mhpu+0hpu+0000" garbagecollect="mhpu+0hpu+0hpu"
heartbeat="mhpu+0hpu+0hpu" hfscheckserver="mhpu+0hpu+0hpu" hfscheckexecute="mhpu+0hpu+0hpu" nodebeat="mhpu+0hpu+0hpu" runlevel="mhpu+0hpu+0hpu"
testintegrity="mhpu+0hpu+0hpu" removehashes="mhpu+0hpu+0hpu" rebuildstripe="mhpu+0hpu+0hpu" diskfull="mhpu+0hpu+0hpu" hashrefcheck="mhpu+0hpu+0hpu"/>
A coluna df O comando mostra uma grande discrepância entre as partições de dados:
Exemplo:
df -h
Filesystem Size Used Avail Use% Mounted on
/dev/sda2 7.9G 6.2G 1.4G 82% /
udev 18G 288K 18G 1% /dev
tmpfs 18G 0 18G 0% /dev/shm
/dev/sda1 130M 62M 61M 51% /boot
/dev/sda7 1.5G 227M 1.2G 17% /var
/dev/sda9 77G 50G 23G 70% /space
/dev/sdb1 1.0T 190G 835G 19% /data01
/dev/sdc1 1.0T 183G 842G 18% /data02
/dev/sdd1 1.0T 185G 839G 19% /data03
/dev/sde1 1.0T 416G 608G 41% /data04
/dev/sdf1 1.0T 190G 835G 19% /data05
/dev/sdg1 1.0T 187G 838G 19% /data06
Nessa saída, /data04 tem 41% de uso, enquanto as outras partições de dados têm de 18% a 19% de uso.
Essa diferença de tamanho entre as partições de dados excede o freespaceunbalance valor.
(freespaceunbalance é a diferença de capacidade máxima entre partições de dados)
Uma investigação mais aprofundada mostra:
O checkpoint (cp) A sobrecarga é semelhante nas partições de dados, mas o tamanho cur é menor em uma ou mais partições:
cps -blk
Checkpoint usage by partition:
188.020 /data01/cur
181.944 /data02/cur
186.020 /data03/cur
435.234 /data04/cur
190.617 /data05/cur
187.797 /data06/cur
0.540 /data01/cp.20200716082941
0.542 /data02/cp.20200716082941
0.548 /data03/cp.20200716082941
0.038 /data04/cp.20200716082941
0.523 /data05/cp.20200716082941
0.493 /data06/cp.20200716082941
0.759 /data01/cp.20200716080454
0.777 /data02/cp.20200716080454
0.781 /data03/cp.20200716080454
0.336 /data04/cp.20200716080454
0.751 /data05/cp.20200716080454
0.721 /data06/cp.20200716080454
GB used %use Total checkpoint usage by node:
6593.815 Total blocks on node Thu Jul 16 10:41:56 2020
5198.045 78.83 Total blocks available
1369.633 20.77 cur Thu Jul 16 10:33:14 2020
2.683 0.04 cp.20200716082941 Thu Jul 16 10:32:42 2020
4.125 0.06 cp.20200716080454 Thu Jul 16 10:14:15 2020
1376.440 20.87 Total blocks used by dpn
Há uma grande diferença entre o tamanho aparente da partição CUR (tamanho visto pelos aplicativos) e o uso do disco CUR (quanto espaço real é ocupado pelos arquivos):
du -sh --apparent-size /data??/cur
458G /data01/cur
456G /data02/cur
456G /data03/cur
455G /data04/cur
457G /data05/cur
456G /data06/cur
du -sh /data??/cur
176G /data01/cur
170G /data02/cur
174G /data03/cur
406G /data04/cur
178G /data05/cur
175G /data06/curCause
Uma ou mais partições de dados têm mais arquivos fragmentados do que as outras partições de dados.
Um arquivo fragmentado é um tipo de arquivo que tenta usar o espaço do sistema de arquivos com mais eficiência quando os blocos alocados ao arquivo estão, em sua maioria, vazios.
(Por exemplo: Os blocos que contêm apenas zeros ou nada não são realmente armazenados no disco.)
Em vez disso, ele grava breves informações (metadados) representando os blocos vazios no disco.
Esse problema geralmente está associado a uma alta taxa de alteração, o que causa um aumento dramático da sobrecarga do checkpoint.
Resolution
1. Execute os seguintes comandos:
status.dpn
avmaint nodelist --xmlperline=99 | grep activityaccess
df -h
cps -blk
du -sh --apparent-size /data??/cur
du -sh /data??/cur
2. Crie um chamado com a equipe de suporte do Avamar da Dell Technologies, consultando este artigo e fornecendo o resultado coletado acima.