VNX: Clientes desconectados do servidor CIFS durante a atualização do checkpoint interno
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Diretórios
grandesNasdirtool confirma que os sistemas de arquivos de produção afetados contêm vários diretórios com mais de 500,00 arquivos em um único diretório
Da saída nasdirtool:.....
/root_vdm_5/Applications/Appstorage/Images,95616,1458761 <=== 95MB de tamanho e 1,4 milhão de arquivos
/root_vdm_6/Production/SubDirectory2/REP,150731,2104554 <=== 150MB de tamanho e 2,1 milhões de arquivos
Alguns clientes CIFS são desconectados do servidor CIFS do VNX durante a atualização dos checkpoints internos usados para replicação no array do lado da origem.
Outros clients CIFS e NFS em outros compartilhamentos estão funcionando normalmente.
A alta utilização da CPU no Data Mover pode ser vista com frequência, dependendo do tamanho do conteúdo dos diretórios, a utilização da CPU do Data Mover pode chegar a 100%.
[nasadmin@VNX-CS0 tmp]$ server_stats server_2 -i 60
server_2 CPU Rede Rede dVol dVol
Timestamp Util In Out Read Write
% KiB/s KiB/s KiB/s KiB/s KiB/s
10:41:25 99 16123 62578 61912 28048
10:42:25 98 4242 63170 62433 9793
10:43:25 99 2935 46987 48618 8918
10:44:25 99 7499 45901 46373 13019
10:45:25 99 4564 47836 48018 9625
10:46:25 98 3973 52316 52167 9035
10:47:25 98 9777 60167 55127 16238
10:48:25 97 18513 76583 70269 26258
10:49:25 98 11885 43789 43595 17238
10:50:25 99 17868 55491 52966 21029
10:51:25 99 8171 43491 43013 11961
10:52:25 99 8835 50947 50328 13369
Uma captura de rede realizada durante o incidente mostrou que as comunicações TCP do cliente para o servidor estavam funcionando bem, mas o servidor CIFS não respondeu ao cliente específico que estava enfrentando o problema no nível do protocolo SMB, resultando em um tempo de espera excedido do cliente.
Cause
O file system do lado da origem em uso para replicação contém diretórios que excedem 500.000 arquivos em um único diretório. Conforme documentado nas notas da versão do EMC VNX OE for File, exceder 500.000 arquivos em um único diretório resultará em problemas de desempenho.
No registro do Data Mover, os seguintes eventos são registrados durante o problema:
2016-08-12 12:58:40: SMB: 6:[VDM2] Cota:getFsAndLock para thread 1SMB415 abortado (client WINCLIENT01 desconectado)
2016-08-12 12:58:49: SMB: 6: [VDM2] Cota:getFsAndLock para thread 1SMB034 abortado (client WINCLIENT02 desconectado)
2016-08-12 13:09:29: SMB: 6:[VDM2] Quota:getFsAndLock para thread 1SMB356 abortado (client WINCLIENT03 desconectado)
2016-08-12 13:09:29: SMB: 6: [VDM2] Cota:getFsAndLock para thread 1SMB358 abortado (client WINCLIENT04 desconectado)
O registro do Data Mover mostra que o problema corresponde a uma atualização
interna do checkpoint de replicação Exemplo de pausa rápida normal do FS para atualização de checkpoint neste array
do lado da origem 2016-08-19 12:33:39: 26042826752: SVFS: 6: pause() solicitado em FSID:1103
2016-08-19 12:33:39: 26042826752: SVFS: 6: Pausa concluída no FSID:1103
Neste caso, alguma operação está atrasando a pausa
2016-08-19 12:42:36: 26042826752: SVFS: 6: pause() solicitado em FSID:1103
...
2016-08-19 12:45:17: 26041909248: SMB: 6:[VDM2] Cota:getFsAndLock para thread 1SMB396 abortado (client WINCLIENT01 desconectado)
2016-08-19 12:45:26: 26041909248: SMB: 6:[VDM2] Cota:getFsAndLock para thread 1SMB478 abortado (client WINCLIENT02 desconectado)
...
2016-08-19 13:00:47: 26041909248: SMB: 6:[VDM2] Cota:getFsAndLock para thread 1SMB298 abortado (client WINCLIENT03 desconectado)
2016-08-19 13:00:52: 26042826752: SVFS: 6: Pausa concluída no FSID:1103
A pausa de atualização de checkpoint interno do lado da origem acima mostra um comportamento não normal. Uma pane forçada foi feita para confirmar o que estava causando a pausa levar tanto tempo, e a análise do arquivo de despejo de pânico confirmou que o sistema de arquivos contém diretórios com milhões de arquivos em um único diretório.
No registro do Data Mover, os seguintes eventos são registrados durante o problema:
2016-08-12 12:58:40: SMB: 6:[VDM2] Cota:getFsAndLock para thread 1SMB415 abortado (client WINCLIENT01 desconectado)
2016-08-12 12:58:49: SMB: 6: [VDM2] Cota:getFsAndLock para thread 1SMB034 abortado (client WINCLIENT02 desconectado)
2016-08-12 13:09:29: SMB: 6:[VDM2] Quota:getFsAndLock para thread 1SMB356 abortado (client WINCLIENT03 desconectado)
2016-08-12 13:09:29: SMB: 6: [VDM2] Cota:getFsAndLock para thread 1SMB358 abortado (client WINCLIENT04 desconectado)
O registro do Data Mover mostra que o problema corresponde a uma atualização
interna do checkpoint de replicação Exemplo de pausa rápida normal do FS para atualização de checkpoint neste array
do lado da origem 2016-08-19 12:33:39: 26042826752: SVFS: 6: pause() solicitado em FSID:1103
2016-08-19 12:33:39: 26042826752: SVFS: 6: Pausa concluída no FSID:1103
Neste caso, alguma operação está atrasando a pausa
2016-08-19 12:42:36: 26042826752: SVFS: 6: pause() solicitado em FSID:1103
...
2016-08-19 12:45:17: 26041909248: SMB: 6:[VDM2] Cota:getFsAndLock para thread 1SMB396 abortado (client WINCLIENT01 desconectado)
2016-08-19 12:45:26: 26041909248: SMB: 6:[VDM2] Cota:getFsAndLock para thread 1SMB478 abortado (client WINCLIENT02 desconectado)
...
2016-08-19 13:00:47: 26041909248: SMB: 6:[VDM2] Cota:getFsAndLock para thread 1SMB298 abortado (client WINCLIENT03 desconectado)
2016-08-19 13:00:52: 26042826752: SVFS: 6: Pausa concluída no FSID:1103
A pausa de atualização de checkpoint interno do lado da origem acima mostra um comportamento não normal. Uma pane forçada foi feita para confirmar o que estava causando a pausa levar tanto tempo, e a análise do arquivo de despejo de pânico confirmou que o sistema de arquivos contém diretórios com milhões de arquivos em um único diretório.
Resolution
Uma nova estrutura de subdiretórios deve ser implementada no file system de produção. Os arquivos nos diretórios problemáticos devem ser distribuídos entre os novos diretórios para não exceder 500,00 arquivos em um único diretório. Os diretórios problemáticos originais devem ser excluídos pelo administrador do VNX.
Additional Information
Notas da versão do EMC VNX Operating Environment for File versão 7.1.79.8
| Diretriz/especificação | Valor máximo testado | Comentário |
| Número de arquivos por diretório | 500,000 | Exceder esse número causará problemas de desempenho. |
Affected Products
VNX1 SeriesProducts
VNX1 Series, VNX2 SeriesArticle Properties
Article Number: 000052074
Article Type: Solution
Last Modified: 06 Nov 2025
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.