Dell Unity : Les partages SMB ou NFS peuvent devenir inaccessibles en raison de threads bloqués
Summary: Gérer les événements de thread bloqués dans un système Dell Unity. (Corrigible par Dell)
Symptoms
L’objectif de cet article est de fournir des conseils génériques sur la façon de gérer les événements de thread bloqués, car une gestion appropriée est cruciale pour l’analyse des causes premières (RCA) et la résolution.
D’autres articles spécifiques à certaines versions de Unity OE, tels que l’article 000002643 : DTA 503606 : Unity : Les matrices qui utilisent CIFS/SMB et exécutent l’environnement d’exploitation (OE) 4.2.0.9392909 ou 4.2.0.9433914 doivent effectuer une mise à niveau vers la version 4.2.0.9476662 (ou une version supérieure), laquelle résout un problème potentiel d’indisponibilité des données. (Seuls les utilisateurs enregistrés au support Dell peuvent accéder à cet article.)
Les serveurs NAS, le système de fichiers et les partages sont affichés en ligne du côté Dell Unity, mais les threads bloqués entraînent l’indisponibilité des partages SMB ou NFS pour les clients.
Codes d’erreur possibles :
13:102d0003 neo-13:102d0003 neo-13:102d0007
Cause
Il existe différentes causes pour les threads bloqués, et chaque cas et système doivent être examinés séparément.
Voici quelques-unes des raisons les plus courantes pour lesquelles cela peut se produire :
- Blocage où deux threads attendent un verrou de ressource détenu par l’autre thread
- Traitement des opérations étendues (par exemple, authentification différée, détection de virus, etc.)
Resolution
Solution immédiate (temporaire) :
Un redémarrage ou une mise en état de fonctionnement inattendu du SP qui signale les messages de threads bloqués a pour effet de restaurer immédiatement l’accès. Un redémarrage et un fonctionnement inattendu sont essentiellement identiques, à la seule différence que le fonctionnement inattendu fournit un fichier de vidage mémoire pour l’analyse post.
Informationnel:
- Bien qu’un simple redémarrage atténue temporairement le problème, il supprime probablement la possibilité de RCA.
- Seul un fichier de vidage du SP (fonctionnement inattendu) collecté alors que le problème est présent permet aux ingénieurs Dell d’enquêter correctement et d’analyser la cause première des threads bloqués.
- Seul Dell peut mettre un SP en état de fonctionnement inattendu. Contactez le support technique Dell ou votre représentant de service agréé en leur communiquant l’identifiant de cet article Dell.
- Il ne s’agit pas là d’un correctif permanent. Si la cause sous-jacente des threads bloqués n’est pas résolue, la situation risque de se reproduire jusqu’à ce qu’un correctif soit mis en œuvre.
Plusieurs correctifs sont disponibles pour résoudre ce problème en fonction de la version de Unity OE installée.
En l’absence de correctif, une mise en état de fonctionnement inattendu du SP est requise, car elle permet à Dell d’obtenir un fichier de vidage indiquant les conditions actuelles de la matrice à vérifier. L’analyse des causes premières peut s’avérer impossible sans ce fichier de vidage. Un fonctionnement inattendu du SP nécessite un accès root.
Additional Information
/EMC/backend/log_shared n’est présent (monté) que sur le processeur de stockage principal, vous devez être sur le processeur de stockage principal (actifs ou journaux) pour accéder à cet emplacement et à ces fichiers.
Dans les messages d’erreur, vous voyez le SP concerné (le SP qui doit être redémarré) :
service@spa~# zgrep -i blocked /EMC/backend/log_shared/EMCSystemLogFile* EMCSystemLogFile.log:"2017-07-26T18:12:55.428Z" "unitymgr01_spa" "Kittyhawk_safe" "12657" "unix/spa/root" "ERROR" "13:102d0003" :: "ThreadsServicesSupervisor: Service:CIFS Pool:SMB2 BLOCKED for 423 seconds: Server operations may be impacted ." :: Category=System Component=DART_KERNEL EMCSystemLogFile.log:"2017-07-26T18:27:55.474Z" "unitymgr01_spa" "Kittyhawk_safe" "12657" "unix/spa/root" "ERROR" "13:102d0003" :: "ThreadsServicesSupervisor: Service:CIFS Pool:SMB2 BLOCKED for 1323 seconds: Server operations may be impacted ." :: Category=System Component=DART_KERNEL EMCSystemLogFile.log:"2017-07-26T18:42:55.520Z" "unitymgr01_spa" "Kittyhawk_safe" "12657" "unix/spa/root" "ERROR" "13:102d0003" :: "ThreadsServicesSupervisor: Service:CIFS Pool:SMB2 BLOCKED for 2222 seconds: Server operations may be impacted ." :: Category=System Component=DART_KERNEL
EMCSystemLogFile journaux, vérifiez toujours directement dans le fichier ktraces pour être sûr.
La commande
ktrace Les fichiers peuvent être renvoyés à la ligne rapidement, de sorte que ces messages peuvent ne pas être présents dans le dernier fichier décompressé. Il est recommandé de consigner tous les c4_safe_ktrace fichiers (trouvés dans /EMC/C4Core/log/).
Sur le SP concerné (le SP où réside le serveur NAS concerné), accédez à
/EMC/C4Core/log/ et exécutez la commande ci-dessous (assurez-vous que le mot BLOCKED est en majuscules). Si vous avez un doute sur le SP concerné, exécutez cette commande sur les deux. Le SP concerné devrait afficher les messages suivants :
service@spa~# zgrep -h BLOCKED c4_safe_ktrace* | sort ... 2017/09/20-07:46:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 33730 seconds: Server operations may be impacted 2017/09/20-08:01:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 34630 seconds: Server operations may be impacted 2017/09/20-08:16:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 35530 seconds: Server operations may be impacted 2017/09/20-08:31:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 36430 seconds: Server operations may be impacted 2017/09/20-08:46:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 37330 seconds: Server operations may be impacted 2017/09/20-09:01:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 38230 seconds: Server operations may be impacted 2017/09/20-09:16:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 39130 seconds: Server operations may be impacted 2017/09/20-09:31:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 40030 seconds: Server operations may be impacted