Dell Unity: Le condivisioni SMB o NFS potrebbero diventare inaccessibili a causa di thread bloccati
Summary: Come gestire eventi di thread bloccati in un sistema Dell Unity. (correggibile da Dell)
Symptoms
Lo scopo di questo articolo è quello di fornire indicazioni generiche su come gestire gli eventi di thread bloccati, in quanto la corretta gestione è fondamentale per la root-cause analysis (RCA) e la correzione.
Sono disponibili altri articoli specifici per alcune versioni di Unity OE, ad esempio l'articolo 000002643: 503606 DTA Unity: gli array che utilizzano CIFS/SMB con Operating Environment (OE) 4.2.0.9392909 o 4.2.0.9433914 devono eseguire l'aggiornamento a OE 4.2.0.9476662 (o versione successiva), che risolve un potenziale problema di non disponibilità dei dati (in inglese). (Solo gli utenti registrati del supporto Dell potranno accedere a questo articolo.)
I server NAS, il file system e le share vengono visualizzati online sul lato Dell Unity, ma i thread bloccati causano l'indisponibilità delle condivisioni SMB o NFS per i client.
Possibili codici di errore:
13:102d0003 neo-13:102d0003 neo-13:102d0007
Cause
Esistono diverse cause per i thread bloccati e ogni caso e sistema devono essere analizzati separatamente.
Ecco alcuni dei motivi più comuni per cui questi possono verificarsi:
- Deadlock in cui due thread sono in attesa di un blocco di risorse di proprietà dell'altro thread
- Elaborazione estesa delle operazioni (ad esempio autenticazione ritardata, controllo antivirus e così via)
Resolution
Soluzione immediata (temporanea):
Un riavvio o un errore irreversibile dell'SP che segnala i messaggi di thread bloccati ripristina immediatamente l'accesso. Un riavvio e un errore irreversibile sono essenzialmente identici, l'unica differenza è che l'errore irreversibile fornisce un file di dump della memoria per la post-analisi.
Informativo:
- Anche se un semplice riavvio allevia temporaneamente il problema, probabilmente rimuove la possibilità di RCA.
- Solo un dump SP (errore irreversibile) raccolto mentre la condizione è presente consente a Dell Engineering di analizzare completamente ed eseguire l'RCA dei thread bloccati.
- Solo Dell può eseguire un errore irreversibile nell'SP. Contattare il supporto tecnico Dell o il responsabile dell'assistenza autorizzato e citare l'ID di questo articolo Dell.
- Non si tratta di una correzione permanente e, se la causa sottostante dei thread bloccati non viene risolta, il problema può verificarsi di nuovo fino a quando non viene implementata la correzione.
Sono disponibili più correzioni per risolvere questa condizione a seconda della versione di Unity OE installata.
Nei casi in cui non esista una correzione, è necessario determinare un errore irreversibile nell'SP, che consente a Dell di ottenere un dump file con la condizione corrente dell'array per la revisione. L'RCA potrebbe non essere possibile senza questo dump file. Un errore irreversibile nell'SP richiede l'accesso root.
Additional Information
/EMC/backend/log_shared è presente (montato) solo sull'SP primario, è necessario essere sull'SP primario (attivo o log) per accedere a questo percorso e a questi file.
Nei messaggi di errore viene visualizzato l'SP interessato (l'SP che deve essere riavviato):
service@spa~# zgrep -i blocked /EMC/backend/log_shared/EMCSystemLogFile* EMCSystemLogFile.log:"2017-07-26T18:12:55.428Z" "unitymgr01_spa" "Kittyhawk_safe" "12657" "unix/spa/root" "ERROR" "13:102d0003" :: "ThreadsServicesSupervisor: Service:CIFS Pool:SMB2 BLOCKED for 423 seconds: Server operations may be impacted ." :: Category=System Component=DART_KERNEL EMCSystemLogFile.log:"2017-07-26T18:27:55.474Z" "unitymgr01_spa" "Kittyhawk_safe" "12657" "unix/spa/root" "ERROR" "13:102d0003" :: "ThreadsServicesSupervisor: Service:CIFS Pool:SMB2 BLOCKED for 1323 seconds: Server operations may be impacted ." :: Category=System Component=DART_KERNEL EMCSystemLogFile.log:"2017-07-26T18:42:55.520Z" "unitymgr01_spa" "Kittyhawk_safe" "12657" "unix/spa/root" "ERROR" "13:102d0003" :: "ThreadsServicesSupervisor: Service:CIFS Pool:SMB2 BLOCKED for 2222 seconds: Server operations may be impacted ." :: Category=System Component=DART_KERNEL
EMCSystemLogFile registri, controllare sempre direttamente nel ktraces Per essere sicuri.
La colonna
ktrace È possibile che i file vengano sottoposti rapidamente a wrapping, pertanto questi messaggi potrebbero non essere presenti nell'ultimo file non compresso. Si consiglia di controllare tutte le c4_safe_ktrace file (disponibili in /EMC/C4Core/log/).
Nell'SP interessato (l'SP in cui risiede il server NAS interessato), passare a
/EMC/C4Core/log/ ed eseguire il comando riportato di seguito (assicurarsi che la parola BLOCKED sia composta da sole lettere maiuscole). Se non si è sicuri di quale SP sia interessato, eseguire questo comando su entrambi e l'SP interessato dovrebbe mostrare questi messaggi:
service@spa~# zgrep -h BLOCKED c4_safe_ktrace* | sort ... 2017/09/20-07:46:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 33730 seconds: Server operations may be impacted 2017/09/20-08:01:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 34630 seconds: Server operations may be impacted 2017/09/20-08:16:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 35530 seconds: Server operations may be impacted 2017/09/20-08:31:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 36430 seconds: Server operations may be impacted 2017/09/20-08:46:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 37330 seconds: Server operations may be impacted 2017/09/20-09:01:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 38230 seconds: Server operations may be impacted 2017/09/20-09:16:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 39130 seconds: Server operations may be impacted 2017/09/20-09:31:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 40030 seconds: Server operations may be impacted