Dell Unity: Gli host Linux montati utilizzando NFSv4.2 su Unity con OE 5.5 causano errori irreversibili negli SP
Summary: In Unity 5.5, l'accesso al file system (FS) può essere fornito utilizzando un mount NFS (Network File System) utilizzando i protocolli di condivisione file NFSv3 o NFSv4. Questa operazione viene eseguita in genere per LUN (Logical Unity Number) e datastore NFS con parametri di mounting specifici e quindi viene creata tramite script per vari gruppi di host. Viene creata una directory per il mount point durante il mounting delle condivisioni file utilizzando NFSv4.2. Se al parametro dell'etichetta di sicurezza della directory (sec_label) non sono assegnati dati, gli SP (Service Processor) di Unity possono causare un errore irreversibile e riavviarsi in modo imprevisto. ...
Symptoms
In Unity OE 5.5 è stato aggiunto il supporto per NFSv4.2 con i parametri di modalità e sec_label da utilizzare durante il processo di mounting NFS.
- In alcuni scenari di montaggio di script NFSv4.2 per creare una directory per il mount point, se al sec_label non sono assegnati dati, i processori di sistema (SP) Unity possono riscontrare un errore irreversibile SIGSEGV e riavviarsi in modo imprevisto.
- Uno o entrambi gli SP possono presentare un errore irreversibile a causa di una race condition tra una ridenominazione e un elenco di directory. Ciò può causare l'interruzione del sistema e l'attivazione di uno o entrambi gli SP in modalità di ripristino.
Esempio di output di errore irreversibile dai registri Unity:
B 05/14/25 19:01:09 CSX RT: panic requested at: <file-unknown>:0 (thread: 139634334762752 aka 139634334762752) [PID:7138 TID:9862 CORE:1 [csx_ic_std.x] [nfs09_007] [05/14/2025 19:01:09 UTC]] (panic action:DEFAULT expr:<no-expr> flags:-) [info:0] B 05/14/25 19:01:09 CSX RT: Fatal: Process received SIGSEGV: B 05/14/25 19:01:09 SIGSEGV(SEGV_MAPERR)@0x20 B 05/14/25 19:01:09 CSX RT: panic backtrace: [26ec0700] 00007f159e87ab34 <csx_rt_proc_request_backtrace +0x00000154> (sp=00007f159eb45440) proc=7f159e87a9e0-7f159e87b01d csx_urt.so B 05/14/25 19:01:09 CSX RT: panic backtrace: [26ec0700] 00007f159e846a27 <csx_rt_assert_request_panic +0x000000b7> (sp=00007f159eb46380) proc=7f159e846970-7f159e846a3b csx_urt.so B 05/14/25 19:01:09 CSX RT: panic backtrace: [26ec0700] 00007f159e878727 <csx_rt_proc_int_handle_fatal_signal +0x000002d7> (sp=00007f159eb464a0) proc=7f159e878450-7f159e8788f2 csx_urt.so B 05/14/25 19:01:09 CSX RT: panic backtrace: [26ec0700] 00007f159e87d543 <csx_rt_proc_int_handle_sigsegv +0x000001b3> (sp=00007f159eb46520) proc=7f159e87d390-7f159e87d597 csx_urt.so B 05/14/25 19:01:09 CSX RT: panic backtrace: [26ec0700] 00007f1545d20ea9 <_ZN13nfs4_attrhold17nfs4SetattrVerifyEjRPj+0x00000049> (sp=00007eff26ebed10) proc=7f1545d20e60-7f1545d20f90 cdx.so B 05/14/25 19:01:09 CSX RT: panic backtrace: [26ec0700] 00007f1545d217be <_Z13nfs4_secLabeliiP14nfs4_attr_infoP8nfs4_ctxP13nfs4_attrholdP15File_NamingNodeP17Access_Credential+0x0000075e> (sp=00007eff26ebed60) proc=7f1545d21060-7f1545d21823 cdx.so
Nota: Gli errori irreversibili non si verificano a ogni tentativo di mounting NFSv4.2 e alcuni funzionano senza problemi.
Se si verifica un errore irreversibile nell'SP, contattare il Supporto Dell e fare riferimento a questo articolo per esaminare lo stato del sistema. Non tentare di risolvere i problemi degli SP senza le indicazioni del supporto.
Cause
Il codice corrente di Unity OE 5.5 non è in grado di gestire l'attributo sec_label senza dati assegnati. Di conseguenza, l'SP accede a un puntatore di memoria null causando un errore irreversibile SIGSEGV. Inoltre, il codice 5.5 può riscontrare una race condition tra un elenco di directory e un'operazione di ridenominazione, con conseguente blocco dei thread e un errore irreversibile di timeout del watchdog.
Resolution
Correzione:
La race condition è stata risolta in Dell Unity OE versione 5.5.2. Eseguire l'aggiornamento a questa versione per risolvere il problema.
Il problema della sec_label vuota è ancora in fase di risoluzione da parte del reparto Engineering. Per ulteriori aggiornamenti, guardare questo articolo della Knowledge Base. Nel frattempo, le soluzioni alternative riportate di seguito possono risolvere il problema di sec_label vuoto.
Soluzione alternativa:
Per disabilitare l'etichetta di sicurezza NFSv4.2, consultare l'articolo seguente:
- Dell Unity: Come disabilitare l'etichetta di sicurezza su NFS su Unity OE 5.5 (correggibile dall'utente) (per visualizzare questo articolo è necessario accedere come utente registrato del supporto Dell).
Nell'articolo vengono inoltre illustrate le seguenti soluzioni alternative, che consentono di risolvere entrambi questi problemi:
- Montare i server Linux utilizzando solo NFSv3, NFSv4 o NFSv4.1
- Parametro per eseguire il downgrade della versione NFSv4 massima supportata alla versione 4.1
Additional Information
Una directory "create request" del mount point NFSv4.2 su un host Linux che fornisce informazioni sulla modalità e sull'sec_label influisce sulla richiesta nei seguenti modi:
- Modalità: Questo parametro specifica le autorizzazioni per la nuova directory. Definisce le autorizzazioni di lettura, scrittura ed esecuzione per il proprietario, il gruppo e altri. Ad esempio, una modalità 0755 concede autorizzazioni di lettura, scrittura ed esecuzione al proprietario e autorizzazioni di lettura ed esecuzione al gruppo e ad altri. Ciò garantisce che la directory venga creata con i controlli degli accessi corretti.
- Sec_label: Questo parametro viene utilizzato per applicare etichette di sicurezza alla directory. Sec_labels fanno parte del sistema MAC (Mandatory Access Control), che fornisce un controllo degli accessi più granulare rispetto al tradizionale Discretionary Access Control (DAC). Quando viene creata una directory con un sec_label, il server NFS archivia e recupera queste etichette, assicurandosi che la directory rispetti le policy di sicurezza specificate.
Ciò è utile negli ambienti che richiedono una rigorosa conformità alla sicurezza.
Questo articolo descrive cos'è un errore irreversibile della memoria SIGSEGV: Dell Unity: Lo storage processor ha riscontrato un errore irreversibile con causa SIGSEGV