PowerScale: El controlador de audit_flt en el proceso SMB se encuentra en estado apagado, lo que causa DU en el nodo
Summary: Se identificó un problema en el código OneFS 9.7, en el cual el controlador de auditoría no se carga correctamente en el proceso de SMB. Esto puede provocar la falta de disponibilidad de datos (DU). ...
Symptoms
Si el clúster se encuentra en el código de versión 9.7.1.0 a 9.7.1.6, este problema puede afectarlo. Los principales síntomas son:
- Los usuarios de SMB no pueden acceder a algunos o a todos los nodos.
- El servicio SMB en algunos o todos los nodos muestra una gran cantidad de conexiones en estado cerrado . Si bien las conexiones en un estado cerrado pueden ocurrir debido a diversos motivos, también es un síntoma asociado con este problema específico. Para comprobar esto, utilice el siguiente comando:
isi_for_array -X 'netstat -an | grep "\.445 " | grep CLOSED | wc -l' | sort -V
Debería esperar ver todos los "0" en el resultado. A continuación, se muestra un ejemplo de un clúster que presenta este problema:
MyCluster-1# isi_for_array -X 'netstat -an | grep "\.445 " | grep CLOSED | wc -l' | sort -V
MyCluster-1: 208
MyCluster-2: 425
MyCluster-3: 2228
MyCluster-4: 146
MyCluster-5: 5284
MyCluster-6: 964
- La auditoría está habilitada en el clúster. Compruebe con este comando:
isi audit settings global view | grep "Protocol Auditing"
MyCluster-1# isi audit settings global view | grep "Protocol Auditing"
Protocol Auditing Enabled: Yes
- El clúster está ejecutando el código afectado: 9.7.1.0 - 9.7.1.6
Para determinar de manera concluyente si el clúster está experimentando este problema, envíe una solicitud de servicio al soporte de Dell. Pueden ayudar a examinar el volcado de núcleo de SMB desde el servicio de LWIO.
Cause
Este problema se produce porque el proceso de SMB no carga correctamente el audit_flt controlador en el momento del inicio. Por lo general, este problema se desencadena cuando se reinicia el servicio SMB, como durante una actualización de código o una conmutación por error y una conmutación por recuperación entre clústeres. Sin embargo, esto puede suceder si el SMB se reinicia por algún motivo.
Resolution
Para aliviar el problema, reinicie el servicio SMB. En circunstancias normales, un reinicio aislado de SMB debería ser suficiente:
MyCluster-1# killall -6 lwio
Esto se puede hacer en varios nodos con isi_for_array. A continuación, se muestra un ejemplo de reinicio del servicio SMB en los nodos 1 a 4:
MyCluster-1# isi_for_array -n1-4 'killall -6 lwio'
Si esto no alivia el problema, es posible que sea necesario reiniciar SMB y todas las dependencias:
MyCluster-1# /usr/likewise/bin/lwsm restart lwio
Nuevamente, esto se puede hacer en varios nodos simultáneamente mediante isi_for_array. A continuación, se muestra un ejemplo de reinicio de la pila de SMB en los nodos 1 a 4:
MyCluster-1# isi_for_array -n1-4 '/usr/likewise/bin/lwsm restart lwio'
Este problema se aborda en el código de OneFS 9.7.1.7 en adelante.