PowerScale: rpcbind misslyckas under uppdateringen om du använder ett anpassat sysctl-värde
Summary: "rpcbind" startar inte korrekt under uppgraderingar till specifika OneFS-versioner om ett anpassat värde är inställt för "kern.ipc.somaxconn".
Symptoms
När du har uppgraderat till en av följande OneFS-versioner:
- 9.7.1.3
- 9.10.0.0
Klientåtkomsten avbryts över alla protokoll och körs isi auth Kommandon i klustret gör att följande fel visas:
p970-1# isi auth users list Unable to connect to authentication daemon. Please wait until authentication daemon has restarted and retry.
Meddelanden i /var/log/messages ange att det inte gick att ansluta till RPC-servern (Remote Procedure Call):
2024-11-25T14:59:51.084340+00:00 <1.3> p970-1(id1) isi_celog_capture[4169]: drive_d_connect: Failed to connect to RPC server at 127.0.0.1 (errno=Invalid argument, rpc clnt_stat=15); retrying 2 of 3.
Cause
Ett problem i logiken som utvärderade den här inställningen i de två berörda versionerna av OneFS orsakar det här problemet. Det tas upp i alla andra versioner.
Resolution
Det här problemet kan undvikas om det åtgärdas innan du uppgraderar till en OneFS-version som påverkas. Om klustret redan påverkas finns det även återställningssteg.
Före uppgradering
Sök efter ett anpassat värde med hjälp av skriptet nedan:
sys_files="/etc/mcp/templates/sysctl.conf /etc/mcp/override/sysctl.conf /etc/local/sysctl.conf"; while read -r file; do grep "somaxconn" "$file" 2>/dev/null done <<<"$sys_files"
Om det finns utgång; Skriv ned värdet (512 är vanligt) och använd sedan följande skript för att ta bort posten:
sys_files="/etc/mcp/templates/sysctl.conf /etc/mcp/override/sysctl.conf /etc/local/sysctl.conf"; while read -r file; do sed -i bak "s/^kern.ipc.somaxconn.*//g" "$file" 2>/dev/null done <<<"$sys_files"
Uppgraderingen kan nu utföras på ett säkert sätt. Efter uppgraderingen återställer du inställningen till det tidigare nedskrivna värdet med följande kommando. Ersätta $val med det värde som anges.
isi_sysctl_cluster kern.ipc.somaxconn=$val
Starta sedan om noderna manuellt en i taget med valfri process om du vill.
Efter kollision
En omstart av de berörda noderna krävs.
shutdown -r now