PowerEdge : Le système d’exploitation Linux exécute des ressources provoquant un redémarrage
Summary: SUSE Linux Enterprise Server for SAP était redémarré par intermittence, une ou deux fois par semaine.
Symptoms
À partir des logs du cluster, indique que le nœud secondaire a redémarré le nœud principal en raison d’une défaillance de la surveillance des ressources du cluster.
Cause
Passez en revue les journaux avant le redémarrage et trouvez ce qui suit.
Resolution
Avec l’erreur « Resource temporary unavailable », cela indique que le système d’exploitation est à court de ressources.
Dans ce cas, vérifiez le rapport SAR au moment précédant le redémarrage du serveur.
00:00:01 runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 blocked
16:40:01 20 32595 9.01 9.97 5.46 0
16:50:01 15 32611 1.49 2.81 3.70 0
32 611 processus sont en cours d’exécution. Toutefois, le nombre maximal de processus autorisés est le suivant :kernel.pid_max = 32768 (Récupérez-le à partir du fichier journal env.txt ou à partir de la commande OS "sysctl -a | grep pid_max«
Cela a donc conclu que le serveur avait atteint le nombre maximal de processus autorisés. Le client peut vérifier avec la commande «ps aux" pour vérifier si tous les processus sont nécessaires ou si les processus ne sont pas arrêtés correctement et continuer à créer de nouveaux processus.
Correction des processus inutiles corrigés du problème