PowerEdge: Sistema operacional Linux em execução de recursos causando uma reinicialização
Summary: O SUSE Linux Enterprise Server for SAP foi reinicializado intermitentemente, uma ou duas vezes por semana.
Symptoms
Nos logs do cluster, indicou que o nó primário reinicializou devido à falha monitorada pelos recursos do cluster.
Cause
Os logs foram analisados antes da reinicialização e descobriram o seguinte.
Resolution
Com o erro "Recurso temporariamente indisponível", isso indica que o sistema operacional estava ficando sem recursos.
Nesse caso, verifique o relatório SAR antes da reinicialização do servidor.
00:00:01 runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 blocked
16:40:01 20 32595 9.01 9.97 5.46 0
16:50:01 15 32611 1.49 2.81 3.70 0
Há 32.611 processos em execução. No entanto, os processos máximos permitidos são:kernel.pid_max = 32768 (Obter isso do arquivo de log env.txt ou a partir do comando do SO "sysctl -a | grep pid_max"
Então, isso concluiu que o servidor atingiu o máximo de processos permitidos. O cliente pode verificar com o comando "ps aux" para analisar se todos os processos são necessários ou pode ser que os processos não parados corretamente e continuar criando novos processos.
Os processos desnecessários corrigidos corrigiram o problema