PowerEdge: Uruchamianie zasobów systemu operacyjnego Linux powodujące ponowne uruchomienie
Summary: Serwer SUSE Linux Enterprise Server for SAP był uruchamiany ponownie z przerwami, raz lub dwa razy w tygodniu.
Symptoms
W dziennikach klastra wskazano, że węzeł dodatkowy został ponownie uruchomiony z powodu awarii monitorowanej przez zasób klastra.
Cause
Przejrzano dzienniki przed ponownym uruchomieniem i stwierdzono, że są one następujące.
Resolution
Błąd "Zasób chwilowo niedostępny" oznacza, że w systemie operacyjnym kończyły się zasoby.
W takim przypadku należy sprawdzić raport SAR w momencie przed ponownym uruchomieniem serwera.
00:00:01 runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 blocked
16:40:01 20 32595 9.01 9.97 5.46 0
16:50:01 15 32611 1.49 2.81 3.70 0
Uruchomionych jest 32 611 procesów. Jednak maksymalne dozwolone procesy to:kernel.pid_max = 32768 (Pobierz z pliku dziennika env.txt lub z polecenia systemu operacyjnego "sysctl -a | grep pid_max"
W ten sposób stwierdzono, że serwer osiągnął maksymalną dozwoloną liczbę procesów. Klient może sprawdzić za pomocą polecenia "ps aux", aby sprawdzić, czy wszystkie procesy są potrzebne, czy też może to być spowodowane nieprawidłowym zatrzymaniem procesów i tworzyć nowe procesy.
Naprawiono niepotrzebne procesy, rozwiązano problem