Baza wiedzy

Serwery PowerEdge - problemy z procesorami: informacje i sposoby diagnozowania




W większości urządzeń procesor jest kluczowym komponentem. Podobnie jest w serwerach, gdzie przetwarza on instrukcje i zarządza innymi komponentami, takimi jak pamięci, czy PCI bus. W związku z tym usterki procesora mogą martwić.
Należy mieć na uwadze, że fizyczne uszkodzenia procesorów są bardzo rzadkie. W przypadku większości gwarancyjnych wymian procesorów okazuje się, że procesory nie wykazują żadnych usterek podczas indywidualnych testów. Uszkodzenie procesora jest zazwyczaj spowodowane wyładowaniem elekrtycznym w serwerze, kaskadową awarią spowodowaną przez uszkodzenie innego komponentu lub problemami z temperaturą. W związku z tym istotnym jest wykonanie kluczowych kroków diagnostycznych w przypadku podejrzenia awarii procesora, aby poprawnie określić źródło problemu.

Informacje i instrukcje zawarte w tym artykule pomogą zidentyfikować możliwe źródło problemu. Kliknij tytuł, aby rozwinąć sekcję

Wraz z każdą nową generacją serwerów rola procesora zmieniała się, aby poprawić wydajność i niezawodność.

Miej na uwadze: Szczegółowe informacje o procesorach obsługiwanych w danym serwerze PowerEdge można znaleźć na stronie informacji o procesorach.

Generacja 11:

Większość serwerów 11. generacji jest wyposażona w procesory Intel® Nehalem-EP. Nehalem-EP to nazwa określająca gniazdo typu 1-2 socket z procesorem serwerowym lub stacji roboczej z maksymalnie 4 rdzeniami przeznaczonym do pracy na platformie opartej na chipsecie Intel 5520 (compatybilne z platformą Intel® Xeon® 5500). Nehalem-EP zalicza się do rodziny procesorów 45 nm, opartych na mikroarchitekturze Intela o nazwie Nehalem. Więcej informacji można znaleźć na stronie producenta: www.intel.com.

Główną zmianą w tej mikroarchitekturze jest wbudowanie kontrolera pamięci do procesora. Ma to wpływ na wydajność serwera, ale może też sprawić, że różne błędy będą sprawiały wrażenie, iż pochodzą z procesora.


Generacja 12:

W tej generacji serwerów, jeśli stosowane są procesory Intel, nowa platforma nazywa się Sandy Bridge EP. Zastąpiła ona mikroarchitekturę Nehalem. Integracja połączeń PCI-E z tym procesorem jest krokiem w kierunku wielozadaniowej jednostki obliczeniowej. Więcej informacji można znaleźć na stronie producenta: www.intel.com.


Generacja 13:

13. generacja serwerów PowerEdge korzysta z procesorów z rodziny Intel® Haswell EP, które oferują idealną kombinację wydajności, oszczędności energetycznej i kosztu. Więcej informacji można znaleźć na stronie producenta: www.intel.com.

Podpowiedź: Do której generacji należy Twój serwer PowerEdge? Zajrzyj do tego artykułu, aby to sprawdzić.

Procesor współdziała ze wszystkimi komponentami serwera, a więc możliwe symptomy i błędy są zróżnicowane.
Tu znajdują się przykłady najczęstszych problemów z procesorami wraz z technicznymi artykułami i krokami diagnostycznymi:


1. No POST (nie włącza się):
Serwer nie ukończy procedury testu, tzw. Power On Self Test. Oznacza to, że jakiś komponent uniemożliwia uruchomienie serwera podczas procedury testu.
Poniższe kroki pomogą zawęzić listę komponentów, które mogą to powodować:
  • Należy sprawdzić, czy komunikat błędu nie jest wyświetlany na panelu LCD i/lub obejrzeć diody LED z przodu serwera. Jeśli dostępny jest komunikat błędu, to dostarczy on informacji. Można poszukać szczegółowych informacji o tym komunikacie na stronie CPU related error messages page lub wpisać go w wyszukiwarkę internetową.
  • Można usunąć wszelkie ESD (wyładowania elektrostatyczne ) z serwera w następujący sposób:
    1. Wyłączyć serwer (przytrzymać przycisk power przez 30 sekund)
    2. Odłączyć wszystkie kable od serwera, w tym kable zasilające
    3. Przytrzymać przycisk power przez 60 sekund, aby pozwolić na rozładowanie napięć
    4. Podłączyć z powrotem jedynie kable zasilające i kabel video
    5. Spróbować ponownie uruchomić serwer
  • Jeśli niedawno procesor był wymieniany, ponownie instalowany lub może być fizycznie uszkodzony, to zajrzeć do obudowy, aby sprawdzić, czy nie widać jakiś uszkodzeń procesora lub gniazda na płycie głównej.
  • Konfiguracja Minimum to POST: Jeśli dany komponent powoduje sytuację No POST, to usunięcie komponentów nie koniecznych do ukończenia POSTu jest dobrym podejściem.
    Lista wymaganych komponentów zależy od modelu serwera. Zazwyczaj są to: zasilacz, płyta główna, 1 procesor, 1 moduł pamięci. Dokładną listę można znaleźć w instrukcji obsługi swojego serwera Dell PowerEdge.
Ostrzeżenie: W przypadku wymontowywania lub ponownej instalacji procesora w serwerze należy upewnić się, że stosowane są odpowiednie narzędzia. Prosimy o zapoznanie się z naszym archiwum wideo o procesorach, aby zobaczyć szczegółowe instrukcje:
- Archiwum procesor wideo dla serwerów PowerEdge
- Dowiedz się, jak uniknąć ESD (Wyładowania elektrostatyczne) uszkodzenia podczas manipulowania komponentów.

2. Problemy z temperaturą:

Objawy problemów z temperaturą mogą być różnorakie: błąd temperatury, wentylatora lub radiatora na panelu LCD, wyłączenie serwera i niemożność natychmiastowego włączenia go z powrotem, wentylatory pracujące na maksymalnych obrotach przez cały czas. Przykłady komunikatów błędów w serwerach Dell PowerEdge:

Komunikaty błędów na panelu LCD System Event Logs
E0119 - Temp CPU,
E0119 - Temp PROC,
E1414 - CPU # Thermtrip,
E1119 - Chipset # temp out of range. Check motherboard heatsinks
CPU0001 - CPU has a thermal trip (over-temperature) event
CPU0010 - The CPU is throttled due to thermal or power conditions.

Więcej informacji o błędach powiązanych z procesorami można znaleźć na stronie CPU error page.

Poniższa lista zawiera najważniesze rzeczy, które należy sprawdzić w przypadku problemów z temperaturą:

  • Należy sprawdzić wyświetlacz LCD oraz log sprzętowy pod kątem dodatkowych komunikatów błędów, które mogłyby wskazać na konkretny komponent powodujący problem.
  • Upewnić się, że przepływ powietrza do urządzenia nie jest zablokowany. Umieszczenie urządzenia w zamkniętej przestrzeni lub zablokowanie otworów wentylacyjnych może spowodować przegrzewanie. W przypadku instalacji w szafie serwerowej należy upewnić się, że system jej chłodzenia działa poprawnie.
  • Sprawdzić czy temperatura otoczenia serwera jest w normie.
  • Sprawdzić czy wewnętrzne wentylatory serwera nie są blokowane i czy obracają się bez przeszkód. Zamienić jakiekolwiek problematyczne wentylatory na sprawne i sprawdzić, czy jest różnica.
  • Sprawdzić, czy wymagane osłony (shroud) lub zaślepki (blanks) są zainstalowane (dotyczy zasilaczy, dysków twardych, pamięci, riserów, wentylatorów itd.).
  • Jeśli wszystkie wentylatory działają poprawnie, można sprawdzić czy radiator (heatsink) jest zinstalowany poprawnie i czy zastosowano pastę termiczną.
  • W przypadku serwerów z wieloma procesorami można podjąć próbą przetestowania wszystkich procesorów w gnieździe numer 1.
Ostrzeżenie: W przypadku wymontowywania lub ponownej instalacji procesora w serwerze należy upewnić się, że stosowane są odpowiednie narzędzia. Prosimy o zapoznanie się z naszym archiwum wideo o procesorach, aby zobaczyć szczegółowe instrukcje:-
-
Archiwum procesor wideo dla serwerów PowerEdge
- Dowiedz się, jak uniknąć ESD (Wyładowania elektrostatyczne) uszkodzenia podczas manipulowania komponentów.

Błędy w logu sprzętowym - System Event Logs:

Jak już wspomniano poprzednio, pierwszą czynnością powinno być sprawdzenie logów serwera pod kątem ewentualnych komunikatów błędów. Artykuł "Error Messages in System Event Log and how they can be viewed" wyjaśnia jak uzyskać dostęp do tych logów.

Innym przykładem błędu odwołującego się do procesora jest CPU IErr (np.: "E1410 CPU IErr was asserted"). Ten błąd zazwyczaj nie oznacza usterki samego procesora, ale wskazuje na to, że procesor wykrył błąd w serwerze lub otrzymał niepoprawną instrukcję on innego komponentu. Może to być moduł pamięci, slot PCI-E itd.

Więcej informacji o tego typu błędach można znaleźć w artykule: Diagnozowanie błędów CPU Internal Error (CPU IErr) w serwerach PowerEdge

4. Błędy w systemie operacyjnym

W systemie operacyjnym oznaki możliwych problemów z procesorem mogą objawiać się na wiele różnych sposobów: niska wydajność, przypadkowe restarty, błędy procesora w logu systemowym systemu operacyjnego.
W przypadku serwerów PowerEdge należy zwrócić uwagę na kilka kluczowych elementów, aby zagwarantować optymalne użycie procesora przez system operacyjny:

  • Należy upewnić się, że konfiguracja pamięci w serwerze jest poprawna, gdyż będzie to miało wpływ na procesor. Właściwe moduły pamięci muszą być zainstalowane w odpowiednich slotach, we właściwych kanałach dla każdego z procesorów, a ilość pamięć powinna być rozmieszczona równomiernie pomiędzy kanałami i procesorami.
  • Należy sprawdzić konfigurację pamięci w BIOSie. Do różnych potrzeb dostępne są różne ustawienia: Advanced ECC, Memory Optimized, Mirror. Dla każdego z tych ustawień fizyczna konfiguracja pamięci może się zmienić, a więc warto to sprawdzić.
  • BIOS serwera oraz iDRAC muszą być zaktualizowane. Jakiekolwiek poprawki mające wpływ na procesor będą dostarczone w postaci aktualizacji BIOS, a więc jest ona niezwykle istotna w przypadku możliwych problemów z procesorem. Moduł Embedded Server Management (nazywane też BMC lub iDRAC w zależności od generacji serwera) także należy zaktualizować, gdyż wchodzi on w interakcje ze wszystkimi komponentami serwera.
    • Zwróć uwagę: Aktualizacja BIOSu serwera wymaga restartu.
    • Artykuł wyjaśniający różne metody aktualizacji znajduje się pod tym linkiem: SLN293301.
  • Zapoznaj się z informacjami na stronie producenta systemu operacyjnego, aby upewnić się, że urządzenie jest kompatybilne z danym systemem operacyjnym.

Więcej zasobów technicznych można znaleźć na stronie PowerEdge Knowledge Resources

Identyfikator artykułu: SLN298206

Data ostatniej modyfikacji: 06.02.2017 09:14


Oceń ten artykuł

Trafne
Przydatne
Łatwe do zrozumienia
Czy ten artykuł był przydatny?
Tak Nie
Wyślij nam swoją opinię
Komentarze nie mogą zawierać znaków specjalnych: <>()\
Niestety, nasz system przekazywania opinii jest obecnie niedostępny. Spróbuj ponownie później.

Dziękujemy za uwagi.