Knowledge Base

PowerEdge Server - Prozessor-Fehlermeldungen : Informationen und Lösungstipps




Wie bei den meisten Systemen ist der Prozessor eine Schlüsselkomponente in einem Server, welche Rechenanweisungen und die Verwaltung anderer Komponenten wie dem Speicher oder der PCI-Busse übernimmt. Fehlermeldungen des Prozessors sind deshalb zuerst einmal beunruhigend, doch selten ist dieser auch die Fehlerquelle.

Physische Ausfälle von Prozessoren sind äußerst selten. Eine individuelle Prüfung von ausgetauschten CPUs zeigt meistens keinerlei Defekte auf. Wenn eine CPU nicht mehr funktioniert, ist es in der Regel durch eine elektrische Überspannung am System, einem Kaskadenausfall durch das Versagen von einer anderen Hauptkomponente oder durch thermische Probleme verursacht. Daher ist es wichtig grundlegende Schritte zur Fehleridentifizierung zu befolgen, wenn ein Prozessorausfall angezeigt wird, um die verursachende Komponente richtig zu identifizieren.

Xeon Processor

Die in diesem Artikel bereitgestellten Informationen und Schritte sollen helfen mögliche Ursachen eines Problems zu verstehen. Klicken Sie auf den Titel, um den Bereich zu erweitern.

Mit jeder Generation von Servern haben sich die Aufgaben des Prozessors weiterentwickelt, um die Leistung und Zuverlässigkeit zu verbessern.

Hinweis: Informationen zu den von Ihrem PowerEdge-Server unterstützten Prozessoren finden Sie auf unserer Informationsseite zu Prozessoren.

Generation 11:

Die meisten Server der 11. Generation sind mit Intel® Nehalem-EP/EX Prozessoren (später auch Westmere) ausgestattet. Diese Reihe von Server- und Workstation-Prozessoren bietet bis zu 4 Rechenkerne (Westmere bis zu 6) und ist für Intel® 5520 Chipsatz basierte Plattformen (kompatibel mit Intel® Xeon® 5500) ausgelegt. Sie sind Teil der 45 NM Prozessorfamilie basierend auf der Intel Mikroarchitektur mit dem Kodenamen Nehalem. Weitere Informationen finden Sie auf der Webseite des Herstellers unter www.intel.com.

Die wichtigste Änderung mit dieser Mikroarchitektur ist, dass der Speicher-Controller jetzt in den Prozessor eingebettet ist. Dies verbessert die Leistung des Servers, doch es können nun auch Speicherfehler als Prozessorfehler angezeigt werden.

Bei den in AMD basierten Servern genutzten Opteron® Prozessoren, sind Speicher- und PCI-Controller in der CPU eingebettet. Dementsprechend können Fehler dieser Komponenten auch als Prozessorfehler angezeigt werden.


Generation 12:

Diese Generation von Servern nutzt die neue Intel®-Plattform Sandy Bridge anstelle der Nehalem-Mikroarchitektur, welche zusätzlich zum Speicher-Contoller die PCI-E-Lanes in den Prozessor integriert, und einen weiteren Schritt in Richtung einer MPU (Multipurpose Processing Unit) darstellt. Weitere Informationen finden Sie auf der Webseite des Herstellers unter www.intel.com.


Generation 13:

Die 13. Generation der PowerEdge-Server nutzt die Intel® Haswell EP-Produktfamilie und bietet eine ideale Kombination aus Leistung, Energieeffizienz und Wirtschaftlichkeit. Weitere Informationen finden Sie auf der Webseite des Herstellers unter www.intel.com.

Hinweis: Zu welcher Generation gehört Ihr PowerEdge-Server? Sehen Sie sich dazu unseren diesbezüglichen Artikel an, um es herauszufinden.

Da der Prozessor mit allen Komponenten in einem Server interagiert, sind die Symptome und Fehler, welche auftreten können, sehr verschieden. Hier sind einige typische Beispiele mit passenden Artikeln und Schritten zur Fehlerbehebung:


1. No POST:
Der Server beendet den Selbsttest beim Systemstart nicht, d.h. eine Komponente blockiert das Beenden des Tests und hindert dadurch den Server am durchstarten.
Hier sind einige Schritte zur Identifizierung der Fehlerursache:
  • Suchen Sie nach einer möglichen Fehlermeldung auf dem LCD-Display oder den LED-Leuchten (Fehlercode) auf der Vorderseite des Servers. Wenn eine Fehlermeldung zur Verfügung steht, wird diese einige wertvolle Informationen liefern. Besuchen Sie die Seite zu Prozessor Fehlermeldungen und Diagnose oder geben Sie die Fehlermeldung in einer Suchmaschine ein, um mehr Informationen zu finden.
  • Machen Sie den Server spannungsfrei, in dem Sie:
    1. Den Server ausschalten (halten des Power-Knopfs für 30 Sekunden),
    2. Entfernen Sie ALLE angeschlossenen Komponenten und Kabel vom Server (inkl. USB, Netzwerk und Strom),
    3. Halten Sie dann den Power-Knopf für 60 Sekunden gedrückt (dies entläd die Kondensatoren).
    4. Schließen Sie jetzt NUR das Stromkabel und einen Monitor an.
    5. Starten Sie den Server erneut.
  • Wenn der Prozessor vor kurzem ausgetauscht, neu installiert oder physikalisch beschädigt wurde, können Sie auch eine Sichtprüfung innerhalb des Chassis vornehmen (Sichtung der CPU oder des CPU-Steckplatzes auf dem Motherboard zum Beispiel)
  • Minimum to POST: Um die Ursache einer No POST Situation zu finden, entfernen Sie alle für den Systemstart nicht benötigten Komponenten.
    Diese Mindest-Konfiguration (notwendige Komponenten für den Systemstart) kann je nach Modell des Servers variieren, doch normalerweise beinhaltet sie: 1x Netzteil, Motherboard, 1x CPU im Sockel 1, 1x Speicher-DIMM in Slot A1. Nicht notwendige Komponenten sind in der Regel: RAID-Controller (inkl. Backplain, Festplatten und Kabel), zusätzliche PCI-Karten, Lüfter und mehr als 1 Speichermodul pro installierter CPU.
    Die genaue Liste der Komponenten finden Sie im Benutzerhandbuch für ihren Dell PowerEdge-Server.
Warnung: Wenn Sie eine CPU in Ihrem Server entfernen und / oder installieren möchten, stellen Sie sicher, dass Sie die passenden Werkzeuge verwenden. Nutzen Sie unser CPU-Video-Archiv für die detaillierten Schritte:
- Prozessor Video Archiv für PowerEdge Server.
- Verhindern von Spannungsschäden (nur Englisch) .

2. Temperatur Probleme:

Die Symptome für thermische Probleme können sehr unterschiedlich sein:

  • Temperatur-, Lüfter- oder Kühlkörper-Fehlermeldung auf dem LCD-Panel
  • Der Server schaltet sich nach einiger Zeit einfach ab und kann nicht wieder direkt eingeschaltet werden
  • Die Systemlüfter arbeiten die ganze Zeit mit voller Geschwindigkeit

Beispiele für Fehlermeldungen bei einem Dell-PE Server:

LCD-Panel Fehlermeldung Meldung im System Event Log (ESM/SEL)
E0119 - Temp CPU,
E0119 - Temp PROC,
E1414 - CPU # Thermtrip,
E1119 - Chipset # temp out of range. Check motherboard heatsinks
CPU0001 - CPU has a thermal trip (over-temperature) event
CPU0010 - The CPU is throttled due to thermal or power conditions.

Für weitere Informationen über CPU-bezogene Fehlermeldungen, können Sie einen Blick auf unsere dedizierte Seite für Prozessor Fehlermeldungen und Diagnose nehmen.

Hier ist eine Liste der wichtigsten Punkte, die im Falle von thermischen Problemen zu überprüfen sind:

  • Überprüfen Sie das LCD und das Server Event Log (ESM/SEL) auf alle weiteren Fehlermeldungen, um die Quelle des Problems zu identifizieren.
  • Achten Sie darauf, dass die Luftzufuhr zum Gerät nicht blockiert ist. Das Stellen in einen geschlossenen Raum oder die Blockierung der Lüftungsöffnungen kann ein Überhitzen des Servers verursachen. Wenn in einem Rack installiert, stellen Sie sicher, dass das Rack-Kühlsystem ordnungsgemäß funktioniert.
  • Stellen Sie sicher, dass die Umgebungstemperatur innerhalb der akzeptablen Grenzen ist.
  • Überprüfen Sie die internen Systemlüfter auf Hindernisse und verifizieren Sie, dass alle Lüfter richtig drehen. Tauschen Sie fehlerhafte Lüfter mit einem zweifelsfrei intakten zum Testen.
  • Stellen Sie sicher, dass jede erforderliche Abdeckung und alle erforderlichen Blenden installiert sind (Netzteil, Festplatten, DIMM, Riser, Lüfter usw.).
  • Wenn alle Lüfter ordnungsgemäß laufen, stellen Sie sicher, dass der Kühlkörper ordnungsgemäß installiert ist und Wärmeleitpaste aufgetragen wurde.
  • Bei Multi-Prozessor-Servern, können Sie versuchen jeden Prozessor in der ersten Position (Sockel 1) zu testen.
Warnung: Wenn Sie eine CPU in Ihrem Server entfernen und / oder installieren möchten, stellen Sie sicher, dass Sie die passenden Werkzeuge verwenden. Nutzen Sie unser CPU-Video-Archiv für die detaillierten Schritte:
- Prozessor Video Archiv für PowerEdge Server.
- Verhindern von Spannungsschäden (nur Englisch) .

3. Fehlermeldungen im Systemprotokoll (CPU IErr usw.):

Wie bereits erwähnt, ist der erste Schritt jeder Fehlersuche, die Protokolle des Servers für auf mögliche Fehlermeldungen zu überprüfen. Unser Artikel Wie sehe ich die Fehlermeldungen im Server Event Log? leistet dabei Hilfe.

Ein weiteres Beispiel für Fehlermeldungen, die auf die CPU Bezug nehmen, ist CPU IErr (z.B. "E1410 CPU IErr was asserted"). Dies ist in der Regel kein Fehler der CPU selbst, sondern ein Zeichen, dass die CPU einen Fehler im System festgestellt oder eine fehlerhafte Anweisung von einer Systemkomponente empfangen hat. Dieses kann z.B. der Speicher oder einer der PCI-E-Steckplätze sein.

Für weitere Informationen über diese Art von Fehler und einige Schritte zur Problembehandlung, lesen Sie den Artikel: Troubleshooting bei CPU Internal Error (CPU IErr) in PowerEdge Servern.

4. Fehler im Betriebssystem

Im Betriebssystem können die Symptome für ein mögliches CPU-Problem sehr unterschiedlich sein, wie z.B. eine geringe Leistung, zufällige Neustarts oder CPU Fehlermeldungen in den Systemprotokollen des Betriebssystems.
Für PowerEdge-Server gibt es ein paar wichtige Elemente, um eine optimale Nutzung des Prozessors durch das Betriebssystem zu gewährleisten:

  • Stellen Sie sicher, dass die physische Speicherkonfiguration des Servers korrekt ist, da diese einen Einfluss auf den Prozessor haben. Für jeden Prozessor muss das passende Speichermodul (DIMM) in den passenden Steckplatz im passenden Kanal gesteckt sein. Auch die Gesamtspeichergröße muss passen, und zwischen den Kanälen und den Prozessoren ausgeglichen sein.
  • Überprüfen Sie die Speicherkonfiguration im BIOS. Verschiedene Einstellungen stehen zur Verfügung, je nach Art des Nutzerverhaltens (Advanced ECC, Memory Optimized, Mirror). Für jede Einstellung können sich die Anforderungen an die physische Speicherkonfiguration ändern, so ist es wichtig diese zu überprüfen.
  • Das Server-BIOS und die iDRAC-Firmware müssen auf dem neuesten Stand sein. Verbesserungen oder Fehlerbehebungen den Prozessor betreffend, werden durch ein BIOS-Update durchgeführt. Deshalb ist es sehr wichtig dieses bei einem möglichen CPU-Problem auf den neusten Stand zu bringen. Das Embedded Server Management (ebenfalls BMC oder iDRAC, abhängig von der Server-Generation) ist ebenfalls ein wichtiges zu aktualisierendes Element, da es direkt mit allen Komponenten des Servers interagiert.
    • Wichtig: Das Aktualisieren des BIOS des Servers erfordert einen Neustart des Servers.
    • Diese Artikel erklären verschiedene Server-Update-Methoden: SLN293301 und SLN296511.
  • Überprüfen Sie die Website des Betriebssystemanbieters, um sicherzustellen, dass die Hardware in der Hardware-Kompatibilitätsliste aufgeführt ist.

Mehr Inhalte in unserer PowerEdge Wissensdatenbank

Artikel-ID: SLN298206

Datum der letzten Änderung: 06.02.2017 08:58


Diesen Artikel bewerten

Präzise
Nützlich
Leicht verständlich
War dieser Artikel hilfreich?
Ja Nein
Schicken Sie uns Ihr Feedback.
Die folgenden Sonderzeichen dürfen in Kommentaren nicht verwendet werden: <>()\
Derzeit ist kein Zugriff auf das Feedbacksystem möglich. Bitte versuchen Sie es später erneut.

Vielen Dank für Ihr Feedback.