Inizia una nuova conversazione

Non risolto

L

1 Rookie

 • 

1 Messaggio

7

April 24th, 2024 12:40

Vecchio T320 improvvisamente rallenta

Ho un vecchio Poweredge T320 con CentOS Strem 8 che svolgeva, finora bene, le funzioni di file, mail e web server per un piccolo studio.

Improvvisamente da qualche giorno il server da un momento all'altro rallenta. Il problema interessa la CPU Xeon E5-1410 e rende ogni operazione molto più lenta del normale.

Indagando non sembra proprio esserci un problema di eccessivo carico del server, ma pare essere proprio la CPU che ha scalato la velocità fino a limiti che teoricamente, non sarebbero nemmeno supportati dal processore stesso. Questa CPU, se non erro, può funzionare in un range di clock da 1,2Ghz a 3,2Ghz. La situazione normalmente è questa:

# cpupower frequency-info 
analyzing CPU 0:
  driver: intel_cpufreq
  CPUs which run at the same hardware frequency: 0
  CPUs which need to have their frequency coordinated by software: 0
  maximum transition latency: 20.0 us
  hardware limits: 1.20 GHz - 3.20 GHz
  available cpufreq governors: conservative ondemand userspace powersave performance schedutil
  current policy: frequency should be within 3.20 GHz and 3.20 GHz.
                  The governor "performance" may decide which speed to use
                  within this range.
  current CPU frequency: Unable to call hardware
  current CPU frequency: 1.20 GHz (asserted by call to kernel)
  boost state support:
    Supported: yes
    Active: yes
    3100 MHz max turbo 4 active cores
    3100 MHz max turbo 3 active cores
    3200 MHz max turbo 2 active cores
    3200 MHz max turbo 1 active cores

# grep "cpu MHz" /proc/cpuinfo 

cpu MHz         : 3200.000
cpu MHz         : 3200.000
cpu MHz         : 3200.000
cpu MHz         : 3200.000
cpu MHz         : 1199.979
cpu MHz         : 3200.000
cpu MHz         : 3200.000
cpu MHz         : 1200.032

Ma quando si innesca il problema, mi trovo in queste condizioni:

# cpupower frequency-info
analyzing CPU 0:
  driver: intel_cpufreq
  CPUs which run at the same hardware frequency: 0
  CPUs which need to have their frequency coordinated by software: 0
  maximum transition latency: 20.0 us
  hardware limits: 1.20 GHz - 3.20 GHz
  available cpufreq governors: conservative ondemand userspace powersave performance schedutil
  current policy: frequency should be within 3.20 GHz and 3.20 GHz.
                  The governor "performance" may decide which speed to use
                  within this range.
  current CPU frequency: Unable to call hardware
  current CPU frequency: 181 MHz (asserted by call to kernel)
  boost state support:
    Supported: yes
    Active: yes
    3100 MHz max turbo 4 active cores
    3100 MHz max turbo 3 active cores
    3200 MHz max turbo 2 active cores
    3200 MHz max turbo 1 active cores

# cat /proc/cpuinfo | grep "cpu MHz"
cpu MHz         : 185.386
cpu MHz         : 3200.000
cpu MHz         : 179.362
cpu MHz         : 3200.000
cpu MHz         : 3200.000
cpu MHz         : 163.897
cpu MHz         : 3200.000
cpu MHz         : 160.548

Come si vede, cpupower frequency-info riporta una velocità di 181 Mhz, che non sarebbe nemmeno nel range di frequenze supportate da questa CPU.

Nei log non trovo nulla che abbia a che vedere con il processore o la frequenza o i governor della stessa. Ho provato a usare i governor ondemand e powersave ma senza risultati, cosa che mi induce a pensare che sia la CPU a "prendere l'iniziativa di autolimitarsi", e non una qualche chiamata dell'OS. Anche la iDRAC infine non riporta errori o anomalie. Le temperature sembrerebbero nella norma, le ventole girano e il dissipatore della CPU e' pulito:

# sensors
coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +39.0°C  (high = +80.0°C, crit = +90.0°C)
Core 0:        +39.0°C  (high = +80.0°C, crit = +90.0°C)
Core 1:        +38.0°C  (high = +80.0°C, crit = +90.0°C)
Core 2:        +34.0°C  (high = +80.0°C, crit = +90.0°C)
Core 3:        +33.0°C  (high = +80.0°C, crit = +90.0°C)

# ipmitool sdr list full
Inlet Temp       | 19 degrees C      | ok
Sys Fan1         | 600 RPM           | ok
Sys Fan2         | disabled          | ns
Current 1        | 0.05 Amps         | ok
Current 2        | 0.05 Amps         | ok
Voltage 1        | 242 Volts         | ok
Voltage 2        | 242 Volts         | ok
Pwr Consumption  | 70 Watts          | ok
Temp             | 38 degrees C      | ok
Temp             | disabled          | ns

Posso ripristinare il normale funzionamento per qualche ora spegnendo e riaccendendo il server, mentre un normale reboot non e' sufficiente: suppongo quindi che il porcessore debba venire spento del tutto.
Sarei per pensare ad un guasto hardware, ma l'episodio mi sembra curioso e chiedo se a qualcuno viene in mente qualche possibile causa.

Moderator

 • 

8.5K Messaggi

April 24th, 2024 17:15

Luxten,

 

Normalmente non forniamo assistenza per problemi di sistema operativo o di prestazioni, quindi il supporto che posso fornire potrebbe essere limitato. Per prima cosa, vi suggerisco di assicurarvi che il server sia aggiornato per quanto riguarda il BIOS, l'iDrac, il chipset, il controller Raid e le unità.  Dopodiché vedrete se le prestazioni migliorano o meno. 


Infine, può confermare se questi processori sono originali del server?

 

Fatemi sapere se questo vi aiuta e cosa vedete.

 

 

Nessun evento trovato!

Top