Non risolto
1 Rookie
•
1 Messaggio
0
7
Vecchio T320 improvvisamente rallenta
Ho un vecchio Poweredge T320 con CentOS Strem 8 che svolgeva, finora bene, le funzioni di file, mail e web server per un piccolo studio.
Improvvisamente da qualche giorno il server da un momento all'altro rallenta. Il problema interessa la CPU Xeon E5-1410 e rende ogni operazione molto più lenta del normale.
Indagando non sembra proprio esserci un problema di eccessivo carico del server, ma pare essere proprio la CPU che ha scalato la velocità fino a limiti che teoricamente, non sarebbero nemmeno supportati dal processore stesso. Questa CPU, se non erro, può funzionare in un range di clock da 1,2Ghz a 3,2Ghz. La situazione normalmente è questa:
# cpupower frequency-info
analyzing CPU 0:
driver: intel_cpufreq
CPUs which run at the same hardware frequency: 0
CPUs which need to have their frequency coordinated by software: 0
maximum transition latency: 20.0 us
hardware limits: 1.20 GHz - 3.20 GHz
available cpufreq governors: conservative ondemand userspace powersave performance schedutil
current policy: frequency should be within 3.20 GHz and 3.20 GHz.
The governor "performance" may decide which speed to use
within this range.
current CPU frequency: Unable to call hardware
current CPU frequency: 1.20 GHz (asserted by call to kernel)
boost state support:
Supported: yes
Active: yes
3100 MHz max turbo 4 active cores
3100 MHz max turbo 3 active cores
3200 MHz max turbo 2 active cores
3200 MHz max turbo 1 active cores
# grep "cpu MHz" /proc/cpuinfo
cpu MHz : 3200.000
cpu MHz : 3200.000
cpu MHz : 3200.000
cpu MHz : 3200.000
cpu MHz : 1199.979
cpu MHz : 3200.000
cpu MHz : 3200.000
cpu MHz : 1200.032
Ma quando si innesca il problema, mi trovo in queste condizioni:
# cpupower frequency-info
analyzing CPU 0:
driver: intel_cpufreq
CPUs which run at the same hardware frequency: 0
CPUs which need to have their frequency coordinated by software: 0
maximum transition latency: 20.0 us
hardware limits: 1.20 GHz - 3.20 GHz
available cpufreq governors: conservative ondemand userspace powersave performance schedutil
current policy: frequency should be within 3.20 GHz and 3.20 GHz.
The governor "performance" may decide which speed to use
within this range.
current CPU frequency: Unable to call hardware
current CPU frequency: 181 MHz (asserted by call to kernel)
boost state support:
Supported: yes
Active: yes
3100 MHz max turbo 4 active cores
3100 MHz max turbo 3 active cores
3200 MHz max turbo 2 active cores
3200 MHz max turbo 1 active cores
# cat /proc/cpuinfo | grep "cpu MHz"
cpu MHz : 185.386
cpu MHz : 3200.000
cpu MHz : 179.362
cpu MHz : 3200.000
cpu MHz : 3200.000
cpu MHz : 163.897
cpu MHz : 3200.000
cpu MHz : 160.548
Come si vede, cpupower frequency-info riporta una velocità di 181 Mhz, che non sarebbe nemmeno nel range di frequenze supportate da questa CPU.
Nei log non trovo nulla che abbia a che vedere con il processore o la frequenza o i governor della stessa. Ho provato a usare i governor ondemand e powersave ma senza risultati, cosa che mi induce a pensare che sia la CPU a "prendere l'iniziativa di autolimitarsi", e non una qualche chiamata dell'OS. Anche la iDRAC infine non riporta errori o anomalie. Le temperature sembrerebbero nella norma, le ventole girano e il dissipatore della CPU e' pulito:
# sensors
coretemp-isa-0000
Adapter: ISA adapter
Package id 0: +39.0°C (high = +80.0°C, crit = +90.0°C)
Core 0: +39.0°C (high = +80.0°C, crit = +90.0°C)
Core 1: +38.0°C (high = +80.0°C, crit = +90.0°C)
Core 2: +34.0°C (high = +80.0°C, crit = +90.0°C)
Core 3: +33.0°C (high = +80.0°C, crit = +90.0°C)
# ipmitool sdr list full
Inlet Temp | 19 degrees C | ok
Sys Fan1 | 600 RPM | ok
Sys Fan2 | disabled | ns
Current 1 | 0.05 Amps | ok
Current 2 | 0.05 Amps | ok
Voltage 1 | 242 Volts | ok
Voltage 2 | 242 Volts | ok
Pwr Consumption | 70 Watts | ok
Temp | 38 degrees C | ok
Temp | disabled | ns
Posso ripristinare il normale funzionamento per qualche ora spegnendo e riaccendendo il server, mentre un normale reboot non e' sufficiente: suppongo quindi che il porcessore debba venire spento del tutto.
Sarei per pensare ad un guasto hardware, ma l'episodio mi sembra curioso e chiedo se a qualcuno viene in mente qualche possibile causa.
DELL-Chris H
Moderator
Moderator
•
8.5K Messaggi
0
April 24th, 2024 17:15
Luxten,
Normalmente non forniamo assistenza per problemi di sistema operativo o di prestazioni, quindi il supporto che posso fornire potrebbe essere limitato. Per prima cosa, vi suggerisco di assicurarvi che il server sia aggiornato per quanto riguarda il BIOS, l'iDrac, il chipset, il controller Raid e le unità. Dopodiché vedrete se le prestazioni migliorano o meno.
Infine, può confermare se questi processori sono originali del server?
Fatemi sapere se questo vi aiuta e cosa vedete.