SSD hohe Temperatur mit systemd-nspawn

Alle weiteren Dienste, die nicht in die drei oberen Foren gehören.
Antworten
Zwierbel
Beiträge: 8
Registriert: 10.06.2017 21:17:17

SSD hohe Temperatur mit systemd-nspawn

Beitrag von Zwierbel » 28.12.2021 13:06:39

Hallo,

leider komme ich per google nicht weiter...

Ich habe alle paar Stunden hohe CPU Werte auf der SSD.

Code: Alles auswählen

Dec 27 18:30:09 smartd[859]: Device: /dev/nvme0, Critical Warning (0x02): Temperature
Dec 27 22:40:10 smartd[859]: Device: /dev/nvme0, Critical Warning (0x02): Temperature
Dec 27 23:40:09 smartd[859]: Device: /dev/nvme0, Critical Warning (0x02): Temperature
Dec 28 01:30:09 smartd[859]: Device: /dev/nvme0, Critical Warning (0x02): Temperature
Dec 28 04:00:09 smartd[859]: Device: /dev/nvme0, Critical Warning (0x02): Temperature
Dec 28 04:40:09 smartd[859]: Device: /dev/nvme0, Critical Warning (0x02): Temperature
Dec 28 05:10:09 smartd[859]: Device: /dev/nvme0, Critical Warning (0x02): Temperature

Code: Alles auswählen

# smartctl --all /dev/nvme0
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.16.0-rc5-amd64] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       Samsung SSD 980 1TB
Serial Number:                      SXXXXXXXXXXXX
Firmware Version:                   1B4QFXO7
PCI Vendor/Subsystem ID:            0x144d
IEEE OUI Identifier:                0x002538
Total NVM Capacity:                 1,000,204,886,016 [1.00 TB]
Unallocated NVM Capacity:           0
Controller ID:                      5
NVMe Version:                       1.4
Number of Namespaces:               1
Namespace 1 Size/Capacity:          1,000,204,886,016 [1.00 TB]
Namespace 1 Utilization:            397,868,978,176 [397 GB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            002538 d711b08caa
Local Time is:                      Tue Dec 28 10:09:24 2021 CET
Firmware Updates (0x16):            3 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x0055):     Comp DS_Mngmt Sav/Sel_Feat Timestmp
Log Page Attributes (0x0f):         S/H_per_NS Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg
Maximum Data Transfer Size:         512 Pages
Warning  Comp. Temp. Threshold:     82 Celsius
Critical Comp. Temp. Threshold:     85 Celsius
Namespace 1 Features (0x10):        NP_Fields

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     5.24W       -        -    0  0  0  0        0       0
 1 +     4.49W       -        -    1  1  1  1        0       0
 2 +     2.19W       -        -    2  2  2  2        0     500
 3 -   0.0500W       -        -    3  3  3  3      210    1200
 4 -   0.0050W       -        -    4  4  4  4     1000    9000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
- temperature is above or below threshold

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x02
Temperature:                        84 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    1,170,844 [599 GB]
Data Units Written:                 2,900,418 [1.48 TB]
Host Read Commands:                 4,285,202
Host Write Commands:                28,329,977
Controller Busy Time:               66
Power Cycles:                       19
Power On Hours:                     46
Unsafe Shutdowns:                   4
Media and Data Integrity Errors:    0
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    498
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               84 Celsius
Temperature Sensor 2:               45 Celsius
Thermal Temp. 2 Transition Count:   4568
Thermal Temp. 2 Total Time:         23539

Error Information (NVMe Log 0x01, 16 of 64 entries)
No Errors Logged
Nach viel Testen tritt es nur auf, wenn mindestens ein systemd-nspawn läuft. Selbst wenn es nur ein "leeres" bullseye ist.

Ich dachte erst, dass es an btrfs liegt, aber da es nur mit nspawn auftritt schließe ich das derzeit aus.

Wenn ich fstrim starten, dann erhalte ich auch die Meldung, aber das sollte nur jede Woche starten und im Container ist dort auch noch eine zusätzliche Abfragen, ob man im Container ist.

Das System läuft unter unstable/experimental. Diverse Kernel (5.14-5.16) und systemd Versionen (sogar 250~rc3-1) haben nichts geändert.

Hat jemand ähnliche Symptome?

Jemand eine gute Idee, wir man das weiter analysieren kann?

Danke!

DeletedUserReAsG

Re: SSD hohe Temperatur mit systemd-nspawn

Beitrag von DeletedUserReAsG » 28.12.2021 13:12:32

Zwierbel hat geschrieben: ↑ zum Beitrag ↑
28.12.2021 13:06:39
Jemand eine gute Idee, wir man das weiter analysieren kann?
Meine Herangehensweise wäre: den Zustand herbeiführen und mit etwa Debianiotop schauen, was da I/O-technisch passiert.

Zwierbel
Beiträge: 8
Registriert: 10.06.2017 21:17:17

Re: SSD hohe Temperatur mit systemd-nspawn

Beitrag von Zwierbel » 28.12.2021 13:19:47

iotop habe ich schon versucht. Ist sehr schwer zu erwischen und noch dazu glaube ich eher, dass das "interne" Optimierungen sind. So etwas wie bei fstrim. Da sieht man mit iotop auch nichts, da es kein "richtiger" Prozess ist sondern es über den Kernel bearbeitet wird.

Benutzeravatar
kalle123
Beiträge: 2714
Registriert: 28.03.2015 12:27:47
Wohnort: Mönchengladbach

Re: SSD hohe Temperatur mit systemd-nspawn

Beitrag von kalle123 » 28.12.2021 13:44:52

Mal eine Frage, ist der hohe Wert real? Andererseits spuck eine einfache Suche

https://www.google.com/search?q=Samsung ... nt=gws-wiz

schon Interessantes aus. Teilweise fast 100°C.

KH

Zwierbel
Beiträge: 8
Registriert: 10.06.2017 21:17:17

Re: SSD hohe Temperatur mit systemd-nspawn

Beitrag von Zwierbel » 28.12.2021 14:11:49

ist der hohe Wert real?
Davon gehe ich schon aus. Wenn ich "Last" auf das System bringe, dann geht die Temperatur auch hoch. Denke auch nicht, dass da ein Offset drin ist.
Andererseits spuck eine einfache Suche
Wenn die Temperatur bei Last oder in Benchmarks hoch geht, dann ist das für mich okay. Aber wenn es alle paar Stunden (selbst Nachts) passiert, dann würde ich es schon gerne wissen.

Wenn ich es nicht herausfinde, dann ist es für mich auch okay. Die SSD wird schon durchhalten. Ansonsten gibt es nach einigen Jahren eine neue und per amazon habe ich auch noch etwas Garantie...

Antworten