nvme-SSD Fehlersuche

Hast Du Probleme mit Hardware, die durch die anderen Foren nicht abgedeckt werden? Schau auch in den "Tipps und Tricks"-Bereich.
Antworten
Benutzeravatar
smutbert
Moderator
Beiträge: 8315
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

nvme-SSD Fehlersuche

Beitrag von smutbert » 30.03.2021 17:04:42

Hallo liebe Leute

mit Schrecken habe ich gerade festgestellt, dass dmesg voll mit diesen Meldungen ist und mit voll meine wirklich voll, der Kernel-Ringpuffer fängt mit so einer Meldung an und hört mit so einer Meldung auf, unterbrochen nur von einer cron-Meldung:

Code: Alles auswählen

[  304.262847] pcieport 0000:00:1d.0: AER: Corrected error received: 0000:03:00.0
[  304.262853] nvme 0000:03:00.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
[  304.262855] nvme 0000:03:00.0:   device [144d:a808] error status/mask=00000001/0000e000
[  304.262856] nvme 0000:03:00.0:    [ 0] RxErr
...
[  308.813047] pcieport 0000:00:1d.0: AER: Multiple Corrected error received: 0000:03:00.0
[  308.813111] nvme 0000:03:00.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
[  308.813113] nvme 0000:03:00.0:   device [144d:a808] error status/mask=00000001/0000e000
[  308.813114] nvme 0000:03:00.0:    [ 0] RxErr
im journal sehe ich, dass sich diese Meldungen von ~5 Minuten nach dem Einschalten des Systems, das wäre 08:27:10 bis 08:27:43 erstrecken, also nur über etwa 33 Sekunden.

Ungefähr
zu der Zeit, habe ich mit rsync einige Daten synchronisiert ohne dass rsync einen Fehler gemeldet hätte. Auch von Dateisystemfehlern oä ist nichts im Log zu finden.
Das Dateisystem ist übrigens btrfs und ich habe auch schon btrfs scrub ausgeführt, ohne jeden Fehler.

Code: Alles auswählen

Scrub device /dev/nvme0n1p2 (id 1) done
Scrub started:    Tue Mar 30 14:49:20 2021
Status:           finished
Duration:         0:02:13
Total to scrub:   406.01GiB
Rate:             3.04GiB/s
Error summary:    no errors found
Dabei sind auch keine neuen nvme/pcie-Fehler im Log aufgetaucht.

Damit ich nichts übersehe, habe ich auch

Code: Alles auswählen

journalctl -b0 | grep PCIe | grep -v "severity=Corrected" 
ausgeführt um nicht korrigierte Fehler zu finden, aber anscheind gibt es keine und mit Debiannvme-cli finde ich auch keine Auffälligkeiten

Code: Alles auswählen

# nvme smart-log /dev/nvme0n1
Smart Log for NVME device:nvme0n1 namespace-id:ffffffff
critical_warning			: 0
temperature				: 45 C
available_spare				: 100%
available_spare_threshold		: 10%
percentage_used				: 0%
endurance group critical warning summary: 0
data_units_read				: 3441166
data_units_written			: 1613333
host_read_commands			: 4657739
host_write_commands			: 2257034
controller_busy_time			: 37
power_cycles				: 126
power_on_hours				: 6
unsafe_shutdowns			: 14
media_errors				: 0
num_err_log_entries			: 0
Warning Temperature Time		: 0
Critical Composite Temperature Time	: 0
Temperature Sensor 1           : 45 C
Temperature Sensor 2           : 44 C
Thermal Management T1 Trans Count	: 0
Thermal Management T2 Trans Count	: 0
Thermal Management T1 Total Time	: 0
Thermal Management T2 Total Time	: 0
Ich bin jetzt etwas unsicher was ich noch machen kann oder soll – die Fehlermeldungen müssen doch einen Grund gehabt haben?

curt123
Beiträge: 704
Registriert: 19.10.2018 12:49:35
Wohnort: NRW

Re: nvme-SSD Fehlersuche

Beitrag von curt123 » 30.03.2021 17:36:43

Ich hätte ja erstmal auf Selbsttest, Reorgainsation oder Trim getippt.

Offenbar findet sich zu nvme 0000:03:00.0: device [144d:a808] error status/mask=00000001/0000e000 einiges:
https://unix.stackexchange.com/question ... tlp#369090
the CPU communicates with the PCIe bus controller by transaction layer packets (TLPs). The hardware detects when there are faulty ones, and the Linux kernel reports that as messages.

The kernel option pci=nommconf disables Memory-Mapped PCI Configuration Space, which is available in Linux since kernel 2.6. Very roughly, all PCI devices have an area that describe this device (which you see with lspci -vv), and the originally method to access this area involves going through I/O ports, while PCIe allows this space to be mapped to memory for simpler access.
https://www.kernel.org/doc/Documentatio ... -howto.txt
3.2.2.1 Correctable errors

Correctable errors pose no impacts on the functionality of
the interface. The PCI Express protocol can recover without any
software intervention or any loss of data. These errors do not
require any recovery actions. The AER driver clears the device's
correctable error status register accordingly and logs these errors.
Also vielleicht relativ normal?

rhHeini
Beiträge: 2260
Registriert: 20.04.2006 20:44:10

Re: nvme-SSD Fehlersuche

Beitrag von rhHeini » 30.03.2021 21:19:15

Vielleicht auch einfach erst mal Kontakte putzen?

Rolf

Benutzeravatar
smutbert
Moderator
Beiträge: 8315
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

Re: nvme-SSD Fehlersuche

Beitrag von smutbert » 31.03.2021 00:52:09

Danke, die Kontakte sind blitzeblank, aber ich glaube curt123 hat mich auf die richtige Spur gebracht. Da gibt es bei meiner SSD viele Bugreports, soweit ich das einschätzen kann mit unterschiedlichen Fehlern/Fehlerquellen und auch vielen Workarounds.

Ich kann nur leider nicht sagen ob irgendeine Maßnahme zum Erfolg geführt hat, weil ich die Meldungen auch ohne nicht reproduzieren kann.

Benutzeravatar
OrangeJuice
Beiträge: 616
Registriert: 12.06.2017 15:12:40

Re: nvme-SSD Fehlersuche

Beitrag von OrangeJuice » 31.03.2021 10:42:46

Du kannst damit mal nachschauen, ob etwas auffällig ist.

Code: Alles auswählen

cat /proc/interrupts

Benutzeravatar
smutbert
Moderator
Beiträge: 8315
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

Re: nvme-SSD Fehlersuche

Beitrag von smutbert » 31.03.2021 22:23:44

Inzwischen habe ich die Vermutung, dass ein Firmwareupdate die mitunter auftauchenden Fehler beheben würde, was sich allerdings schwierig gestaltet, weil das ein OEM-Modell ist, für das es nur Fimrwareupdateprogramme für Windows gibt.

Aber trotzdem, was wäre am Inhalt von /proc/interrupts denn auffällig?

Benutzeravatar
OrangeJuice
Beiträge: 616
Registriert: 12.06.2017 15:12:40

Re: nvme-SSD Fehlersuche

Beitrag von OrangeJuice » 01.04.2021 10:44:11

smutbert hat geschrieben: ↑ zum Beitrag ↑
31.03.2021 22:23:44
Aber trotzdem, was wäre am Inhalt von /proc/interrupts denn auffällig?
Soweit ich weiß, wenn der I/O-Apic Chip eingreift Interrupts verursacht die nicht sein sollten. Könnte man dann zum testen nur den local-Apci der CPU verwenden. Besonders NMI und PMI sollten nicht sein, soweit ich gelesen habe.
Zuletzt geändert von OrangeJuice am 11.04.2021 16:29:24, insgesamt 1-mal geändert.

Benutzeravatar
ingo2
Beiträge: 1124
Registriert: 06.12.2007 18:25:36
Lizenz eigener Beiträge: GNU Free Documentation License
Wohnort: Wo der gute Riesling wächst

Re: nvme-SSD Fehlersuche

Beitrag von ingo2 » 11.04.2021 13:57:27

Hatte gestern nochmal in einer älteren c't nachgeschaut, da ist mir der Beitrag ufgefallen:
https://www.heise.de/hintergrund/c-t-wi ... 74713.html

Dort heißt es
In einigen Berichten fand sich auch gleich ein Lösungsvorschlag: Man solle die Nutzung der NVMe-SSD-Stromspartechnik "Autonomous Power State Transition" (APST) einschränken. Manche Quellen rieten dazu, diese komplett zu deaktivieren; anderen zufolge reicht es, nur den tiefsten der APST-Modi zu meiden. Letzteres gelingt bei der A2000 über folgenden Kernel-Parameter:

Code: Alles auswählen

nvme_core.default_ps_max_latency_us=2500
Probier das einfach mal, die Kingston-SSD scheint da nicht die einzige Type zu sein,
Ingo

PS:
Ich selbst hatt in frühen SSD-Zeiten ebenfalls Ärger mit eine Intel-SSD, die bei
device initiated sATA-Link power management
Ärger bereitet hatte. Hat sich später irgendwann dann automagisch gelegt.
Zuletzt geändert von ingo2 am 11.04.2021 14:14:51, insgesamt 1-mal geändert.

Benutzeravatar
smutbert
Moderator
Beiträge: 8315
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

Re: nvme-SSD Fehlersuche

Beitrag von smutbert » 11.04.2021 14:11:30

Danke, das werde ich ausprobieren – auf einen ähnlichen Verdacht hin habe ich diese Stromsparmodi schon komplett deaktiviert, aber lediglich den tiefsten zu deaktivieren klingt natürlich viel freundlicher.

Ob es etwas geholfen hat kann ich wohl erst in ferner Zukunft sagen, weil diese Meldungen bis jetzt nur einmal aufgetreten sind und ich sie auch ohne Maßnahmen nicht reproduzieren kann.

Antworten