/dev/nvme1, number of Error Log entries increased from 13 to 14

Hast Du Probleme mit Hardware, die durch die anderen Foren nicht abgedeckt werden? Schau auch in den "Tipps und Tricks"-Bereich.
Antworten
willy4711

/dev/nvme1, number of Error Log entries increased from 13 to 14

Beitrag von willy4711 » 30.09.2021 07:30:32

Moin, moin
Seit gestern beschert mir Debiangnome-logs Folgende Meldung:

Code: Alles auswählen

Device: /dev/nvme1, number of Error Log entries increased from 13 to 14
Gestern waren es noch 10 to 11
Das Journal sagt dazu :

Code: Alles auswählen

Sep 30 07:07:41 XFCE kernel: nvme nvme1: pci function 0000:03:00.0
Sep 30 07:07:41 XFCE kernel: nvme nvme1: missing or invalid SUBNQN field.
Sep 30 07:07:41 XFCE kernel: nvme nvme1: Shutdown timeout set to 10 seconds
Sep 30 07:07:41 XFCE kernel: nvme nvme1: 8/0/0 default/read/poll queues
Sep 30 07:07:41 XFCE kernel:  nvme1n1: p1 p2 p3
Sep 30 07:07:41 XFCE kernel: EXT4-fs (nvme1n1p1): mounted filesystem with ordered data mode. Opts: (null). Quota mode: none.
Sep 30 07:07:41 XFCE kernel: EXT4-fs (nvme1n1p1): re-mounted. Opts: errors=remount-ro. Quota mode: none.
Sep 30 07:07:42 XFCE kernel: EXT4-fs (nvme1n1p2): mounted filesystem with ordered data mode. Opts: (null). Quota mode: none.
Sep 30 07:07:42 XFCE smartd[873]: Device: /dev/nvme1, opened
Sep 30 07:07:42 XFCE smartd[873]: Device: /dev/nvme1, Viper M.2 VPN100, S/N:2977079B0E1400439912, FW:ECFM22.6, 1.02 TB
Sep 30 07:07:42 XFCE smartd[873]: Device: /dev/nvme1, is SMART capable. Adding to "monitor" list.
Sep 30 07:07:42 XFCE smartd[873]: Device: /dev/nvme1, state read from /var/lib/smartmontools/smartd.Viper_M_2_VPN100-2977079B0E1400439912.nvme.state
Sep 30 07:07:43 XFCE smartd[873]: Device: /dev/nvme1, number of Error Log entries increased from 13 to 14
Sep 30 07:07:43 XFCE smartd[873]: Device: /dev/nvme1, state written to /var/lib/smartmontools/smartd.Viper_M_2_VPN100-2977079B0E1400439912.nvme.state
Smartctl -a sagt mir:

Code: Alles auswählen

 smartctl -a /dev/nvme1
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.14.0-1-amd64] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       Viper M.2 VPN100
Serial Number:                      2977079B0E1400439912
Firmware Version:                   ECFM22.6
PCI Vendor/Subsystem ID:            0x1987
IEEE OUI Identifier:                0x6479a7
Total NVM Capacity:                 1.024.209.543.168 [1,02 TB]
Unallocated NVM Capacity:           0
Controller ID:                      1
NVMe Version:                       1.3
Number of Namespaces:               1
Namespace 1 Size/Capacity:          1.024.209.543.168 [1,02 TB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            6479a7 2a13233132
Local Time is:                      Thu Sep 30 07:16:29 2021 CEST
Firmware Updates (0x12):            1 Slot, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005d):     Comp DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x08):         Telmtry_Lg
Maximum Data Transfer Size:         512 Pages
Warning  Comp. Temp. Threshold:     75 Celsius
Critical Comp. Temp. Threshold:     80 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     7.13W       -        -    0  0  0  0        0       0
 1 +     5.29W       -        -    1  1  1  1        0       0
 2 +     4.36W       -        -    2  2  2  2        0       0
 3 -   0.0490W       -        -    3  3  3  3     2000    2000
 4 -   0.0018W       -        -    4  4  4  4    25000   25000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         2
 1 -    4096       0         1

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        24 Celsius
Available Spare:                    100%
Available Spare Threshold:          5%
Percentage Used:                    5%
Data Units Read:                    13.947.049 [7,14 TB]
Data Units Written:                 20.700.278 [10,5 TB]
Host Read Commands:                 198.025.223
Host Write Commands:                330.980.296
Controller Busy Time:               1.187
Power Cycles:                       2.217
Power On Hours:                     6.628
Unsafe Shutdowns:                   78
Media and Data Integrity Errors:    0
Error Information Log Entries:      14
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0

Error Information (NVMe Log 0x01, 16 of 63 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0         14     0  0x101d  0x4004  0x028            0     0     -
Hab keine Ahnung, wie ich das deuten soll.
Das Teil ist gerade mal 2 Jahre alt :evil:
Brauch ich ne neue M.2 Platte oder ist das nicht so beunruhigend ?
Wäre nicht so schön, da es meine Systemplatte ist.

Benutzeravatar
Tintom
Moderator
Beiträge: 3033
Registriert: 14.04.2006 20:55:15
Wohnort: Göttingen

Re: /dev/nvme1, number of Error Log entries increased from 13 to 14

Beitrag von Tintom » 30.09.2021 09:18:02

Ist das die vollständige Ausgabe bei smartctl?
Normalerweise sollte dann der Fehlerspeicher mit ausgegeben werden (siehe z.B. hier)

willy4711

Re: /dev/nvme1, number of Error Log entries increased from 13 to 14

Beitrag von willy4711 » 30.09.2021 09:37:40

Tintom hat geschrieben: ↑ zum Beitrag ↑
30.09.2021 09:18:02
Ist das die vollständige Ausgabe bei smartctl?
Ja da kommt leider nicht mehr.

Gibt es Möglichkeiten, da Mehr zu entlocken ?

willy4711

Re: /dev/nvme1, number of Error Log entries increased from 13 to 14

Beitrag von willy4711 » 30.09.2021 10:25:16

Hab mal das Journal durchgesehen:

Heute z.B. erhöhen sich die nicht benannten "errors" bei jedem Neustart :evil: (extra gemacht)

Code: Alles auswählen

~$ journalctl |grep "Log entries increased"
Sep 23 08:21:45 XFCE smartd[867]: Device: /dev/nvme1, number of Error Log entries increased from 0 to 1
Sep 28 10:47:21 XFCE smartd[889]: Device: /dev/nvme1, number of Error Log entries increased from 1 to 2
Sep 28 17:46:53 XFCE smartd[874]: Device: /dev/nvme1, number of Error Log entries increased from 2 to 3
Sep 28 19:10:17 XFCE smartd[874]: Device: /dev/nvme1, number of Error Log entries increased from 3 to 4
Sep 28 21:39:30 XFCE smartd[873]: Device: /dev/nvme1, number of Error Log entries increased from 4 to 5
Sep 28 23:49:02 XFCE smartd[897]: Device: /dev/nvme1, number of Error Log entries increased from 5 to 6
Sep 29 07:48:47 XFCE smartd[887]: Device: /dev/nvme1, number of Error Log entries increased from 6 to 7
Sep 29 13:16:23 XFCE smartd[853]: Device: /dev/nvme1, number of Error Log entries increased from 7 to 8
Sep 29 19:42:31 XFCE smartd[888]: Device: /dev/nvme1, number of Error Log entries increased from 8 to 9
Sep 29 20:34:06 XFCE smartd[864]: Device: /dev/nvme1, number of Error Log entries increased from 9 to 10
Sep 29 20:35:49 XFCE smartd[895]: Device: /dev/nvme1, number of Error Log entries increased from 10 to 11
Sep 29 21:35:52 XFCE smartd[895]: Device: /dev/nvme1, number of Error Log entries increased from 11 to 12
Sep 30 07:04:17 XFCE smartd[867]: Device: /dev/nvme1, number of Error Log entries increased from 12 to 13
Sep 30 07:07:43 XFCE smartd[873]: Device: /dev/nvme1, number of Error Log entries increased from 13 to 14
Sep 30 10:09:09 XFCE smartd[865]: Device: /dev/nvme1, number of Error Log entries increased from 14 to 15
Sep 30 10:11:00 XFCE smartd[869]: Device: /dev/nvme1, number of Error Log entries increased from 15 to 16
Sep 30 10:13:22 XFCE smartd[885]: Device: /dev/nvme1, number of Error Log entries increased from 16 to 17
Am 23. September gab es folgende Updates, kann aber keinen Zusammenhang (eventuelle Bugs) erkennen

Code: Alles auswählen

Aptitude 0.8.13: log report
Thu, Sep 23 2021 12:28:20 +0200

  IMPORTANT: this log only lists intended actions; actions which fail
  due to dpkg problems may not be completed.

Will install 7 packages, and remove 0 packages.
79.9 kB of disk space will be used
========================================
[UPGRADE] libasm-java:amd64 9.1-1 -> 9.2-1
[UPGRADE] libbpf0:amd64 1:0.4.0-2 -> 1:0.5.0-1
[UPGRADE] libilmbase25:amd64 2.5.7-1 -> 2.5.7-2
[UPGRADE] libqscintilla2-qt5-15:amd64 2.11.6+dfsg-2 -> 2.11.6+dfsg-3
[UPGRADE] libqscintilla2-qt5-l10n:amd64 2.11.6+dfsg-2 -> 2.11.6+dfsg-3
[UPGRADE] libstemmer0d:amd64 2.1.0-1 -> 2.1.0-2
[UPGRADE] wireless-regdb:amd64 2020.04.29-2 -> 2021.08.28-1
========================================

Log complete.

willy4711

Re: /dev/nvme1, number of Error Log entries increased from 13 to 14

Beitrag von willy4711 » 30.09.2021 11:52:34

Hab mir mal Debiannvme-cli installiert
Da gibt es das Kommando:

Code: Alles auswählen

nvme device-self-test -s 1 /dev/nvme1n1
Blöde Frage: muss man dafür die Platte aushängen, oder geht das "live" :?:

Ob das überhaupt was Bringt ?

willy4711

Re: /dev/nvme1, number of Error Log entries increased from 13 to 14

Beitrag von willy4711 » 30.09.2021 13:00:04

Grrr heute ist Platten- Chaos angesagt :evil: :evil:
gerade meine Datensicherungs-- Platte repariert:
Meldung :

Code: Alles auswählen

EXT4-fs error (device sdd1): ext4_mb_generate_buddy:1137: group 1616, block bitmap and bg descriptor inconsistent: 27006 vs 26623 free clusters
Debiane2fsck war mein Freund. :roll:

Zurück zum eigentlichen Problem:

Das scheint ein Problem mit dem Kernel 5.14.0-1 zu sein. mit Kernel 5.10.0-8 gibt es das ganze Fehler Zeugs nicht

Seltsamer Weise (s.O) wird der Fehler anders bewertet, da er ja schon laut Journal vor dem Kernel-Update da war.

In Bildchen:

Kernel 5.14.0-1
Bild

5.10.0-8 - nur meinen beiden Standard- Meldungen :mrgreen:
Bild

Ich werde mir wohl am besten ne Ersatz- Platte (M.2) hinlegen :|

willy4711

Re: /dev/nvme1, number of Error Log entries increased from 13 to 14

Beitrag von willy4711 » 01.10.2021 12:40:53

Hab weiter gewühlt und folgenden Bug-Report gefunden:
https://bugs.debian.org/cgi-bin/bugrepo ... bug=900244
Message #40 beschreibt genau mein Problem:

Code: Alles auswählen

root@XFCE:~# nvme error-log /dev/nvme1
Error Log Entries for device:nvme1 entries:63
.................
 Entry[ 0]   
.................
error_count     : 29
sqid            : 0
cmdid           : 0x1009
status_field    : 0x4004(INVALID_FIELD: A reserved coded value or an unsupported value in a defined field)
parm_err_loc    : 0x28
lba             : 0
nsid            : 0
vs              : 0
trtype          : The transport type is not indicated or the error is not transport related.
cs              : 0
trtype_spec_info: 0
.................
 Entry[ 1]   
.................
error_count     : 0
sqid            : 0
cmdid           : 0
status_field    : 0(SUCCESS: The command completed successfully)
parm_err_loc    : 0
lba             : 0
nsid            : 0
vs              : 0
trtype          : The transport type is not indicated or the error is not transport related.
cs              : 0
trtype_spec_info: 0
.................
 Entry[ 2]   
 (......)
 Entry[62]  identisch  
Auch meine 2. M.2 SSD HP SSD EX900 120GB - Dual-Boot / Debian SID - meldet keine Fehler

Aber einen Lösung scheint es nicht zu geben. :evil:

Benutzeravatar
MSfree
Beiträge: 10773
Registriert: 25.09.2007 19:59:30

Re: /dev/nvme1, number of Error Log entries increased from 13 to 14

Beitrag von MSfree » 01.10.2021 13:18:54

willy4711 hat geschrieben: ↑ zum Beitrag ↑
30.09.2021 07:30:32

Code: Alles auswählen

Sep 30 07:07:41 XFCE kernel: nvme nvme1: missing or invalid SUBNQN field.
Wenn man nach SUBNQN googelt, finden sich z.B. etwas bei Stackexchange
Ich habe das nur grob überflogen, letztlich wird aber empfohlen, die Firmware der SSD zu aktualisieren.

willy4711

Re: /dev/nvme1, number of Error Log entries increased from 13 to 14

Beitrag von willy4711 » 01.10.2021 16:08:36

MSfree hat geschrieben: ↑ zum Beitrag ↑
01.10.2021 13:18:54
Ich habe das nur grob überflogen, letztlich wird aber empfohlen, die Firmware der SSD zu aktualisieren.
Hab mal gesucht finde aber keinen Dateien. Muss man wohl an den Support schreiben.
Außerdem hab ich noch nie in meinem Leben ein Firmware-Update für einen Platte gemacht.
Wüsste auch nicht wie man das macht, hört sich aber nach Datenverlust an.
Das würde ich mich auch trauen.

Ich kann leider überhaupt nicht einschätzen, ob das irgendwas Schwerwiegendes ist,
oder man es einfach ignorieren soll.

Benutzeravatar
MSfree
Beiträge: 10773
Registriert: 25.09.2007 19:59:30

Re: /dev/nvme1, number of Error Log entries increased from 13 to 14

Beitrag von MSfree » 01.10.2021 16:20:50

willy4711 hat geschrieben: ↑ zum Beitrag ↑
01.10.2021 16:08:36
Außerdem hab ich noch nie in meinem Leben ein Firmware-Update für einen Platte gemacht.
Das ist genauso eine harmlose Sache wie ein BIOS/UEFI Update.
Der Hersteller liefert dazu natürlich nur ein Windows-, bestenfall DOS-Programm, mit dem man den Massenspeicher flashen kann. Bei Festplatten habe ich das schon öfter gemacht, es gab da mal eine Seagate 1TB-Serie, die fehlerhafte Firmware hatte. Die habe ich alle problemlos flashen können.
Wüsste auch nicht wie man das macht, hört sich aber nach Datenverlust an.
Nein, Datenverlust gibt es dabei nicht.

OK, Stromausfall beim Flashen oder eine ohnehin schon vorgeschädigte Platte/SSD resultieren dann doch in Datenverlust, aber wozu hat man Backups?
Ich kann leider überhaupt nicht einschätzen, ob das irgendwas Schwerwiegendes ist,
oder man es einfach ignorieren soll.
Das kann ich leider auch nicht.

Benutzeravatar
OrangeJuice
Beiträge: 625
Registriert: 12.06.2017 15:12:40

Re: /dev/nvme1, number of Error Log entries increased from 13 to 14

Beitrag von OrangeJuice » 01.10.2021 16:47:02

Mit Qwant habe ich folgendes gefunden, die PDF habe ich nicht geladen, deshalb zitiere ich mal aus der Übersicht von Qwant:
NVMe over Fabrics Overview - NVM Express
NVMe Qualified Name (NQN) One of the key benefits of a storage fabric is the inherent intelligence used to maintain consistency across all devices. In this case, NVMe over Fabrics uses a familiar qualified naming addressing convention. The NVMe Qualified Name (NQN) is used to identify the remote NVMe storage target.
Quelle

Bei Opensuse setht auch noch etwas dazu(Link).

Antworten