smart-error auf SSD, aber alles scheint OK

Hast Du Probleme mit Hardware, die durch die anderen Foren nicht abgedeckt werden? Schau auch in den "Tipps und Tricks"-Bereich.
Antworten
TuxPeter
Beiträge: 1954
Registriert: 19.11.2008 20:39:02
Lizenz eigener Beiträge: MIT Lizenz

smart-error auf SSD, aber alles scheint OK

Beitrag von TuxPeter » 07.05.2018 08:33:47

Hallo Debianfreunde,

vor kurzem ist mir aufgefallen, dass mir (dem user) root seit langem täglich ein Mail schickt, dass auf

Code: Alles auswählen

Device: /dev/sda [SAT], 262144 Currently unreadable (pending) sectors
seien. Manchmal sind es auch bloß 131072 sectors, was genau die Hälfte ist. Es handelt sich um eine Intenso SSD Sata III, mit 126 GB, und enthält als sda1 / und als sda2 /home, beide ext4, mein System ist Debian 9.

Im syslog sieht das dann z.B. so aus:

Code: Alles auswählen

May  4 09:37:08 deb1 smartd[531]: Device: /dev/sda [SAT], 131072 Currently unreadable (pending) sectors
May  4 10:07:08 deb1 smartd[531]: Device: /dev/sda [SAT], No more Currently unreadable (pending) sectors, 
warning condition reset after 1 email
Also: es werden Fehler festgestellt, eine Mail geschickt und dann ist alles wieder fein. Ein fsck mittels live-System bringt keine Fehler zutage, und mit smartctl bin ich auch nicht weiter gekommen (und auch nicht durchgestiegen).

Ich glaube ja nicht, dass wirklich irgend was kaputt ist und Handlungsbedarf besteht, aber ich wüsste schon gern mehr darüber, auch, wie man das evtl. abstellen kann. Habt ihr einen Tipp?

pferdefreund
Beiträge: 3791
Registriert: 26.02.2009 14:35:56

Re: smart-error auf SSD, aber alles scheint OK

Beitrag von pferdefreund » 07.05.2018 08:46:34

Der wichtigste Tipp - erst mal ein aktuelles Backup - zumindest der Benutzerdaten - anfertigen. Dann mal smartctl -a /dev/sda als Root ausführen und Ergebnis hier posten. Dann schauen wir mal. Aber erst das Backup !!!!

BenutzerGa4gooPh

Re: smart-error auf SSD, aber alles scheint OK

Beitrag von BenutzerGa4gooPh » 07.05.2018 12:20:41

Schöne Erläuterung der SMART-Werte hier: https://wiki.ubuntuusers.de/Festplattenstatus/ (Absatz Abfrage der Attribute)
Zu Beachten ist also, dass das Unterschreiten der Grenzwerte ein Gefahrenzeichen darstellt, nicht das Überschreiten. Im Beispiel ist alles in Ordnung, da die Parameterwerte alle über den jeweiligen Grenzwerten liegen. Kritisch sind Fehler bei den mit Pre-fail bezeichneten Attributen, da hier tatsächlich ein Versagen innerhalb kürzester Zeit droht! In diesem Fall empfiehlt sich der sofortige Austausch des Laufwerks. Interpretationshilfe zur Tabelle: Solange unter der Spalte WHEN_FAILED keine Fehler vermerkt sind, ist das Laufwerk noch in Ordnung.
(Beachte auch Links am Ende des genannten Absatzes.)

TuxPeter
Beiträge: 1954
Registriert: 19.11.2008 20:39:02
Lizenz eigener Beiträge: MIT Lizenz

Re: smart-error auf SSD, aber alles scheint OK

Beitrag von TuxPeter » 08.05.2018 13:11:24

Sorry, dass ich erst jetzt wieder auftauche.
Vielen Dank für Eure Antworten!
Habe nochmals smartctl -t short /dev/sda gegeben und anschließend smartctl abgefragt. Hier mal der ganze Output in nopaste:
NoPaste-Eintrag40339
Es könnte ja sein, dass hinter "unknow attribute" sich irgendwas verbirgt, was aber nicht aufgelöst wird, da die SSD nicht in der Gerätedatenbank erscheint. Aber irgendwie finde ich da nichts, was krank aussieht - trotzdem erfolgt regelmäßig weiter die Fehlermeldung.

pferdefreund
Beiträge: 3791
Registriert: 26.02.2009 14:35:56

Re: smart-error auf SSD, aber alles scheint OK

Beitrag von pferdefreund » 08.05.2018 13:24:51

Die 2 gefallen mir gar nicht: Ist da eventuell ein China-Müll-Kabel dran oder wird der controler zu heiß ? Ist das Backup schon gemacht ?
Das ist das wichtigste - nachher ist das Gejammer groß - ich weiß wovon ich rede, nachdem ich mal ein Riesen-Programm von einer
Liste neu eintippen musste weil ich eben kein ! Backup hatte. War damals in den 80er Jahren noch unter VM/370 und Dos/VSE auf ner IBM S/370 148.

95 Hardware_ECC_Recovered 0x0000 100 100 000 Old_age Offline - 3568
199 UDMA_CRC_Error_Count 0x0000 100 100 050 Old_age Offline - 29

TuxPeter
Beiträge: 1954
Registriert: 19.11.2008 20:39:02
Lizenz eigener Beiträge: MIT Lizenz

Re: smart-error auf SSD, aber alles scheint OK

Beitrag von TuxPeter » 08.05.2018 18:13:57

pferdefreund hat geschrieben: ↑ zum Beitrag ↑
08.05.2018 13:24:51
... Ist das Backup schon gemacht ? ...
Klaro, überlege gerade ob ich noch was mit rsync in das logout einbaue und dann mal abwarte.
Aber, was den "Hardware ECC" usw betrifft, so zeigt die 2. Platte, eine 360GB Samung HD; 4776 an, hat allerdings keinen UDMA CRC err. Diese Platte zeigt allerdings "Power ON Hours 25000, die Intenso SSD nur 500.

pferdefreund
Beiträge: 3791
Registriert: 26.02.2009 14:35:56

Re: smart-error auf SSD, aber alles scheint OK

Beitrag von pferdefreund » 09.05.2018 07:27:14

Da Debian ja immer etwas hinterherhinkt - dafür aber sehr stabil ist - eventuell mal die smartmontools von der Homepage - sollte dann das aktuellste sein - aus den Sourcen erstellen und damit testen. Zumindest hat man dann eventuell eine passende Datenbank und aussagekräftige Feldbezeichner. Ich würde auch mal spaßeshalber einen memtest auf der Maschine laufen lassen. Ich hatte auch schon angeblich Plattenfehler und dabei war ein RAM-Riegel am Körperteil, wo die Sonne nie hinscheint.

TuxPeter
Beiträge: 1954
Registriert: 19.11.2008 20:39:02
Lizenz eigener Beiträge: MIT Lizenz

Re: smart-error auf SSD, aber alles scheint OK

Beitrag von TuxPeter » 09.05.2018 18:05:58

Danke für die Antwort!
Ich habe die smartmontools-6.6 von deren ~.org-Seite heruntergeladen, aber nicht installiert bekommen. Die in stretch vorhandene Version 6.5+svn4324-1 geht mit gleicher Vers.Nr. hoch bis sid, vielleicht hat es ja Gründe, dass die nicht auf 6.6 sind. Diese Version ist von 11/17.
Außerdem habe ich smartmontools einmal deinstalliert und wieder installiert, ist ja ein kurzes Prog
Angeblich soll man auch die Geräte-db mit update-smart-drivedb updaten können. im 6.6-Package ist so etwas, allerdings mit der Endung .nsi, was auf irendeine komische Skriptsprache vervweist - insgesamt viele Hinweise dazu gefunden, aber nichts hat richtig funktioniert, und irgendwie stochere ich dennoch wie am Anfang im dunklen.

Ich denke, ich bastle mir jetzt mal "zeitnah" eine inkrementelle. Dasi für die Verzeichnisse, an denen ich tatsächlich arbeite, in mein logout-script und lasse es alles auf sich beruhen.
Die root-Part. habe ich auch gesichert, weil Neuinstallieren dann doch mehr Arbeit macht. - mal sehen.
Habe immer noch den Verdacht, dass das Ganze ein Artefakt ist. Es müsste sich doch sonst auch mal der Zähler für die beiden krititschen Werte erhöhen?

Auch habe ich die Einschätzung irgendwo gelesen, das smartctl nur zu ca. 2/3 zu Recht warnt.

Leider reicht mir der Platz auf der SSD immer noch dicke aus, sonst hätte ich guten Grund, eine neue zu kaufen ...

pferdefreund
Beiträge: 3791
Registriert: 26.02.2009 14:35:56

Re: smart-error auf SSD, aber alles scheint OK

Beitrag von pferdefreund » 09.05.2018 19:09:28

Na ja, kann ja gut gehen. Habe ca 12 Jahre eine Maxtor-Platte mit ca 150 bad sectors betrieben. Die waren vom System als nicht verwendbar markiert und es wurden auch nicht mehr. Produktionsfehler oder was auch immer. Aber - ich hatte immer aktuelle Backups. Memtest würde ich trotzdem mal machen und ggf das Kabel gegen ein teures gutes tauschen.

TuxPeter
Beiträge: 1954
Registriert: 19.11.2008 20:39:02
Lizenz eigener Beiträge: MIT Lizenz

Re: smart-error auf SSD, aber alles scheint OK

Beitrag von TuxPeter » 10.05.2018 10:10:52

Habe mal ein bei smartmontools.org angegebenes Live-System mit den allerneuesten tools ausprobiert.
https://www.smartmontools.org/wiki/LiveCDs

(die "ALT Linux Rescue", weekly build, hat tatsächlich die 6.6-er tools an Bord und dort ist meine SSD auch unbekannt, bringt ansonsten die gleichen Werte und verrät ebenfalls die Bedeutung der ganzen "Unknown_Attribute " nicht.

Memtest (kurz) meckerte nicht, kann ihn ja mal über Nacht länger laufen lassen. Mainboard und RAM sind erst knapp 1/2 Jahr alt, was natürlich auch weiter nix besagt im Bezug auf Fehlermöglichkeiten. Die SSD selber steht senkrecht, und wird im Betrieb nicht mal handwarm.

Ich denke, verschärfte DASI einführen und gut ist.

Antworten