Festplatte geht kaputt? Wie mit Problemen umgehen unter Debian

Hast Du Probleme mit Hardware, die durch die anderen Foren nicht abgedeckt werden? Schau auch in den "Tipps und Tricks"-Bereich.
Antworten
Knogle
Beiträge: 465
Registriert: 06.05.2016 19:29:00
Lizenz eigener Beiträge: MIT Lizenz

Festplatte geht kaputt? Wie mit Problemen umgehen unter Debian

Beitrag von Knogle » 01.11.2018 10:24:22

Ich gruesse euch liebe Community.
Heute habe ich meinen Server mal nach einem Crash neugestartet, und es kam folgende Meldung:

Weiterhin habe ich heute folgendes festgestellt, nachdem ich das System neu gestartet habe.

Es kam eine Meldung:

Code: Alles auswählen

Power on or device reset occured
.
Dann habe ich mal

Code: Alles auswählen

 zpool status
aufgerufen, und folgenden Output bekommen.
Was sagt mir das?

Code: Alles auswählen

root@debian:~# zpool status
  pool: tank
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: resilvered 64K in 0h0m with 0 errors on Thu Nov  1 09:37:38 2018
config:

        NAME        STATE     READ WRITE CKSUM
        tank        ONLINE       0     0     0
          mirror-0  ONLINE       0     0     0
            sdc     ONLINE       0     0     0
            sdd     ONLINE       0     0     0
          mirror-1  ONLINE       0     0     0
            sde     ONLINE       0     0     3
            sdf     ONLINE       0     0     0
          mirror-2  ONLINE       0     0     0
            sdg     ONLINE       0     0     0
            sdb     ONLINE       0     0     0
          mirror-3  ONLINE       0     0     0
            sdh     ONLINE       0     0     0
            sda     ONLINE       0     0     0

errors: No known data errors

Anbei mal die SMART Werte der entsprechenden Platte

Code: Alles auswählen

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   102   099   006    Pre-fail  Always       -       1207504
  3 Spin_Up_Time            0x0003   094   083   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       193
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   048   041   030    Pre-fail  Always       -       592715767642
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1635
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       182
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   099   099   000    Old_age   Always       -       1
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       8590065673
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   072   047   045    Old_age   Always       -       28 (Min/Max 27/28)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       186
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       193
194 Temperature_Celsius     0x0022   028   053   000    Old_age   Always       -       28 (0 17 0 0 0)
195 Hardware_ECC_Recovered  0x001a   036   004   000    Old_age   Always       -       1207504
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       1581 (194 25 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       3971721163
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       645025077

SMART Error Log Version: 1
No Errors Logged
Ist die Festplatte im Eimer? Reported Uncorrect und Command Timeout ist mir in so einem Zusammenhang nie bekannt geworden.
Bei meinen bisherigen Platten die kaputt gegangen sind, ging das immer mit Schwebenden Sektoren einher.

Oder kann das Problem auch wo anders liegen, als bei den Festplatten?

Anbei mal ein Bild des Inneren meines Systems

Bild

Hier Auszug aus journalctl

Code: Alles auswählen

Nov 01 09:17:24 debian kernel: sd 0:0:2:0: [sde] tag#1479 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Nov 01 09:17:24 debian kernel: sd 0:0:2:0: [sde] tag#1479 Sense Key : Not Ready [current]
Nov 01 09:17:24 debian kernel: sd 0:0:2:0: [sde] tag#1479 Add. Sense: Logical unit not ready, cause not reportable
Nov 01 09:17:24 debian kernel: sd 0:0:2:0: [sde] tag#1479 CDB: Read(10) 28 00 00 00 0a 10 00 00 10 00
Nov 01 09:17:24 debian kernel: print_req_error: I/O error, dev sde, sector 2576
Nov 01 09:17:24 debian kernel: sd 0:0:2:0: [sde] tag#1480 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Nov 01 09:17:24 debian kernel: sd 0:0:2:0: [sde] tag#1480 Sense Key : Not Ready [current]
Nov 01 09:17:24 debian kernel: sd 0:0:2:0: [sde] tag#1480 Add. Sense: Logical unit not ready, cause not reportable
Nov 01 09:17:24 debian kernel: sd 0:0:2:0: [sde] tag#1480 CDB: Read(10) 28 00 e8 e0 44 10 00 00 10 00
Nov 01 09:17:24 debian kernel: print_req_error: I/O error, dev sde, sector 3907011600
Nov 01 09:17:24 debian kernel: sd 0:0:2:0: [sde] tag#1481 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Nov 01 09:17:24 debian kernel: sd 0:0:2:0: [sde] tag#1481 Sense Key : Not Ready [current]
Nov 01 09:17:24 debian kernel: sd 0:0:2:0: [sde] tag#1481 Add. Sense: Logical unit not ready, cause not reportable
Nov 01 09:17:24 debian kernel: sd 0:0:2:0: [sde] tag#1481 CDB: Read(10) 28 00 e8 e0 46 10 00 00 10 00
Nov 01 09:17:24 debian kernel: print_req_error: I/O error, dev sde, sector 3907012112
Zuletzt geändert von Knogle am 01.11.2018 11:57:37, insgesamt 1-mal geändert.

Benutzeravatar
whisper
Beiträge: 3160
Registriert: 23.09.2002 14:32:21
Lizenz eigener Beiträge: GNU Free Documentation License
Kontaktdaten:

Re: Festplatte geht kaputt? Wie mit Problemen umgehen unter Debian

Beitrag von whisper » 01.11.2018 11:17:41

Mal

Code: Alles auswählen

 smartctl -t long /dev/sd?
laufen lassen.
Vielleicht ein einmaliges Ereignis, verursacht durch Störung im Netz?

Benutzeravatar
jph
Beiträge: 1049
Registriert: 06.12.2015 15:06:07
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Greven/Westf.

Re: Festplatte geht kaputt? Wie mit Problemen umgehen unter Debian

Beitrag von jph » 01.11.2018 12:06:24

Knogle hat geschrieben: ↑ zum Beitrag ↑
01.11.2018 10:24:22
Anbei mal ein Bild des Inneren meines Systems
Hat jetzt nicht unbedingt was mit deiner Frage zu tun, aber: in der Kiste scheint die Luft überhaupt nicht strömen zu können. Die Hitze könnte sich kräftig stauen, was die Lebensdauer deiner Festplatten verkürzen kann.

Benutzeravatar
whisper
Beiträge: 3160
Registriert: 23.09.2002 14:32:21
Lizenz eigener Beiträge: GNU Free Documentation License
Kontaktdaten:

Re: Festplatte geht kaputt? Wie mit Problemen umgehen unter Debian

Beitrag von whisper » 01.11.2018 12:12:48

Sorry, der Absatz nach dem Bild, war der vorhin auch schon da?
Kann es ein Wackler im Kabelsalat sein?

Knogle
Beiträge: 465
Registriert: 06.05.2016 19:29:00
Lizenz eigener Beiträge: MIT Lizenz

Re: Festplatte geht kaputt? Wie mit Problemen umgehen unter Debian

Beitrag von Knogle » 01.11.2018 12:28:24

whisper hat geschrieben: ↑ zum Beitrag ↑
01.11.2018 12:12:48
Sorry, der Absatz nach dem Bild, war der vorhin auch schon da?
Kann es ein Wackler im Kabelsalat sein?
Ist der Fehler fuer sowas typisch?
Muss ich mal schauen, das Problem ist, habe mir ein neues BeQuiet Netzteil gekauft, und das hat 1x Molex Stecker.
Jedoch brauche ich aufgrund der SFF-8482 Adapter mindestens 8x Molex, weshalb ich 10 Molex Y Adapter drin habe.

BenutzerGa4gooPh

Re: Festplatte geht kaputt? Wie mit Problemen umgehen unter Debian

Beitrag von BenutzerGa4gooPh » 01.11.2018 14:10:02

Knogle hat geschrieben: ↑ zum Beitrag ↑
01.11.2018 12:28:24
Ist der Fehler fuer sowas typisch?

Code: Alles auswählen

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   102   099   006    Pre-fail  Always       -       1207504
  3 Spin_Up_Time            0x0003   094   083   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       193
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   048   041   030    Pre-fail  Always       -       592715767642
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1635
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
Wenn schlechteste (worst) "pre fail" - Werte kurz vor Thresholds (oft Minima / "runter gezählt") sind, ist das entsprechend nachfolgender Links ungut. Ich tippe darauf, das alle Forenmitglieder (nicht bei Herstellern Beschäftigte) aufgrund Recherchen, Erfahrungen und Kaffesatzleserei antworten. U. a. nach dem Lesen von
https://wiki.ubuntuusers.de/Festplattenstatus/
https://en.wikipedia.org/wiki/S.M.A.R.T.
Kommt natürlich auf die Zeit an, in der sich Werte ändern - oder nahezu konstant bleiben. Beobachten, wöchentlich speichern, vergleichen.
Z.B. ID#7: Weitere Verschlechterung in welcher Zeit?

Ich würde jedoch ein Herstellertool des Datenspeichers zum Test und Auswertung von SMART bevorzugen. Notfalls für Windows. Schon mal selber recherchiert?! Ergebnis?
Es gibt erhebliche Differenzen bei SSDs zwischen TBW vom Host geschrieben und am Ende auf Flash der SSD "gelandet". U. U. das 3-fache, Stichwort Write Amplification.

Am Ende gibt es auch (SMART-) Tests. Ergebnis? SMART ist allerdings laut meinem dementen Gedächtnis nur zu 2/3 "vorhersagefähig", Links lesenl

Und wenn ein wichtiger Datenspeicher 50 .. 150 Euro kostet, dann bei entsprechenden Werten prophylaktisch tauschen? Was machst du mit Motorenöl, Durchsicht, TÜV am KFZ, mit dem du täglich auf Arbeit fahren musst? Klamotten (von Frau) usw ... :wink:

Unterschied zwischen Instandhaltung (vorbeugend) und Instandsetzung (nach Ausfall) ... Professionalität vs. Geiz-ist-geil-Mentalitaet.
Dann habe ich mal
CODE: ALLES AUSWÄHLEN

zpool status
aufgerufen, und folgenden Output bekommen.
Was sagt mir das?
Das fragt dich einfach: Wofür/warum zpool? Wenn du dich ganz offensichtlich damit nicht auskennst? Warum nicht ext4 + LVM? Oder entsprechende Weiterbildung ...

reox
Beiträge: 2460
Registriert: 06.06.2006 22:09:47
Lizenz eigener Beiträge: MIT Lizenz

Re: Festplatte geht kaputt? Wie mit Problemen umgehen unter Debian

Beitrag von reox » 01.11.2018 16:21:23

Jana66 hat geschrieben: ↑ zum Beitrag ↑
01.11.2018 14:10:02
Ich würde jedoch ein Herstellertool des Datenspeichers zum Test und Auswertung von SMART bevorzugen.
Ich hab einen ganzen Haufen Seagate Platten. Die Seatools sagen mir, dass die platte OK ist - fahre ich mit DBAN drüber, bekomme ich gleich mal verifikations fehler.
Also man sollte auch den Herstellertools nicht immer blind vertrauen.

Benutzeravatar
whisper
Beiträge: 3160
Registriert: 23.09.2002 14:32:21
Lizenz eigener Beiträge: GNU Free Documentation License
Kontaktdaten:

Re: Festplatte geht kaputt? Wie mit Problemen umgehen unter Debian

Beitrag von whisper » 01.11.2018 17:09:44

Knogle hat geschrieben: ↑ zum Beitrag ↑
01.11.2018 12:28:24
[

Ist der Fehler fuer sowas typisch?
Muss ich mal schauen, das Problem ist, habe mir ein neues BeQuiet Netzteil gekauft, und das hat 1x Molex Stecker.
Jedoch brauche ich aufgrund der SFF-8482 Adapter mindestens 8x Molex, weshalb ich 10 Molex Y Adapter drin habe.
Ja, Die Kabel oder wahrscheinlicher die Steckverbindungen sind immer Schwachpunkte. Was Jana schreibt hat aber auch Hand- und Fuß.
Aber Herstellertools brauchst du nicht, IMHO

BenutzerGa4gooPh

Re: Festplatte geht kaputt? Wie mit Problemen umgehen unter Debian

Beitrag von BenutzerGa4gooPh » 01.11.2018 17:18:17

reox hat geschrieben: ↑ zum Beitrag ↑
01.11.2018 16:21:23
Ich hab einen ganzen Haufen Seagate Platten. Die Seatools sagen mir, dass die platte OK ist - fahre ich mit DBAN drüber, bekomme ich gleich mal verifikations fehler.
Also man sollte auch den Herstellertools nicht immer blind vertrauen.
Nu ja, wenn sich Ausfälle wie auch immer ankündigen: Wie wichtig ist der jeweilige Massenspeicher mit/ohne RAID, Bandsicherung, Backup? Vorausschauende Instandhaltung vs. Instandsetzung? Würde sogar ein Schlosser ("nur" Facharbeiter) den Autobesitzer (Admin/FiSi/Firmeninhaber) fragen. :wink:

Fachlich (und hier leider nur esoterisch möglich) hatte ich auf offensichtliche SMART-Grenzwerte aufmerksam gemacht. In welcher Zeit die aktuellen Werte sich Grenzwerten annähern, kann man oder der TE durch wöchentliche Abfrage ermitteln. Oder wichtigen Massenspeicher prophylaktisch und testweise tauschen, so ganz sauber erscheint er nicht mal dem TE (und dem Kernel-Journal). :wink: :mrgreen:
Preis vs. Wichtigkeit, Forenanfrage an alle Glaskugeln? Professionalität heißt Instandhaltung - nicht Instandsetzung (=Investitionsstau, Reparatur erst nach Ausfall). Zumindest in meiner Zeit. Leider vorbei. :evil:

Wegen derartigem Scheiss (Festplatte, SSD) würde ich die gut mögliche Ausfallzeit (Dienste, Rücksicherung Backup) in einer Firma nicht mit "esoterischen remote" Forenanfragen hinauszögern - sondern proaktiv (wegen mir auch 500 Euro kurzfristig in den Sand gesetzt - aber künftig nutzbar :wink: ) reagieren, einkaufen. Was wird in einer Firma jeden Monat sinnlos in den Sand gesetzt?? Beispiel: Marketing vs. monetärem Erfolg dadurch prüft niemand.

Kaufe dir ein neues Laufwerk, vergleiche und spare dir Nerven und Lebenszeit. Egal ob zu Hause oder (vor allem) in der Firma. 1 von 8 x 2 TB ersetzen bzw. auf Reserve. Hätte ich innerhalb von 10 Minuten entschieden, das Blockwarten und Führern plausibel/unterschiedlich begründet. :wink: :mrgreen:

Vielleicht schreibst du mal, welchen Zweck der "Server" schlussendlich erfüllen soll?!
Gehört wohl zusammen/dazu: viewtopic.php?f=9&t=171181

Antworten