mdadm Raid 5 resync badblocks

Probleme mit Samba, NFS, FTP und Co.
Antworten
slo77y
Beiträge: 7
Registriert: 23.10.2011 12:47:43

mdadm Raid 5 resync badblocks

Beitrag von slo77y » 23.10.2011 12:58:05

(edit: Hups, im falschen Forum gepostet, sollte eigentlich utner "Dateiserver" rein,... sorry)

Hallo zusammen!


Ich wende mich hier ans Forum, da ich selber langsam nicht mehr so Recht weiter weiss. Ich betreibe ein Debian Squeeze 64bit mit Kernel 2.6.32-5-amd64 auf meinem Homeserver, den ich mir gerad zusammengeschustert hab. Da ich die Schnautze voll hab von kaputtgehenden Festplatten, habe ich mich für ein Raid 5 via mdadm mit 3 3TB Platten von Hitachi entschieden.


So weit, so gut. Da ich einen Fehler mit reallocates der Devicenamen (sda,b,c tauschten immer die Reihenfolge) bei jedem Boot hatte, habe ich die mdadm.conf auf UUID umgestellt, und danach war das Problem behoben.

Das hatte aber auch zur Folge, dass das die spare Platte (sdc in meinem Fall) geresynct werden musste.

Und jetzt kommt der SuperGAU: Der Resync bricht bei ungefähr 32% ab, weil von sda nicht gelesen werden kann (bad blocks) mdadm schmeisst dann sda und sdc aus dem Array raus, womit es unbenutzbar wird. Ich kann es zwar noch mittel --assemble und --force wieder erreichbar machen, allerdings fehlt mir der Backup-Speicherplatz (habe jetzt schon all meine andern Platten auf dem Raid entleert) um alles runter zu kopieren und das Raid neu aufzusetzen, bzw. vernünftig zu kontrollieren.


Jetzt meine Fragen:

1. Kann es wirklich sein, dass eine der nichtmal eine Woche alten Platten schon kaputt ist ? (bad blocks..)
2. Wäre es nicht theoretisch möglich, das raid auszuhängen und per Hand einfach mit dd und conv=noerror,sync dann sda auf sdc zu kopieren, sodass ich meine Daten behalte (raid dann assemblen aus sdb und sdc) und dann sda "fixen" kann, um die dann wieder als spare einzuhängen ??
3. Was hat es mit badblocks auf sich? Ist das etwas, was per fsck wieder gefixt werden kann oder deutet das auf einen physikalischen Defekt der Festplatte hin ? Muss ich die Platte die bad blocks meldet evtl. umtauschen ?


Hier noch ein wenig dmesg output:

[ 1060.390913] md0: detected capacity change from 0 to 6001182900224
[ 1060.393183] md0: unknown partition table
[ 1218.838943] md: couldn't update array info. -16
[ 1222.384970] md: couldn't update array info. -16
[ 1254.872517] md: couldn't update array info. -16
[ 1532.932214] md: recovery of RAID array md0
[ 1532.932218] md: minimum _guaranteed_ speed: 999999 KB/sec/disk.
[ 1532.932219] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
[ 1532.932223] md: using 128k window, over a total of 2930265088 blocks.
[ 1532.932224] md: resuming recovery of md0 from checkpoint.
[ 1533.061290] XFS mounting filesystem dm-4
[ 1533.905036] Ending clean XFS mount for filesystem: dm-4
[ 2415.188028] [drm] nouveau 0000:01:00.0: Setting dpms mode 1 on vga encoder (output 0)
[ 2415.198000] [drm] nouveau 0000:01:00.0: Setting dpms mode 1 on TV encoder (output 3)
[ 6970.272677] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6970.272798] ata3.00: BMDMA stat 0x65
[ 6970.272897] ata3.00: failed command: READ DMA EXT
[ 6970.273290] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6970.273291] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6970.274654] ata3.00: status: { DRDY ERR }
[ 6970.275340] ata3.00: error: { UNC }
[ 6970.296941] ata3.00: configured for UDMA/133
[ 6970.436385] ata3.01: configured for UDMA/133
[ 6970.436398] ata3: EH complete
[ 6974.156589] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6974.156754] ata3.00: BMDMA stat 0x65
[ 6974.156861] ata3.00: failed command: READ DMA EXT
[ 6974.157350] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6974.157351] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6974.158765] ata3.00: status: { DRDY ERR }
[ 6974.159477] ata3.00: error: { UNC }
[ 6974.180965] ata3.00: configured for UDMA/133
[ 6974.200369] ata3.01: configured for UDMA/133
[ 6974.200381] ata3: EH complete
[ 6977.998403] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6977.998599] ata3.00: BMDMA stat 0x65
[ 6977.998710] ata3.00: failed command: READ DMA EXT
[ 6977.999256] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6977.999256] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6978.000795] ata3.00: status: { DRDY ERR }
[ 6978.001542] ata3.00: error: { UNC }
[ 6978.024371] ata3.00: configured for UDMA/133
[ 6978.040868] ata3.01: configured for UDMA/133
[ 6978.040878] ata3: EH complete
[ 6981.945467] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6981.945662] ata3.00: BMDMA stat 0x65
[ 6981.945771] ata3.00: failed command: READ DMA EXT
[ 6981.946272] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6981.946272] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6981.947800] ata3.00: status: { DRDY ERR }
[ 6981.948570] ata3.00: error: { UNC }
[ 6981.976367] ata3.00: configured for UDMA/133
[ 6981.990751] ata3.01: configured for UDMA/133
[ 6981.990761] ata3: EH complete
[ 6985.997783] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6985.997983] ata3.00: BMDMA stat 0x65
[ 6985.998099] ata3.00: failed command: READ DMA EXT
[ 6985.998750] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6985.998750] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6986.000424] ata3.00: status: { DRDY ERR }
[ 6986.001245] ata3.00: error: { UNC }
[ 6986.016873] ata3.00: configured for UDMA/133
[ 6986.032367] ata3.01: configured for UDMA/133
[ 6986.032373] ata3: EH complete
[ 6989.923797] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6989.923995] ata3.00: BMDMA stat 0x65
[ 6989.924108] ata3.00: failed command: READ DMA EXT
[ 6989.924708] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6989.924709] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6989.926292] ata3.00: status: { DRDY ERR }
[ 6989.927057] ata3.00: error: { UNC }
[ 6989.948881] ata3.00: configured for UDMA/133
[ 6989.967393] ata3.01: configured for UDMA/133
[ 6989.967454] sd 2:0:0:0: [sda] Unhandled sense code
[ 6989.967456] sd 2:0:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[ 6989.967461] sd 2:0:0:0: [sda] Sense Key : Medium Error [current] [descriptor]
[ 6989.967466] Descriptor sense data with sense descriptors (in hex):
[ 6989.967468] 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
[ 6989.967478] 71 1c ea a8
[ 6989.967482] sd 2:0:0:0: [sda] Add. Sense: Unrecovered read error - auto reallocate failed
[ 6989.967489] sd 2:0:0:0: [sda] CDB: Read(10): 28 00 71 1c e9 08 00 03 70 00
[ 6989.967498] end_request: I/O error, dev sda, sector 1897720488
[ 6989.967747] raid5:md0: read error not correctable (sector 1897720488 on sda).
[ 6989.967749] raid5: Disk failure on sda, disabling device.
[ 6989.967749] raid5: Operation continuing on 1 devices.
[ 6989.968396] raid5:md0: read error not correctable (sector 1897720496 on sda).
[ 6989.968398] raid5:md0: read error not correctable (sector 1897720504 on sda).
[ 6989.968400] raid5:md0: read error not correctable (sector 1897720512 on sda).
[ 6989.968401] raid5:md0: read error not correctable (sector 1897720520 on sda).
[ 6989.968403] raid5:md0: read error not correctable (sector 1897720528 on sda).
[ 6989.968405] raid5:md0: read error not correctable (sector 1897720536 on sda).
[ 6989.968407] raid5:md0: read error not correctable (sector 1897720544 on sda).
[ 6989.968409] raid5:md0: read error not correctable (sector 1897720552 on sda).
[ 6989.968410] raid5:md0: read error not correctable (sector 1897720560 on sda).
[ 6989.968438] ata3: EH complete
[ 6990.124114] md: md0: recovery done.
[ 6990.162634] RAID5 conf printout:
[ 6990.162637] --- rd:3 wd:1
[ 6990.162640] disk 0, o:0, dev:sda
[ 6990.162643] disk 1, o:1, dev:sdb
[ 6990.162645] disk 2, o:1, dev:sdc
[ 6990.172507] RAID5 conf printout:
[ 6990.172510] --- rd:3 wd:1
[ 6990.172512] disk 1, o:1, dev:sdb
[ 6990.172515] disk 2, o:1, dev:sdc
[ 6990.172522] RAID5 conf printout:
[ 6990.172524] --- rd:3 wd:1
[ 6990.172526] disk 1, o:1, dev:sdb
[ 6990.172528] disk 2, o:1, dev:sdc
[ 6990.188511] RAID5 conf printout:
[ 6990.188515] --- rd:3 wd:1
[ 6990.188518] disk 1, o:1, dev:sdb



Vielen Dank,
slo77y

Cae
Beiträge: 6349
Registriert: 17.07.2011 23:36:39
Wohnort: 2130706433

Re: mdadm Raid 5 resync badblocks

Beitrag von Cae » 23.10.2011 16:15:59

slo77y hat geschrieben:Kann es wirklich sein, dass eine der nichtmal eine Woche alten Platten schon kaputt ist ? (bad blocks..)
Weiter oben entsteht der Eindruck, dass dir schon mehrere Platten gestorben sind. Ich gehe von derselben Maschine aus. Vielleicht liegt es am Controller?

Gruß Cae
If universal surveillance were the answer, lots of us would have moved to the former East Germany. If surveillance cameras were the answer, camera-happy London, with something like 500,000 of them at a cost of $700 million, would be the safest city on the planet.

—Bruce Schneier

slo77y
Beiträge: 7
Registriert: 23.10.2011 12:47:43

Re: mdadm Raid 5 resync badblocks

Beitrag von slo77y » 23.10.2011 17:08:15

Den Eindruck gewinne ich langsam auch....

In der Datenrettungsphase, die grade stattfindet (mit nur 2 platten im raid damit kein rebuild ausgeführt wird der dann dazu führt dass sich das komplette raid verabschiedet) gibts immer wieder E/A Fehler beim kopieren und dann muss ich den rechner neustarten damits wieder geht.. passiert aber immer an ner anderen Stelle, also eventuell ist wirklich der Controller Schuld, und den Platten gehts gut.


Kann es eventuell damit zusammen hängen, dass das Board welches ich nutze (ASUS P5QD Turbo) prinzipiell nicht für 3TB platten ausgelegt ist? (Im Bios werden die mir als 800GB angezeigt...)

Als Linux die aber ohne Probleme erkannt hat, habe ich nicht weiter drüber nachgedacht..


Was wäre denn da die Lösung wenn die Platten alle in Ordnung sind? (wovon ich schwer ausgehe, da alle flammneu) Neues Board kaufen? Hardware Raid Controller kaufen ?

Cae
Beiträge: 6349
Registriert: 17.07.2011 23:36:39
Wohnort: 2130706433

Re: mdadm Raid 5 resync badblocks

Beitrag von Cae » 23.10.2011 17:20:40

slo77y hat geschrieben:Neues Board kaufen? Hardware Raid Controller kaufen ?
BIOS updaten?

Gruß Cae
If universal surveillance were the answer, lots of us would have moved to the former East Germany. If surveillance cameras were the answer, camera-happy London, with something like 500,000 of them at a cost of $700 million, would be the safest city on the planet.

—Bruce Schneier

slo77y
Beiträge: 7
Registriert: 23.10.2011 12:47:43

Re: mdadm Raid 5 resync badblocks

Beitrag von slo77y » 23.10.2011 17:26:01

hab ich bevor ich das alles aufgesetzt hab schon geupdated, hat offenbar nicht geholfen....

so offensichtliche antworten braucht ihr mir nicht geben, ich kenne mich schon ein wenig aus mit computern ;).

ich hatte auf hilfe von jemandem gehofft der sich mit mdadm/softraid und dateisystemen GUT auskennt.

trotzdem danke

Cae
Beiträge: 6349
Registriert: 17.07.2011 23:36:39
Wohnort: 2130706433

Re: mdadm Raid 5 resync badblocks

Beitrag von Cae » 23.10.2011 17:32:39

slo77y hat geschrieben:so offensichtliche antworten braucht ihr mir nicht geben, ich kenne mich schon ein wenig aus mit computern ;).
Wusst' ich nicht und man kann es nicht unbedingt voraussetzen *g*

Ich würde mir halt einfach Gedanken machen, wenn die Festplatten schon im BIOS offensichtlich nicht korrekt erkannt werden. Vielleicht besorgst du dir (zum Testen) eine RAID-Controller-Karte.

Gruß Cae
If universal surveillance were the answer, lots of us would have moved to the former East Germany. If surveillance cameras were the answer, camera-happy London, with something like 500,000 of them at a cost of $700 million, would be the safest city on the planet.

—Bruce Schneier

slo77y
Beiträge: 7
Registriert: 23.10.2011 12:47:43

Re: mdadm Raid 5 resync badblocks

Beitrag von slo77y » 23.10.2011 17:51:58

Hm.. gerade ist das Raid schon wieder ausgefallen. Aber es scheint so, dass das nur passiert, wenn zuviel Action auf den Platten ist.

Wenn ich nur einen mv Prozess nutze um die Daten runterzubekommen, (wo ich gerade fieberhaft bei bin, Backup machen) dann bleibt es Konstant. Sind aber mehrere Benutzer über Samba drauf und laden sachen, und ich verschiebe Dateien etc. bricht das Raid irgenwdann auseinander...

Vielleicht komt der SATA Controller einfach nicht zurecht damit ?

Benutzeravatar
TRex
Moderator
Beiträge: 8082
Registriert: 23.11.2006 12:23:54
Wohnort: KA

Re: mdadm Raid 5 resync badblocks

Beitrag von TRex » 23.10.2011 21:35:07

slo77y hat geschrieben:(edit: Hups, im falschen Forum gepostet, sollte eigentlich utner "Dateiserver" rein,... sorry)
fixed :)
Jesus saves. Buddha does incremental backups.
Windows ist doof, Linux funktioniert nichtDon't break debian!Wie man widerspricht

Benutzeravatar
cirrussc
Beiträge: 6582
Registriert: 26.04.2007 19:47:06
Lizenz eigener Beiträge: MIT Lizenz

Re: mdadm Raid 5 resync badblocks

Beitrag von cirrussc » 23.10.2011 21:58:36

slo77y hat geschrieben:1. Kann es wirklich sein, dass eine der nichtmal eine Woche alten Platten schon kaputt ist ? (bad blocks..)
Das ist sicher und klar mit Ja zu beantworten.
slo77y hat geschrieben:3. Was hat es mit badblocks auf sich? Ist das etwas, was per fsck wieder gefixt werden kann oder deutet das auf einen physikalischen Defekt der Festplatte hin ? Muss ich die Platte die bad blocks meldet evtl. umtauschen ?
Unter bad blocks versteht man defekte, also nicht mehr lesbare, physikalische Sektoren der Festplatte. Als Folge kann die Festplattenfirmware bei erneuten Schreibversuchen diese Sektoren durch spare sectors aus einem reservierten Bereich ersetzen. Dieser Vorgang wird unter Reallokation geführt und ist deutlich in den SMART-Werten einer jeden Festplatte diagnostizierbar. Anzumerken ist, dass diese Reservesektoren begrenzt sind und sich die Zahl der defekten allmählich vergrößern kann (was sie meistens auch tut).
Du solltest also zur Beurteilung die komplette Ausgabe von smartcl -a device (Debiansmartmontools) jeder HDD nach NoPaste posten.

Ohne dass ich die bisher kenne, lassen die ATA Fehler tatsächlich auf schlechte Sektoren schließen:
ata3.00: error: { UNC } (UNCorractable)

Kabel-/Steckerabhängig schlechte Signalverbindungen und resultierende CRC Fehler tauchen nicht auf, sind deswegen unwahrscheinlich.
slo77y hat geschrieben:[ 6970.272677] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6970.272798] ata3.00: BMDMA stat 0x65
[ 6970.272897] ata3.00: failed command: READ DMA EXT
[ 6970.273290] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6970.273291] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6970.274654] ata3.00: status: { DRDY ERR }
[ 6970.275340] ata3.00: error: { UNC }
[ 6970.296941] ata3.00: configured for UDMA/133
[ 6970.436385] ata3.01: configured for UDMA/133
[ 6970.436398] ata3: EH complete
Gruß cirrussc
--------------------
„Der Mensch steigert zur Zeit die Nutzung dessen, was seiner Willkür unterliegt - und kommt sich sehr klug dabei vor.“ H. Gruhl

slo77y
Beiträge: 7
Registriert: 23.10.2011 12:47:43

Re: mdadm Raid 5 resync badblocks

Beitrag von slo77y » 24.10.2011 00:19:13

Vielen Dank!


Der Output von smartctl -A ist hier zu finden:

http://debianforum.de/forum/pastebin.ph ... ew&s=36007


Interessant... bei sdb und sdc vergleichbare Werte, und für das Laienauge kann ich auch bei sda nichts auffälliges feststellen... Dabei meldet bei all meinen Raid-Fails immer nur sda Probleme.... aber anscheinend gehts der ja gut ?? Was nun ?

Benutzeravatar
cirrussc
Beiträge: 6582
Registriert: 26.04.2007 19:47:06
Lizenz eigener Beiträge: MIT Lizenz

Re: mdadm Raid 5 resync badblocks

Beitrag von cirrussc » 24.10.2011 00:35:14

slo77y hat geschrieben:Interessant... bei sdb und sdc vergleichbare Werte, und für das Laienauge kann ich auch bei sda nichts auffälliges feststellen... Dabei meldet bei all meinen Raid-Fails immer nur sda Probleme.... aber anscheinend gehts der ja gut ?? Was nun ?
Nicht sofort ersichtlich:

Code: Alles auswählen

197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       1
Bei sda hat sich also wenigstens ein Sektor bemerkbar gemacht. Einiges müsste sich auch im SMART Fehlerlog dazu finden.
Aber zuvor würde ich einen langen Selbsttest anstoßen. Ist da tatsächlich ein defekter Sektor, müsste der Test abbrechen und den (ersten) betreffenden LBA anzeigen (oder erfolgreich durchlaufen ->bei einigen TB mehrere Stunden).

Code: Alles auswählen

smartcl -a /dev/sda
zeigt alle Informationen (verfügbare Test, -Dauer, Fehlerlog, Selbsttests ...).
Wenn es sich nur um einige wenige handelt, kann man die Platte aus dem Verbund nehmen und mittels Schreibversuchen durch badblocks oder gezielt mit dd oder hdparm zum auslagern zwingen.
Andererseits sollte das wohl schon ein Reklamationsgrund sein. Um den geltend zu machen, bedarf es oft noch der Meldungen entsprechender Herstellertools (die auch nichts anderes machen).
Gruß cirrussc
--------------------
„Der Mensch steigert zur Zeit die Nutzung dessen, was seiner Willkür unterliegt - und kommt sich sehr klug dabei vor.“ H. Gruhl

slo77y
Beiträge: 7
Registriert: 23.10.2011 12:47:43

Re: mdadm Raid 5 resync badblocks

Beitrag von slo77y » 25.10.2011 19:24:44

Vielen Dank!

Ich habe zum Glück inzwischen alle Daten vom Raid runterbekommen, und gebackupped.


Jetzt habe ich das raid gestoppt, und danach war der "Current_Pending_Sector" auf sda wieder weg... steht jetzt auf 0, genauso wie der Reallocation_Count.... Es sieht so aus, als ob die Platte in Ordnung wäre ?!

Ich habe jetzt mittels smartctl --test=long /dev/sda einen langen Selbsttest angeworfen, wie hier vorgeschlagen.

Nochmal output von smartctl --all:

http://gist.github.com/1313603


Leider steht da, der Test wurde abgebrochen, habe ich auch; um zu testen ob dann ne Log rauskommt. Jetzt lässt er sich aber irgendwie nicht wieder aktivieren... smartctl sagt zwar, der Test läuft, --all sagt aber immer noch, er wäre abgebrochen ??


Lässt sich aus dem Log irgendwas erkennen, dass die Platte kaputt ist ?

Benutzeravatar
cirrussc
Beiträge: 6582
Registriert: 26.04.2007 19:47:06
Lizenz eigener Beiträge: MIT Lizenz

Re: mdadm Raid 5 resync badblocks

Beitrag von cirrussc » 25.10.2011 21:20:28

slo77y hat geschrieben:Jetzt habe ich das raid gestoppt, und danach war der "Current_Pending_Sector" auf sda wieder weg... steht jetzt auf 0, genauso wie der Reallocation_Count.... Es sieht so aus, als ob die Platte in Ordnung wäre ?!
Es hat den Anschein. Wie gesagt kann die Plattenfirmware Sektoren durch Schreibvorgang entweder auslagern oder reparieren, wovon sicher nur der Hersteller weiß, was dann genau vor sich geht.
slo77y hat geschrieben:Leider steht da, der Test wurde abgebrochen, habe ich auch; um zu testen ob dann ne Log rauskommt. Jetzt lässt er sich aber irgendwie nicht wieder aktivieren... smartctl sagt zwar, der Test läuft, --all sagt aber immer noch, er wäre abgebrochen ??
Oh doch, der wurde erneut gestartet und lief gerade noch:

Code: Alles auswählen

Self-test execution status: ( 249) Self-test routine in progress...
90% of test remaining.
Die werden meist (hängt von der Firmware ab) erst im Selftestlog gelistet, wenn diese beendet sind.
Dass der erste gestartete Test abgebrochen wurde, könnte an einem Reset oder Neustart liegen (oder aber durch einen undefinierbaren Defekt, wovon ich erstmal nicht ausgehen wollte). Aber scheinbar ist das nicht der Fall (Power_Cycle_Count = 34)?

Code: Alles auswählen

Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Aborted by host 90% 171 -
Das prüfe ich immer so:

Code: Alles auswählen

smartctl -c /dev/sda | grep execution -A1
Du kannst, wenn die anderen Platten identisch sind, dort auch mal einen langen Test starten (der tut nicht weh, löscht also nichts), um zu schauen, ob er dort durchläuft.
slo77y hat geschrieben:Lässt sich aus dem Log irgendwas erkennen, dass die Platte kaputt ist ?
Kaputt ist bei Festplatten eine dehnbare Definition :)
Der letzt geloggte Fehler geschah 8 Stunden vor Deiner ersten Ausgabe oben:

Code: Alles auswählen

Error 25 occurred at disk power-on lifetime: 120 hours (5 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 58 a8 ea 1c 01 Error: UNC 88 sectors at LBA = 0x011ceaa8 = 18672296
Das deckt sich mit den ATA Fehlern im Syslog und zeigt, dass wiederholt der selbe LBA (18672296) sich nicht lesen ließ (die ECC Korrekturen nicht mehr konsistent waren). Das wird der eine Current_Pending_Sector gewesen sein.

Wie dem auch sein, Du solltest über diese Festplatte einmal gründlich Badblocks drüber laufen lassen. Vielleicht ergeben sich so weitere Fehler oder auch nicht. Mit dem folgenden Aufruf gehen alle Daten (Partition, FS, Daten) auf der gegebenen Platte verloren. Du solltest also darauf achten, das richtige Device anzugeben. Hier mal sda:

Code: Alles auswählen

badblocks -b 4096 -svwf -o /root/badblocks.txt /dev/sdx
Die Blockgröße mal auf gängige 4096 Byte (ist hier eigentlich unwichtig) und zur Info eine Liste der gefundenen (wenn...) Blöcke nach /root.
Dabei werden in mehreren Durchgängen verschiedene Bitmuster geschrieben und jeweils wieder verglichen. Das ganze könnte also 255 min * 8 = ~34h dauern :!:
Wenn das durch sein sollte, kann nochmal ein langer Selbstest gestartet werden. Mal sehen was bei all dem raus kommt.
Gruß cirrussc
--------------------
„Der Mensch steigert zur Zeit die Nutzung dessen, was seiner Willkür unterliegt - und kommt sich sehr klug dabei vor.“ H. Gruhl

slo77y
Beiträge: 7
Registriert: 23.10.2011 12:47:43

Re: mdadm Raid 5 resync badblocks

Beitrag von slo77y » 25.10.2011 21:40:37

Vielen Dank mal wieder für deine hilfreiche Antwort!


Ich glaube ich werde das ganze aber einfach pragmatischer Lösen und die Platte umtauschen... Bis die ganzen Tests abgeschlossen sind könnte es gut sein dass die neue schon da ist ^^.

Ich versuche in der Zwischenzeit mal, ein Raid5 aus den zwei verbleibenden aufzusetzen, und wenn die neue Platte dann da ist, adde ich sie als Spare.

Besten Dank!

Benutzeravatar
cirrussc
Beiträge: 6582
Registriert: 26.04.2007 19:47:06
Lizenz eigener Beiträge: MIT Lizenz

Re: mdadm Raid 5 resync badblocks

Beitrag von cirrussc » 25.10.2011 21:49:55

slo77y hat geschrieben:Ich glaube ich werde das ganze aber einfach pragmatischer Lösen und die Platte umtauschen... Bis die ganzen Tests abgeschlossen sind könnte es gut sein dass die neue schon da ist ^^.
Wer weiß, ist vllt. besser so :)
Demnächst wollt ich mir auch Hitachis krallen :roll:

Vllt. gibt's das Ganze auch mal gesammelt im Wiki...

edit: Wiki-Artikel zum Thema Festplattendiagnostik- und Überwachung
Gruß cirrussc
--------------------
„Der Mensch steigert zur Zeit die Nutzung dessen, was seiner Willkür unterliegt - und kommt sich sehr klug dabei vor.“ H. Gruhl

Antworten