mdadm Raid 5 resync badblocks
mdadm Raid 5 resync badblocks
(edit: Hups, im falschen Forum gepostet, sollte eigentlich utner "Dateiserver" rein,... sorry)
Hallo zusammen!
Ich wende mich hier ans Forum, da ich selber langsam nicht mehr so Recht weiter weiss. Ich betreibe ein Debian Squeeze 64bit mit Kernel 2.6.32-5-amd64 auf meinem Homeserver, den ich mir gerad zusammengeschustert hab. Da ich die Schnautze voll hab von kaputtgehenden Festplatten, habe ich mich für ein Raid 5 via mdadm mit 3 3TB Platten von Hitachi entschieden.
So weit, so gut. Da ich einen Fehler mit reallocates der Devicenamen (sda,b,c tauschten immer die Reihenfolge) bei jedem Boot hatte, habe ich die mdadm.conf auf UUID umgestellt, und danach war das Problem behoben.
Das hatte aber auch zur Folge, dass das die spare Platte (sdc in meinem Fall) geresynct werden musste.
Und jetzt kommt der SuperGAU: Der Resync bricht bei ungefähr 32% ab, weil von sda nicht gelesen werden kann (bad blocks) mdadm schmeisst dann sda und sdc aus dem Array raus, womit es unbenutzbar wird. Ich kann es zwar noch mittel --assemble und --force wieder erreichbar machen, allerdings fehlt mir der Backup-Speicherplatz (habe jetzt schon all meine andern Platten auf dem Raid entleert) um alles runter zu kopieren und das Raid neu aufzusetzen, bzw. vernünftig zu kontrollieren.
Jetzt meine Fragen:
1. Kann es wirklich sein, dass eine der nichtmal eine Woche alten Platten schon kaputt ist ? (bad blocks..)
2. Wäre es nicht theoretisch möglich, das raid auszuhängen und per Hand einfach mit dd und conv=noerror,sync dann sda auf sdc zu kopieren, sodass ich meine Daten behalte (raid dann assemblen aus sdb und sdc) und dann sda "fixen" kann, um die dann wieder als spare einzuhängen ??
3. Was hat es mit badblocks auf sich? Ist das etwas, was per fsck wieder gefixt werden kann oder deutet das auf einen physikalischen Defekt der Festplatte hin ? Muss ich die Platte die bad blocks meldet evtl. umtauschen ?
Hier noch ein wenig dmesg output:
[ 1060.390913] md0: detected capacity change from 0 to 6001182900224
[ 1060.393183] md0: unknown partition table
[ 1218.838943] md: couldn't update array info. -16
[ 1222.384970] md: couldn't update array info. -16
[ 1254.872517] md: couldn't update array info. -16
[ 1532.932214] md: recovery of RAID array md0
[ 1532.932218] md: minimum _guaranteed_ speed: 999999 KB/sec/disk.
[ 1532.932219] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
[ 1532.932223] md: using 128k window, over a total of 2930265088 blocks.
[ 1532.932224] md: resuming recovery of md0 from checkpoint.
[ 1533.061290] XFS mounting filesystem dm-4
[ 1533.905036] Ending clean XFS mount for filesystem: dm-4
[ 2415.188028] [drm] nouveau 0000:01:00.0: Setting dpms mode 1 on vga encoder (output 0)
[ 2415.198000] [drm] nouveau 0000:01:00.0: Setting dpms mode 1 on TV encoder (output 3)
[ 6970.272677] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6970.272798] ata3.00: BMDMA stat 0x65
[ 6970.272897] ata3.00: failed command: READ DMA EXT
[ 6970.273290] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6970.273291] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6970.274654] ata3.00: status: { DRDY ERR }
[ 6970.275340] ata3.00: error: { UNC }
[ 6970.296941] ata3.00: configured for UDMA/133
[ 6970.436385] ata3.01: configured for UDMA/133
[ 6970.436398] ata3: EH complete
[ 6974.156589] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6974.156754] ata3.00: BMDMA stat 0x65
[ 6974.156861] ata3.00: failed command: READ DMA EXT
[ 6974.157350] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6974.157351] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6974.158765] ata3.00: status: { DRDY ERR }
[ 6974.159477] ata3.00: error: { UNC }
[ 6974.180965] ata3.00: configured for UDMA/133
[ 6974.200369] ata3.01: configured for UDMA/133
[ 6974.200381] ata3: EH complete
[ 6977.998403] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6977.998599] ata3.00: BMDMA stat 0x65
[ 6977.998710] ata3.00: failed command: READ DMA EXT
[ 6977.999256] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6977.999256] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6978.000795] ata3.00: status: { DRDY ERR }
[ 6978.001542] ata3.00: error: { UNC }
[ 6978.024371] ata3.00: configured for UDMA/133
[ 6978.040868] ata3.01: configured for UDMA/133
[ 6978.040878] ata3: EH complete
[ 6981.945467] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6981.945662] ata3.00: BMDMA stat 0x65
[ 6981.945771] ata3.00: failed command: READ DMA EXT
[ 6981.946272] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6981.946272] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6981.947800] ata3.00: status: { DRDY ERR }
[ 6981.948570] ata3.00: error: { UNC }
[ 6981.976367] ata3.00: configured for UDMA/133
[ 6981.990751] ata3.01: configured for UDMA/133
[ 6981.990761] ata3: EH complete
[ 6985.997783] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6985.997983] ata3.00: BMDMA stat 0x65
[ 6985.998099] ata3.00: failed command: READ DMA EXT
[ 6985.998750] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6985.998750] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6986.000424] ata3.00: status: { DRDY ERR }
[ 6986.001245] ata3.00: error: { UNC }
[ 6986.016873] ata3.00: configured for UDMA/133
[ 6986.032367] ata3.01: configured for UDMA/133
[ 6986.032373] ata3: EH complete
[ 6989.923797] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6989.923995] ata3.00: BMDMA stat 0x65
[ 6989.924108] ata3.00: failed command: READ DMA EXT
[ 6989.924708] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6989.924709] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6989.926292] ata3.00: status: { DRDY ERR }
[ 6989.927057] ata3.00: error: { UNC }
[ 6989.948881] ata3.00: configured for UDMA/133
[ 6989.967393] ata3.01: configured for UDMA/133
[ 6989.967454] sd 2:0:0:0: [sda] Unhandled sense code
[ 6989.967456] sd 2:0:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[ 6989.967461] sd 2:0:0:0: [sda] Sense Key : Medium Error [current] [descriptor]
[ 6989.967466] Descriptor sense data with sense descriptors (in hex):
[ 6989.967468] 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
[ 6989.967478] 71 1c ea a8
[ 6989.967482] sd 2:0:0:0: [sda] Add. Sense: Unrecovered read error - auto reallocate failed
[ 6989.967489] sd 2:0:0:0: [sda] CDB: Read(10): 28 00 71 1c e9 08 00 03 70 00
[ 6989.967498] end_request: I/O error, dev sda, sector 1897720488
[ 6989.967747] raid5:md0: read error not correctable (sector 1897720488 on sda).
[ 6989.967749] raid5: Disk failure on sda, disabling device.
[ 6989.967749] raid5: Operation continuing on 1 devices.
[ 6989.968396] raid5:md0: read error not correctable (sector 1897720496 on sda).
[ 6989.968398] raid5:md0: read error not correctable (sector 1897720504 on sda).
[ 6989.968400] raid5:md0: read error not correctable (sector 1897720512 on sda).
[ 6989.968401] raid5:md0: read error not correctable (sector 1897720520 on sda).
[ 6989.968403] raid5:md0: read error not correctable (sector 1897720528 on sda).
[ 6989.968405] raid5:md0: read error not correctable (sector 1897720536 on sda).
[ 6989.968407] raid5:md0: read error not correctable (sector 1897720544 on sda).
[ 6989.968409] raid5:md0: read error not correctable (sector 1897720552 on sda).
[ 6989.968410] raid5:md0: read error not correctable (sector 1897720560 on sda).
[ 6989.968438] ata3: EH complete
[ 6990.124114] md: md0: recovery done.
[ 6990.162634] RAID5 conf printout:
[ 6990.162637] --- rd:3 wd:1
[ 6990.162640] disk 0, o:0, dev:sda
[ 6990.162643] disk 1, o:1, dev:sdb
[ 6990.162645] disk 2, o:1, dev:sdc
[ 6990.172507] RAID5 conf printout:
[ 6990.172510] --- rd:3 wd:1
[ 6990.172512] disk 1, o:1, dev:sdb
[ 6990.172515] disk 2, o:1, dev:sdc
[ 6990.172522] RAID5 conf printout:
[ 6990.172524] --- rd:3 wd:1
[ 6990.172526] disk 1, o:1, dev:sdb
[ 6990.172528] disk 2, o:1, dev:sdc
[ 6990.188511] RAID5 conf printout:
[ 6990.188515] --- rd:3 wd:1
[ 6990.188518] disk 1, o:1, dev:sdb
Vielen Dank,
slo77y
Hallo zusammen!
Ich wende mich hier ans Forum, da ich selber langsam nicht mehr so Recht weiter weiss. Ich betreibe ein Debian Squeeze 64bit mit Kernel 2.6.32-5-amd64 auf meinem Homeserver, den ich mir gerad zusammengeschustert hab. Da ich die Schnautze voll hab von kaputtgehenden Festplatten, habe ich mich für ein Raid 5 via mdadm mit 3 3TB Platten von Hitachi entschieden.
So weit, so gut. Da ich einen Fehler mit reallocates der Devicenamen (sda,b,c tauschten immer die Reihenfolge) bei jedem Boot hatte, habe ich die mdadm.conf auf UUID umgestellt, und danach war das Problem behoben.
Das hatte aber auch zur Folge, dass das die spare Platte (sdc in meinem Fall) geresynct werden musste.
Und jetzt kommt der SuperGAU: Der Resync bricht bei ungefähr 32% ab, weil von sda nicht gelesen werden kann (bad blocks) mdadm schmeisst dann sda und sdc aus dem Array raus, womit es unbenutzbar wird. Ich kann es zwar noch mittel --assemble und --force wieder erreichbar machen, allerdings fehlt mir der Backup-Speicherplatz (habe jetzt schon all meine andern Platten auf dem Raid entleert) um alles runter zu kopieren und das Raid neu aufzusetzen, bzw. vernünftig zu kontrollieren.
Jetzt meine Fragen:
1. Kann es wirklich sein, dass eine der nichtmal eine Woche alten Platten schon kaputt ist ? (bad blocks..)
2. Wäre es nicht theoretisch möglich, das raid auszuhängen und per Hand einfach mit dd und conv=noerror,sync dann sda auf sdc zu kopieren, sodass ich meine Daten behalte (raid dann assemblen aus sdb und sdc) und dann sda "fixen" kann, um die dann wieder als spare einzuhängen ??
3. Was hat es mit badblocks auf sich? Ist das etwas, was per fsck wieder gefixt werden kann oder deutet das auf einen physikalischen Defekt der Festplatte hin ? Muss ich die Platte die bad blocks meldet evtl. umtauschen ?
Hier noch ein wenig dmesg output:
[ 1060.390913] md0: detected capacity change from 0 to 6001182900224
[ 1060.393183] md0: unknown partition table
[ 1218.838943] md: couldn't update array info. -16
[ 1222.384970] md: couldn't update array info. -16
[ 1254.872517] md: couldn't update array info. -16
[ 1532.932214] md: recovery of RAID array md0
[ 1532.932218] md: minimum _guaranteed_ speed: 999999 KB/sec/disk.
[ 1532.932219] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
[ 1532.932223] md: using 128k window, over a total of 2930265088 blocks.
[ 1532.932224] md: resuming recovery of md0 from checkpoint.
[ 1533.061290] XFS mounting filesystem dm-4
[ 1533.905036] Ending clean XFS mount for filesystem: dm-4
[ 2415.188028] [drm] nouveau 0000:01:00.0: Setting dpms mode 1 on vga encoder (output 0)
[ 2415.198000] [drm] nouveau 0000:01:00.0: Setting dpms mode 1 on TV encoder (output 3)
[ 6970.272677] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6970.272798] ata3.00: BMDMA stat 0x65
[ 6970.272897] ata3.00: failed command: READ DMA EXT
[ 6970.273290] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6970.273291] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6970.274654] ata3.00: status: { DRDY ERR }
[ 6970.275340] ata3.00: error: { UNC }
[ 6970.296941] ata3.00: configured for UDMA/133
[ 6970.436385] ata3.01: configured for UDMA/133
[ 6970.436398] ata3: EH complete
[ 6974.156589] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6974.156754] ata3.00: BMDMA stat 0x65
[ 6974.156861] ata3.00: failed command: READ DMA EXT
[ 6974.157350] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6974.157351] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6974.158765] ata3.00: status: { DRDY ERR }
[ 6974.159477] ata3.00: error: { UNC }
[ 6974.180965] ata3.00: configured for UDMA/133
[ 6974.200369] ata3.01: configured for UDMA/133
[ 6974.200381] ata3: EH complete
[ 6977.998403] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6977.998599] ata3.00: BMDMA stat 0x65
[ 6977.998710] ata3.00: failed command: READ DMA EXT
[ 6977.999256] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6977.999256] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6978.000795] ata3.00: status: { DRDY ERR }
[ 6978.001542] ata3.00: error: { UNC }
[ 6978.024371] ata3.00: configured for UDMA/133
[ 6978.040868] ata3.01: configured for UDMA/133
[ 6978.040878] ata3: EH complete
[ 6981.945467] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6981.945662] ata3.00: BMDMA stat 0x65
[ 6981.945771] ata3.00: failed command: READ DMA EXT
[ 6981.946272] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6981.946272] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6981.947800] ata3.00: status: { DRDY ERR }
[ 6981.948570] ata3.00: error: { UNC }
[ 6981.976367] ata3.00: configured for UDMA/133
[ 6981.990751] ata3.01: configured for UDMA/133
[ 6981.990761] ata3: EH complete
[ 6985.997783] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6985.997983] ata3.00: BMDMA stat 0x65
[ 6985.998099] ata3.00: failed command: READ DMA EXT
[ 6985.998750] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6985.998750] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6986.000424] ata3.00: status: { DRDY ERR }
[ 6986.001245] ata3.00: error: { UNC }
[ 6986.016873] ata3.00: configured for UDMA/133
[ 6986.032367] ata3.01: configured for UDMA/133
[ 6986.032373] ata3: EH complete
[ 6989.923797] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6989.923995] ata3.00: BMDMA stat 0x65
[ 6989.924108] ata3.00: failed command: READ DMA EXT
[ 6989.924708] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6989.924709] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6989.926292] ata3.00: status: { DRDY ERR }
[ 6989.927057] ata3.00: error: { UNC }
[ 6989.948881] ata3.00: configured for UDMA/133
[ 6989.967393] ata3.01: configured for UDMA/133
[ 6989.967454] sd 2:0:0:0: [sda] Unhandled sense code
[ 6989.967456] sd 2:0:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[ 6989.967461] sd 2:0:0:0: [sda] Sense Key : Medium Error [current] [descriptor]
[ 6989.967466] Descriptor sense data with sense descriptors (in hex):
[ 6989.967468] 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
[ 6989.967478] 71 1c ea a8
[ 6989.967482] sd 2:0:0:0: [sda] Add. Sense: Unrecovered read error - auto reallocate failed
[ 6989.967489] sd 2:0:0:0: [sda] CDB: Read(10): 28 00 71 1c e9 08 00 03 70 00
[ 6989.967498] end_request: I/O error, dev sda, sector 1897720488
[ 6989.967747] raid5:md0: read error not correctable (sector 1897720488 on sda).
[ 6989.967749] raid5: Disk failure on sda, disabling device.
[ 6989.967749] raid5: Operation continuing on 1 devices.
[ 6989.968396] raid5:md0: read error not correctable (sector 1897720496 on sda).
[ 6989.968398] raid5:md0: read error not correctable (sector 1897720504 on sda).
[ 6989.968400] raid5:md0: read error not correctable (sector 1897720512 on sda).
[ 6989.968401] raid5:md0: read error not correctable (sector 1897720520 on sda).
[ 6989.968403] raid5:md0: read error not correctable (sector 1897720528 on sda).
[ 6989.968405] raid5:md0: read error not correctable (sector 1897720536 on sda).
[ 6989.968407] raid5:md0: read error not correctable (sector 1897720544 on sda).
[ 6989.968409] raid5:md0: read error not correctable (sector 1897720552 on sda).
[ 6989.968410] raid5:md0: read error not correctable (sector 1897720560 on sda).
[ 6989.968438] ata3: EH complete
[ 6990.124114] md: md0: recovery done.
[ 6990.162634] RAID5 conf printout:
[ 6990.162637] --- rd:3 wd:1
[ 6990.162640] disk 0, o:0, dev:sda
[ 6990.162643] disk 1, o:1, dev:sdb
[ 6990.162645] disk 2, o:1, dev:sdc
[ 6990.172507] RAID5 conf printout:
[ 6990.172510] --- rd:3 wd:1
[ 6990.172512] disk 1, o:1, dev:sdb
[ 6990.172515] disk 2, o:1, dev:sdc
[ 6990.172522] RAID5 conf printout:
[ 6990.172524] --- rd:3 wd:1
[ 6990.172526] disk 1, o:1, dev:sdb
[ 6990.172528] disk 2, o:1, dev:sdc
[ 6990.188511] RAID5 conf printout:
[ 6990.188515] --- rd:3 wd:1
[ 6990.188518] disk 1, o:1, dev:sdb
Vielen Dank,
slo77y
Re: mdadm Raid 5 resync badblocks
Weiter oben entsteht der Eindruck, dass dir schon mehrere Platten gestorben sind. Ich gehe von derselben Maschine aus. Vielleicht liegt es am Controller?slo77y hat geschrieben:Kann es wirklich sein, dass eine der nichtmal eine Woche alten Platten schon kaputt ist ? (bad blocks..)
Gruß Cae
If universal surveillance were the answer, lots of us would have moved to the former East Germany. If surveillance cameras were the answer, camera-happy London, with something like 500,000 of them at a cost of $700 million, would be the safest city on the planet.
—Bruce Schneier
Re: mdadm Raid 5 resync badblocks
Den Eindruck gewinne ich langsam auch....
In der Datenrettungsphase, die grade stattfindet (mit nur 2 platten im raid damit kein rebuild ausgeführt wird der dann dazu führt dass sich das komplette raid verabschiedet) gibts immer wieder E/A Fehler beim kopieren und dann muss ich den rechner neustarten damits wieder geht.. passiert aber immer an ner anderen Stelle, also eventuell ist wirklich der Controller Schuld, und den Platten gehts gut.
Kann es eventuell damit zusammen hängen, dass das Board welches ich nutze (ASUS P5QD Turbo) prinzipiell nicht für 3TB platten ausgelegt ist? (Im Bios werden die mir als 800GB angezeigt...)
Als Linux die aber ohne Probleme erkannt hat, habe ich nicht weiter drüber nachgedacht..
Was wäre denn da die Lösung wenn die Platten alle in Ordnung sind? (wovon ich schwer ausgehe, da alle flammneu) Neues Board kaufen? Hardware Raid Controller kaufen ?
In der Datenrettungsphase, die grade stattfindet (mit nur 2 platten im raid damit kein rebuild ausgeführt wird der dann dazu führt dass sich das komplette raid verabschiedet) gibts immer wieder E/A Fehler beim kopieren und dann muss ich den rechner neustarten damits wieder geht.. passiert aber immer an ner anderen Stelle, also eventuell ist wirklich der Controller Schuld, und den Platten gehts gut.
Kann es eventuell damit zusammen hängen, dass das Board welches ich nutze (ASUS P5QD Turbo) prinzipiell nicht für 3TB platten ausgelegt ist? (Im Bios werden die mir als 800GB angezeigt...)
Als Linux die aber ohne Probleme erkannt hat, habe ich nicht weiter drüber nachgedacht..
Was wäre denn da die Lösung wenn die Platten alle in Ordnung sind? (wovon ich schwer ausgehe, da alle flammneu) Neues Board kaufen? Hardware Raid Controller kaufen ?
Re: mdadm Raid 5 resync badblocks
BIOS updaten?slo77y hat geschrieben:Neues Board kaufen? Hardware Raid Controller kaufen ?
Gruß Cae
If universal surveillance were the answer, lots of us would have moved to the former East Germany. If surveillance cameras were the answer, camera-happy London, with something like 500,000 of them at a cost of $700 million, would be the safest city on the planet.
—Bruce Schneier
Re: mdadm Raid 5 resync badblocks
hab ich bevor ich das alles aufgesetzt hab schon geupdated, hat offenbar nicht geholfen....
so offensichtliche antworten braucht ihr mir nicht geben, ich kenne mich schon ein wenig aus mit computern .
ich hatte auf hilfe von jemandem gehofft der sich mit mdadm/softraid und dateisystemen GUT auskennt.
trotzdem danke
so offensichtliche antworten braucht ihr mir nicht geben, ich kenne mich schon ein wenig aus mit computern .
ich hatte auf hilfe von jemandem gehofft der sich mit mdadm/softraid und dateisystemen GUT auskennt.
trotzdem danke
Re: mdadm Raid 5 resync badblocks
Wusst' ich nicht und man kann es nicht unbedingt voraussetzen *g*slo77y hat geschrieben:so offensichtliche antworten braucht ihr mir nicht geben, ich kenne mich schon ein wenig aus mit computern .
Ich würde mir halt einfach Gedanken machen, wenn die Festplatten schon im BIOS offensichtlich nicht korrekt erkannt werden. Vielleicht besorgst du dir (zum Testen) eine RAID-Controller-Karte.
Gruß Cae
If universal surveillance were the answer, lots of us would have moved to the former East Germany. If surveillance cameras were the answer, camera-happy London, with something like 500,000 of them at a cost of $700 million, would be the safest city on the planet.
—Bruce Schneier
Re: mdadm Raid 5 resync badblocks
Hm.. gerade ist das Raid schon wieder ausgefallen. Aber es scheint so, dass das nur passiert, wenn zuviel Action auf den Platten ist.
Wenn ich nur einen mv Prozess nutze um die Daten runterzubekommen, (wo ich gerade fieberhaft bei bin, Backup machen) dann bleibt es Konstant. Sind aber mehrere Benutzer über Samba drauf und laden sachen, und ich verschiebe Dateien etc. bricht das Raid irgenwdann auseinander...
Vielleicht komt der SATA Controller einfach nicht zurecht damit ?
Wenn ich nur einen mv Prozess nutze um die Daten runterzubekommen, (wo ich gerade fieberhaft bei bin, Backup machen) dann bleibt es Konstant. Sind aber mehrere Benutzer über Samba drauf und laden sachen, und ich verschiebe Dateien etc. bricht das Raid irgenwdann auseinander...
Vielleicht komt der SATA Controller einfach nicht zurecht damit ?
Re: mdadm Raid 5 resync badblocks
fixedslo77y hat geschrieben:(edit: Hups, im falschen Forum gepostet, sollte eigentlich utner "Dateiserver" rein,... sorry)
Jesus saves. Buddha does incremental backups.
Windows ist doof, Linux funktioniert nicht • Don't break debian! • Wie man widerspricht
Windows ist doof, Linux funktioniert nicht • Don't break debian! • Wie man widerspricht
Re: mdadm Raid 5 resync badblocks
Das ist sicher und klar mit Ja zu beantworten.slo77y hat geschrieben:1. Kann es wirklich sein, dass eine der nichtmal eine Woche alten Platten schon kaputt ist ? (bad blocks..)
Unter bad blocks versteht man defekte, also nicht mehr lesbare, physikalische Sektoren der Festplatte. Als Folge kann die Festplattenfirmware bei erneuten Schreibversuchen diese Sektoren durch spare sectors aus einem reservierten Bereich ersetzen. Dieser Vorgang wird unter Reallokation geführt und ist deutlich in den SMART-Werten einer jeden Festplatte diagnostizierbar. Anzumerken ist, dass diese Reservesektoren begrenzt sind und sich die Zahl der defekten allmählich vergrößern kann (was sie meistens auch tut).slo77y hat geschrieben:3. Was hat es mit badblocks auf sich? Ist das etwas, was per fsck wieder gefixt werden kann oder deutet das auf einen physikalischen Defekt der Festplatte hin ? Muss ich die Platte die bad blocks meldet evtl. umtauschen ?
Du solltest also zur Beurteilung die komplette Ausgabe von smartcl -a device (smartmontools) jeder HDD nach NoPaste posten.
Ohne dass ich die bisher kenne, lassen die ATA Fehler tatsächlich auf schlechte Sektoren schließen:
ata3.00: error: { UNC } (UNCorractable)
Kabel-/Steckerabhängig schlechte Signalverbindungen und resultierende CRC Fehler tauchen nicht auf, sind deswegen unwahrscheinlich.
slo77y hat geschrieben:[ 6970.272677] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6970.272798] ata3.00: BMDMA stat 0x65
[ 6970.272897] ata3.00: failed command: READ DMA EXT
[ 6970.273290] ata3.00: cmd 25/00:70:08:e9:1c/00:03:71:00:00/e0 tag 0 dma 450560 in
[ 6970.273291] res 51/40:d0:a8:ea:1c/40:01:71:00:00/01 Emask 0x9 (media error)
[ 6970.274654] ata3.00: status: { DRDY ERR }
[ 6970.275340] ata3.00: error: { UNC }
[ 6970.296941] ata3.00: configured for UDMA/133
[ 6970.436385] ata3.01: configured for UDMA/133
[ 6970.436398] ata3: EH complete
Gruß cirrussc
--------------------
„Der Mensch steigert zur Zeit die Nutzung dessen, was seiner Willkür unterliegt - und kommt sich sehr klug dabei vor.“ H. Gruhl
--------------------
„Der Mensch steigert zur Zeit die Nutzung dessen, was seiner Willkür unterliegt - und kommt sich sehr klug dabei vor.“ H. Gruhl
Re: mdadm Raid 5 resync badblocks
Vielen Dank!
Der Output von smartctl -A ist hier zu finden:
http://debianforum.de/forum/pastebin.ph ... ew&s=36007
Interessant... bei sdb und sdc vergleichbare Werte, und für das Laienauge kann ich auch bei sda nichts auffälliges feststellen... Dabei meldet bei all meinen Raid-Fails immer nur sda Probleme.... aber anscheinend gehts der ja gut ?? Was nun ?
Der Output von smartctl -A ist hier zu finden:
http://debianforum.de/forum/pastebin.ph ... ew&s=36007
Interessant... bei sdb und sdc vergleichbare Werte, und für das Laienauge kann ich auch bei sda nichts auffälliges feststellen... Dabei meldet bei all meinen Raid-Fails immer nur sda Probleme.... aber anscheinend gehts der ja gut ?? Was nun ?
Re: mdadm Raid 5 resync badblocks
Nicht sofort ersichtlich:slo77y hat geschrieben:Interessant... bei sdb und sdc vergleichbare Werte, und für das Laienauge kann ich auch bei sda nichts auffälliges feststellen... Dabei meldet bei all meinen Raid-Fails immer nur sda Probleme.... aber anscheinend gehts der ja gut ?? Was nun ?
Code: Alles auswählen
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 1
Aber zuvor würde ich einen langen Selbsttest anstoßen. Ist da tatsächlich ein defekter Sektor, müsste der Test abbrechen und den (ersten) betreffenden LBA anzeigen (oder erfolgreich durchlaufen ->bei einigen TB mehrere Stunden).
Code: Alles auswählen
smartcl -a /dev/sda
Wenn es sich nur um einige wenige handelt, kann man die Platte aus dem Verbund nehmen und mittels Schreibversuchen durch badblocks oder gezielt mit dd oder hdparm zum auslagern zwingen.
Andererseits sollte das wohl schon ein Reklamationsgrund sein. Um den geltend zu machen, bedarf es oft noch der Meldungen entsprechender Herstellertools (die auch nichts anderes machen).
Gruß cirrussc
--------------------
„Der Mensch steigert zur Zeit die Nutzung dessen, was seiner Willkür unterliegt - und kommt sich sehr klug dabei vor.“ H. Gruhl
--------------------
„Der Mensch steigert zur Zeit die Nutzung dessen, was seiner Willkür unterliegt - und kommt sich sehr klug dabei vor.“ H. Gruhl
Re: mdadm Raid 5 resync badblocks
Vielen Dank!
Ich habe zum Glück inzwischen alle Daten vom Raid runterbekommen, und gebackupped.
Jetzt habe ich das raid gestoppt, und danach war der "Current_Pending_Sector" auf sda wieder weg... steht jetzt auf 0, genauso wie der Reallocation_Count.... Es sieht so aus, als ob die Platte in Ordnung wäre ?!
Ich habe jetzt mittels smartctl --test=long /dev/sda einen langen Selbsttest angeworfen, wie hier vorgeschlagen.
Nochmal output von smartctl --all:
http://gist.github.com/1313603
Leider steht da, der Test wurde abgebrochen, habe ich auch; um zu testen ob dann ne Log rauskommt. Jetzt lässt er sich aber irgendwie nicht wieder aktivieren... smartctl sagt zwar, der Test läuft, --all sagt aber immer noch, er wäre abgebrochen ??
Lässt sich aus dem Log irgendwas erkennen, dass die Platte kaputt ist ?
Ich habe zum Glück inzwischen alle Daten vom Raid runterbekommen, und gebackupped.
Jetzt habe ich das raid gestoppt, und danach war der "Current_Pending_Sector" auf sda wieder weg... steht jetzt auf 0, genauso wie der Reallocation_Count.... Es sieht so aus, als ob die Platte in Ordnung wäre ?!
Ich habe jetzt mittels smartctl --test=long /dev/sda einen langen Selbsttest angeworfen, wie hier vorgeschlagen.
Nochmal output von smartctl --all:
http://gist.github.com/1313603
Leider steht da, der Test wurde abgebrochen, habe ich auch; um zu testen ob dann ne Log rauskommt. Jetzt lässt er sich aber irgendwie nicht wieder aktivieren... smartctl sagt zwar, der Test läuft, --all sagt aber immer noch, er wäre abgebrochen ??
Lässt sich aus dem Log irgendwas erkennen, dass die Platte kaputt ist ?
Re: mdadm Raid 5 resync badblocks
Es hat den Anschein. Wie gesagt kann die Plattenfirmware Sektoren durch Schreibvorgang entweder auslagern oder reparieren, wovon sicher nur der Hersteller weiß, was dann genau vor sich geht.slo77y hat geschrieben:Jetzt habe ich das raid gestoppt, und danach war der "Current_Pending_Sector" auf sda wieder weg... steht jetzt auf 0, genauso wie der Reallocation_Count.... Es sieht so aus, als ob die Platte in Ordnung wäre ?!
Oh doch, der wurde erneut gestartet und lief gerade noch:slo77y hat geschrieben:Leider steht da, der Test wurde abgebrochen, habe ich auch; um zu testen ob dann ne Log rauskommt. Jetzt lässt er sich aber irgendwie nicht wieder aktivieren... smartctl sagt zwar, der Test läuft, --all sagt aber immer noch, er wäre abgebrochen ??
Code: Alles auswählen
Self-test execution status: ( 249) Self-test routine in progress...
90% of test remaining.
Dass der erste gestartete Test abgebrochen wurde, könnte an einem Reset oder Neustart liegen (oder aber durch einen undefinierbaren Defekt, wovon ich erstmal nicht ausgehen wollte). Aber scheinbar ist das nicht der Fall (Power_Cycle_Count = 34)?
Code: Alles auswählen
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Aborted by host 90% 171 -
Code: Alles auswählen
smartctl -c /dev/sda | grep execution -A1
Kaputt ist bei Festplatten eine dehnbare Definitionslo77y hat geschrieben:Lässt sich aus dem Log irgendwas erkennen, dass die Platte kaputt ist ?
Der letzt geloggte Fehler geschah 8 Stunden vor Deiner ersten Ausgabe oben:
Code: Alles auswählen
Error 25 occurred at disk power-on lifetime: 120 hours (5 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 58 a8 ea 1c 01 Error: UNC 88 sectors at LBA = 0x011ceaa8 = 18672296
Wie dem auch sein, Du solltest über diese Festplatte einmal gründlich Badblocks drüber laufen lassen. Vielleicht ergeben sich so weitere Fehler oder auch nicht. Mit dem folgenden Aufruf gehen alle Daten (Partition, FS, Daten) auf der gegebenen Platte verloren. Du solltest also darauf achten, das richtige Device anzugeben. Hier mal sda:
Code: Alles auswählen
badblocks -b 4096 -svwf -o /root/badblocks.txt /dev/sdx
Dabei werden in mehreren Durchgängen verschiedene Bitmuster geschrieben und jeweils wieder verglichen. Das ganze könnte also 255 min * 8 = ~34h dauern
Wenn das durch sein sollte, kann nochmal ein langer Selbstest gestartet werden. Mal sehen was bei all dem raus kommt.
Gruß cirrussc
--------------------
„Der Mensch steigert zur Zeit die Nutzung dessen, was seiner Willkür unterliegt - und kommt sich sehr klug dabei vor.“ H. Gruhl
--------------------
„Der Mensch steigert zur Zeit die Nutzung dessen, was seiner Willkür unterliegt - und kommt sich sehr klug dabei vor.“ H. Gruhl
Re: mdadm Raid 5 resync badblocks
Vielen Dank mal wieder für deine hilfreiche Antwort!
Ich glaube ich werde das ganze aber einfach pragmatischer Lösen und die Platte umtauschen... Bis die ganzen Tests abgeschlossen sind könnte es gut sein dass die neue schon da ist ^^.
Ich versuche in der Zwischenzeit mal, ein Raid5 aus den zwei verbleibenden aufzusetzen, und wenn die neue Platte dann da ist, adde ich sie als Spare.
Besten Dank!
Ich glaube ich werde das ganze aber einfach pragmatischer Lösen und die Platte umtauschen... Bis die ganzen Tests abgeschlossen sind könnte es gut sein dass die neue schon da ist ^^.
Ich versuche in der Zwischenzeit mal, ein Raid5 aus den zwei verbleibenden aufzusetzen, und wenn die neue Platte dann da ist, adde ich sie als Spare.
Besten Dank!
Re: mdadm Raid 5 resync badblocks
Wer weiß, ist vllt. besser soslo77y hat geschrieben:Ich glaube ich werde das ganze aber einfach pragmatischer Lösen und die Platte umtauschen... Bis die ganzen Tests abgeschlossen sind könnte es gut sein dass die neue schon da ist ^^.
Demnächst wollt ich mir auch Hitachis krallen
Vllt. gibt's das Ganze auch mal gesammelt im Wiki...
edit: Festplattendiagnostik- und Überwachung
Gruß cirrussc
--------------------
„Der Mensch steigert zur Zeit die Nutzung dessen, was seiner Willkür unterliegt - und kommt sich sehr klug dabei vor.“ H. Gruhl
--------------------
„Der Mensch steigert zur Zeit die Nutzung dessen, was seiner Willkür unterliegt - und kommt sich sehr klug dabei vor.“ H. Gruhl