SW-Raid Fehler und Pfadänderung von sda auf sdc

Hast Du Probleme mit Hardware, die durch die anderen Foren nicht abgedeckt werden? Schau auch in den "Tipps und Tricks"-Bereich.
Antworten
burnersk
Beiträge: 125
Registriert: 22.10.2008 21:32:16
Lizenz eigener Beiträge: MIT Lizenz

SW-Raid Fehler und Pfadänderung von sda auf sdc

Beitrag von burnersk » 09.09.2016 07:51:14

Ich hatte heute Nacht ein seltsames Phänomen, was bislang noch anhält.

Heute Nacht erhielt ich mehrere Fehlermeldungen von mdstat und SMART...

Code: Alles auswählen

Fail event on /dev/md/1

A Fail event had been detected on md device /dev/md/1.

It could be related to component device /dev/sda2.

Personalities : [raid1] 
md1 : active raid1 sda2[0](F) sdb2[1]
      1952856128 blocks super 1.2 [2/1] [_U]
      bitmap: 2/15 pages [8KB], 65536KB chunk

md0 : active raid1 sda1[0] sdb1[1]
      523712 blocks super 1.2 [2/2] [UU]
      
unused devices: <none>

Code: Alles auswählen

SMART error (FailedOpenDevice) detected

Device: /dev/sda [SAT], unable to open device

Code: Alles auswählen

DegradedArray event on /dev/md/1

A DegradedArray event had been detected on md device /dev/md/1.

Personalities : [raid1] 
md1 : active raid1 sda2[0](F) sdb2[1]
      1952856128 blocks super 1.2 [2/1] [_U]
      bitmap: 2/15 pages [8KB], 65536KB chunk

md0 : active raid1 sda1[0] sdb1[1]
      523712 blocks super 1.2 [2/2] [UU]
      
unused devices: <none>
Ok, ich hab das FailedOpenDevice erst einmal überlesen und daher gerade versucht, die Festplatte aus dem Array zu entfernen...

Code: Alles auswählen

$ mdadm /dev/md0 -r /dev/sda1
mdadm: Cannot find /dev/sda1: No such file or directory
So whaat? OK, die ist offenbar komplett ausgestiegen. Aber warum zeigt sie mdstat in einer anderen Partition noch als ok an?

Code: Alles auswählen

cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sda2[0](F) sdb2[1]
      1952856128 blocks super 1.2 [2/1] [_U]
      bitmap: 3/15 pages [12KB], 65536KB chunk

md0 : active raid1 sda1[0] sdb1[1]
      523712 blocks super 1.2 [2/2] [UU]

unused devices: <none>
Merkwürdig. "mdadm --manage /dev/md0 --fail /dev/sda1" schlägt übrigens natürlich auch fehl.

Nun hab ich - warum auch immer - einmal folgendes gemacht

Code: Alles auswählen

$ l /dev/sd*
brw-rw---- 1 root disk 8, 16 2016-03-08 16:24 /dev/sdb
brw-rw---- 1 root disk 8, 17 2016-03-08 16:24 /dev/sdb1
brw-rw---- 1 root disk 8, 18 2016-03-08 16:24 /dev/sdb2
Soweit so schlecht, aber es geht noch weiter...

Code: Alles auswählen

$l /dev/sd*
brw-rw---- 1 root disk 8, 16 2016-03-08 16:24 /dev/sdb
brw-rw---- 1 root disk 8, 17 2016-03-08 16:24 /dev/sdb1
brw-rw---- 1 root disk 8, 18 2016-03-08 16:24 /dev/sdb2
brw-rw---- 1 root disk 8, 32 2016-09-09 03:56 /dev/sdc
brw-rw---- 1 root disk 8, 33 2016-09-09 03:56 /dev/sdc1
brw-rw---- 1 root disk 8, 34 2016-09-09 03:56 /dev/sdc2
Was zur Hölle???? Warum ist die primäre HDD nun als tertiäre HDD gelistet?

syslog sagt dazu...

Code: Alles auswählen

Sep  9 02:33:12 hostname kernel: [15921121.609696] ata1.00: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
Sep  9 02:33:12 hostname kernel: [15921121.609745] ata1.00: irq_stat 0x00400040, connection status changed
Sep  9 02:33:12 hostname kernel: [15921121.609774] ata1: SError: { HostInt PHYRdyChg 10B8B DevExch }
Sep  9 02:33:12 hostname kernel: [15921121.609803] ata1.00: failed command: FLUSH CACHE EXT
Sep  9 02:33:12 hostname kernel: [15921121.609832] ata1.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 27
Sep  9 02:33:12 hostname kernel: [15921121.609832]          res 40/00:d4:10:10:10/00:00:00:00:00/40 Emask 0x50 (ATA bus error)
Sep  9 02:33:12 hostname kernel: [15921121.609905] ata1.00: status: { DRDY }
Sep  9 02:33:12 hostname kernel: [15921121.609930] ata1: hard resetting link
Sep  9 02:33:16 hostname kernel: [15921126.082990] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
Sep  9 02:33:16 hostname kernel: [15921126.389423] ata1.00: configured for UDMA/133
Sep  9 02:33:16 hostname kernel: [15921126.389444] ata1.00: retrying FLUSH 0xea Emask 0x50
Sep  9 02:33:16 hostname kernel: [15921126.389552] ata1: EH complete
Sep  9 02:33:28 hostname kernel: [15921137.917731] ata1: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
Sep  9 02:33:28 hostname kernel: [15921137.917814] ata1: irq_stat 0x00400040, connection status changed
Sep  9 02:33:28 hostname kernel: [15921137.917865] ata1: SError: { HostInt PHYRdyChg 10B8B DevExch }
Sep  9 02:33:28 hostname kernel: [15921137.917917] ata1: hard resetting link
Sep  9 02:33:30 hostname kernel: [15921140.266636] ata1: SATA link down (SStatus 0 SControl 300)
Sep  9 02:33:30 hostname kernel: [15921140.266682] ata1.00: link offline, clearing class 1 to NONE
Sep  9 02:33:30 hostname kernel: [15921140.274784] ata1: hard resetting link
Sep  9 02:33:33 hostname kernel: [15921142.721219] ata1: SATA link down (SStatus 0 SControl 300)
Sep  9 02:33:33 hostname kernel: [15921142.721264] ata1.00: link offline, clearing class 1 to NONE
Sep  9 02:33:33 hostname kernel: [15921142.721268] ata1: limiting SATA link speed to 1.5 Gbps
Sep  9 02:33:33 hostname kernel: [15921142.772131] ata1: hard resetting link
Sep  9 02:33:34 hostname kernel: [15921143.872507] ata1: SATA link down (SStatus 0 SControl 310)
Sep  9 02:33:34 hostname kernel: [15921143.872532] ata1.00: link offline, clearing class 1 to NONE
Sep  9 02:33:34 hostname kernel: [15921143.872534] ata1.00: disabled
Sep  9 02:33:34 hostname kernel: [15921143.872556] ata1: EH complete
Sep  9 02:33:34 hostname kernel: [15921143.872577] sd 0:0:0:0: rejecting I/O to offline device
Sep  9 02:33:34 hostname kernel: [15921143.872598] sd 0:0:0:0: [sda] killing request
Sep  9 02:33:34 hostname kernel: [15921143.872622] end_request: I/O error, dev sda, sector 1052688
Sep  9 02:33:34 hostname kernel: [15921143.872644] md: super_written gets error=-5, uptodate=0
Sep  9 02:33:34 hostname kernel: [15921143.872665] md/raid1:md1: Disk failure on sda2, disabling device.
Sep  9 02:33:34 hostname kernel: [15921143.872665] md/raid1:md1: Operation continuing on 1 devices.
Sep  9 02:33:34 hostname kernel: [15921143.872718] ata1.00: detaching (SCSI 0:0:0:0)
Sep  9 02:33:34 hostname kernel: [15921143.873608] sd 0:0:0:0: [sda] Synchronizing SCSI cache
Sep  9 02:33:34 hostname kernel: [15921143.873642] sd 0:0:0:0: [sda]
Sep  9 02:33:34 hostname kernel: [15921143.873659] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Sep  9 02:33:34 hostname kernel: [15921143.873681] sd 0:0:0:0: [sda] Stopping disk
Sep  9 02:33:34 hostname kernel: [15921143.873701] sd 0:0:0:0: [sda] START_STOP FAILED
Sep  9 02:33:34 hostname kernel: [15921143.873721] sd 0:0:0:0: [sda]
Sep  9 02:33:34 hostname kernel: [15921143.873738] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Sep  9 02:33:34 hostname kernel: [15921143.882972] ata1: exception Emask 0x10 SAct 0x0 SErr 0x4040000 action 0xe frozen
Sep  9 02:33:34 hostname kernel: [15921143.883009] ata1: irq_stat 0x00000040, connection status changed
Sep  9 02:33:34 hostname kernel: [15921143.883031] ata1: SError: { CommWake DevExch }
Sep  9 02:33:34 hostname kernel: [15921143.883052] ata1: hard resetting link
Sep  9 02:33:34 hostname kernel: [15921143.927316] RAID1 conf printout:
Sep  9 02:33:34 hostname kernel: [15921143.927318]  --- wd:1 rd:2
Sep  9 02:33:34 hostname kernel: [15921143.927337]  disk 0, wo:1, o:0, dev:sda2
Sep  9 02:33:34 hostname kernel: [15921143.927338]  disk 1, wo:0, o:1, dev:sdb2
Sep  9 02:33:34 hostname kernel: [15921143.944549] RAID1 conf printout:
Sep  9 02:33:34 hostname kernel: [15921143.944551]  --- wd:1 rd:2
Sep  9 02:33:34 hostname kernel: [15921143.944552]  disk 1, wo:0, o:1, dev:sdb2
Sep  9 02:33:35 hostname kernel: [15921144.887916] ata1: SATA link down (SStatus 0 SControl 300)
Sep  9 02:33:35 hostname kernel: [15921144.887943] ata1.00: link offline, clearing class 1 to NONE
Sep  9 02:33:35 hostname kernel: [15921144.887947] ata1: EH complete
Sep  9 02:33:35 hostname kernel: [15921144.945668] ata1: exception Emask 0x10 SAct 0x0 SErr 0x4050002 action 0xe frozen
Sep  9 02:33:35 hostname kernel: [15921144.945705] ata1: irq_stat 0x00400040, connection status changed
Sep  9 02:33:35 hostname kernel: [15921144.945728] ata1: SError: { RecovComm PHYRdyChg CommWake DevExch }
Sep  9 02:33:35 hostname kernel: [15921144.945753] ata1: limiting SATA link speed to 1.5 Gbps
Sep  9 02:33:35 hostname kernel: [15921144.945774] ata1: hard resetting link
Sep  9 02:33:36 hostname kernel: [15921146.259098] ata1: SATA link down (SStatus 0 SControl 310)
Sep  9 02:33:36 hostname kernel: [15921146.259125] ata1.00: link offline, clearing class 1 to NONE
Sep  9 02:33:36 hostname kernel: [15921146.259129] ata1: EH complete
Sep  9 02:33:36 hostname kernel: [15921146.282520] ata1: exception Emask 0x10 SAct 0x0 SErr 0x4040000 action 0xe frozen
Sep  9 02:33:36 hostname kernel: [15921146.282556] ata1: irq_stat 0x00000040, connection status changed
Sep  9 02:33:36 hostname kernel: [15921146.282579] ata1: SError: { CommWake DevExch }
Sep  9 02:33:36 hostname kernel: [15921146.282600] ata1: limiting SATA link speed to 1.5 Gbps
Sep  9 02:33:36 hostname kernel: [15921146.282621] ata1: hard resetting link
Sep  9 02:33:42 hostname kernel: [15921152.039693] ata1: link is slow to respond, please be patient (ready=0)
Sep  9 02:33:42 hostname kernel: [15921152.263567] ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Sep  9 02:33:43 hostname kernel: [15921152.568043] ata1.00: ATA-8: WDC WD2000FYYZ-01UL1B1, 01.01K02, max UDMA/133
Sep  9 02:33:43 hostname kernel: [15921152.568076] ata1.00: 3907029168 sectors, multi 0: LBA48 NCQ (depth 31/32), AA
Sep  9 02:33:43 hostname kernel: [15921152.569165] ata1.00: configured for UDMA/133
Sep  9 02:33:43 hostname kernel: [15921152.569196] ata1: EH complete
Sep  9 02:33:43 hostname kernel: [15921152.569292] scsi 0:0:0:0: Direct-Access     ATA      WDC WD2000FYYZ-0 1K02 PQ: 0 ANSI: 5
Sep  9 02:33:43 hostname kernel: [15921152.569574] sd 0:0:0:0: Attached scsi generic sg0 type 0
Sep  9 02:33:43 hostname kernel: [15921152.569585] sd 0:0:0:0: [sdc] 3907029168 512-byte logical blocks: (2.00 TB/1.81 TiB)
Sep  9 02:33:43 hostname kernel: [15921152.569688] sd 0:0:0:0: [sdc] Write Protect is off
Sep  9 02:33:43 hostname kernel: [15921152.569717] sd 0:0:0:0: [sdc] Mode Sense: 00 3a 00 00
Sep  9 02:33:43 hostname kernel: [15921152.569784] sd 0:0:0:0: [sdc] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Sep  9 02:33:43 hostname kernel: [15921152.587153]  sdc: sdc1 sdc2
Sep  9 02:33:43 hostname kernel: [15921152.587604] sd 0:0:0:0: [sdc] Attached SCSI disk
Sep  9 02:34:09 hostname kernel: [15921178.952101] ata1: exception Emask 0x10 SAct 0x0 SErr 0x4090000 action 0xe frozen
Sep  9 02:34:09 hostname kernel: [15921178.952184] ata1: irq_stat 0x00400040, connection status changed
Sep  9 02:34:09 hostname kernel: [15921178.952235] ata1: SError: { PHYRdyChg 10B8B DevExch }
Sep  9 02:34:09 hostname kernel: [15921178.952285] ata1: hard resetting link
Sep  9 02:34:10 hostname kernel: [15921180.067160] ata1: SATA link down (SStatus 0 SControl 310)
Sep  9 02:34:10 hostname kernel: [15921180.067214] ata1.00: link offline, clearing class 1 to NONE
Sep  9 02:34:10 hostname kernel: [15921180.081359] ata1: hard resetting link
Warum hängt das System die Platte gegen 02:33:43 wieder ein? Wie bekomme ich jetzt die HDD raus, wo sie jetzt falsch "eingehängt" ist?

Schrott dürfte sie doch aber sein, spricht bereit zum Austausch, oder ist das nur ein System-Schluckauf gewesen?

DeletedUserReAsG

Re: SW-Raid Fehler und Pfadänderung von sda auf sdc

Beitrag von DeletedUserReAsG » 09.09.2016 07:59:11

Was zur Hölle? Warum ist die primäre HDD nun als tertiäre HDD gelistet?
Wahrscheinlich möchtest du mit UUIDs arbeiten. Dass sich die sdX-Bezeichnungen nicht mehr auf die physikalischen Ports und Reihenfolgen beziehen, sondern daraus resultieren, wann der Kernel das betreffende Device (wieder-)erkannt hat und wo er zu dem Zeitpunkt gerade Platz hatte, ist nun auch nicht erst seit vorgestern so.

Den Status der Platte würde ich mit smartctl anschauen.

Antworten