Device vom HW Raid nicht mehr vorhanden / keine Partionen

Einrichten des lokalen Netzes, Verbindung zu anderen Computern und Diensten.
Antworten
pixelpirat
Beiträge: 158
Registriert: 05.07.2007 17:22:21

Device vom HW Raid nicht mehr vorhanden / keine Partionen

Beitrag von pixelpirat » 15.11.2016 23:59:06

Hallo,

ich weiß nicht wie ich den Betreff hätte besser schreiben können. Bei mir ist in der Nacht von gestern auf heute mein HP-ProLiant abgeschmiert.
Die Konfiguration sieht folgendermaßen aus. Debian Jessie Grundsystem mit KVM auf einen HW-Raid 1 mit 2 SSDs. Rest, unter anderem OpenMediaVault über einen PERC H310 als VM. Die VM liegt auf den SSDs. Die Daten von OMV liegen auf einem Raid5 über LVM und sind verschlüsselt.
Heute morgen blinkte die sonst blaue LED in rot. Kein Zugriff mehr auf die Maschine. Also Neustart über Hauptschalte

Nach dem Neustart fährt OMV nicht mehr hoch. In Syslog finde ich folgende Einträge:

Code: Alles auswählen

Nov 15 23:05:15 HP-ProLiant libvirtd[3168]: libvirt version: 1.2.9, package: 9+deb8u3 (buildd 2016-07-01-18:17:10 x86-grnet-01)
Nov 15 23:05:15 HP-ProLiant libvirtd[3168]: Cannot access storage file '/dev/HP-Storage/NAS' (as uid:110, gid:120): Datei oder Verzeichnis nicht gefunden
Nov 15 23:05:15 HP-ProLiant libvirtd[3168]: Failed to autostart VM 'NAS': Cannot access storage file '/dev/HP-Storage/NAS' (as uid:110, gid:120): Datei oder Verzeichnis nicht gefunden
Also ein pvscan durchgeführt. LVM findet keine PVs.
Dann in /dev/ nachgeschaut. Es gibt nur ein sda Device, aber eigentlich müsste es ja ein sda1 Device geben, da das Raid ja eine große Partition hat, die von LVM verwaltet wird.
Nun gut, dann mit fdisk -l /dev/sda nachgeschaut.

Code: Alles auswählen

fdisk -l /dev/sda

Festplatte /dev/sda: 4,8 TiB, 5249389559808 Bytes, 10252713984 Sektoren
Einheiten: Sektoren von 1 * 512 = 512 Bytes
Sektorgröße (logisch/physikalisch): 512 Bytes / 512 Bytes
E/A-Größe (minimal/optimal): 512 Bytes / 512 Bytes
Es sieht aus als ob die Partion(en) weg sind.
Dann habe ich noch den Controller kontrolliert um einen Fehler dort auch auszuschliessen.

Code: Alles auswählen

megaclisas-status 
-- Controller information --
-- ID | H/W Model         | RAM    | Temp | BBU    | Firmware     
c0    | PERC H310 Adapter | 0MB    | 60C  | Absent | FW: 20.13.1-0002 

-- Array information --
-- ID | Type   |    Size |  Strpsz | Flags | DskCache |   Status |  OS Path | CacheCade |InProgress   
c0u0  | RAID-5 |   4773G |   64 KB | RA,WT |  Default |  Optimal | /dev/sda | None      |Check Consistency        : Completed 19%, Taken 349 min. 

-- Disk information --
-- ID  | Type | Drive Model                                    | Size     | Status          | Speed    | Temp | Slot ID  | LSI Device ID
c0u0p0 | HDD  | S34DJ9AFC08477 ST1750LM000 HN-M171RAD 2BC10001 | 1.590 TB | Online, Spun Up | 6.0Gb/s  | 31C  | [N/A:0]  | 0       
c0u0p1 | HDD  | S34DJ9AFC08330 ST1750LM000 HN-M171RAD 2BC10001 | 1.590 TB | Online, Spun Up | 6.0Gb/s  | 31C  | [N/A:1]  | 1       
c0u0p2 | HDD  | S34DJ9AFC08202 ST1750LM000 HN-M171RAD 2BC10001 | 1.590 TB | Online, Spun Up | 6.0Gb/s  | 31C  | [N/A:2]  | 2       
c0u0p3 | HDD  | S34DJ9AFC08224 ST1750LM000 HN-M171RAD 2BC10001 | 1.590 TB | Online, Spun Up | 6.0Gb/s  | 29C  | [N/A:3]  | 3       
und dann noch

Code: Alles auswählen

megacli -LDInfo -Lall -Aall
                                     

Adapter 0 -- Virtual Drive Information:
Virtual Drive: 0 (Target Id: 0)
Name                :NasRaid5
RAID Level          : Primary-5, Secondary-0, RAID Level Qualifier-3
Size                : 4.773 TB
Sector Size         : 512
Parity Size         : 1.590 TB
State               : Optimal
Strip Size          : 64 KB
Number Of Drives    : 4
Span Depth          : 1
Default Cache Policy: WriteThrough, ReadAheadNone, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteThrough, ReadAheadNone, Direct, No Write Cache if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write
Disk Cache Policy   : Disk's Default
Ongoing Progresses:
  Check Consistency        : Completed 19%, Taken 352 min.
Encryption Type     : None
Default Power Savings Policy: Controller Defined
Current Power Savings Policy: None
Can spin up in 1 minute: Yes
LD has drives that support T10 power conditions: No
LD's IO profile supports MAX power savings with cached writes: No
Bad Blocks Exist: No
Is VD Cached: No



Exit Code: 0x00
Nun bin ich erstmal ratlos. Wie kann ich das wieder reparieren? Meine letzte Datensicherung ist leider schon 1 Monat her und wäre eigentlich heute Abend wieder dran gewesen.
Das RAID neu aufbauen ist also die denkbar schlechteste Option die mir zur Verfügung steht.

Vielen Dank für Eure Unterstützung.

LG
Ralf

rendegast
Beiträge: 15041
Registriert: 27.02.2006 16:50:33
Lizenz eigener Beiträge: MIT Lizenz

Re: Device vom HW Raid nicht mehr vorhanden / keine Partione

Beitrag von rendegast » 16.11.2016 11:44:48

c0u0 | RAID-5 | 4773G | 64 KB | RA,WT | Default | Optimal | /dev/sda | None |Check Consistency : Completed 19%, Taken 349 min.

Ongoing Progresses:
Check Consistency : Completed 19%, Taken 352 min.
Das wirst Du wohl erstmal abwarten müssen.

Vom BS aus ist da wohl wenig zu machen,
unterliegt doch vollständig der Kontrolle des H310.
dell-Supportforum?

c0 | PERC H310 Adapter | 0MB | 60C | Absent | FW: 20.13.1-0002
Eventuell bekannter FW-Fehler? FW-Upgrade?
Ohne Account oder Product-ID läßt sich da auf dell.com aber nichts einsehen.



---------------------------------------------
google: "H310 20.13.1-0002"
läßt einen direkt in die Downloadseiten einiger Treiber springen, zBsp.
Version
Version 20.13.1-0002, A09
Category
SAS RAID
Release date
24 Aug 2015
Other versions
20.12.1-0002,A07 30 Jul 20147:31:25 PM
20.13.0-0007,A08 03 Jun 20142:26:25 PM
20.11.0-0002,A05 10 Dec 20128:13:08 PM
20.10.1-0084,A04 27 Jun 20125:51:04 AM
oder
Version
Version 20.13.2-0006, A10
Category
SAS RAID
Release date
10 Jun 2016
Other versions
20.13.1-0002,A09 24 Aug 20157:24:10 PM
20.12.1-0002,A07 30 Jul 20147:31:25 PM
20.13.0-0007,A08 03 Jun 20142:26:25 PM
20.11.0-0002,A05 10 Dec 20128:13:08 PM
20.10.1-0084,A04 27 Jun 20125:51:04 AM
was wohl auch die jüngste Version sein dürfte.


Dell PERC H310 Adapter Firmware release 20.13.2-0006
Firmware-Version 20.13.2-0006 für Dell PERC H310 Adapter
Fehlerkorrekturen und Verbesserungen
Fixes
- Zeigt zusätzliche SATA-Festplatteninformationen in UEFI/HII-Modusdienstprogrammen an.
- Behebung eines selten auftretenden Problems, bei dem der PERC Controller zum Absturz des Servers führt.
- Behebung eines Problems, bei dem ein vorhersehbarer Laufwerksfehler auf einem kürzlich ausgetauschten Laufwerk nicht gelöscht wurde, bis das System neu gestartet wurde.

Verbesserungen
- Keine
Version
Version 20.13.2-0006, A10
Naja

Grundsätzliches Problem: Ein vorliegendes Raid noch funktionsfähig unter einer neuen Firmware?
Erschwerend hier eventuell das momentan vorliegende Problem.
Könnte natürlich auch sein, daß durch das fw-Upgrade der Fehler erst behoben wird.
mfg rendegast
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")

pixelpirat
Beiträge: 158
Registriert: 05.07.2007 17:22:21

Re: Device vom HW Raid nicht mehr vorhanden / keine Partione

Beitrag von pixelpirat » 17.11.2016 07:32:25

vielen Dank schon mal für die ersten Tipps.

Habe mal lspci -v laufen lassen.

Code: Alles auswählen

07:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 2008 [Falcon] (rev 03)
	Subsystem: Dell PERC H310 Adapter
	Physical Slot: 1
	Flags: bus master, fast devsel, latency 0, IRQ 16
	I/O ports at 5000 [size=256]
	Memory at fbff0000 (64-bit, non-prefetchable) [size=16K]
	Memory at fbf80000 (64-bit, non-prefetchable) [size=256K]
	[virtual] Expansion ROM at fbf00000 [disabled] [size=128K]
	Capabilities: [50] Power Management version 3
	Capabilities: [68] Express Endpoint, MSI 00
	Capabilities: [d0] Vital Product Data
	Capabilities: [a8] MSI: Enable- Count=1/1 Maskable- 64bit+
	Capabilities: [c0] MSI-X: Enable+ Count=15 Masked-
	Capabilities: [100] Advanced Error Reporting
	Capabilities: [138] Power Budgeting <?>
	Kernel driver in use: megaraid_sas
Eigentlich müsste ich mir jetzt erst einmal einen Ersatzcontroller beschaffen um das Raid zur retten oder?
Wo finde ich die Product-ID? Auf der Vorderseite steht nichts davon auf dem Aufkleber?
Werde mich heute auch mal auf der DELL-Seite umsehen.

Gruß
Ralf

rendegast
Beiträge: 15041
Registriert: 27.02.2006 16:50:33
Lizenz eigener Beiträge: MIT Lizenz

Re: Device vom HW Raid nicht mehr vorhanden / keine Partione

Beitrag von rendegast » 17.11.2016 15:07:03

Wo finde ich die Product-ID?
Nach meinen Erkenntnissen wird so ein device eigentlich nicht separat auf der Webseite geführt,
sondern man kommt über die (dell-)Product-ID des Rechners daran,
alternativ aber auch unspezifisch über den Rechner-Typ.

Aber mit dem entsprechenden google ist auch so ein Zugriff auf den firmware-Download möglich.
"H310 20.13.2-0006"
mfg rendegast
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")

pixelpirat
Beiträge: 158
Registriert: 05.07.2007 17:22:21

Re: Device vom HW Raid nicht mehr vorhanden / keine Partione

Beitrag von pixelpirat » 18.11.2016 07:33:07

... So, habe die firmware gezogen und auf dem Server kopiert und versucht zum updaten. ...

Code: Alles auswählen

./SAS-RAID_Firmware_T78GJ_LN_20.13.2-0006_A10.BIN 
Collecting inventory...
.....
Running validation...

This Update Package is not compatible with your system configuration.
Habe das .BIN mal extracted und mir den Inhalt angesehen. Es gibt ein File getSystemId dessen Ausgabe mir nicht gefällt.

Code: Alles auswählen

BIOS Version: J06
Error Getting the System ID
Service Tag: CZ160600C2      
Product Name: ProLiant MicroServer Gen8
Vendor: HP
Is Dell: 0
Deswegen wird möglicherweise das Update abgebrochen.

Und nun? Habe in Dell Community nichts gefunden, außer das einer auch nicht flashen kann, dessen Problem aber schon weit vorher anfängt.
Muß ich mir jetzt einen USB-Stick mit CentOS machen und es erneut versuchen?

Gruß
Ralf

rendegast
Beiträge: 15041
Registriert: 27.02.2006 16:50:33
Lizenz eigener Beiträge: MIT Lizenz

Re: Device vom HW Raid nicht mehr vorhanden / keine Partione

Beitrag von rendegast » 18.11.2016 10:58:10

... So, habe die firmware gezogen

/SAS-RAID_Firmware_T78GJ_LN_20.13.2-0006_A10.BIN
...
This Update Package is not compatible with your system configuration.
Hast Du auch mal die von dell vorgesehenen Download-Pfade verfolgt,
ob dieses Upgrade auch für Dein System vorgesehen/freigegeben ist / angeboten wird?
(dell-Product-ID des Systems / dell-Seriennummer des Rechners,
eventuell erst nach Registrierung des Rechners)

Wäre das denn auch GENAU dieses Paket? (Checksumme)



Wäre ein Vergleichssystem verfügbar?
Oder Ersatz-Adapter?
(Mögliches generelles Problem: das raid wird mit diesem Adapter verdongelt, sodäß es an anderem Adapter gar nicht betrieben werden KANN.)
Nebenbei: Wurde mal ausprobiert, ob das raid auch bei Vertauschung der angesteckten Platten in Betrieb genommen werden konnte?









Was mich sehr stört:
-- Array information --
-- ID | Type | Size | Strpsz | Flags | DskCache | Status | OS Path | CacheCade |InProgress
c0u0 | RAID-5 | 4773G | 64 KB | RA,WT | Default | Optimal | /dev/sda | None |Check Consistency : Completed 19%, Taken 349 min.



megacli -LDInfo -Lall -Aall
Adapter 0 -- Virtual Drive Information:
Virtual Drive: 0 (Target Id: 0)
Name :NasRaid5
RAID Level : Primary-5, Secondary-0, RAID Level Qualifier-3
...
State : Optimal
Der Adapter gibt einen validen raid an.
Er hat die Metadaten des alten raid ersetzt?
Den neuen in anderer Folge auf den Platten verteilt?
Damit wären die alten Daten eventuell wirklich futsch, da bei einem raid5 doch destruktiv schreibend auf allen Platten das Komplement verteilt wird.

Mit einem hex-Editor nachsehen, ob Du Datenreste findest.
Denn "Completed 19%, Taken 349 min.", hat das den Datenplatz vielleicht mit NULL aufgefüllt?
mfg rendegast
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")

pixelpirat
Beiträge: 158
Registriert: 05.07.2007 17:22:21

Re: Device vom HW Raid nicht mehr vorhanden / keine Partione

Beitrag von pixelpirat » 18.11.2016 20:37:43

Hallo,

vielen Dank für Deine Bemühungen!

Ich haben eben eine neue Statusabfrage gemacht.

Code: Alles auswählen

megaclisas-status 
-- Controller information --
-- ID | H/W Model         | RAM    | Temp | BBU    | Firmware     
c0    | PERC H310 Adapter | 0MB    | 61C  | Absent | FW: 20.13.1-0002 

-- Array information --
-- ID | Type   |    Size |  Strpsz | Flags | DskCache |   Status |  OS Path | CacheCade |InProgress   
c0u0  | RAID-5 |   4773G |   64 KB | RA,WT |  Default |  Optimal | /dev/sda | None      |None         

-- Disk information --
-- ID  | Type | Drive Model                                    | Size     | Status          | Speed    | Temp | Slot ID  | LSI Device ID
c0u0p0 | HDD  | S34DJ9AFC08477 ST1750LM000 HN-M171RAD 2BC10001 | 1.590 TB | Online, Spun Up | 6.0Gb/s  | 26C  | [N/A:0]  | 0       
c0u0p1 | HDD  | S34DJ9AFC08330 ST1750LM000 HN-M171RAD 2BC10001 | 1.590 TB | Online, Spun Up | 6.0Gb/s  | 27C  | [N/A:1]  | 1       
c0u0p2 | HDD  | S34DJ9AFC08202 ST1750LM000 HN-M171RAD 2BC10001 | 1.590 TB | Online, Spun Up | 6.0Gb/s  | 26C  | [N/A:2]  | 2       
c0u0p3 | HDD  | S34DJ9AFC08224 ST1750LM000 HN-M171RAD 2BC10001 | 1.590 TB | Online, Spun Up | 6.0Gb/s  | 25C  | [N/A:3]  | 3       

Den Conistence Check hat das RAID bestanden.

Mein System ist ein HP Proliant (der Gemüsewürfel) Den Dell Perc habe ich dazu gekauft und verwendet.
Das ganze System lief ja weit über 10 Monate seit dem Aufsetzen problemlos.e

Als Ersatzsystem hätte ich nur einen Desktop Rechner mit einem Gigabyte Board.
Einen Ersatzadapte habe ich noch nicht. Schaue mich gerade in der Bucht um.
Dell schreibt auf der Webseite das es für Redhat ist. Daher kam mir die Idee mit CentOS auf einem USB Stick.

Seit dem Ausfall habe ich nichts verändert, außer dem Versuch eines Firmwareupdates. Das Risiko das mir dadurch das Raid zerstört wird, ist mir bisher zu groß. Ich habe mich zuerst hier ans Forum gewandt. Erst wenn nichts mehr geht, verändere ich die Hardwarekonfiguration.

pixelpirat
Beiträge: 158
Registriert: 05.07.2007 17:22:21

[Gelöst] Device vom HW Raid nicht mehr vorhanden.

Beitrag von pixelpirat » 20.11.2016 23:44:40

Hallo,

so das Problem habe ich soeben lösen können.

Es lag daran, das der MBR defekt bzw. nicht vorhanden war. Warum kann ich nicht nachvollziehen. Partitioniert ist das Raid mit gpt und nicht mit mbr.
Nachdem ich mit gdisk den MBR habe neu schreiben lassen war die Partition auch wieder sichtbar. Sie konnte wieder gemountet werden.
Alles ist wieder gut.

Danke für die Unterstützung.

Gruß
Ralf

Antworten