MSfree hat geschrieben: 10.02.2021 08:19:47
heisenberg hat geschrieben: 10.02.2021 01:26:58
MD RAID-5 kann keine schleichende Datenkorruption korrigieren
Das hatte ich auch befürchtet. Daher ist dann eigentlich auch checkarray überflüssig.
Ich halte das checkarray für sehr sinnvoll, aus den bisher geschriebenen Gründen.
Wie schorsch auch schreibt bzw. zitiert: die Scrubs triggern evtl. SMART-Fehler(weil eben wirklich die ganze Platte getestet wird) und wenn die gehäuft auftreten, dann wäre es im Falle eines FS ohne Prüfsummen(ext4) Zeit die Platte zu wechseln.
Außerdem sorgt der Scrub dafür, dass überall dort, wo Lesefehler auftreten, diese korrigiert werden können. D. h. die Platte lagert den Sektor intern um(Smart: reallocated Sector) und schreibt den mit Hilfe des Parity-Blocks restaurierten Datenblock sauber neu. Meiner Erfahrung nach treten Lesefehler immer mal wieder auf. Am Ende der Lebenszeit geht die Anzahl etwas hoch kurz vor dem Totalausfall.
Hast Du einen Plattenausfall und treten dabei Lesefehler auf den
guten Platten auf, dann hast Du für jeden solcher Lesefehler auch einen Datenfehler, der nicht behoben werden kann(Weil ausgefallene Platte + zusätzlicher Lesefehler insgesamt zwei Fehler sind und RAID-5 kann nur einen Fehler pro Stripe abfangen.) Das weitaus nervigere wäre aber eher, wenn ein RAID-5 im degraded Status keinen Rebuild mehr durchführen kann, weil es eben auf Datenfehler trifft. Einen Rebuild, den man vielleicht nach vorsorglichem Plattentausch angestossen hat.
Nachtrag
Es wäre also sehr sinnvoll, vor einem Plattentausch einen oder mehrere Scrub-Läufe durchzuführen, um die automatische Behebung aller nicht erkannten Datenfehler anzustossen. Wenn eine oder gar mehrere Platten ohnehin schon Schwächen zeigen, dann wäre das allerdings u. U. der Todesstoß für das RAID-Array. In diesem Fall wäre es dann wohl geschickter, das RAID gleich zu löschen, die Platten zu testen, und ggf. mit getesteten / einwandfrei funktionsfähigen Platten das RAID neu zu erstellen und aus dem Backup wiederherzustellen. Alternativ würde ich von einem RAID5, bei dem mehrere Platten Symptome von möglichem baldigem Ausfall zeigen, wenn es notwendig ist, die Daten davon zu behalten, einen zusätzlichen Datenspeicher anschließen um die Daten dorthin zu kopieren(evtl. mit Kopierfehlern; Wird bei 40 TB natürlich spannend).
Nachtrag 2
schorsch_76 hat geschrieben:Bei Raid5 kann das System einen Fehler durchaus reparieren wenn es feststellen kann wo der Fehler ist und nur eine der Platten einen Schaden hat.
Ja. Ganz genau: Wenn es feststellen kann, wo der Fehler ist. Bei schleichender Datenkorruption ist das halt nicht der Fall. Ich habe auch gelesen, dass Festplatten seit vielen Jahren(~1990) einfache Bitfehler selbst abfangen und korrigieren können. Nur mehrfache Bitfehler werden entweder als Lesefehler ohne korrigierte Daten zurückgeliefert(gut, weil das RAID sie dann rekonstruieren kann) oder als korrekte Daten(schlecht, weil der Fehler dann unerkannt bleibt und vom RAID nicht erkannt und behoben wird).
Hier eine Meinung von jemandem dazu, dass das eigentlich vollkommen ausreicht:
https://www.jodybruchon.com/2017/03/07/ ... nd-raid-5/