Deduplication homelab vs SOC - BTRFS vs ZFS vs sdfs drbd

Probleme mit Samba, NFS, FTP und Co.
Antworten
herrmeier
Beiträge: 41
Registriert: 04.12.2007 23:57:18

Deduplication homelab vs SOC - BTRFS vs ZFS vs sdfs drbd

Beitrag von herrmeier » 03.05.2017 20:55:25

Liebe Freunde des stabilen Debian,

ich trage mich mit dem Gedanken meine Datengräber zu deduplizieren.
Ich habe hier einige 2-6TB-Festplatten an einem cubietruck und beginne gerade eine homelab-Installation.
cubietruck

Code: Alles auswählen

sudo inxi -Fz
NoPaste-Eintrag39822


Der homelab-Server ist ein
Supermicro Server X9DRL-IF 19Zoll Rackserver
2x Intel Xeon E5-2630 2.3Ghz Six Core
8x4gb = 32GB RAM
mit 1x512GB SSD
und
1x10 TB HDD
Der homelab-Server ist für KVM/vagrant/ha-proxy/ansible/devops-Tests

Auf den Platten liegen backups von verschiedenen Systemen. Also bare-metal, rsync, iso, Windows 9x-2012, etc.
Ich gehe davon aus, dass ein Großteil dedupliziert werden könnte. Allerdings ist mir das mit fdupes etc. einfach zu aufwändig.
Ich überlege nun 1-2 große (8-10 TB) externe Festplatte per USB anzuschließen oder intern als SATA. Allerdings nicht für den ständigen Zugriff sondern
eher für ein dedupliziertes Backup.
Ich hätte auch noch ein paar alte SOCs hier, Raspberry Pi v1-3, cubietruck, bananapi.
Wie würdet Ihr vorgehen?
Vielen Dank fürs Lesen und beste Grüße
Zuletzt geändert von herrmeier am 03.05.2017 22:47:06, insgesamt 1-mal geändert.
Debian etch - testing

Benutzeravatar
heisenberg
Beiträge: 3473
Registriert: 04.06.2015 01:17:27
Lizenz eigener Beiträge: MIT Lizenz

Re: Deduplication homelab vs SOC - BTRFS vs ZFS vs sdfs drdb

Beitrag von heisenberg » 03.05.2017 22:33:34

Grundsätzlich fliegt DRBD erst einmal raus aus der Liste, da keine Deduplizierung sondern Replikation - also das Gegenteil. Für eine einfache Replikation wäre mir DRBD zu aufwändig. Lieber rsync.

Ansonsten ist das Thema sehr interessant. Da könnte man gut einen Wikiartikel gemeinsam erarbeiten. Das Thema kommt bestimmt noch ein paar Hundert Mal wieder.

Ohne thematisch schon einzusteigen erst Mal ein paar Stichworte:

Blockbasiert Dateibasiert Virtualisierung Backupsoftware BackupPC borgbackup Dateisysteme ZFS SDFS Resourcenbedarf Sonstige Programme fdupes

Grundsätzlich wird die Speicherplatzersparnis durch Deduplizierung aber immer mit massivem Resourcenverbrauch(RAM, CPU,IO) bezahlt. Ob das mit SOCs sinnvoll nutzbar sein werden könnte, wage ich zu bezweifeln. fdupes ist da die Lösung mit dem wahrscheinlich geringsten Aufwand.
... unterhält sich hier gelegentlich mangels wunschgemäßer Gesprächspartner mal mit sich selbst.

herrmeier
Beiträge: 41
Registriert: 04.12.2007 23:57:18

Re: Deduplication homelab vs SOC - BTRFS vs ZFS vs sdfs drbd

Beitrag von herrmeier » 03.05.2017 23:21:14

Hallo heisenberg, Danke zunächst für Deine schnelle Antwort!
Korrigiere mich bitte, wenn ich da etwas falsch verstanden haben sollte, aber SDFS setzt sich als Schicht über ein vorhandenes FS. Wenn ich also sowohl Replikation als auch deduplikation haben möchte, muss ich entweder ein RAID1 (am cubietruck nicht möglich?)haben oder ein "Netzwerk-Raid1" mit drbd? So weit ich mich schlau gemacht habe ist das Problem beim Deduplizieren, dass es entweder sehr RAM-lastig ist, sodass auch die 2GB des cubietrucks nicht ausreichen würden für ein dedupliziertes Datengrab(außer bei sdfs), als auch hinsichtlich von sdfs, das Fehlen von arm-binaries.
Für die cubeitruck-Variante blieben ergo nur BTRFS und ZFS. Beide wohl zu RAM-hungrig für den cubietruck...

Das bedeutet - Deduplizierung mit SOCs scheidet aktuell aus. Bleibt nur noch das homelab... Richtig?

Fraglich ist auch ob 1GB-NICs nicht zu langsam sind. Ich scheue nur privat fürs Testen die Investition in 10GB-SFP+-Karten + Transceiver + Switch gebraucht ca. 500EUR
Aber mal sehen und das ist ein anderes Thema.
Danke fürs Lesen!
Debian etch - testing

Benutzeravatar
heisenberg
Beiträge: 3473
Registriert: 04.06.2015 01:17:27
Lizenz eigener Beiträge: MIT Lizenz

Re: Deduplication homelab vs SOC - BTRFS vs ZFS vs sdfs drbd

Beitrag von heisenberg » 04.05.2017 09:17:29

Replikation

Bei der Replikation die Du hier haben möchtest, geht es - vermute ich - um eine zusätzliche Sicherheit, falls ein Backupbaustein ausfällt. D. h. wenn die erste Backupkopie über den Jordan geht, dann will man noch eine Zweite haben. DRBD wäre hier nicht so die günstige Wahl. Denn Änderungen von der Quelle werden sofort zum Ziel übertragen. Ein versehenterlicher Löschbefehl wird sofort repliziert. Da scheint mir ein täglicher oder wöchentlicher rsync sinnvoller zu sein.

SDFS

Von SDFS habe ich auch erst gestern - zufällig unabhängig von diesem Thread - zum ersten Mal gelesen. Es scheint sehr interessant zu sein. Es scheint auch schon eine gewisse Reife erreicht zu haben und stabil zu sein. Ausprobieren kann man das alle Mal. Bevor ich so etwas aber Datenmengen im TB-Bereich anvertraue, will ich mehr als nur den guten Anschein wissen.

Was mir zunächst auffällt, ist dass die Metadaten in Form von Dateien(DB-Format?) im übergeordneten Dateisystem abgelegt sind. Falls diese Dateien beschädigt werden, und kein Backup davon existiert, sind alle Daten im SDFS verloren. Ich habe im Internet dazu gelesen, dass es empfohlen wird, diese Dateien per DRBD live zu spiegeln. Mit DRBD sollte man sich also auch gut auskennen, wenn man damit arbeitet. Und DRBD braucht auch schon etwas Übung, damit man weiss, was man da tut. Am besten hat man noch zusätzliche Dateibackups von diesen Metadatendateien für den Fall, dass man das DRBD kaputtgespielt hat.

Was mir an SDFS spontan nicht so gefällt, ist, dass es in Richtung einer eierlegenden Wollmillchsau geht: Es kann deduplizieren, transprarent komprimieren, das ganze noch auf verschiedene Nodes im Netzwerk verteilen und auch noch repliziert halten und das ganze dann noch vie iSCSI bzw. NFS freigeben.

Für ein Backup von Daten, die wichtig sind, wäre mir das eine Stufe zu komplex. Im Privatbereich habe ich die Erfahrung eines schmerzhaften Datenverlustes schon vor langer Zeit einmal gehabt und das reicht mir. Wichtige private Daten würde ich auf technisch einfache Weise sichern, mit Methoden, die zuverlässig sind. Und von allen Daten die man hat, sind wahrscheinlich ein kleiner Teil sehr wichtig, ein grösserer Teil mässig wichtig und die Masse kann auch schon mal verzichtbar sein:

Wichtig können z. B. ein Programme oder Projekte sein, an denen man Tage, Wochen oder mehr gearbeitet hat oder persönliche Fotos und wichtige gescannte Dokumente. Die VM um ein entwickeltes Programm herum ist unwichtig und die persönliche Filmsammlung im Zweifelsfall auch.

Wie auch immer: Es steht und fällt damit wie gut es in der Praxis funkioniert. Das was es tun will ist schon auch sehr nützlich.
... unterhält sich hier gelegentlich mangels wunschgemäßer Gesprächspartner mal mit sich selbst.

herrmeier
Beiträge: 41
Registriert: 04.12.2007 23:57:18

Re: Deduplication homelab vs SOC - BTRFS vs ZFS vs sdfs drbd

Beitrag von herrmeier » 17.05.2017 02:09:33

Hallo Heisenberg, die Teile für mein privat-privates homelab sind leider immer noch nicht angekommen.
Es fehlen noch ein paar M3-Schrauben mit Senkköpfen, grrr.
Du würdest mir im Grunde genommen von meinem schönen Projekt "Deduplikation" also leider abraten
und mich wieder in Richtung fdupes schicken...
Sobald die Teile da sind, probiere ich einmal sdfs mit drbd aus und gebe zumindest die specs mal wieder.

Zuvor habe ich aber mit ähnlicher hardware noch eine andere Aufgabe.
Wieder geht es um Virtualisierung. Hierzu mache ich aber einen neues Thema auf.
Debian etch - testing

Benutzeravatar
heisenberg
Beiträge: 3473
Registriert: 04.06.2015 01:17:27
Lizenz eigener Beiträge: MIT Lizenz

Re: Deduplication homelab vs SOC - BTRFS vs ZFS vs sdfs drbd

Beitrag von heisenberg » 17.05.2017 10:27:18

herrmeier hat geschrieben:Du würdest mir im Grunde genommen von meinem schönen Projekt "Deduplikation" also leider abraten
und mich wieder in Richtung fdupes schicken...
Falls der Schwerpunkt ist: Ein Problem mit geringst möglichen Aufwand ohne all zu dramatische Risiken zuverlässig umgesetzt zu bekommen ist, wäre das meine Vorgehensweise.

Falls das Ziel ist zu experimentieren und neue Erkenntnisse zu gewinnen, dann würde ich einiges davon einfach ausprobieren und sicher gehen, dass die wichtigen Daten wirklich nochmal gesichert.
... unterhält sich hier gelegentlich mangels wunschgemäßer Gesprächspartner mal mit sich selbst.

Antworten