Anw oder script um Duplikate entfernen?

Du suchst ein Programm für einen bestimmten Zweck?
Antworten
dbifusl
Beiträge: 3
Registriert: 02.11.2013 16:50:01

Anw oder script um Duplikate entfernen?

Beitrag von dbifusl » 24.07.2018 11:55:18

Hallo,

ich fertige immer wieder mal ein Ordner-Backup des gesamten /var/www an.

Die Änderungen sind da meist minimal bis null.

Trotzdem erzeugt das natürlich viel redundaten Balast.

So lässt sich allerdings schnell etwas von damals wiederherstellen.

Code: Alles auswählen

week=$(date +%Y)-$(printf '%03d' "$(date +%V)")
mkdir --parents /mirror/$week
cp -a /var/www/ /mirror/$week

Gerne würde ich nun aber diesen "mirror" mal etwas (automatisch) entschlacken.

Nach der Idee: wenn eine Datei in der Woche 31 und 32 existiert und unverändert ist, dann lösche diese in der Woche 31 (und 30, 29, 28 usw.....). Sodass Identische Dateien nur noch in der aktuellsten Kopie bestehen bleiben.

Gibt es hierfür vielleicht schon ein Tool? (Man soll ja nicht ständig das Rad neu erfinden ;-))
Oder führt hier kein Weg an einem selbstgebastelten Script vorbei?

Beste Grüsse

PS: Richtig interessant wäre es wenn es auch bewegte Dateien erkennt. Wenn eine Datei nur verschoben oder umbenannt wurde (was ja gar nicht mal selten passiert). Hier dürfte ein Script wohl dann doch überfordert sein.

uname
Beiträge: 12046
Registriert: 03.06.2008 09:33:02

Re: Anw oder script um Duplikate entfernen?

Beitrag von uname » 24.07.2018 12:17:24

dbifusl hat geschrieben:Die Änderungen sind da meist minimal bis null.
Ist bei mir genauso
dbifusl hat geschrieben:Trotzdem erzeugt das natürlich viel redundaten Balast.
Ist bei mir nicht so. Backup läuft im übrigen nur wenige Sekunden ;-)
dbifusl hat geschrieben:Gerne würde ich nun aber diesen "mirror" mal etwas (automatisch) entschlacken.
Besser wäre es den Ballast erst gar nicht zu erzeugen.

Wenn man 1:1-Backups (nicht Tarballs oder ZIP) erstellt, dann nutzt man normalerweise inkrementelle Backups. Hierbei verweisen die Inodes von zwei Sicherheitskopien per Hardlink auf ein und dieselbe Speicherstelle auf der Festplatte bzw. SSD, sofern die Dateien identisch sind. Zu sehen am Feld "Links" unter "stat /pfad/zur/datei"

Bei Debianrsync nutzt man dafür die Option "--link_dest", die auf das jeweils vorherige Backup verweist.
man rsync hat geschrieben: --link-dest=DIR hardlink to files in DIR when unchanged
Beim normalen Kopieren fehlt der Bezug zum alten Backup und damit hat man wirklich viel redundaten Ballast.

Schau dir mein Backup-Script an: https://wiki.ubuntuusers.de/Skripte/Backup_mit_RSYNC
Auch andere Programme wie z. B. Debianrsnapshot verwenden diesen Mechanismus.
Ich verwende 30 Backupgenerationen, die von der Datenmenge vielleicht 3 Vollbackups entsprechen würden. Liegt jedoch am Anwendungsfall.

Benutzeravatar
spiralnebelverdreher
Beiträge: 1294
Registriert: 23.12.2005 22:29:03
Lizenz eigener Beiträge: GNU Free Documentation License
Wohnort: Frankfurt am Main

Re: Anw oder script um Duplikate entfernen?

Beitrag von spiralnebelverdreher » 24.07.2018 13:37:53

dbifusl hat geschrieben: ↑ zum Beitrag ↑
24.07.2018 11:55:18
Hallo,

ich fertige immer wieder mal ein Ordner-Backup des gesamten /var/www an.

...

PS: Richtig interessant wäre es wenn es auch bewegte Dateien erkennt. Wenn eine Datei nur verschoben oder umbenannt wurde (was ja gar nicht mal selten passiert). Hier dürfte ein Script wohl dann doch überfordert sein.
Schau dir mal Debianrdiff-backup an. Das macht zuverlässig inkrementelle Backups (local oder remote). Bewegte oder umbenannte Dateien kann es aber auch nicht intelligent behandeln.

Antworten