Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?
Forum>Software>x-fache Kopien der gleichen Datei auf dem server verhindern

x-fache Kopien der gleichen Datei auf dem server verhindern

virk
virk22.02.2213:04
Es gibt viele grosse Dateien(x GB) auf dem server; viele davon sind Videos. Jeder Kollege, der ein Video mal zeigen möchte, kopiert sich dieses (auch mehrmals ) in seine eigene Ordnerstruktur auf dem server. Letztendlich habe ich z.B. das gleiche Video 18 Mal kopiert auf dem server gefunden.
Ich hätte gerne, dass jede Datei nur einmal auf dem server steht. Wie stelle ich das so an, dass die Kollegen keinen "Komfort" verlieren und in ihren gewohnten Arbeitsweise weiterverfahren können?
„Gaststättenbetrieb sucht für Restaurant und Biergarten Servierer:innen und außen.“
0

Kommentare

micheee22.02.2213:11
…manche Dateisysteme wie z.B. ZFS unterstützen Deduplizierung auf Blockebene — als Nutzer merkst du davon erst mal gar nichts, Ich weiß nicht ob das eine Option ist, kommt wahrscheinlich stark auf die Serversoftware und auch Hardware an die ihr verwendet.


Ansonsten hilft wahrscheinlich nur Disziplin beim sortieren oder eine Mediendatenbank oder ähnliche Software, die sich darum kümmert, dass die Dateien nicht doppelt vorgehalten werden. Eine "kleinere" Bastellösung wäre, selbst auch Duplikaten zu suchen und diese durch symbolische Links oder Aliase zu ersetzen — https://github.com/pauldreik/rdfind wäre ein Tool welches diese Aufgabe z.B. unter Linux oder macOS via Homebrew übernimmt

Mit Hilfe von Google bin ich gerade noch hierüber gestolpert, http://www.diskdedupe.com mit APFS sicher eine Option, allerdings gilt für alle Variante: bitte vorher (und regelmäßig) ein Backup machen
0
virk
virk22.02.2215:05
Die Kopien zu finden, ist nicht das Problem. An Symlink oder hardlinks hatte ich auch gedacht, wollte die Diskussion jedoch nicht im Vorfeld schon in diese Richtung kanalisieren. Wenn sich symlink als die "richtige" Methode erweist, was wäre denn das tool der Wahl, diese zu erstellen?
„Gaststättenbetrieb sucht für Restaurant und Biergarten Servierer:innen und außen.“
0
timp
timp22.02.2215:48
Prinzip Fahrradkeller - in festen Abständen rigoros alles entsorgen.
„Never argue with an idiot. He'll bring you down to his level and then beats you with experience.“
0
rmayergfx
rmayergfx22.02.2215:54
Symlinks bitte gleich wieder vergessen, sonst hast du wiederum Probleme mit den Berechtigungen auf dem Server. Damit würdest du die eigene Ordnerstruktur mit eigener Berechtigungen gleich als absurdum führen.

Würde User A ein Video speichern, User B dies auch sehen und evtl. ändern steht User A bei dir auf der Matte und fragt wer "sein" Video verändert hat.

Bei der automatischen Deduplizierung direkt auf unterster Ebene im System wird von jedem File eine Prüfsumme erstellt, haben nun X-User eine E-Mail mit Anhang erhalten, und jeder speichert diesen Anhang in seinem persönlichen Verzeichnis, so wird das erkannt und das System hat nur 1x diese Datei intern gespeichert, mit der Info wo diese überall liegt und wer darauf Zugriff haben darf. Öffnet nun ein User in seinem Verzeichnis die Datei, verändert diese und speichert sie wieder, so stimmt die Prüfsumme nicht mehr und somit exisitiert nun die Datei mit gleichem Namen 2x auf dem Server, was ja auch vollkommen korrekt ist. Die restlichen Verzeichnisse/User auf/bei denen die ursprüngliche Datei angelegt wurde sind davon nicht betroffen. Diese sehen beim Öffnen nach wie vor die unveränderte Originaldatei.

Für das Backup dieser Server benötigst du dann auch die passenden Software, sonst fehlen dir entweder Dateien oder sie werden beim Backup dupliziert, d.h. dein Backup benötigt wesentlich mehr Platz als das Server Volume auf dem die Daten liegen.

Welche Hardware/OS ist der Server?
„Der Computer soll die Arbeit des Menschen erleichtern, nicht umgekehrt !“
+1
virk
virk22.02.2216:43
- Bin gerade am testen, ob Alias oder symlink einer "Problemlösung" näherkommt. Das Problem ist nur Platz.
Stelle dabei fest, dass beide Varianten nicht genügend gut funktionieren, denn wenn ich ein Kollege dann seinen Ordner auf einen Stick zieht, um irgendwo eine Präsentation zu machen, glaubt er, das Video dabeizuhaben, erlebt aber dann sein blaues Wunder. Da müssten dann hardlinks her, denke ich.
- Dass bei symlinks jemand anders (user A) ein file ändert, darüber wird sich user B nicht wundern; das ist hier normal und richtig so.
- Deduplizierung verfolge ich zunächst nicht weiter; müsste ich mich erst einlesen; so groß ist das Problem nicht.
- Sierra-server und parallel gepflegter Monterey-Rechner als fall-back.
„Gaststättenbetrieb sucht für Restaurant und Biergarten Servierer:innen und außen.“
0
MikeMuc22.02.2220:44
Das hilft doch alles nix wenn jeder „das selbe Video“ von seinem eigenen Rechner in seinen eigenen Bereich auf dem Server kopiert. Dann müßte der Server nämlich permanent nach identischen Dateien suchen.
Was anderes ist es, wenn die Duplikate direkt auf dem Server angefertigt werden. Da besteht die Chance, das der Server das Duplikat erstmal nur im Dateisystem ein 2. Mal einträgt. Software von Apple selber kann das aber eher nicht.
0
KoGro22.02.2221:17
virk
Wie stelle ich das so an, dass die Kollegen keinen "Komfort" verlieren und in ihren gewohnten Arbeitsweise weiterverfahren können?

Gar nicht! Du kannst sie mit Quotas „freundlich“ erinnern, dass Plattenplatz ein endliches Gut ist und dass sie mit ein klein bisschen Disziplin selbst dazu beitragen können, dass es nicht zu schnell knapp wird.

oder

Du kaufst größere Platten.

Ich habe in mittlerweile über 25 Jahren im IT-Bereich nie eine andere funktionierende Lösung gesehen, die problemlos funktioniert hätte.
+1
micheee22.02.2221:22
MikeMuc
Dann müßte der Server nämlich permanent nach identischen Dateien suchen.
…ja; je nach FS meistens nicht nach identischen Dateien sondern nach identischen Blöcken

Genug RAM vorausgesetzt halte ich das, nach der etwas genaueren Problembeschreibung für die Lösung die dir langfristig am wenigsten Ärger macht, ist aber natürlich nicht praktikabel für so ein Feature gleich das ganze OS zu wechseln. Wenn du trotzdem mal über den Tellerrand schauen willst, NAS-Distributionen wie FreeNAS oder manche Hardware von Synology bringen Deduplikations-Features mit. Das ist mehr oder weniger das klicken einer Checkbox bei der Installation. So ganz schlimm ist der Wechsel nicht - ich hab das für unser kleines Büro selbst gemacht zu Anfang der Pandemie und bin zwischenzeitlich recht überzeugt von FreeNAS bzw. ZFS.

Mit Sierra Server bleibt dir wahrscheinlich erstmal nur übrig mit dem zu arbeiten was macOS von Haus aus unterstützt - APFS wird das zumindest auf absehbare Zeit nicht unterstützen.
0
virk
virk22.02.2222:53
Ich führe Buch über die Sicherungsvorgänge und mir war aufgefallen, dass desöfteren 1-10 GB zusätzlich gesichert worden sind, die aber gar nicht erzeugt worden sein können; wobei ich mit erzeugt jetzt erarbeitet meine.
Dann habe ich mir auf dem server mal alles mit >50MB anzeigen lassen und war erstaunt Zunächst hatte ich gedacht, alle "Duplikate" zu löschen und durch einen Hinweis zu ersetzen, wo "das Original" ggf. zu finden ist. Das hätte mich ca. 1 h Arbeit gekostet. Dann habe ich gedacht, vielleicht gibt es was clevereres, aber das scheint dann doch nicht so einfach zu sein. (hard links könnte meiner Ansicht nach ein guter Weg sein, aber das ist auch nur mein erster Eindruck)
Ich empfinde es halt auch als extrem unelegant, wenn ewig redundante Daten mitgeschlörrt (komme aus Westfalen) und gebackupped werden, von denen jeder meint, dass sie nie mehr benötigt werden.
„Gaststättenbetrieb sucht für Restaurant und Biergarten Servierer:innen und außen.“
0
Marcel Bresink23.02.2209:04
micheee
Mit Sierra Server bleibt dir wahrscheinlich erstmal nur übrig mit dem zu arbeiten was macOS von Haus aus unterstützt - APFS wird das zumindest auf absehbare Zeit nicht unterstützen.

Nachträgliche Deduplizierung beherrscht macOS zwar nicht, aber mit einer einigermaßen aktuellen macOS-Version würde das System in diesem Fall eine automatische Deduplizierung (per APFS-Klondatei) während des Kopiervorgangs vornehmen.

Wenn Quelle und Ziel sich auf dem gleichen APFS-Volume befinden und per SMB-Freigabe gemountet sind (und der kopierende Benutzer hat natürlich Schreibrecht), dann erkennen Server und Client, dass keine physische Kopie angelegt werden muss. Intern wird dann der Systemaufruf copyfile durch den Aufruf clonefile ersetzt und es entsteht eine Kopie, die keinen Speicherplatz braucht. Das geht auch für beliebig viele weitere Kopien.
+2
rmayergfx
rmayergfx23.02.2209:14
Hier stellt sich doch generell die Frage, ob diese großen Dateien (Videos) überhaupt zur geschäftlichen Tätigkeit gehören oder doch eher Privater Natur sind. Dann gehören diese in ein spezielles Verzeichnis Privat und diese kannst du dann generell vom Backup ausklammern.
Gehören die Dateien zur geschäftlichen Tätigkeit könntet ihr das mit einer Arbeitsanweisung und einem zentralen Medienordner in den Griff bekommen.
virk
kopiert sich dieses (auch mehrmals ) in seine eigene Ordnerstruktur auf dem server.
Dagegen ist leider kein Kraut gewachsen. Solche MA gibt es immer wieder, da helfen auch keine Engelszungen.
„Der Computer soll die Arbeit des Menschen erleichtern, nicht umgekehrt !“
0
MikeMuc23.02.2209:23
virk
kopiert sich dieses (auch mehrmals ) in seine eigene Ordnerstruktur auf dem server.
Es sollte mal „eigene Ordnerstruktur“ genauer definiert werde. Ist das ein privater Bereich oder „einfach nur ne andere Stelle“ in der Serverfreigabe.

Marcel:
- klappt das auch bei 2 unterschiedlichen Freigaben auf dem selben Server?
- wenn die Daten aber mehrmals vom eigenen Rechner hochgeladen werden… gibt es Dateisystem, die in diesen Fällen auch „eigenständig aufräumen und zusammenfassen“?
0
virk
virk23.02.2209:58
MikeMuc
Es sollte mal „eigene Ordnerstruktur“ genauer definiert werde. Ist das ein privater Bereich oder „einfach nur ne andere Stelle“ in der Serverfreigabe.

Auf dem server erzeugt sich jemand folgendes:
Ablage Heiner/z.B. Präsentationen/Videos/....

Innerhalb "Ablage Heiner" kann man machen, was man will.

Das sind alles schon geschäftliche Daten, die gesichert werden müssen, nur halt nicht manche grosse Dateien bis zu 20 Mal

So wie ich Marcels Beitrag lese, scheint Apple das "Problem" in aktuellen Systemversionen ja schon gelöst zu haben. Ich habe mal weiter recherchiert und meine, folgendes verstanden zu haben: Auf aktuellem APFS (bspw. unter Monterey) wird eine Datei 1 GB gross erzeugt; es wird auch 1 GB Platz belegt. Jetzt kopiert ("alt-"mousedrag einer Datei) jemand diese Datei A an eine andere Stelle B innerhalb des gleichen Volumes. Dadurch wird nicht mehr Platz belegt, nur dieser zusätzliche Eintrag mit seinen paar Bytes. Jetzt öffnet jemand Datei B und ändert hier drin was und speichert wieder ab. Jetzt kann folgendes passieren: Fast kein zusätzlicher Speicherplatz ggü. den urpsrünglichen 1 GB wird verbraucht, weil APFS (oder wer auch immer) merkt, dass kaum was geändert wurde, und 99% der "gespeicherten Bereiche" immer noch für beide Dateien gültig sind. Oder es werden zukünftig tatsächlich 2GB (oder mehr oder weniger) benötigt, weil APFS nicht feststellen kann, dass es noch identische Bereiche gibt; oder irgendwas dazwischen. Habe ich das so richtig verstanden?
„Gaststättenbetrieb sucht für Restaurant und Biergarten Servierer:innen und außen.“
+1

Kommentieren

Diese Diskussion ist bereits mehr als 3 Monate alt und kann daher nicht mehr kommentiert werden.