Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

KI-Bildkompression: Ein Bild braucht 40 Bytes statt 196.608

Das System namens Titok nutzt neuronale Netze, um Bilder auf erstaunliche 40 Bytes zu reduzieren, was eine drastische Verbesserung gegenüber den ursprünglichen 196.608 Bytes darstellt. Diese Reduktion um mehr als 99 Prozent dürfte enorme Auswirkungen auf Speicherung und Übertragung von Bildern, insbesondere im Kontext von Online-Diensten und sozialen Medien haben. Die von ByteDance und der Universität München entwickelten Transformermodelle zur Bilderzeugung und -kompression besitzen bis zu 307 Millionen Parameter. Titok rekonstruiert ein quadratisches Bild mit 256 Pixeln Kantenlänge mit nur 32 Token weitgehend korrekt. Das Modell lässt sich sowohl zur Kompression als auch zur reinen Erzeugung von Bildern einsetzen und ist dabei bis zu 410-mal schneller als herkömmliche Diffusionsmodelle.


Herausforderungen bei der Detailwiedergabe
Titok übertrifft sogar bei höheren Auflösungen die Konkurrenz. Im ImageNet-512 × 512-Benchmark übertrifft TiTok das modernste Diffusionsmodell DiT-XL/2 (gFID 2.74 vs. 3.04) und reduziert dabei Bildtokens um das 64-fache, was zu einem 410-fachen schnelleren Generierungsprozess führt. Die beste Variante von TiTok übertrifft DiT-XL/2 signifikant (gFID 2.13 vs. 3.04) und erzeugt gleichzeitig qualitativ hochwertige Bilder 74-mal schneller. Titok eignet sich besonders für Motive, bei denen feine Einzelheiten nicht immer perfekt wiedergegeben werden müssen. Die Rekonstruktion von Details lässt noch zu wünschen übrig, und während einige Bilder beeindruckend gut aussehen, zeigen andere Beispiele, wie das einer E-Gitarre, deutliche Schwächen. Mit einer Erhöhung auf 128 Token oder 160 Bytes lassen sich jedoch auch anspruchsvollere Motive gut reproduzieren.

Mit detailreichen Motiven dieser Art hat Titok noch Probleme.

Ein innovativer Ansatz
Im Gegensatz zu anderen Token-basierten Bildgenerierungsverfahren wie Stable Diffusion, zerlegt Titok das Bild nicht in ein zweidimensionales Gitter aus verschiedenen Kacheln. Stattdessen erzeugt es ein latentes Bild und verfeinert dieses. Dadurch können Informationen effizienter genutzt werden, was zu einer besseren Bildqualität bei geringerer Datenmenge führt. Tests mit kleineren Varianten von Titok, welche 22 und 86 Millionen Parameter umfassen, haben gezeigt, dass alle Modelle in der Lage sind, Bilder zu rekonstruieren. Bei einer Reduktion auf weniger als 128 Token zeigen die größeren Modelle jedoch eine deutlich höhere Leistungsfähigkeit.

Höhere Auflösungen und Videos
Für Bilder mit einer Auflösung von 512 Pixeln konnten bereits mit 64 Token gute Ergebnisse erzielt werden. Hierbei ist jedoch jeder Token 12 Bit groß. Die erforderliche Datenmenge steigt somit proportional zur Bildgröße, was dennoch eine beeindruckende Kompression darstellt. Die Kompression von Bildern beruht darauf, dass der Transformer im Vorfeld mit ähnlichen Bildern trainiert wurde. Eine große Hürde bei der Weiterentwicklung von Titok, insbesondere für Videos, sind die benötigten Rechenressourcen. Das Training des größten Modells dauerte 91 Stunden auf 64 A100-40G-Karten, was eine Weiterentwicklung größerer Modelle und neuer Funktionen stark einschränkt.

Kommentare

beanchen18.06.24 16:07
Inzwischen solle bei jedem angekommen sein, dass man mittels KI durch einen beschreibenden Satz ein Bild generieren lassen kann. Der hier beschriebene Weg scheint genau umgekehrt, ein vorhandenes Bild wird zu einer Beschreibung. Da verwundert dann weder die zufällige Qualität noch die Größe. Aber hat das noch was mit Kompression zu tun? Da fällt mir spontan das Xerox-Problem ein, bei dem in niedriger Auflösung aus einer 8 auch schon mal eine 6 oder umgekehrt wurde.
Unterwegs in Analogistan: https://www.zdf.de/comedy/heute-show/heute-show-spezial-vom-19-januar-2024-100.html
+25
Wauzeschnuff18.06.24 16:12
Das hat mit Kompression überhaupt nichts zu tun. Es wird einfach ein komplett neues Bild generiert. Es ist nicht einmal sicher, dass wenigstens bei jedem Aufruf das gleiche Bild generiert wird.
+21
trashcoder18.06.24 16:21
Aber außer dem Bildersteller merkt es niemand, dass es nicht exakt dasselbe Bild ist. Es ist nah genug dran, damit jeder Follower bei dem Post weiß, worum es geht.
Wauzeschnuff
Das hat mit Kompression überhaupt nichts zu tun. Es wird einfach ein komplett neues Bild generiert. Es ist nicht einmal sicher, dass wenigstens bei jedem Aufruf das gleiche Bild generiert wird.
-3
frankh18.06.24 16:28
Aha, und weil den Unterschied "niemand" merkt, ist es ok Fachbegriffe munter beliebig zu verwenden und so weiter zur Verdummung beizutragen? Die Meisten merken auch nicht, dass die Erde keine Scheibe ist - egal? Bei dem Samsung Handy hatte auch "niemand" gemerkt, dass sie nicht den Mond fotografiert hatten, sondern die "KI" irgendein "besseres" Mondbild erzeugt hat - egal?
trashcoder
Aber außer dem Bildersteller merkt es niemand, dass es nicht exakt dasselbe Bild ist. Es ist nah genug dran, damit jeder Follower bei dem Post weiß, worum es geht.
Wauzeschnuff
Das hat mit Kompression überhaupt nichts zu tun. Es wird einfach ein komplett neues Bild generiert. Es ist nicht einmal sicher, dass wenigstens bei jedem Aufruf das gleiche Bild generiert wird.
+14
macuser22
macuser2218.06.24 16:30
trashcoder
Aber außer dem Bildersteller merkt es niemand, dass es nicht exakt dasselbe Bild ist. Es ist nah genug dran, damit jeder Follower bei dem Post weiß, worum es geht.
Wauzeschnuff
Das hat mit Kompression überhaupt nichts zu tun. Es wird einfach ein komplett neues Bild generiert. Es ist nicht einmal sicher, dass wenigstens bei jedem Aufruf das gleiche Bild generiert wird.
Hast ja Recht, aber bei der Vorstellung daran, dass das irgendwann mal Standard wird, gruselt es mich. "Abbildung ähnlich…" heißt es dann (z.B. im Familienalbum, Online-Shop, Schulbuch, etc.).
Erkenne dich selbst –//– Nichts im Übermaß
+14
Legoman
Legoman18.06.24 16:30
Und schon verbreiten sich Bilder, die de facto Fake sind.
Insbesondere im politischen Kontext kann das ganz schnell böse Ausmaße annehmen.
+18
Dunkelbier18.06.24 16:56
Das sind keine komprimierten Bilder, sondern bestenfalls Repliken. Oder eher Fälschungen.

Ich würde nicht wollen, dass ein solches Verfahren auf meine Bilder angewendet wird, um sie weiterzureichen.
+9
Murx18.06.24 17:03
Ich habe zunächst TikTok und TU München gelesen und war leicht erschrocken…

Das hier bringt mir die Diskussion in Erinnerung, ob ein im Star Trek-Transporter in Einzelteilchen zerlegter Mensch nach dem Zusammensetzen noch der selbe Mensch ist oder nicht… ist zwar SF aber das waren die ganzen KI gestützten Modelle vor nicht allzu langer Zeit auch.
+6
maybeapreacher
maybeapreacher18.06.24 17:08
Murx
Ich habe zunächst TikTok und TU München gelesen und war leicht erschrocken…

Ist aber nicht weit davon entfernt... ByteDance ist die Mutterfirma von TikTok...
+2
semmelroque
semmelroque18.06.24 17:21
TikTuk
+1
Murx18.06.24 17:21
maybeapreacher
Murx
Ich habe zunächst TikTok und TU München gelesen und war leicht erschrocken…

Ist aber nicht weit davon entfernt... ByteDance ist die Mutterfirma von TikTok...
Oh, jetzt bin ich leicht erschrocken.
+4
Huba18.06.24 18:04
Ich finde die Beispielbilder ziemlich gruselig. Das sind für mich eher Beweise dafür, dass das Prozedere nichts taugt.

Was ist eigentlich aus dieser fraktalen Bildkompression geworden? Die war doch vor einigen Jahr(zehnt)en ziemlich gefeiert worden. Mit den heutigen schnellen Prozessoren sollte dieses alte Verfahren doch sicherlich keinen grossen Aufwand bedeuten.
Wahrscheinlich hat sich da keiner für interessiert, weil die kein "KI" im Namen hatten.
+3
ruphi
ruphi18.06.24 22:35
Murx
Oh, jetzt bin ich leicht erschrocken.
Ich war auch bestürzt. Leider versteht die deutsche Forschungslandschaft (mutmaßlich aus Idealismus oder Naivität) nicht, dass Forschungskooperationen mit China fast garantiert einseitige Vorteilsnahme, Spionage und Diebstahl intellektuellen Eigentums mit sich ziehen.
Z.B. existieren Strukturen, die dafür sorgen, dass Technologie, die irgendwie fürs Militär genutzt werden kann, garantiert auch an das chinesische Militär abfließt.
+6
Nebula
Nebula18.06.24 23:27
Es ist nicht nur keine Kompression, es steckt auch keine KI dahinter. KI ist ein Marketingbegriff. Alles was darunter firmiert ist weit von Intelligenz entfernt, ja auch ChatGPT.
»Wir werden alle sterben« – Albert Einstein
+3
Macmissionar19.06.24 06:08
Ich schlage da in die gleiche Kerbe wie die ersten beiden Kommentatoren. Das ist so, wie wenn ich jemanden einem kompletten Spielfilm in zehn Sätzen erkläre.
Dann weißt du auch, worum es geht, aber es ist eine Interpretation, als eine Wiedergabe.

Und klar, ich könnte mir gut vorstellen, dass man das berühmte Mondbild in 36 Megapixel, gute 70 MB groß, in nicht mal einem Promille, vielleicht ein paar 100 Bytes beschreiben könnte.

Das kann man aber auch anders schaffen, solch ein Ergebnis.
Ich habe mal ein Experiment gemacht vor vielen Jahren:
yes 7 > großertext.txt
Diesen Befehl im Terminal ausführen für ungefähr eine halbe Minute. Je nach Schnelligkeit des Macs. Es entsteht eine mehrere Gigabyte große Textdatei mit nur der 7 drin. Danach mit CTRL + C abbrechen. Nicht vergessen, sonst läuft die SSD voll …
Diese hochwertige Datei dann zippen. Dann das Zip wieder zippen. Die Ergebnisse am besten jeweils nummerieren. Damit man weiß, welche Iteration es ist.
es ist sehr beeindruckend, wie man von mehreren Gigabytes auf ein paar 100 MB, dann Megabyte, dann Kilobyte, und so weiter weiterkommt. Also ebenfalls in den Promille Bereich der ursprünglichen Größe.

Trotzdem hätte ich auf diesen Kompression Algorithmus der Bilder keine Lust, ich möchte nicht, dass ein herrliches Strand Panorama mit der Textur einer irgendwann trainierten Sanduhr aufgefüllt wird.
A Mac is like a Wigwam: No Windows, no Gates, no Backdoors, Peace, Harmony – and an Apache inside.
+2
Peter Eckel19.06.24 10:03
Wie viele "KI"-Themen, die derzeit durch die Presse gehen, ein großer Schwall heißer Luft mit einem kräftigen Aroma von Bullshit.
Ceterum censeo librum facierum esse delendum.
0
frankh19.06.24 19:42
Macmissionar
...
Das kann man aber auch anders schaffen, solch ein Ergebnis.
Ich habe mal ein Experiment gemacht vor vielen Jahren:
yes 7 > großertext.txt
Diesen Befehl im Terminal ausführen für ungefähr eine halbe Minute. Je nach Schnelligkeit des Macs. Es entsteht eine mehrere Gigabyte große Textdatei mit nur der 7 drin. Danach mit CTRL + C abbrechen. Nicht vergessen, sonst läuft die SSD voll …
Diese hochwertige Datei dann zippen. Dann das Zip wieder zippen. Die Ergebnisse am besten jeweils nummerieren. Damit man weiß, welche Iteration es ist.
es ist sehr beeindruckend, wie man von mehreren Gigabytes auf ein paar 100 MB, dann Megabyte, dann Kilobyte, und so weiter weiterkommt. Also ebenfalls in den Promille Bereich der ursprünglichen Größe.
...

ähm, also DAS kann man in 5 Bytes verlustlos komprimieren. Eins für den ASCII code der "7" und vier für deren Anzahl (bis max. ca. 4GB). Nennt man Lauflängenkodierung und lernt man, wenn man Kompressionsverfahren lernt, die auch welche sind
+1

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.