KI-Bildkompression: Ein Bild braucht 40 Bytes statt 196.608
Das System namens Titok nutzt neuronale Netze, um Bilder auf erstaunliche 40 Bytes zu reduzieren, was eine drastische Verbesserung gegenüber den ursprünglichen 196.608 Bytes darstellt. Diese Reduktion um mehr als 99 Prozent dürfte enorme Auswirkungen auf Speicherung und Übertragung von Bildern, insbesondere im Kontext von Online-Diensten und sozialen Medien haben. Die von ByteDance und der Universität München entwickelten Transformermodelle zur Bilderzeugung und -kompression besitzen bis zu 307 Millionen Parameter. Titok rekonstruiert ein quadratisches Bild mit 256 Pixeln Kantenlänge mit nur 32 Token weitgehend korrekt. Das Modell lässt sich sowohl zur Kompression als auch zur reinen Erzeugung von Bildern einsetzen und ist dabei bis zu 410-mal schneller als herkömmliche Diffusionsmodelle.
Herausforderungen bei der DetailwiedergabeTitok übertrifft sogar bei höheren Auflösungen die Konkurrenz. Im ImageNet-512 × 512-Benchmark übertrifft TiTok das modernste Diffusionsmodell DiT-XL/2 (gFID 2.74 vs. 3.04) und reduziert dabei Bildtokens um das 64-fache, was zu einem 410-fachen schnelleren Generierungsprozess führt. Die beste Variante von TiTok übertrifft DiT-XL/2 signifikant (gFID 2.13 vs. 3.04) und erzeugt gleichzeitig qualitativ hochwertige Bilder 74-mal schneller. Titok eignet sich besonders für Motive, bei denen feine Einzelheiten nicht immer perfekt wiedergegeben werden müssen. Die Rekonstruktion von Details lässt noch zu wünschen übrig, und während einige Bilder beeindruckend gut aussehen, zeigen andere Beispiele, wie das einer E-Gitarre, deutliche Schwächen. Mit einer Erhöhung auf 128 Token oder 160 Bytes lassen sich jedoch auch anspruchsvollere Motive gut reproduzieren.
Mit detailreichen Motiven dieser Art hat Titok noch Probleme.
Ein innovativer AnsatzIm Gegensatz zu anderen Token-basierten Bildgenerierungsverfahren wie Stable Diffusion, zerlegt Titok das Bild nicht in ein zweidimensionales Gitter aus verschiedenen Kacheln. Stattdessen erzeugt es ein latentes Bild und verfeinert dieses. Dadurch können Informationen effizienter genutzt werden, was zu einer besseren Bildqualität bei geringerer Datenmenge führt. Tests mit kleineren Varianten von Titok, welche 22 und 86 Millionen Parameter umfassen, haben gezeigt, dass alle Modelle in der Lage sind, Bilder zu rekonstruieren. Bei einer Reduktion auf weniger als 128 Token zeigen die größeren Modelle jedoch eine deutlich höhere Leistungsfähigkeit.
Höhere Auflösungen und VideosFür Bilder mit einer Auflösung von 512 Pixeln konnten bereits mit 64 Token gute Ergebnisse erzielt werden. Hierbei ist jedoch jeder Token 12 Bit groß. Die erforderliche Datenmenge steigt somit proportional zur Bildgröße, was dennoch eine beeindruckende Kompression darstellt. Die Kompression von Bildern beruht darauf, dass der Transformer im Vorfeld mit ähnlichen Bildern trainiert wurde. Eine große Hürde bei der Weiterentwicklung von Titok, insbesondere für Videos, sind die benötigten Rechenressourcen. Das Training des größten Modells dauerte 91 Stunden auf 64 A100-40G-Karten, was eine Weiterentwicklung größerer Modelle und neuer Funktionen stark einschränkt.