Apple verkündet KI-Durchbruch: Bilder per Texteingabe manipulieren und bearbeiten
Apple investiert seit Jahren viel in die Erforschung neuer KI-Technologien. Resultate fließen an allen Ecken und Enden in die Systeme ein, für dieses Jahr steht angeblich auch "
Siri 2.0" mit maßgeblichen Neuerungen an. Ein Projekt ist hingegen jetzt schon erschienen, denn das Unternehmen veröffentlichte ein KI-Modell, welches Bildbearbeitung per Texteingabe erlaubt. Anders als bei bisherigen KI-Bilderzeugern dient es nicht der Erstellung neuer Grafiken, stattdessen gibt man der KI vor, wie mit einem bestehenden Bild zu verfahren ist. Das können Prompts wie "Mach den Himmel heller", aber auch "entferne den Weihnachtsbaum hinter den Personen" oder "gib dem Foto eine düstere Stimmung" sein.
MGIE ist Open SourceApple nennt das als Open Source freigegebene Modell "MGIE", kurz für "MLLM-Guided Image Editing" – wobei MLLM wiederum die Abkürzung von "Multimodal Large Language Model" ist. Zur Erforschung kooperierte man mit der University of California zu Santa Barbara und präsentierte die Resultate erstmals auf der International Conference on Learning Representations. Um die gewünschten Ergebnisse zu erzielen, wird die Nutzereingabe intern zunächst in eine präzisere Aufforderung übersetzt. Das Beispiel aus dem Paper lautet, den Prompt "färbe den Himmel blauer" in "erhöhe die Sättigung der Himmelsbereiche um 20 Prozent" zu verwandeln – und diesen dann weiterzuverwenden.
Ein großer Schritt für KI-BildbearbeitungBei MGIE handelt es sich um einen bemerkenswerten Durchbruch, der Grundlagen für eine neue Generation an Bildbearbeitungssoftware bietet. In der Dokumentation ist die Rede davon, Photoshop-artige Manipulationen am Material vornehmen und neben Farbeffekten oder kleinen Anpassungen auch komplexe, inhaltliche Modifikationen durchführen zu können. Man muss nicht lange nachdenken, um das Potenzial und konkrete Einsatzbereiche zu erkennen. Unbekannt ist, ob ein solches Tool irgendwann direkt in Apple-Programmen wie beispielsweise "Fotos" zum Einsatz kommt.
Erste Demos zum Potenzial der Technologie Wer einen näheren Blick auf das Projekt werfen möchte, findet den Code auf
GitHub. Eine privat gehostete
Online-Demo gibt es ebenfalls, allerdings ist die Seite derart stark frequentiert, dass man recht lang auf Zugriff warten muss. Das gesamte Paper steht ebenfalls öffentlich zur Verfügung, darin werden auf 24 Seiten die wichtigsten Aspekte der Technologie beschrieben.