Apple macht mit: KIs werden an YouTube-Inhalten ohne Kenntnis der Produzenten trainiert
Im KI-Bereich herrscht Goldgräberstimmung. Firmen wie OpenAI und Anthropic wollen einen allwissenden Assistenten bieten, der Fragen beantwortet, Texte formuliert und Informationen verständlich zusammenfasst. Dafür verwendete Große Sprachmodelle (Large Language Model, LLM) benötigen möglichst viel Trainingsmaterial für überzeugende Antworten, da sie Fragen nicht im herkömmlichen Sinne „verstehen“, sondern die statistisch wahrscheinlichste Antwort berechnen. Das gemeinnützige Datenjournalismus-Projekt „Proof“ hat nun
herausgefunden, dass sich im verwendeten Material auch Inhalte aus einer Vielzahl von YouTube-Videos befindet – ohne Kenntnis oder Genehmigung der Kanalbetreiber.
Dabei handelt es sich nicht um Ton- oder Bildmaterial, sondern lediglich um Untertitel der Videos. Gesammelt wurden sie von EleutherAI, einer nicht profitorientierten Organisation, die sich zum Ziel gesetzt hat, KI-Forschung voranzutreiben. EleutherAI veröffentlichte das Konvolut als „
the Pile“ (zu deutsch: der Haufen); er umfasst 800 GByte und lässt sich von jedem Interessierten herunterladen, um eigene LLMs zu trainieren.
Urheberrechtlich bedenklichDie Untertitel aus YouTube-Videos hat EleutherAI dabei über eine Web-API automatisiert heruntergeladen; ob dies den Nutzungsbedingungen der Plattform entspricht, ist ungeklärt. Auch die eigentlichen Ersteller der Videos wurden nicht gefragt, darunter bekannte YouTuber wie MrBeast und MKBHD, zudem Late-Show-Hosts wie Jimmie Kimmel und John Oliver. Proof bietet eine
Suche an, mit der jeder den Pile-Datensatz nach eigenen Inhalten durchforsten lässt. Dabei stellen YouTube-Untertitel nur einen geringen Anteil des Datensatzes. Weitere Teile sind Veröffentlichungen des EU-Parlaments, die englischsprachige Wikipedia sowie elektronische Korrespondenz des Enron-Konzerns, welche durch Gerichtsverfahren öffentlich gemacht wurden, erklärt Proof.
Die Suchfunktion findet Videos zum eingegebenen Suchbegriff, deren Untertitel in der KI-Datenbasis vorkommen.
Auch Apple nutzt „the Pile“ – zumindest für GrundlagenforschungOffenbar nutzte auch Apple den Pile-Datensatz für KI-Forschungen: In einer
Forschungsveröffentlichung zum mobilen lokalen Sprachmodell OpenELM war the Pile Teil des Trainingsmaterials. Allerdings veröffentlichte Apple das resultierende LLM unter Open-Source-Lizenz – hier dienten Trainingsdaten als Standard, um den Algorithmus zu anderen LLMs vergleichen zu können. Es bleibt ungewiss, ob Apple ebendieses Material für
Foundation-Modelle verwendet, welche die Basis von Apple Intelligence stellen. Zumindest der YouTube-Anteil würde die Qualität der Resultate eher senken: Untertitel von YouTube-Videos werden oftmals automatisch generiert und sind von Fehlern durchsetzt.
Aktualisierung: Apple Intelligence nicht an Pile trainiertNun hat sich Apple selbst zu Wort gemeldet und
explizit ausgeschlossen, dass der Pile-Datensatz für das Training von Apple Intelligence verwendet wird.