Apple widerspricht: Kein KI-Training von Apple Intelligence mit "The Pile" – Einsatz jedoch an anderer Stelle
Will man ein KI-Modell herstellen, ist eine Sache ebenso wichtig wie das Konzept und der Programmcode: Die Trainings-Daten. Oftmals ist eine erhebliche Menge an Datensätzen wie zum Beispiel Bildern, Textschnipseln usw. erforderlich, um ein Modell anzulernen. In vielen Fällen wird hier schlichtweg auf frei verfügbare Daten im Internet zurückgegriffen – und der Urheber der Daten hat meist nicht einmal Kenntnis bezüglich der Verwendung. Weltweit beschäftigen sich Juristen und Gerichte mit der Frage, ob und in welchen Fällen dies rechtens ist. Noch ist hier keine vollständig einheitlich Richtung zu erkennen: Manche vertreten die Ansicht, dass frei zugängliche Daten zum Trainieren einer KI verwendet werden dürfen (ähnlich wie auch ein Mensch lernt), andere wiederum sehen eine widerrechtliche Kopie oder zumindest Nutzung der Daten.
Fragwürdige Daten zum Training?Gestern
berichtete das Datenjournalismus-Projekt „Proof“, dass sich in einer sehr bekannten Datensammlung namens „The Pile“ (zu deutsch: der Haufen) viele Untertitel-Spuren von YouTube-Videos wiederfinden, welche wohl ohne Erlaubnis der Urheber den Weg in die Datensammlung fanden. Ferner sollen auch Daten von Wikipedia oder Dokumentationen des Europäischen Parlaments in die Masse eingeflossen sein. „Proof“ veröffentlichte nun ein
Werkzeug, über welches Urheber erkennen können, ob eigene Daten in „The Pile“ eingeflossen sind. Apple selbst nutzte auch die Datensammlung – jedoch war bislang nicht klar, zu welchem Zweck.
Keine Verwendung bei Apple IntelligenceNun meldet sich Apple selbst zu Wort und gibt bekannt, dass der Konzern die fragwürdige Datensammlung nicht für das Training der kommenden KI-Lösung „Apple Intelligence“ einsetzte. Apple verwendete die Daten von „The Pile“ ausschließlich für ein KI-Modell namens „OpenELM“, welches der Konzern aber nie in einem Produkt oder in Apple Intelligence einsetzte. OpenELM wurde zu Forschungszwecken entwickelt und war nie dafür konzipiert, zu kommerziellen Zwecken eingesetzt zu werden, wie Apple bekannt gab. Bei OpenELM („Open-source Efficient Language Model“) handelt es sich um ein
quelloffenes Sprachmodell, welches besonders auf die Gegebenheiten von Mobilplattformen angepasst wurde.