Diskussion: Ist Apples KI-Training mit frei zugänglichen Netzinhalten ok?
Als auf der WWDC-Keynote 2024 Apple Intelligence vorgestellt wird, betonte Apple die eigenen Bemühungen um Privatsphäre der Nutzer und ethisch korrekte Gestaltung zugrunde liegender großen Sprachmodelle (LLMs). Der am selben Tag veröffentlichte
Eintrag auf dem Machine-Learning-Research-Blog beschreibt im Detail, wie Apple Intelligence strukturiert ist. Apple erläutert, wie Anwender und ihre Privatsphäre im Fokus stehen – und man vermeide, dass ihre KI-Werkzeuge missbraucht werden oder potenziell Schaden verursachen können. Die Leitsätze sollen in allen Schritten maßgeblich berücksichtigt werden.
Ein Satz im Abschnitt "Pre-Training" sorgt jedoch für Unwillen: Hier wird beschrieben, dass man Daten aus lizenzierten Quellen verwende, zudem aber öffentlich verfügbare Netzinhalte, die ihr Bot "Applebot-extended" zusammengetragen habe. Web-Publisher könnten verhindern, dass Apple die eigenen Inhalte für das Training von KI-Modellen verwerte. David Pierce von The Verge bemerkte in einer
Live-Berichterstattung beobachtet eine starke Diskursverschiebung: Heute sei es scheinbar kein Problem, dass eine KI am offenen Internet trainiert werde. Schließlich täten das alle.
KI-Training am offen zugänglichen Netz sei heute kein Tabubruch, sinniert David Pierce.
Abmeldung ist kompliziertApple hat eine
technische Anleitung veröffentlicht, die es Serveradministratoren erleichtern soll, Apple-eigene KI-Bots zu identifizieren. Sie heißen offenbar "Applebot-extended". Mittels einer robots.txt-Datei des Web-Verzeichnisses schließe man die eigene Website von Trainingsdaten aus. Dazu erläutert das Support-Dokument den Zweck von Applebot-extended. Um Fehlinterpretationen zu vermeiden, folgt die Passage im englischen Original:
Applebot-Extended does not crawl webpages. Webpages that disallow Applebot-Extended can still be included in search results. Applebot-Extended is only used to determine how to use the data crawled by the Applebot user agent. Allowing Applebot-Extended will help improve the capabilities and quality of Apple’s generative AI models over time.
Wer ein Content-Management-System (CMS) verwendet, richte mit einem einfachen Textdokument höchstwahrscheinlich nichts aus,
erklärt Dan Moren. Er beschreibt, wie er in seiner Wordpress-Installation die functions.php-Datei seines Themes mit einem Code-Fragment erweiterte, um Applebot-extended den Zugriff zu verweigern.
Die verantwortungsvollen KI-Prinzipien respektieren die Datensouveränität der Anwender. Inhalte-Anbieter müssen dies explizit einfordern. (Quelle:
Apple)
Ist nachträgliches Abmelden rechtmäßig?Einige Blogger
fragen sich, wie denn eine Abmeldung möglich sein könnte, wenn Apples Foundation-Modelle bereits weitgehend trainiert seien, eine Anleitung zum Abmelden (Opt-out) jedoch erst im Nachgang veröffentlicht werde. Andere zweifeln generell an, ob die Opt-out-Methode gerechtfertigt sei und nicht vielmehr ein freiwilliges aktives Zustimmen (Opt-in) korrekt wäre. Grundsätzlich sei problematisch, dass alle Wettbewerber, OpenAI ebenso wie Google und Anthropic, ein generelles Einverständnis voraussetzen – und damit Quellen im Netz in gewisser Weise vereinnahmen, ohne auf Originale zu verweisen.