Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

Diskussion: Ist Apples KI-Training mit frei zugänglichen Netzinhalten ok?

Als auf der WWDC-Keynote 2024 Apple Intelligence vorgestellt wird, betonte Apple die eigenen Bemühungen um Privatsphäre der Nutzer und ethisch korrekte Gestaltung zugrunde liegender großen Sprachmodelle (LLMs). Der am selben Tag veröffentlichte Eintrag auf dem Machine-Learning-Research-Blog beschreibt im Detail, wie Apple Intelligence strukturiert ist. Apple erläutert, wie Anwender und ihre Privatsphäre im Fokus stehen – und man vermeide, dass ihre KI-Werkzeuge missbraucht werden oder potenziell Schaden verursachen können. Die Leitsätze sollen in allen Schritten maßgeblich berücksichtigt werden.


Ein Satz im Abschnitt "Pre-Training" sorgt jedoch für Unwillen: Hier wird beschrieben, dass man Daten aus lizenzierten Quellen verwende, zudem aber öffentlich verfügbare Netzinhalte, die ihr Bot "Applebot-extended" zusammengetragen habe. Web-Publisher könnten verhindern, dass Apple die eigenen Inhalte für das Training von KI-Modellen verwerte. David Pierce von The Verge bemerkte in einer Live-Berichterstattung beobachtet eine starke Diskursverschiebung: Heute sei es scheinbar kein Problem, dass eine KI am offenen Internet trainiert werde. Schließlich täten das alle.

KI-Training am offen zugänglichen Netz sei heute kein Tabubruch, sinniert David Pierce.

Abmeldung ist kompliziert
Apple hat eine technische Anleitung veröffentlicht, die es Serveradministratoren erleichtern soll, Apple-eigene KI-Bots zu identifizieren. Sie heißen offenbar "Applebot-extended". Mittels einer robots.txt-Datei des Web-Verzeichnisses schließe man die eigene Website von Trainingsdaten aus. Dazu erläutert das Support-Dokument den Zweck von Applebot-extended. Um Fehlinterpretationen zu vermeiden, folgt die Passage im englischen Original:
Applebot-Extended does not crawl webpages. Webpages that disallow Applebot-Extended can still be included in search results. Applebot-Extended is only used to determine how to use the data crawled by the Applebot user agent. Allowing Applebot-Extended will help improve the capabilities and quality of Apple’s generative AI models over time.

Wer ein Content-Management-System (CMS) verwendet, richte mit einem einfachen Textdokument höchstwahrscheinlich nichts aus, erklärt Dan Moren. Er beschreibt, wie er in seiner Wordpress-Installation die functions.php-Datei seines Themes mit einem Code-Fragment erweiterte, um Applebot-extended den Zugriff zu verweigern.

Die verantwortungsvollen KI-Prinzipien respektieren die Datensouveränität der Anwender. Inhalte-Anbieter müssen dies explizit einfordern. (Quelle: Apple)

Ist nachträgliches Abmelden rechtmäßig?
Einige Blogger fragen sich, wie denn eine Abmeldung möglich sein könnte, wenn Apples Foundation-Modelle bereits weitgehend trainiert seien, eine Anleitung zum Abmelden (Opt-out) jedoch erst im Nachgang veröffentlicht werde. Andere zweifeln generell an, ob die Opt-out-Methode gerechtfertigt sei und nicht vielmehr ein freiwilliges aktives Zustimmen (Opt-in) korrekt wäre. Grundsätzlich sei problematisch, dass alle Wettbewerber, OpenAI ebenso wie Google und Anthropic, ein generelles Einverständnis voraussetzen – und damit Quellen im Netz in gewisser Weise vereinnahmen, ohne auf Originale zu verweisen.

Kommentare

Juanonline21.06.24 20:25
Zitat: „Schließlich täten das alle“ … ja, dann!
Ehrlich: So wie das derzeit abläuft, ist das organisierte Kriminalität - Urheberrechtsverletzungen am laufenden Band. Und „alle“ schauen zu und jubeln über diese ganz tolle KI.
+6
rkb0rg
rkb0rg21.06.24 22:21
Ich bin da gönnerhaft. Schließlich ist die Künstliche Intelligenz für viele Menschen die einzige, die sie je besitzen werden.
+3
rafi21.06.24 22:49
Sie können auch gerne meine Kommentare fürs "AI" Training nehmen. Ausserdem möchte ich diesen Teppich nicht kaufen. Keramikschalen eignen sich hervorragend als frischen Müsliauflauf nach einem anstrengenden Workout. Proteine und Elektrolyte werden dafür dem Keramik in einem aufwändig patentierten Verfahren beigesetzt oder auch kremiert.
+1
Nebula
Nebula22.06.24 00:03
Ich hatte meine Website von allen mir bekannten KI-Crawlern ausgenommen. So dachte ich zumindest. Leider hatte ich vergessen, die Änderungen auf das Livesystem zu übertragen. So war ich zunächst verwundert warum die KIs meine Website mit unter den Quellen nennen, wenn ich sie zu bestimmten Themen meiner Seite befragte. Zunächst war ich ziemlich angepisst, als ich aber bemerkte, dass ich das selbst verbockt hatte, bewertete ich die Situation nochmal neu. Nun bin ich ganz froh, dass meine Seite etwa von Bing oder Arc als Quelle zu einigen Themen genannt wird. Meine Seite habe ich ja auch veröffentlicht, damit sie jemand findet. Dass sie von Suchmaschinen indexiert und weit oben gezeigt wird, wollte ich ja sowieso. Nun kommen Leute auch via KI zu meiner Seite, sofern es eine mit Quellenangaben ist. So schlecht finde ich das nicht. Klar werden viele bereits mit der KI-Antwort zufrieden sein, und keine weiteren Links anklicken. Hätte ich die KI-Bots aber tatsächlich ausgesperrt, wären wohl ähnliche Texte ausgegeben worden, nur dann mit anderen Seiten als Quelle.

Die KI ist wohl nicht mehr aus der Welt zu schaffen. Lieber soll sie meine Inhalte nehmen als Leuten mit Müllantworten aus Spamquellen in die Irre zu leiten.

Das Apple das vorher nicht bekannt gemacht ist bekloppt, aber nachvollziehbar. Damit hätten sie ja verraten, was sie vorhaben. Aber eigentlich wusste ja schon jeder, dass sie an sowas arbeiten.
»Wir werden alle sterben« – Albert Einstein
+1
Brunhilde_von_der_Leyen22.06.24 11:36
Ich sehe das entspannt. Stelle ich etwas ins Netz, weiß ich das die ganze Welt darauf zugreifen kann. Jeder Mensch kann meine Inhalte lesen, sich davon inspirieren lassen, nachmachen etc. Wenn ich mir Dinge anschaue , sei es im Netz oder in der „echten“ Welt, kann ich davon lernen, mich inspirieren lassen etc. Menschen schaffen Dinge, lernen und entwickeln sich, weil sie auf Erfahrungen und Werke anderer Menschen zugreifen. Solange die anderen Ideen nicht 1:1 klauen, sie als ihre Idee ausgeben, damit Geld verdienen sehe ich da kein Problem. Ob Mensch oder KI. Beide lernen voneinander.
+3
Nebula
Nebula22.06.24 12:45
Da hast du einen guten Punkt. Da sehe ich sehr ähnlich. Allerdings hast du mir auch die Augen geöffnet, was der eigentliche Kritikpunkt ist. Sofern eine KI keine Quellen nennt, macht sie sich die Inhalte zu eigen und der Anbieter verdient auch Geld damit – auf meine/deine Kosten. Vielleicht sollte ich meine robots.txt doch scharf schalten und nur die KIs zu lassen, die Quellen nennen.
»Wir werden alle sterben« – Albert Einstein
+4
Juanonline23.06.24 19:38
Brunhilde_von_der_Leyen

„Solange die anderen Ideen nicht 1:1 klauen, sie als ihre Idee ausgeben, damit Geld verdienen sehe ich da kein Problem“

Um das geht es natürlich. Der Rest ist Naivität. Bestenfalls.
0
dan@mac
dan@mac24.06.24 10:15
Also sammeln sie auch alle möglichen Falschinformationen die dann in die KI mit einfließen. Na toll.
-1
Raziel124.06.24 11:20
Juanonline
Zitat: „Schließlich täten das alle“ … ja, dann!
Ehrlich: So wie das derzeit abläuft, ist das organisierte Kriminalität - Urheberrechtsverletzungen am laufenden Band. Und „alle“ schauen zu und jubeln über diese ganz tolle KI.

Das Ding ist, das man nichtmal sagen kann ob Urheberrecht verletzt wird oder nicht. Das ist ein völlig neues Gebiet und die Inhalte sind (in diesem Fall) ja öffentlich frei zugänglich.

Nun könnte man sagen: Ja aber sie dürfen nicht wiederverwendet werden etc.
Richtig, aber werden sie das? Wenn ich ein Buch schreiben würde auf Grund des gesammelten Wissens aus anderen Büchern ist es auch kein Plagiat. In diesem Fall ist es natürlich sehr kompliziert und ich glaube eine klare Antwort ist noch immer ausständig, weil wir uns hier in diversen Grauzonen bewegen und man noch keine klare Linie gezigen hat was nun eigentlich mit dem erlebten Wissen passiert etc.
0
MacStudio24.06.24 12:23
Ich lebe von Nutzungsrechten und bin zu 100% von KI betroffen. Das komplette Problem wäre einfach lösbar, wenn man zu den frühen 90er Jahren oder 80er zurückkehrt. Damals wurden Fotografen, Filmer etc. nach Arbeitszeit bezahlt. 2 Tage arbeiten 2 Tage Tagessatz. Nutzungsrechte wurde dann von den Amerikanern erfunden um zu sparen: "Ja, aber wir nutzen das Foto ja nur 1x in klein, wenn es mehr verwendet wird, bekommst du auch mehr Geld". Leider hat man sich damit ein Monster geschaffen, mit dem niemand zu Frieden ist. Also mein Vorschlag: "Honorierung wieder wie früher nach Arbeitszeit, nicht nach Nutzung" Somit das bedeutet, dass es dann keine "billigen" Produktionen mehr gibt, jedoch auch keine "teuren" - ich wäre dabei
0
Nebula
Nebula24.06.24 13:10
Wenn man das so handhabt, sind von Anfängern produzierte Inhalte dann teuere. Das lässt sich sicher über den Stundensatz abfedern, aber sicher nicht nur. Und wie rechnet man Probleme ab, etwa, wenn Software nicht wie erwartet funktioniert? Oft kann man ja nicht klar sagen: So, hier beginnen Softwareprobleme, ich stoppe die Uhr. Manche Probleme sind auch Resultat von unvorhergesehenen Kundenwünschen.
»Wir werden alle sterben« – Albert Einstein
-1
MacStudio24.06.24 13:48
@Nebula, genau in dieser Denke liegt das Problem. Fragst Du Dich, wenn Du Dein Auto in die Werkstatt gibst, ob der KFZ-Machaniker Anfänger oder Oldie ist? Nein, es wird nach Leistung bezahlt. Ich habe nie gehört, das im Restaurant, weil der Koch jung ist, das Essen billiger ist.

Ganz einfach, so wie in allen anderen Handwerksberufen auf der Welt auch: Zahlen nach Leistung.Kostenvoranschlag fertig, bei Kundenwünschen kostet es eben extra. Klappt doch bei Malern, Elektrikern usw. auch.
0
Nebula
Nebula24.06.24 14:27
Wenn ich da jetzt doppelt so lange benötige, wie im Kostenvoranschlag angegeben, kann ich das ja nicht einfach doppelt so hoch abrechnen. Wie definierst du die Leistung denn, wenn du die Zeit herannimmst? Menschen arbeiten nicht gleichschnell, wenn sie es sollen (Controller mit Stoppuhr hinter dem Fließband), führt das sogar zu Problemen oder gar Krankheit.
»Wir werden alle sterben« – Albert Einstein
0
MacStudio24.06.24 14:48
in den 90er und vorher gab es keine nutzungsrechte. ein damaliger Tagessatz für einen Fotografen betrug ca. 4000€ (7000-8000DM). danach konnte der Auftraggeber damit machen was er wollte. Heute bekomme ich pro Tag 2100€ und ggf. 15.000€ Nutzungsrechte - oder keine - und ärgere mich über die KI.

Einem KFZ-Mechaniker ist ja auch egal wie lange das Auto hält und was der Besitzer damit macht, wenn er es repariert hat.
0
Nebula
Nebula24.06.24 15:28
Ein befreundeter Designer ist ganz froh, dass seine Kunden nicht beliebige Nutzungsrechte haben und allen Scheiß mit „seinen Werken“ anstellen können. Natürlich machen einige Kunden das dennoch und lassen Praktikanten oder sachfremde Mitarbeiter ran, die das Corporate Design komplett über den Haufen werfen. Da kommen dann andere Fonts zum Einsatz, Logos werden nicht proportional skaliert und unter Missachtung jeglicher Designprinzipien irgenwohin geklatscht. Er hat jetzt schon mehrfach (nun) ehemalige Kunden aus seinen Referenzen entfernt, weil er jeden Bezug zu ihnen als rufschädigend empfinden würde. Wer Narrenfreiheit will, muss bei ihm deshalb mehr zahlen. Bzgl. 90er: Da konnten viele eben nicht machen, was sie wollten, etwa mangels Hardware oder einfacher Software.
»Wir werden alle sterben« – Albert Einstein
-1
MacStudio25.06.24 09:12
Ich bin ja in der Branche und weiß was du meinst.

Ich glaube nur, dass 99% der Arbeit von den so genanten "Kreativen" nicht mehr ist, als ein Handwerk und deshalb auch so behandelt werden sollte. Das käme allen zugute, den Designern und den Kunden.
0
Nebula
Nebula25.06.24 23:44
Da ist sicher was dran. Ich habe nicht lange in dem Bereich gearbeitet und war auch nie sonderlich kreativ. Heute habe ich aber noch regelmäßig mit Grafikdesignern und Mediengestaltern zu tun. Teilweise erschreckend, was sie abliefern. Ein Designer hält sich für den Designgott und zerreißt alle Ideen von anderen in der Luft, liefert dann aber Sachen ab, die die Mediengestalter heimlich glattbügeln. Es gibt da aber auch langjährige Mediengestalter denen man vorkauen muss, was etwa mit Photoshop möglich ist. Oft werden meine Ideen mit „geht nicht“ abgeschmettert. Dann frage ich, ob sie Funktion X schon probiert haben. Oh, kannten sie noch nicht. Da geht‘s teilweise um Basics wie ein bestimmter Mischmodus (Farbton statt Farbe etwa). Ich habe Photoshop seit CS3 nicht mehr in den Fingern gehabt. Mir leuchtet nicht ein, dass ich das Programm nach all der Zeit offenbar noch besser kenne als „Profis“, die es seit Jahren täglich nutzen. Dabei war meine Ausbildung richtig schlecht, war eher billige Arbeitskraft für wenige Tätigkeiten.
»Wir werden alle sterben« – Albert Einstein
+2

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.