Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

Apples KI-Web-Crawler: Immer mehr Webseiten verweigern Datenzugang

Viele der größten Websites weltweit haben sich entschieden, ihre Inhalte nicht für Apples KI-Training zur Verfügung zu stellen. Die betroffenen Plattformen, darunter Facebook, Instagram sowie bekannte Medienhäuser wie die New York Times und The Atlantic, blockieren Apples Web-Crawler „Applebot“. Apple verwendet diesen Bot, um Inhalte aus dem Internet zu sammeln und für verschiedene Zwecke, wie etwa Siri, Spotlight und Apple Intelligence zu nutzen. Diese Praxis gilt als umstritten, da sie oft auf urheberrechtlich geschütztes Material zugreift, um daraus neue Inhalte zu generieren.


Der ethische Ansatz von Apple
Apple verfolgt im Gegensatz zu vielen anderen KI-Unternehmen einen relativ transparenten und ethischen Ansatz. Webseitenbetreiber können sich über das Einfügen eines speziellen Tags in ihre „robots.txt“-Datei gegen Nutzung ihrer Daten durch Apple entscheiden. Damit wird Applebot zwar weiterhin für Indexierung von Inhalten genutzt, jedoch werden diese Daten nicht für das KI-Training verwendet.

Prominente Ablehnung
„WIRED“ berichtet, dass etwa ein Viertel der US-Newsplattformen sowie einige global aktive Unternehmen den Applebot blockieren. Dazu gehören neben Facebook und Instagram auch Websites wie Craigslist, Tumblr, The Financial Times und Vox Media. Interessant ist, dass der "Condé Nast"-Verlag, zu dem unter anderem WIRED gehört, Apples Web-Crawler blockiert. Dies könnte darauf zurückzuführen sein, dass OpenAI und Condé Nast eine Kooperation gestartet haben, um journalistische Inhalte in KI-Systeme zu integrieren. Erwähnenswert ist außerdem, dass der Google Bot laut dem Artikel sogar von rund 53 % der untersuchten Nachrichtenseiten blockiert wird.

Finanzielle Motive hinter der Blockade
Manche Insider vermuten, dass Apple mit einigen Medienunternehmen Vereinbarungen getroffen hat, um deren Inhalte für das KI-Training nutzen zu dürfen. Diese Vereinbarungen beinhalten wahrscheinlich finanzielle Kompensationen, was einige Verlage dazu veranlasst haben könnte, zunächst die Nutzung ihrer Daten zu blockieren, um bessere Konditionen auszuhandeln. Da die Möglichkeit, sich gegen die Teilnahme am AI-Training zu entscheiden, erst seit relativ kurzer Zeit besteht, ist es möglich, dass die Zahl der blockierten Websites in Zukunft noch weiter ansteigen wird. Für Apple könnte dies bedeuten, dass sich das Unternehmen intensiver mit den Interessen der Content-Ersteller auseinandersetzen muss, um weiterhin auf qualitativ hochwertige Daten zugreifen zu können.

Kommentare

beanchen30.08.24 12:48
Ich frage mich gerade, ob Apple nicht das qualitativ hochwertigere Ergebnis erhält, wenn Facebook und Instagram ausgeschlossen bleiben.
Unterwegs in Analogistan: https://www.zdf.de/comedy/heute-show/heute-show-spezial-vom-19-januar-2024-100.html
+35
clayman30.08.24 13:11
Wenn Instagram, Facebook, etc. die Daten ihrer User mal genauso schützen würden wie "ihre Daten" ....
+20
Robby55530.08.24 14:09
Meiner Meinung nach wäre der umgekehrte Ansatz besser - das gesamte Internet darf und muss frei für das Training der KIs verwendet werden, Ausnahmen ausgeschlossen. Die Ergebnisse wären sicher besser und auch politisch neutraler.
-6
bernddasbrot
bernddasbrot30.08.24 16:53
Das ist sehr fraglich! Die ersten Versuche, einen KI-basierten Chatbot zu veröffentlichen, der auch Twitter-Posts in seiner Datenbank hatte, führte dazu, dass dieser nach kurzer Zeit ständig User beleidigte und herumpöbelte (authentisch eben). Er musste nach kurzer zeit vom Netz genommen werden (war, meines Wissens von Google oder Microsoft).
Robby555
Meiner Meinung nach wäre der umgekehrte Ansatz besser - das gesamte Internet darf und muss frei für das Training der KIs verwendet werden, Ausnahmen ausgeschlossen. Die Ergebnisse wären sicher besser und auch politisch neutraler.
+2
Kovu
Kovu30.08.24 17:01
Robby555
Meiner Meinung nach wäre der umgekehrte Ansatz besser - das gesamte Internet darf und muss frei für das Training der KIs verwendet werden, Ausnahmen ausgeschlossen. Die Ergebnisse wären sicher besser und auch politisch neutraler.
Natürlich. Wo es doch im Internet keinerlei Falschinformationen oder Fehlverhalten gibt.
+4
Robby55530.08.24 17:43
Kovu
Robby555
Meiner Meinung nach wäre der umgekehrte Ansatz besser - das gesamte Internet darf und muss frei für das Training der KIs verwendet werden, Ausnahmen ausgeschlossen. Die Ergebnisse wären sicher besser und auch politisch neutraler.
Natürlich. Wo es doch im Internet keinerlei Falschinformationen oder Fehlverhalten gibt.

Die KI muss nach und nach lernen verschiedene Meinungen und Informationen nach Wahrheitsgehalt zu bewerten und entsprechend der gestellten Aufgabe zu selektieren. Wenn nur einseitige Meinungen als gut oder richtig bewertet werden kommt so ein Müll raus wie bei Googles Bildgenerator. Mit genügend Input aus verschiedenen Geschichtsquellen (Bilder, Filmaufnahmen, Bücher) wäre das nicht passiert aber diese Infos müssen der KI uneingeschränkt gegeben werden.
0
holk10030.08.24 20:40
Die Ki kann nicht bewerten und schon gar nach Wahrheitsgehalt. Was wahr ist ja grade Kern vieler Auseinandersetzungen im Internet und nicht alles ist objektiv wissenschaftlich überprüfbar.
+1
Garak
Garak31.08.24 00:21
Immer mehr Inhalte im Internet werden von KIs erstellt. Wenn nun KIs sich diese von KIs erstellen Inhalte einverleiben, um zu lernen, was bekommt man dann eigentlich?
+2
don.redhorse31.08.24 03:08
wenn man sich mit z.B ChatGPT (kostenlose Nutzung) "unterhält", am besten über Themen die eigentlich nur in Deutschland interessant sind, dann merkt man das die Datenlage eher mau ist. Beim Nachfragen, bzw. vertiefen von Aussagen wird entweder umgeschwurbelt, oder tatsächlich Unsinn erzählt. Man kann diese Aussagen dann korrigieren, nächste Woche wird aber wieder das Gleiche behauptet. Also ich denke wir sind da ganz am Anfang der Entwicklung. Also ohne vernünftige Quellenkritik kann man nichts aus einer KI einfach so nutzen/ stehen lassen.
+2
Robby55531.08.24 08:25
Garak
Immer mehr Inhalte im Internet werden von KIs erstellt. Wenn nun KIs sich diese von KIs erstellen Inhalte einverleiben, um zu lernen, was bekommt man dann eigentlich?

Genau deswegen sollten KI Inhalte extra gekennzeichnet werden und aus dem Training der KIs herausgenommen werden. Mein Vorschlag alle Quellen uneingeschränkt verwenden zu dürfen bezog sich auf von Menschen gemachte Inhalte.
0
beard-simpson31.08.24 09:18
Robby555
Meiner Meinung nach wäre der umgekehrte Ansatz besser - das gesamte Internet darf und muss frei für das Training der KIs verwendet werden, Ausnahmen ausgeschlossen. Die Ergebnisse wären sicher besser und auch politisch neutraler.

Aus welcher Grundlage soll das geschehen? Die Erstellung von Inhalten kostet Geld und Zeit. Ein Artikel wird in der Regel von Redakteuren zeitaufwändig recherchiert, Fotos werden produziert, bearbeitet und Texte verfasst. Aus welchem Grund sollte das alles - nur weil man es "kostenfrei" lesen darf - nun plötzlich allen geldgierigen Konzernen frei zur Verfügung gestellt werden damit sie Datenbanken aufbauen die man dann später mit Abos bezahlen soll? Ich kann diese Meinung überhaupt nicht nachvollziehen.
+3
sahomuzi31.08.24 17:22
Garak
Immer mehr Inhalte im Internet werden von KIs erstellt. Wenn nun KIs sich diese von KIs erstellen Inhalte einverleiben, um zu lernen, was bekommt man dann eigentlich?

Hier auf ORF ist vielleicht ein für deine Frage interessanter Beitrag dazu:
+1
Robby55531.08.24 18:06
sahomuzi
Garak
Immer mehr Inhalte im Internet werden von KIs erstellt. Wenn nun KIs sich diese von KIs erstellen Inhalte einverleiben, um zu lernen, was bekommt man dann eigentlich?

Hier auf ORF ist vielleicht ein für deine Frage interessanter Beitrag dazu:

Ziemlich gut erklärt und ein weiterer Grund warum eine KI wie ein Kind in der Schule mit Wissen aus vielen Bereichen gefüttert werden muss (Geschichte, Naturwissenschaften usw.). Dieses Wissen solle auch regelmäßig abgeprüft werden damit kein Müll rauskommen kann nur weil einzelne Worte von der Wahrscheinlichkeit her besser zueinander passen (wie im Video wo die Hauptstadt Österreichs Kärnten sein soll).
0

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.