Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

Apple macht mit: KIs werden an YouTube-Inhalten ohne Kenntnis der Produzenten trainiert

Im KI-Bereich herrscht Goldgräberstimmung. Firmen wie OpenAI und Anthropic wollen einen allwissenden Assistenten bieten, der Fragen beantwortet, Texte formuliert und Informationen verständlich zusammenfasst. Dafür verwendete Große Sprachmodelle (Large Language Model, LLM) benötigen möglichst viel Trainingsmaterial für überzeugende Antworten, da sie Fragen nicht im herkömmlichen Sinne „verstehen“, sondern die statistisch wahrscheinlichste Antwort berechnen. Das gemeinnützige Datenjournalismus-Projekt „Proof“ hat nun herausgefunden, dass sich im verwendeten Material auch Inhalte aus einer Vielzahl von YouTube-Videos befindet – ohne Kenntnis oder Genehmigung der Kanalbetreiber.


Dabei handelt es sich nicht um Ton- oder Bildmaterial, sondern lediglich um Untertitel der Videos. Gesammelt wurden sie von EleutherAI, einer nicht profitorientierten Organisation, die sich zum Ziel gesetzt hat, KI-Forschung voranzutreiben. EleutherAI veröffentlichte das Konvolut als „the Pile“ (zu deutsch: der Haufen); er umfasst 800 GByte und lässt sich von jedem Interessierten herunterladen, um eigene LLMs zu trainieren.

Urheberrechtlich bedenklich
Die Untertitel aus YouTube-Videos hat EleutherAI dabei über eine Web-API automatisiert heruntergeladen; ob dies den Nutzungsbedingungen der Plattform entspricht, ist ungeklärt. Auch die eigentlichen Ersteller der Videos wurden nicht gefragt, darunter bekannte YouTuber wie MrBeast und MKBHD, zudem Late-Show-Hosts wie Jimmie Kimmel und John Oliver. Proof bietet eine Suche an, mit der jeder den Pile-Datensatz nach eigenen Inhalten durchforsten lässt. Dabei stellen YouTube-Untertitel nur einen geringen Anteil des Datensatzes. Weitere Teile sind Veröffentlichungen des EU-Parlaments, die englischsprachige Wikipedia sowie elektronische Korrespondenz des Enron-Konzerns, welche durch Gerichtsverfahren öffentlich gemacht wurden, erklärt Proof.

Die Suchfunktion findet Videos zum eingegebenen Suchbegriff, deren Untertitel in der KI-Datenbasis vorkommen.

Auch Apple nutzt „the Pile“ – zumindest für Grundlagenforschung
Offenbar nutzte auch Apple den Pile-Datensatz für KI-Forschungen: In einer Forschungsveröffentlichung zum mobilen lokalen Sprachmodell OpenELM war the Pile Teil des Trainingsmaterials. Allerdings veröffentlichte Apple das resultierende LLM unter Open-Source-Lizenz – hier dienten Trainingsdaten als Standard, um den Algorithmus zu anderen LLMs vergleichen zu können. Es bleibt ungewiss, ob Apple ebendieses Material für Foundation-Modelle verwendet, welche die Basis von Apple Intelligence stellen. Zumindest der YouTube-Anteil würde die Qualität der Resultate eher senken: Untertitel von YouTube-Videos werden oftmals automatisch generiert und sind von Fehlern durchsetzt.

Aktualisierung: Apple Intelligence nicht an Pile trainiert
Nun hat sich Apple selbst zu Wort gemeldet und explizit ausgeschlossen, dass der Pile-Datensatz für das Training von Apple Intelligence verwendet wird.

Kommentare

BigTahunaBurger17.07.24 17:43
Jeder kann die Videos anschauen, warum dann nicht auch eine KI?
-2
tranquillity
tranquillity17.07.24 17:57
Oh Gott, mit Videos, die zu 99.9% nur aus Müll bestehen, werden KIs trainiert? Was soll dabei rauskommen?
+7
Michael Lang aus Rieder17.07.24 18:38
Frei verfügbare Videos oder andere Inhalte. Warum die Aufregung, dass diese für Training von KI-Modellen hergenommen werden?
0
Marcel Bresink17.07.24 20:23
Weil die Art und Weise wie das Training im Moment passiert, potenziell zu einer späteren Urheberrechtsverletzung führen kann. "Frei verfügbar" heißt hier in dem Fall ja nur, dass YouTube vom Urheber eine Lizenz zur öffentlichen Wiedergabe erhalten hat. Es heißt nicht, dass jemand anders den Inhalt kopieren darf.
+11
Nebula
Nebula17.07.24 23:38
Die KI kopiert aber keine Inhalte. So funktioniert sie nicht. Wenn ich Beethovens 9. spiele, habe ich keine Kopie von Beethovens Aufführungen wiedergegeben.
»Wir werden alle sterben« – Albert Einstein
-3
KarstenM
KarstenM18.07.24 06:32
Nebula
Die KI kopiert aber keine Inhalte. So funktioniert sie nicht. Wenn ich Beethovens 9. spiele, habe ich keine Kopie von Beethovens Aufführungen wiedergegeben.

Aber wenn du behauptest, ein selbstkomponiertes Stück zu spielen und die Hälfte davon stammt von Beethovens 9., dann hast du trotzdem Erklärungsbedarf.
+7
DenisY18.07.24 06:45
Nebula
Die KI kopiert aber keine Inhalte. So funktioniert sie nicht. Wenn ich Beethovens 9. spiele, habe ich keine Kopie von Beethovens Aufführungen wiedergegeben.

Bei Beethoven mag das stimmen, da hier auch das Urheberrecht abgelaufen ist. Bei einem Song der letzten 60 Jahre (ich glaub danach läuft das Urheberrecht aus) wäre das aber anders.

Und hier wäre der Vergleich ja vielmehr: wenn du alle Stücke von Musiker:innen studierst und daraus ein eigenes Album machst: kein Problem, selbst wenn Einflüsse von anderen Künstler:innen zu zu finden sind. Wenn aber einzelne Abschnitte deiner Songs klare Kopien von anderen sind, wird’s eben problematisch.

Außerdem geht es ja bei der ganzen Sache nicht darum, die User zu gängeln, sondern dass die Herstellung der AIs dieser Welt und das daraus zukünftig resultierende Geld, das diese Firmen verdienen, ohne Verwertungsrichtlinien für das Ausgabgsmaterial passiert. Aktuell kann ein AI-Artist eine GAN mit Bildern seines Lieblings Illustrators füttern und Bilder generieren die ganz klar nach diesem einen Illustrator aussehen (aber nie eine Kopie sind) und es als (vollständige) eigene Arbeit deklarieren.

Das alles wird natürlich immer schwieriger nachzuvollziehen, je eigenständiger ein LLM wird. Weil irgendwann schlussendlich alle an dem Training und damit auch zur Qualität der AI beitragen. Vielleicht ist dann die Existenz einer AI die Vergütung, die alle gerade fordern.
+5
Marcel Bresink18.07.24 08:53
Nebula
Die KI kopiert aber keine Inhalte.

Doch, in der Praxis passiert genau das. Es gibt mehrere Urheberrechtsklagen gegen KI-Firmen deswegen.
Nebula
So funktioniert sie nicht.

Doch, die KIs, die im Moment gehypet werden, basieren auf Wahrscheinlichkeiten. Für populäre Fragen ist eine populäre Äußerung dazu, wie sie jemand in der Vergangenheit bereits gegeben hat, die wahrscheinlichste Antwort. Von daher sind Urheberrechtsverstöße nicht nur möglich, sondern zu erwarten.
Nebula
Wenn ich Beethovens 9. spiele, habe ich keine Kopie von Beethovens Aufführungen wiedergegeben.

Beethoven ist ein schlechtes Beispiel, weil sein Urheberrecht inzwischen erloschen ist. Du müsstest einen moderneren Musiker nehmen. Und in dem Fall gilt, dass Du für eine öffentliche Nutzung oder Aufführung der Musik eine Lizenz erwerben musst, in Deutschland beispielsweise von der GEMA.
+4
beanchen18.07.24 09:06
Wo seht ihr den Unterschied zwischen einer KI und einer Suchmaschine, was das Durchsuchen von Inhalten im Netz betrifft? Auch Suchmaschinenbetreiber verdienen Geld damit möglichst intelligent Ergebnisse auf verschiedenen Varianten einer Frage zu liefern.

Was völlig anderes finde ich KIs, die aus Gefundenem wieder "eigene Werke kreieren".
Hier ist die Urheberrechtsverletzung vorprogrammiert.
Unterwegs in Analogistan: https://www.zdf.de/comedy/heute-show/heute-show-spezial-vom-19-januar-2024-100.html
0
Nebula
Nebula18.07.24 09:08
Technisch werden keine exakten Kopien der Daten gespeichert, dann wäre der Speicherbedarf solcher LLMs auch nochmals um eine zigfachstes größer und läge noch über einem Suchindex etwa von Google.

Klar, wenn ich einen Song von Billie Eilish aufführen will, muss ich Lizenzgebühren zahlen. Doch dann habe ich immer noch keine Kopie gespielt, sondern nur etwas sehr ähnliches. Da müsste ich schon Playback spielen.

Eventuell gibt es aber unterschiedliche Definitionen von Kopie. Ich verstehe darunter eine „1:1-Abschrift“ der Originaldaten. Wenn ich ein Pagesdokument dupliziere, ist es eine Kopie, ändere ich diese jedoch inhaltlich, ist es keine Kopie mehr, sondern basiert auf einer Kopie.
»Wir werden alle sterben« – Albert Einstein
+1
sonnendeck18.07.24 09:29
Vielleicht bin ich zu Blond aber YouTube versteht die Inhalte bei bei sich "Youtube hat das Recht, veröffentlichte Videos zu teilen und zu nutzen. Dritte haben das Recht, YouTube-Videos anzuschauen und ggf. einzubetten, jedoch nicht das Recht, YouTube-Inhalte zu vervielfältigen und zu teilen."

Da Apple keine eigene KI nutz und hier KI von z.B. Google Bard Tainiert, verstehe ich nicht wie das gegen das geltende Recht was die Content Crestor mit der AGB akzeptiert haben verstossen sollte. Da Google mit Bard sehr wohl die Rechte zur Nutzung hat.
0
Nebula
Nebula18.07.24 23:15
Apple hat keine eigene KI? Was soll Apple Intelligence denn dann sein? Die Zusammenarbeit mit OpenAI ist ja ein gesonderter Aspekt für den Fall, dass Apples KI nicht weiterweiß.
»Wir werden alle sterben« – Albert Einstein
+1
RaphaS
RaphaS19.07.24 10:03
DenisY

Aktuell kann ein AI-Artist eine GAN mit Bildern seines Lieblings Illustrators füttern und Bilder generieren die ganz klar nach diesem einen Illustrator aussehen (aber nie eine Kopie sind) und es als (vollständige) eigene Arbeit deklarieren.

Ich verstehe die ganze Diskussion darüber nicht

Wenn ich einen Künstler liebe, diesen jahrelang studiere und dann selber in diesem Stil male, ist das absolut nichts anderes als das was die KI macht. Es wird ähnlich wie das Original aussehen, aber keine exakte Kopie sein.

Der einzige Unterschied ist hier die Geschwindigkeit. KI lernt und produziert wesentlich schneller. Ich kenne aber kein Urheberrechtsgesetz der Welt welches einen Mindest-Zeitraum für diese Lernphase festlegt, bzw. die Geschwindigkeit der Erstellung neuer Werke basierend auf diesem Material vorschreibt.

Hier geht’s nur darum, dass manche Leute glauben, ihre Werke seien das Wichtigste / der Mittelpunkt der Welt – Ego Problem, mit dem man auch noch Geld machen könnte.

Mal in eine ganz andere Richtung gedacht:

Wenn jemand ein Training darüber erstellt wie Facebook Werbung funktioniert, hat er / sie Urheberrecht drauf – kopieren nicht erlaubt. Wenn ich mir nun aber dieses Training anschaue, es ausprobiere, und danach selber ein Training zu FB Werbung erstelle – ist das völlig legitim, weil hier ja meine eigenen Erfahrungen zusätzlich mit einfließen.

Nur aufgrund dieser ständigen Informationsweitergabe und Ergänzung war langfristige Verbesserung / technischer Fortschritt überhaupt möglich.

Nichts anderes macht KI: Sie kombiniert verschiedene "Erfahrungen" und erstellt daraus etwas Neues.

Ich würde auch behaupten – ohne es sicher zu wissen – das auf News-Seiten oft nichts anderes passiert. Vorhandene Artikel werden mittels KI übersetzt / in neues Gewand gebracht, vielleicht noch kurz überarbeitet und dann auf der eigenen Webseite gepostet.

Sollte man das bestrafen? Warum? Hier wurde einfach nur Zeit gespart, was uns alle antreibt. Warum darf Apple ein Telefon anbieten, wenn das doch jemand ganz anderes erfunden hat?

Man kann die Grenze nur bei klarer 1:1 Kopie ziehen, alles andere ist einfach nur Quatsch.
Völlig egal was Du über Dich und andere denkst – Du wirst immer Recht behalten.
0

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.