Britannica verklagt OpenAI: GPT-4 soll ihre Inhalte auswendig gelernt haben
TL;DR
Encyclopedia Britannica und Merriam-Webster haben OpenAI verklagt, weil das Unternehmen ihre urheberrechtlich geschützten Inhalte ohne Erlaubnis zum Training von GPT-4 verwendet haben soll.
Key Points
- Laut Britannica hat GPT-4 große Teile ihrer Inhalte 'auswendig gelernt' und gibt auf Anfrage nahezu wortgenaue Kopien aus.
- Die Kläger sprechen von 'substantially similar' Outputs – also Antworten, die den Originaltexten so ähnlich sind, dass eine Urheberrechtsverletzung vorliege.
- Merriam-Webster schließt sich der Klage an – beide Verlage gehören zu den traditionsreichsten Referenzwerken der englischsprachigen Welt.
Nauti's Take
Das Argument mit der 'Memorization' ist juristisch interessant, weil es den Fokus vom Trainingsprozess auf den Output verschiebt – und dort lässt sich eine Verletzung tatsächlich konkret nachweisen. Britannica hat anscheinend Hausaufgaben gemacht und GPT-4 systematisch zu ihren eigenen Texten befragt.
Sollte das Gericht folgen, wird 'wie ähnlich ist der Output dem Original? ' zur zentralen Frage für KI-Anbieter.
Dann wird Retrieval Augmented Generation plötzlich nicht nur eine technische, sondern eine rechtliche Notwendigkeit.
Hintergrund
Dieser Fall könnte ein Präzedenzurteil für das gesamte KI-Training auf urheberrechtlich geschützten Daten werden. Wenn Gerichte bestätigen, dass 'Memorization' eine Urheberrechtsverletzung darstellt, geraten die Trainingsdatensätze aller großen Sprachmodelle unter massiven rechtlichen Druck. Für OpenAI wäre ein Verlust besonders heikel, da parallel zahlreiche weitere Klagen von Verlagen und Autoren laufen.
Die Frage, ob und wie Modelle lizenzierte Inhalte 'vergessen' können, rückt damit technisch und juristisch in den Fokus.