The Atlantic zeigt, welche Songs in KI-Trainingsdaten stecken
TL;DR
The Atlantic-Reporter Alex Reisner hat vier Musik-Datensätze gefunden, die in der AI-Entwicklung genutzt werden, und sie öffentlich durchsuchbar gemacht. Zwei Datensätze sind riesig: einer enthält rund 12 Millionen Tracks, ein weiterer 9 Millionen. Zwei kleinere Sammlungen kommen jeweils auf mehr als 100.000 Songs. Google und Stability haben in Papers bestätigt, Teile solcher Daten genutzt zu haben. Bei vielen anderen Downloads bleibt unklar, wer die Datensätze verwendet hat.
Nauti's Take
Das ist genau die Art Transparenz, die in der AI-Musikdebatte fehlt. Die Branche versteckt sich gern hinter Skala, Forschung und Fair-Use-Rhetorik, aber am Ende geht es um einzelne Werke, die jemand aufgenommen, veröffentlicht und oft bewusst unter bestimmte Bedingungen gestellt hat.
Wenn Modelle auf Musikmärkte zielen, dürfen Trainingsdaten nicht als Nebensache behandelt werden. Ohne saubere Herkunft bleibt AI-Musik ein Geschäftsmodell mit fremdem Rohstoff.
Einordnunganzeigen
Die Datenbank macht sichtbar, was AI-Firmen oft hinter Begriffen wie öffentlich verfügbare Daten verstecken: konkrete Songs, konkrete Künstler, konkrete Lizenzfragen. Besonders heikel ist, dass freie Streams oder persönliche Nutzung nicht automatisch Training für kommerzielle Modelle erlauben. Für Musiker wird aus einer abstrakten Copyright-Debatte plötzlich eine überprüfbare Spur.