The Atlantic macht KI-Trainingsdaten für Musik öffentlich durchsuchbar
TL;DR
The Atlantic hat vier Musik-Datensätze offengelegt und öffentlich durchsuchbar gemacht, die in der AI-Entwicklung kursieren. Zwei Sammlungen sind riesig: rund 12 Millionen und 9 Millionen Tracks. Zwei weitere enthalten jeweils mehr als 100.000 Songs. Laut Alex Reisner wurden die Datensätze tausendfach heruntergeladen. Google und Stability haben die Nutzung eines Free-Music-Archive-Sets in Papers bestätigt.
Nauti's Take
Das Spannende ist nicht nur, dass Songs in Trainingsdaten stecken. Spannend ist, dass Journalismus hier aus einem abstrakten Urheberrechtsstreit eine prüfbare Datenbank macht.
AI-Firmen konnten lange mit technischer Komplexität und unklaren Datenketten arbeiten. Wenn Künstler ihre Namen und Songs konkret finden können, wird aus der Nebelwand ein Belegproblem.
Einordnunganzeigen
Die Datenbank macht sichtbar, worüber AI-Firmen sonst lieber vage bleiben: Welche Musik landet überhaupt in Trainingsdaten? Für Musiker ist das mehr als eine Urheberrechtsdebatte, weil frei streambar nicht automatisch frei für kommerzielle Modelltrainings heißt. Der Konflikt verschiebt sich von abstraktem Fair Use zu konkreten Songlisten, Künstlernamen und Nachweisbarkeit.