21 / 278

Forscher warnen: KI auf KI-Daten zu trainieren riskiert Model Collapse

TL;DR

Forscher warnen: Wenn KI-Modelle zunehmend auf KI-generierten Daten trainiert werden, droht ein sogenannter 'Model Collapse' – eine schleichende Qualitätsdegradation der Ausgaben.

Key Points

  • Plattformen wie Stack Overflow und Chegg, die früher als Hauptquellen für menschliches Wissen dienten, verlieren massiv an Nutzern – Stack Overflow verzeichnet einen Rückgang von 78%.
  • Das Problem: Das Web füllt sich mit synthetischen Inhalten, die wiederum als Trainingsdaten dienen – ein Rückkopplungskreislauf, der Fehler und Homogenität verstärkt.
  • Ohne ausreichend frische, menschlich generierte Daten riskieren zukünftige Modelle, immer ungenauere und einseitigere Outputs zu produzieren.

Nauti's Take

Das ist das KI-Äquivalent von genetischer Inzucht – und genauso problematisch. Wer glaubt, synthetische Daten könnten menschliches Wissen dauerhaft ersetzen, hat das Grundprinzip von Lernen nicht verstanden.

Besonders bitter: Plattformen wie Stack Overflow waren jahrzehntelang das Rückgrat der Entwickler-Community – und sterben jetzt an dem Werkzeug, das sie mitgefinanziert haben. Die Branche braucht dringend Mechanismen, um menschlich erzeugte Inhalte zu erhalten und zu kennzeichnen, bevor der Rückkopplungskreislauf irreversibel wird.

Video

Quellen