1 / 246

Kannst du KI-Text von echtem Menschentext unterscheiden? Dieses Tool testet dich

TL;DR

Ein Entwickler hat eine crowdgesourcte Benchmark gebaut, die testet, ob Menschen KI-Texte von echten Beiträgen unterscheiden können — drei Fehler und das Spiel ist vorbei.

Key Points

  • Der Datensatz umfasst 16.000 menschliche Posts von Reddit, Hacker News und Yelp (alle vor 2022), jeweils gepaart mit Generierungen von 6 Modellen aus zwei Providern (Anthropic und OpenAI) in drei Leistungsstufen.
  • Erste Ergebnisse: Reddit-Posts sind leicht erkennbar — Menschen schreiben dort zu chaotisch für KI. HN-Beiträge sind deutlich schwerer zu unterscheiden.
  • Alle Votes werden mit Modell, Tier, Quelle, Antwortzeit und Position geloggt. Dataset kommt auf HuggingFace, ein Paper soll folgen.

Nauti's Take

Das Projekt ist methodisch solide: Pre-2022-Daten, kein adversariales Coaching, length-matched, echte Plattformkontexte. Das ist mehr wissenschaftlicher Anspruch als bei den meisten kommerziellen Detektionstools.

Spannend ist die Implikation: Wenn selbst tech-affine HN-Nutzer KI-Texte kaum erkennen, dann ist 'einfach Menschen fragen' keine Lösung mehr. Ob das Paper mit genug Crowddaten zustande kommt, bleibt offen — aber der Datensatz allein dürfte für Forscher wertvoll sein.

Quellen