KI-Übernahme? Hacker-News-Test fragt Claude nach Fisch-Autos
TL;DR
Ein Ask-HN-Post schlägt einen kleinen Reality-Check für AI-Modelle vor: Claude soll berühmte Autos nennen, die nach Fischen benannt sind, etwa Plymouth Barracuda. Der Thread selbst ist extrem dünn: 2 Punkte, keine Kommentare, kein dokumentierter Modell-Output und keine systematische Auswertung. Als Prompt-Test ist die Idee trotzdem interessant, weil sie eine scheinbar einfache Wissensfrage mit unscharfen Kategorien kombiniert: Auto, Modellname, Fischname, Berühmtheit.
Nauti's Take
Der bessere Test ist nicht, ob Claude bei Fisch-Autos patzt, sondern wie sauber das Modell Unsicherheit behandelt. Eine reife AI würde Rückfragen stellen, Kandidaten trennen und klar markieren, was belegt ist und was nur klingt, als könnte es stimmen.
Genau daran scheitern viele Demos: Sie messen Halluzination, nennen es aber „takeover readiness“. Für echte Bewertung braucht es wiederholbare Prompts, Ground Truth und mehrere Modelle.
Einordnunganzeigen
Solche Prompts zeigen weniger, ob AI generell „bereit“ ist, sondern wo sie bei Alltagswissen, Kategorisierung und Selbstsicherheit stolpert. Gerade einfache Fragen sind wertvoll, weil falsche Antworten dort besonders sichtbar sind. Der Haken: Ein einzelner Prompt ohne dokumentierte Antworten ist kein Benchmark, sondern höchstens ein Startpunkt.