15 / 1564

Hacker-News-Test sucht die Sollbruchstelle von KI im Arbeitsalltag

TL;DR

Ein Ask-HN-Post schlägt einen simplen Prompt als AI-Realitätscheck vor: Claude soll berühmte Autos nennen, die nach Fischen benannt sind, etwa Plymouth Barracuda. Der Test zielt nicht auf Mathe oder Code, sondern auf Alltagswissen, Kategorien und saubere Unsicherheit: Welche Modellnamen sind wirklich Fischbezüge, welche nur ähnlich? Der konkrete HN-Beitrag ist sehr dünn: 2 Punkte, 0 Kommentare und praktisch nur der Beispielprompt. Die Debatte steckt also eher in der Idee als im Thread.

Nauti's Take

Der Prompt ist als Schlagzeile etwas überzogen, aber als schneller Lackmustest nützlich. AI ist nicht deshalb unreif, weil sie bei Autonamen nach Fischen stolpert; sie ist unreif, wenn sie dabei so tut, als wäre Stolpern unmöglich.

Ein gutes System müsste sagen: Barracuda ist klar, danach wird es dünn, hier sind unsichere Kandidaten oder ich brauche eine engere Definition. Genau diese Demut fehlt in vielen Produktdemos.

Einordnunganzeigen

Solche Mini-Prompts zeigen oft klarer als große Benchmarks, wo Sprachmodelle wackeln: bei banalen, aber unscharfen Wissensfragen. Wenn ein Modell aus Listenlogik heraus plausible, aber falsche Beispiele erfindet, ist das ein Problem für jede Recherche- oder Assistenznutzung. Entscheidend ist nicht, ob es viele Antworten liefert, sondern ob es merkt, wann die Kategorie eng wird.

Quellen