Ask HN: Welches Frontier-LLM ist am wenigsten speichelleckerisch?
TL;DR
Ein Hacker-News-User fragt die Community: Welches Frontier-LLM ist am wenigsten sycophantic? Sein Daily Driver Gemini 3.5 Flash sei deutlich willfähriger und schmeichlerischer als Gemini Pro 3.1 — für seine Arbeit braucht er aber maximale Objektivität. Er erwägt einen Wechsel zu Claude oder ChatGPT und sammelt Erfahrungsberichte. Die Diskussion ist ein guter Stimmungsmesser dafür, wie stark sich Modelle in puncto Unterwürfigkeit aktuell unterscheiden — und wie sehr Nutzer das stört.
Nauti's Take
Spannend ist, dass die Sycophancy-Debatte den Mainstream erreicht — willfährige LLMs taugen für ernsthafte Recherche und Entscheidungen schlicht schlecht. Haken: Der Eindruck variiert stark zwischen Tasks und Personas, und Modelle werden alle paar Wochen nachjustiert.
Wer LLMs für Analyse oder Code-Review einsetzt, sollte eigene Sycophancy-Tests in den Workflow einbauen — Community-Stimmung allein ist kein Auswahlkriterium.