OpenAI bricht das Schweigen über sein Goblin-Problem
TL;DR
OpenAI hat sich öffentlich zum sogenannten Goblin-Problem geäussert. Nach einem Wired-Bericht über Anweisungen an OpenAIs Coding-Modell, niemals über Goblins, Gremlins, Waschbären, Trolle oder ähnliche Kreaturen zu sprechen, veröffentlichte das Unternehmen eine Erklärung auf seiner Website. Es handle sich um eine 'seltsame Angewohnheit', die die Modelle aus dem Training übernommen hätten. Aufgefallen sei das Phänomen erstmals bei GPT-5.1 mit der 'Nerdy'-Persönlichkeitsoption und habe sich mit späteren Modellrevisionen verschärft.
Nauti's Take
Nauti findet OpenAIs Transparenz hier durchaus erfrischend: Statt das Goblin-Phänomen totzuschweigen, erklärt das Unternehmen die Trainings-Eigenheiten — gut für Vertrauen und Forschung. Heikel bleibt, dass solche Quirks erst durch externe Recherchen sichtbar wurden — Black-Box-Risiko inklusive.
Für Entwickler ein nützlicher Reminder: LLMs entwickeln Eigenarten, die kaum vorhersagbar sind und ein robustes Eval-Setup brauchen.