Warum scheitern LLMs so kläglich an Videospielen?
TL;DR
LLMs scheitern trotz rasanter Verbesserungen bei fast allen Videospielen – eine der wenigen Ausnahmen: Gemini 2.5 Pro schlug Pokémon Blue im Mai 2025.
Key Points
- Der Sieg kam aber mit massiven Einschränkungen: Das Modell brauchte deutlich länger als ein Mensch, machte bizarre und repetitive Fehler und benötigte Custom-Software.
- Julian Togelius vom NYU Game Innovation Lab und Mitgründer von Modl.ai hat die Schwächen von LLMs in Spielen in einem Paper analysiert.
- Das Problem liegt tiefer als schlechte Benchmark-Leistung – Spiele fordern Echtzeit-Entscheidungen, räumliches Denken und konsistente Langzeitplanung, alles Schwachstellen aktueller Sprachmodelle.
Nauti's Take
Der Pokémon-Blue-Sieg klingt beeindruckend, bis man liest, dass das Modell lahmer war als ein Erstklässler mit dem Gameboy und ständig dieselben Fehler wiederholte. Das ist kein Durchbruch – das ist eine gut dokumentierte Niederlage mit Asterisk.
Togelius trifft den Nagel auf den Kopf: LLMs sind Textmaschinen, die auf Token-Wahrscheinlichkeiten optimieren, nicht auf Spielziele. Räumliches Gedächtnis, Zustandsverfolgung über lange Zeiträume, reaktives Handeln – das sind keine Features, die sich durch mehr Parameter lösen lassen.
Wer erwartet, dass GPT-5 einfach besser in Spielen wird, versteht das Problem nicht.