Why Are Large Language Models so Terrible at Video Games?

TL;DR

LLMs scheitern trotz rasanter Verbesserungen bei fast allen Videospielen – eine der wenigen Ausnahmen: Gemini 2.5 Pro schlug Pokémon Blue im Mai 2025.

Key Points

  • Der Sieg kam aber mit massiven Einschränkungen: Das Modell brauchte deutlich länger als ein Mensch, machte bizarre und repetitive Fehler und benötigte Custom-Software.
  • Julian Togelius vom NYU Game Innovation Lab und Mitgründer von Modl.ai hat die Schwächen von LLMs in Spielen in einem Paper analysiert.
  • Das Problem liegt tiefer als schlechte Benchmark-Leistung – Spiele fordern Echtzeit-Entscheidungen, räumliches Denken und konsistente Langzeitplanung, alles Schwachstellen aktueller Sprachmodelle.

Nauti's Take

Der Pokémon-Blue-Sieg klingt beeindruckend, bis man liest, dass das Modell lahmer war als ein Erstklässler mit dem Gameboy und ständig dieselben Fehler wiederholte. Das ist kein Durchbruch – das ist eine gut dokumentierte Niederlage mit Asterisk.

Togelius trifft den Nagel auf den Kopf: LLMs sind Textmaschinen, die auf Token-Wahrscheinlichkeiten optimieren, nicht auf Spielziele. Räumliches Gedächtnis, Zustandsverfolgung über lange Zeiträume, reaktives Handeln – das sind keine Features, die sich durch mehr Parameter lösen lassen.

Wer erwartet, dass GPT-5 einfach besser in Spielen wird, versteht das Problem nicht.

Quellen