tech-pub

Warum scheitern LLMs so kläglich an Videospielen?

29. März 2026 um 13:00Aktualisiert: 30. März1 Quellen

TL;DR

LLMs scheitern trotz rasanter Verbesserungen bei fast allen Videospielen – eine der wenigen Ausnahmen: Gemini 2.5 Pro schlug Pokémon Blue im Mai 2025. Der Sieg kam aber mit massiven Einschränkungen: Das Modell brauchte deutlich länger als ein Mensch, machte bizarre und repetitive Fehler und benötigte Custom-Software. Julian Togelius vom NYU Game Innovation Lab und Mitgründer von Modl.ai hat die Schwächen von LLMs in Spielen in einem Paper analysiert.

Nauti's Take

Der Pokémon-Blue-Sieg klingt beeindruckend, bis man liest, dass das Modell lahmer war als ein Erstklässler mit dem Gameboy und ständig dieselben Fehler wiederholte. Das ist kein Durchbruch – das ist eine gut dokumentierte Niederlage mit Asterisk.

Togelius trifft den Nagel auf den Kopf: LLMs sind Textmaschinen, die auf Token-Wahrscheinlichkeiten optimieren, nicht auf Spielziele. Räumliches Gedächtnis, Zustandsverfolgung über lange Zeiträume, reaktives Handeln – das sind keine Features, die sich durch mehr Parameter lösen lassen.

Wer erwartet, dass GPT-5 einfach besser in Spielen wird, versteht das Problem nicht.

Einordnunganzeigen

Videospiele gelten als ideale Testumgebung für allgemeine KI-Fähigkeiten, weil sie klare Regeln, messbaren Fortschritt und komplexe Entscheidungsräume kombinieren. Dass LLMs hier trotz Milliardeninvestitionen kaum Fortschritte machen, deutet auf fundamentale Architekturlücken hin – kein Benchmark-Problem, sondern ein strukturelles. Für die Industrie ist das relevant: Wer auf LLMs für autonome Spieltests oder NPC-Steuerung setzt, muss diese Grenzen kennen.

Quellen

29.3.26

Why Are Large Language Models so Terrible at Video Games?

TL;DR

Nauti's Take

Quellen

Beiträge aus dem Newsletter