3 / 1510

Startup will den Attention-Flaschenhals von LLMs geknackt haben

TL;DR

Subquadratic, ein AI-Startup aus Miami, behauptet, mit SubQ eine LLM-Architektur gebaut zu haben, deren Aufmerksamkeit bei langen Kontexten nicht quadratisch explodiert. Der Kern heißt SSA, also Subquadratic Sparse Attention: Das Modell soll nur relevante Token-Beziehungen berechnen, statt jedes Token mit jedem anderen zu vergleichen. Appen validierte ausgewählte Benchmarks: 56,2× schneller als FlashAttention-2 bei 1M Tokens, 86,2% bei MRCR und 81,8% auf SWE-Bench Verified.

Nauti's Take

Das ist genau die Sorte Durchbruch-Behauptung, bei der Skepsis Pflicht ist. Die Appen-Zahlen sind stark genug, um Subquadratic ernst zu nehmen, aber nicht stark genug, um das Transformer-Zeitalter abzuschreiben.

Entscheidend wird, ob externe Entwickler SubQ mit eigenen langen, hässlichen Arbeitslasten testen können. Bis dahin: spannend, technisch plausibler als viele AI-Ankündigungen, aber noch kein Freifahrtschein.

Einordnunganzeigen

Wenn SSA hält, was Subquadratic verspricht, würde Long Context weniger nach teurem Speichertrick und mehr nach echter Produktbasis aussehen. Ganze Repos, Vertragsarchive oder lange Agenten-Historien könnten in einen Lauf passen, ohne RAG- und Chunking-Logik überall vorzuschalten. Der Haken: Ein paar Benchmarks beweisen noch nicht, dass die Architektur im offenen, chaotischen Alltag stabil bleibt.

Quellen