10 / 1516

Subquadratic verspricht Durchbruch beim Langkontext von KI-Modellen

TL;DR

Subquadratic aus Miami behauptet seit dem 5. Mai, mit SubQ 1M-Preview eine vollständig subquadratische LLM-Architektur gebaut zu haben. Subquadratic Sparse Attention soll nur relevante Token-Beziehungen berechnen statt alle Paare. Der Engpass ist real: Transformer-Attention wächst quadratisch mit der Kontextlänge. Deshalb werden Millionen-Token-Kontexte teuer, und Teams bauen Workarounds wie RAG, Chunking und Agenten-Orchestrierung.

Nauti's Take

Das ist einer der seltenen LLM-Hype-Momente, bei dem die technische Frage wirklich wichtig ist. Quadratische Attention ist kein Marketingdetail, sondern einer der Gründe, warum viele Agenten-Workflows heute so viel Klebeband brauchen.

Trotzdem: Eine Appen-Validierung ist ein Anfang, kein Freifahrtschein. Interessant wird SubQ erst, wenn externe Teams die Architektur unter Alltagslast, langen Fehlerketten und hässlichen Enterprise-Daten prüfen.

Einordnunganzeigen

Wenn das hält, würden lange Kontexte weniger wie ein teures Premium-Feature wirken und eher zu einem normalen Baustein für Codebases, Archive und lange Transkripte werden. Entscheidend sind Kosten und Verlässlichkeit: Weniger Rechenarbeit pro zusätzlichem Token könnte neue Produktformen möglich machen. Bis unabhängige Tests reale Qualität zeigen, bleibt es ein Versprechen mit großem Fragezeichen.

Quellen