Subquadratic will die Long-Context-Bremse großer KI-Modelle gelöst haben
TL;DR
Subquadratic aus Miami ist im Mai aus dem Stealth-Modus gekommen und behauptet, mit SubQ und Subquadratic Sparse Attention das O(n²)-Problem klassischer Transformer-Attention auf lineares Skalieren zu drücken. Die Firma verspricht bis zu 12 Millionen Token Kontext, 150 Token pro Sekunde und etwa ein Fünftel der Kosten führender LLMs. Das zielt vor allem auf Codebasen, lange Dokumente und Agenten mit dauerhaftem Zustand.
Nauti's Take
Der Claim ist groß genug, dass Skepsis Pflicht ist. Aber die Appen-Zahlen sind konkreter als die übliche Stealth-Startup-Folklore und treffen einen echten Schmerzpunkt: heutige Long-Context-Systeme sind teuer, langsam und oft nur mit viel Klebeband brauchbar.
Subquadratic muss jetzt raus aus der Demo-Zone: öffentliche Methodik, mehr unabhängige Tests, harte Vergleiche auf echten Workflows. Bis dahin ist es kein Durchbruch, sondern ein sehr interessanter Prüfstand.
Einordnunganzeigen
Wenn Subquadratic recht hat, wäre Long Context nicht mehr nur ein größeres Eingabefeld, sondern eine andere Kostenkurve. Das könnte RAG-Pipelines, Chunking und viele Agenten-Workarounds weniger zentral machen. Entscheidend ist aber, ob die Qualität außerhalb ausgewählter Benchmarks und unter echten Produktionslasten hält.