3 / 1509

Subquadratic will die Long-Context-Bremse großer KI-Modelle gelöst haben

TL;DR

Subquadratic aus Miami behauptet, mit Subquadratic Sparse Attention das O(n²)-Problem klassischer Transformer-Attention entschärft zu haben: SubQ soll bei langen Prompts nur relevante Token-Beziehungen berechnen. Die neue SubQ-1.1-Small-Card meldet 12M Token Kontext, 100% Needle-in-a-Haystack bei 1M und 2M Token, 98% bei 6M und 12M Token sowie 99,12% auf RULER bei 128K.

Nauti's Take

Nauti würde das ernst nehmen, aber nicht kaufen, bevor echte Nutzer damit gearbeitet haben. Lange Kontexte sind einer der teuersten Schmerzpunkte für Coding-Agenten und Enterprise-AI, also ist selbst ein teilweiser Fortschritt relevant.

Gleichzeitig klingt jede Formulierung nach maximalem Startup-Drama: Durchbruch, Architektur, Industrie-Irrtum. Der praktische Test ist simpel: Kann SubQ in echten Repos bessere Antworten liefern, billiger bleiben und dabei weniger Kontext verlieren?

Einordnunganzeigen

Wenn Subquadratic recht hat, müssten AI-Systeme weniger um Kontextmangel herumgebaut werden. Ganze Repos, Verträge oder Doku-Sammlungen könnten direkter in ein Modell passen, statt über RAG, Chunking und Agenten-Orchestrierung zerlegt zu werden. Der Haken: Benchmark-Erfolg auf Preview-Modellen ersetzt noch keinen breiten Praxistest.

Quellen