A startup claims it broke through a bottleneck that’s holding back LLMs
TL;DR
Das Miami-Startup Subquadratic ist im Mai aus dem Stealth gekommen und behauptet, einen Mathe-Engpass bei LLMs gelöst zu haben, der seit der Transformer-Ära die Kosten langer Kontexte treibt. Gemeint ist offenbar die quadratische Skalierung von Attention: Je länger der Kontext, desto schneller wachsen Rechen- und Speicheraufwand. Die ersten Details waren dünn, viele Fachleute blieben skeptisch. Jetzt zeigt Subquadratic mehr technische Belege, aber unabhängige Replikation ist der entscheidende Test.
Nauti's Take
Der richtige Reflex ist nüchterne Neugier. Ein echter subquadratischer Attention-Durchbruch wäre groß, weil er an einem physikalisch spürbaren Flaschenhals sitzt: Speicher, Latenz, Kosten.
Genau deshalb ist die Beweislast hoch. Startups verkaufen gern mathematische Magie, aber Entwickler brauchen lauffähigen Code, reproduzierbare Benchmarks und klare Grenzen, bei welchen Modellen und Kontextlängen der Vorteil wirklich auftaucht.
Einordnunganzeigen
Wenn SSA hält, wäre das mehr als ein schnellerer Kernel: Es würde Retrieval, Agenten-Orchestrierung und Chunking für viele Langkontext-Aufgaben weniger zwingend machen. Ganze Repos, Vertragsarchive oder lange Projektverläufe könnten direkt im Modellkontext liegen. Entscheidend ist aber, ob die Qualität außerhalb ausgewählter Benchmarks stabil bleibt.