Mathematischer Durchbruch bei LLMs? Was hinter den Behauptungen von Subquadratic steckt

Dr. Maik Bunzel

21.06.2026 · 7 Min. Lesezeit

Mathematischer Durchbruch bei LLMs? Was hinter den Behauptungen von Subquadratic steckt

Ein Startup erschüttert die Grundlagen moderner Sprachmodelle

In der Welt der großen Sprachmodelle (Large Language Models, kurz LLMs) sind echte Architekturdurchbrüche selten. Meist sind es schrittweise Verbesserungen bei Trainingsdaten, Parameteranzahl oder Finetuning-Verfahren, die neue Modellgenerationen besser machen. Umso größer war das Aufsehen, als das Miamier KI-Startup Subquadratic aus dem Stealth-Mode trat und behauptete, eines der fundamentalen mathematischen Probleme moderner LLMs gelöst zu haben – ein Problem, das die Branche seit fast einem Jahrzehnt ausbremst. Die Skepsis war zunächst groß, die ersten Belege dünn. Doch inzwischen gibt es unabhängige Evaluierungsergebnisse, die zumindest nachdenklich stimmen.

Das Kernproblem: Warum Transformer so teuer sind

Um zu verstehen, warum die Behauptungen von Subquadratic so brisant sind, muss man sich kurz mit der Funktionsweise heutiger LLMs befassen. Das dominante Architekturprinzip seit 2017 ist der Transformer, beschrieben im wegweisenden Paper „Attention Is All You Need" von Google-Forschern. Im Herzstück jedes Transformers arbeitet ein Mechanismus namens Dense Attention.

Dense Attention funktioniert vereinfacht so: Jedes Wort (genauer: jeder Token) eines Textes wird mit einer Zahl kodiert. Anschließend wird diese Zahl mit den Zahlen aller anderen Token multipliziert – für jedes mögliche Wortpaar. Bei einem Text mit 10.000 Wörtern entstehen so knapp 50 Millionen einzelne Multiplikationen. Und das Tückische daran: Die Anzahl der Berechnungen wächst nicht linear, sondern quadratisch mit der Textlänge. Verdoppelt man die Anzahl der Token, vervierfacht sich der Rechenaufwand. Genau dieser Effekt wird als quadratic expansion bezeichnet – und er ist der Hauptgrund, warum LLMs berüchtigt energiehungrig und teuer im Betrieb sind.

Für Unternehmen, die LLM-basierte Workflows in großem Maßstab betreiben möchten, ist diese Eigenschaft kein akademisches Problem, sondern eine handfeste Kostenbremse. Dr. Maik Bunzel, Gründer und Geschäftsführer von mabucon.eu, beobachtet diesen Engpass in der Praxis regelmäßig: „Viele unserer Kunden stoßen genau dann an Grenzen, wenn es darum geht, sehr große Dokumentenmengen oder umfangreiche Codebasen automatisiert zu verarbeiten. Der Rechenaufwand macht solche Szenarien heute oft unwirtschaftlich."

Sparse Attention: Die Idee hinter dem Versprechen

Subquadratic setzt auf einen Ansatz, der in der Forschungsgemeinde als Sparse Attention bekannt ist. Die Grundidee: Nicht alle Beziehungen zwischen Token in einem Text sind gleich relevant. Ein Modell muss nicht zwingend jedes Wort mit jedem anderen vergleichen, um den Sinn eines Dokuments zu erfassen. Sparse Attention wählt gezielt aus, welche Token-Paare tatsächlich miteinander verglichen werden – und überspringt den Rest.

Das klingt elegant, ist aber alles andere als trivial. Frühere Versuche, Sparse Attention produktionsreif zu machen, scheiterten häufig daran, dass die vereinfachten Auswahlregeln (etwa: „vergleiche immer das erste Wort mit dem fünften") zu starr waren, um die Komplexität natürlicher Sprache abzubilden. Die Leistung dieser Modelle blieb hinter Dense-Attention-Systemen zurück.

Was Subquadratic nach eigenen Angaben anders macht: Ihr Modell namens SubQ wählt die relevanten Token-Paare dynamisch und textspezifisch aus – also nicht nach einem festen Muster, sondern adaptiv für jeden Eingabetext neu berechnet. Genau wie die Selektion im Einzelnen funktioniert, hält das Unternehmen als Betriebsgeheimnis zurück. Das ist in der KI-Branche nicht ungewöhnlich, macht eine externe Prüfung jedoch schwieriger.

Was die unabhängigen Tests zeigen

Der entscheidende Schritt von der Behauptung zum Beleg kam, als Subquadratic Ergebnisse einer unabhängigen Evaluation durch das Unternehmen Appen veröffentlichte. Die Ergebnisse sind bemerkenswert:

Geschwindigkeit: In einem reinen Geschwindigkeitstest war SubQ laut Appen 56-mal schneller als Modelle, die FlashAttention verwenden – einer etablierten, bereits optimierten Sparse-Attention-Technik.
Coding-Performance: Auf dem LiveCodeBench, einem Benchmark für reale Programmierwettbewerbs-Aufgaben, erzielte SubQ 89,7 % – ein Ergebnis, das sich auf Augenhöhe mit führenden Coding-Modellen von OpenAI, Google DeepMind oder Anthropic bewegt.
Kontextfenster: SubQ soll ein Kontextfenster von bis zu 12 Millionen Token unterstützen. Zum Vergleich: Die meisten aktuellen Spitzenmodelle arbeiten mit etwa einer Million Token. Im sogenannten Needle-in-a-Haystack-Test – bei dem ein Modell gezielt Informationen aus riesigen Textkörpern extrahieren soll – erzielte SubQ laut Appen 98 % Treffsicherheit, sowohl bei 6 als auch bei 12 Millionen Token.
Kostenersparnis: Laut Angaben des Unternehmens kostet die Verarbeitung eines bestimmten Benchmark-Laufs mit Anthropics Opus-Modell rund 2.600 US-Dollar – mit SubQ angeblich nur 8 Dollar. Diese Zahl ließ sich bislang nicht unabhängig verifizieren, da SubQ noch nicht allgemein verfügbar ist.

„This could be a game changer, because models struggle with speed and inefficiency. But when you have kind of shocking results, it's really not as credible when you say it yourself." – Jeanine Sinanan-Singh, Appen, Director of Generative AI Research

Einschränkungen und offene Fragen

Benchmarks sind kein vollständiges Bild der Leistungsfähigkeit eines Modells. Sie messen Leistung unter kontrollierten, spezifischen Bedingungen und sind kein Ersatz für den Einsatz auf einer breiten Palette realer Aufgaben. Zudem hat Subquadratic SubQ bislang nur einer sehr begrenzten Anzahl von Nutzern zugänglich gemacht – trotz angeblich zehntausender Interessenten auf der Warteliste, darunter mehr als 500 Unternehmenskunden.

Auch die Tatsache, dass der genaue Mechanismus der dynamischen Token-Selektion nicht offengelegt wird, macht eine vollständige wissenschaftliche Einordnung unmöglich. Erfahrene KI-Ingenieure verweisen darauf, dass in diesem Bereich bereits „so ziemlich alles versucht wurde" und Sparse Attention trotzdem bislang keine dauerhafte Alternative zu Dense Attention im Frontier-Bereich werden konnte. Das Urteil der Community bleibt entsprechend gespalten: Bahnbrechende Architektur oder gut inszenierter Hype?

SubQ ist zudem kein Allround-Modell, das aktuelle Systeme flächendeckend ersetzen soll. Das Unternehmen positioniert es explizit für zwei Szenarien: Coding-Aufgaben und die Verarbeitung sehr großer Datensätze. Für andere Aufgaben – etwa kreatives Schreiben, komplexe Reasoning-Ketten oder multimodale Verarbeitung – wurden bislang keine vergleichbaren Belege vorgelegt.

Was bedeutet das für Unternehmen?

Unabhängig davon, wie sich die Debatte um Subquadratic weiterentwickelt, macht sie ein zentrales Thema für KI-getriebene Unternehmensprozesse deutlich: Die Kosten- und Energiefrage bei LLMs ist real und strategisch relevant. Wer heute Automatisierungsprojekte plant, die auf der Analyse großer Dokumentenmengen – etwa Verträge, technische Dokumentationen, Codebasen oder Forschungsberichte – basieren, stößt schnell an wirtschaftliche Grenzen.

Dr. Maik Bunzel, Gründer und Geschäftsführer von mabucon.eu, sieht in Entwicklungen wie SubQ ein Signal, das die gesamte Branche antreibt: „Wenn sich bestätigt, dass Sparse-Attention-Architekturen tatsächlich frontier-nahe Leistung bei einem Bruchteil der Rechenkosten liefern können, verändert das die Kalkulation für viele Automatisierungsszenarien grundlegend. Nicht nur für große Konzerne, sondern gerade auch für mittelständische Unternehmen, die bislang wegen der Betriebskosten zögern."

Wichtig ist dabei, differenziert zu bleiben: Neue Architekturansätze brauchen Zeit, bis sie produktionsreif und verlässlich skalierbar sind. Unternehmen sollten aufmerksam verfolgen, ob und wie SubQ in den kommenden Monaten einer breiteren Öffentlichkeit zugänglich wird – und welche unabhängigen Praxistests folgen. Bis dahin gilt: Das Versprechen ist erheblich, der Beweis im produktiven Einsatz steht noch aus.

Ausblick: Das Ende der Transformer-Ära?

Subquadratic-CEO Justin Dangel formuliert es provokant: „Wir glauben nicht, dass in einigen Jahren noch jemand auf Transformern aufbauen wird." Das ist eine These, die in der KI-Forschungsgemeinschaft erwartungsgemäß kontrovers diskutiert wird. Transformer sind nicht nur technologisch dominant – sie sind die Grundlage immenser Investitionen in Hardware (insbesondere Nvidia-GPUs), Trainingspipelines und Infrastruktur.

Dennoch: Die Geschichte der Technologie zeigt, dass fundamentale Architekturwechsel möglich sind, wenn die Effizienzvorteile groß genug sind. Ob Subquadratic diesen Wandel tatsächlich einleitet oder ob SubQ ein interessantes Nischenprodukt bleibt, wird die nächste Phase der Öffentlichkeit – inklusive echter API-Zugänge und peer-reviewter Publikationen – zeigen müssen.

Für Unternehmen, die heute KI-Strategien aufbauen, lautet die praktische Konsequenz: Technologische Entwicklungen wie diese im Blick behalten, Pilotprojekte flexibel gestalten und Architekturfragen bei der Auswahl von KI-Lösungen als strategisches Kriterium ernst nehmen – nicht nur Benchmark-Scores.