Matematyczny przełom w LLM? Co kryje się za twierdzeniami Subquadratic


Startup wstrząsa fundamentami nowoczesnych modeli językowych
W świecie dużych modeli językowych (Large Language Models, w skrócie LLM) prawdziwe przełomy architektoniczne są rzadkością. Zazwyczaj to stopniowe ulepszenia danych treningowych, liczby parametrów czy procedur Fine-Tuning sprawiają, że kolejne generacje modeli są lepsze. Tym większe poruszenie wywołało wyjście z trybu stealth miami'ańskiego startupu AI Subquadratic, który oznajmił, że rozwiązał jeden z fundamentalnych problemów matematycznych nowoczesnych LLM – problem hamujący branżę od niemal dekady. Początkowo sceptycyzm był duży, a pierwsze dowody skąpe. Jednak w międzyczasie pojawiły się niezależne wyniki ewaluacji, które dają przynajmniej do myślenia.
Sedno problemu: dlaczego Transformery są tak kosztowne
Aby zrozumieć, dlaczego twierdzenia Subquadratic są tak brzemienne w skutki, warto na chwilę przyjrzeć się zasadzie działania dzisiejszych LLM. Dominującym paradygmatem architektonicznym od 2017 roku jest Transformer, opisany w przełomowym artykule „Attention Is All You Need" badaczy z Google. W sercu każdego Transformera pracuje mechanizm zwany Dense Attention.
Dense Attention działa w uproszczeniu następująco: każde słowo (dokładniej: każdy token) tekstu jest kodowane liczbą. Następnie liczba ta jest mnożona przez liczby wszystkich pozostałych tokenów – dla każdej możliwej pary słów. W tekście złożonym z 10 000 słów powstaje w ten sposób niemal 50 milionów pojedynczych mnożeń. Podstępna właściwość tego procesu polega na tym, że liczba obliczeń nie rośnie liniowo, lecz kwadratowo wraz z długością tekstu. Podwojenie liczby tokenów czterokrotnie zwiększa nakład obliczeniowy. Właśnie ten efekt określa się mianem quadratic expansion – i jest on głównym powodem, dla którego LLM słyną z ogromnego apetytu na energię i są kosztowne w eksploatacji.
Dla firm chcących obsługiwać przepływy pracy oparte na LLM na dużą skalę właściwość ta nie jest problemem akademickim, lecz realnym hamulcem kosztowym. Dr. Maik Bunzel, założyciel i dyrektor zarządzający mabucon.eu, regularnie obserwuje to ograniczenie w praktyce: „Wielu naszych klientów napotyka bariery dokładnie wtedy, gdy chodzi o zautomatyzowane przetwarzanie bardzo dużych zbiorów dokumentów lub rozbudowanych baz kodu. Nakład obliczeniowy sprawia, że takie scenariusze są dziś często nieopłacalne."
Sparse Attention: idea stojąca za obietnicą
Subquadratic stawia na podejście znane w środowisku badawczym jako Sparse Attention. Podstawowa idea: nie wszystkie relacje między tokenami w tekście są jednakowo istotne. Model nie musi koniecznie porównywać każdego słowa z każdym innym, aby uchwycić sens dokumentu. Sparse Attention selektywnie wybiera, które pary tokenów są faktycznie ze sobą porównywane – i pomija pozostałe.
Brzmi elegancko, ale jest wszystkim, tylko nie prostym zadaniem. Wcześniejsze próby doprowadzenia Sparse Attention do stanu produkcyjnego często kończyły się niepowodzeniem, ponieważ uproszczone reguły selekcji (np. „zawsze porównuj pierwsze słowo z piątym") były zbyt sztywne, by oddać złożoność języka naturalnego. Wydajność tych modeli pozostawała w tyle za systemami opartymi na Dense Attention.
To, co Subquadratic przedstawia jako swoją przewagę: ich model o nazwie SubQ wybiera odpowiednie pary tokenów dynamicznie i w sposób zależny od tekstu – nie według stałego wzorca, lecz adaptacyjnie, obliczany na nowo dla każdego tekstu wejściowego. Dokładny sposób działania tej selekcji firma zachowuje jako tajemnicę handlową. W branży AI nie jest to niczym niezwykłym, utrudnia jednak niezależną weryfikację.
Co pokazują niezależne testy
Decydujący krok od twierdzenia do dowodu nastąpił, gdy Subquadratic opublikował wyniki niezależnej ewaluacji przeprowadzonej przez firmę Appen. Rezultaty są godne uwagi:
- Szybkość: W czystym teście prędkości SubQ był według Appen 56 razy szybszy od modeli wykorzystujących FlashAttention – uznanej, już zoptymalizowanej techniki Sparse Attention.
- Wydajność w kodowaniu: Na benchmarku LiveCodeBench, mierzącym zdolności w rozwiązywaniu zadań z rzeczywistych zawodów programistycznych, SubQ osiągnął 89,7% – wynik plasujący go na równi z czołowymi modelami do kodowania od OpenAI, Google DeepMind czy Anthropic.
- Okno kontekstowe: SubQ ma obsługiwać okno kontekstowe wynoszące do 12 milionów tokenów. Dla porównania: większość aktualnych modeli z czołówki pracuje z około milionem tokenów. W tzw. teście Needle-in-a-Haystack – polegającym na celowym wyszukiwaniu informacji z ogromnych zbiorów tekstu – SubQ osiągnął według Appen 98% trafności, zarówno przy 6, jak i 12 milionach tokenów.
- Oszczędność kosztów: Według danych firmy przetworzenie określonego przebiegu benchmarku modelem Opus od Anthropic kosztuje około 2 600 dolarów – z SubQ rzekomo jedynie 8 dolarów. Liczby tej nie udało się dotychczas niezależnie zweryfikować, ponieważ SubQ nie jest jeszcze ogólnodostępny.
„This could be a game changer, because models struggle with speed and inefficiency. But when you have kind of shocking results, it's really not as credible when you say it yourself." – Jeanine Sinanan-Singh, Appen, Director of Generative AI Research
Ograniczenia i otwarte pytania
Benchmarki nie dają pełnego obrazu możliwości modelu. Mierzą wydajność w kontrolowanych, określonych warunkach i nie zastępują zastosowania w szerokiej gamie rzeczywistych zadań. Ponadto Subquadratic udostępnił SubQ dotychczas jedynie bardzo ograniczonej liczbie użytkowników – mimo rzekomo dziesiątek tysięcy zainteresowanych na liście oczekujących, w tym ponad 500 klientów korporacyjnych.
Również fakt, że dokładny mechanizm dynamicznej selekcji tokenów nie jest ujawniony, uniemożliwia pełną naukową ocenę. Doświadczeni inżynierowie AI zwracają uwagę, że w tej dziedzinie „próbowano już praktycznie wszystkiego", a Sparse Attention mimo to nie stało się dotąd trwałą alternatywą dla Dense Attention w obszarze frontier. Werdykt społeczności pozostaje zatem podzielony: przełomowa architektura czy dobrze wyreżyserowany hype?
SubQ nie jest przy tym modelem ogólnego przeznaczenia, który ma zastąpić obecne systemy na wszystkich frontach. Firma pozycjonuje go wyraźnie pod kątem dwóch scenariuszy: zadań Coding oraz przetwarzania bardzo dużych zbiorów danych. W przypadku innych zadań – takich jak kreatywne pisanie, złożone łańcuchy rozumowania czy przetwarzanie multimodalne – nie przedstawiono dotychczas porównywalnych dowodów.
Co to oznacza dla przedsiębiorstw?
Niezależnie od tego, jak potoczy się debata wokół Subquadratic, jasno wskazuje ona na kluczowy temat dla procesów biznesowych napędzanych przez KI: kwestia kosztów i zużycia energii przez LLM jest realna i strategicznie istotna. Kto dziś planuje projekty automatyzacji oparte na analizie dużych wolumenów dokumentów – takich jak umowy, dokumentacja techniczna, bazy kodu czy raporty badawcze – szybko natrafia na ekonomiczne ograniczenia.
Dr. Maik Bunzel, założyciel i dyrektor zarządzający mabucon.eu, dostrzega w takich rozwiązaniach jak SubQ sygnał napędzający całą branżę: „Jeśli potwierdzi się, że architektury Sparse-Attention są w stanie dostarczyć wydajność zbliżoną do frontier przy ułamku kosztów obliczeniowych, fundamentalnie zmieni to kalkulację dla wielu scenariuszy automatyzacji. Nie tylko dla dużych korporacji, ale przede wszystkim dla średnich przedsiębiorstw, które do tej pory wahały się ze względu na koszty operacyjne."
Ważne jest przy tym zachowanie zróżnicowanego spojrzenia: nowe podejścia architektoniczne potrzebują czasu, zanim staną się gotowe do wdrożeń produkcyjnych i niezawodnie skalowalne. Przedsiębiorstwa powinny uważnie śledzić, czy i w jaki sposób SubQ stanie się dostępny dla szerszej publiczności w nadchodzących miesiącach – oraz jakie niezależne testy praktyczne nastąpią. Do tego czasu obowiązuje zasada: obietnica jest znacząca, lecz dowód w zastosowaniu produkcyjnym wciąż jeszcze przed nami.
Perspektywy: Koniec ery Transformerów?
CEO Subquadratic, Justin Dangel, formułuje to prowokacyjnie: „Nie wierzymy, że za kilka lat ktokolwiek będzie jeszcze budował na Transformerach." To teza, która – zgodnie z oczekiwaniami – wywołuje kontrowersje w środowisku badań nad KI. Transformery nie są tylko technologicznie dominujące – stanowią fundament ogromnych inwestycji w sprzęt (w szczególności GPU Nvidii), potoki treningowe i infrastrukturę.
Niemniej jednak: historia technologii pokazuje, że fundamentalne zmiany architektoniczne są możliwe, gdy korzyści efektywnościowe są wystarczająco duże. Czy Subquadratic rzeczywiście zapoczątkuje tę zmianę, czy też SubQ pozostanie interesującym produktem niszowym – pokaże następna faza publiczna, obejmująca prawdziwe dostępy API i recenzowane publikacje.
Dla przedsiębiorstw budujących dziś strategie KI praktyczna konkluzja brzmi następująco: śledzić takie osiągnięcia technologiczne, elastycznie projektować projekty pilotażowe i traktować kwestie architektoniczne przy wyborze rozwiązań KI jako kryterium strategiczne – a nie wyłącznie wyniki benchmarków.