Математический прорыв в LLM? Что стоит за заявлениями Subquadratic


Стартап потрясает основы современных языковых моделей
В мире больших языковых моделей (Large Language Models, сокращённо LLMs) подлинные архитектурные прорывы случаются редко. Как правило, новые поколения моделей становятся лучше благодаря постепенным улучшениям в обучающих данных, количестве параметров или методах Finetuning. Тем большую сенсацию произвело появление из режима скрытной разработки миамского ИИ-стартапа Subquadratic, заявившего о решении одной из фундаментальных математических проблем современных LLMs — проблемы, которая сдерживала отрасль почти десятилетие. Поначалу скептицизм был велик, а первые доказательства — скудны. Однако к настоящему времени появились независимые результаты оценки, которые как минимум заставляют задуматься.
Ключевая проблема: почему трансформеры так дороги
Чтобы понять, почему заявления Subquadratic столь взрывоопасны, необходимо кратко разобраться в принципах работы современных LLMs. Доминирующей архитектурной концепцией с 2017 года является Transformer, описанный в основополагающей статье «Attention Is All You Need» исследователей Google. В основе каждого трансформера работает механизм под названием Dense Attention.
В упрощённом изложении Dense Attention работает следующим образом: каждое слово (точнее — каждый токен) текста кодируется числом. Затем это число умножается на числа всех остальных токенов — для каждой возможной пары слов. При тексте из 10 000 слов это порождает около 50 миллионов отдельных умножений. Коварство здесь в том, что количество вычислений растёт не линейно, а квадратично с длиной текста. При удвоении числа токенов вычислительные затраты возрастают вчетверо. Именно этот эффект называется quadratic expansion — и он является главной причиной, по которой LLMs печально известны своей энергоёмкостью и дороговизной в эксплуатации.
Для компаний, стремящихся запускать LLM-based рабочие процессы в большом масштабе, это свойство является не академической проблемой, а вполне ощутимым тормозом для затрат. Dr. Maik Bunzel, основатель и генеральный директор mabucon.eu, регулярно наблюдает этот узкий место на практике: «Многие наши клиенты упираются в ограничения именно тогда, когда речь заходит об автоматизированной обработке очень больших объёмов документов или обширных кодовых баз. Вычислительные затраты делают подобные сценарии сегодня зачастую нерентабельными».
Sparse Attention: идея, стоящая за обещанием
Subquadratic опирается на подход, известный в исследовательском сообществе как Sparse Attention. Базовая идея такова: не все связи между токенами в тексте одинаково значимы. Модели необязательно сравнивать каждое слово с каждым другим, чтобы уловить смысл документа. Sparse Attention целенаправленно выбирает, какие именно пары токенов действительно сравниваются между собой, — и пропускает остальные.
Это звучит элегантно, однако всё что угодно, только не тривиально. Предыдущие попытки довести Sparse Attention до производственной готовности нередко терпели неудачу: упрощённые правила отбора (например: «всегда сравнивай первое слово с пятым») оказывались слишком жёсткими, чтобы отразить всю сложность естественного языка. В результате производительность таких моделей уступала системам на основе Dense Attention.
Что, по заявлению Subquadratic, отличает их подход: их модель под названием SubQ выбирает релевантные пары токенов динамически и с учётом конкретного текста — то есть не по фиксированному шаблону, а адаптивно, пересчитывая их для каждого входного текста заново. Точный механизм отбора компания сохраняет в тайне как коммерческую тайну. В сфере ИИ это не редкость, однако существенно затрудняет независимую проверку.
Что показывают независимые тесты
Решающий шаг от заявлений к доказательствам был сделан, когда Subquadratic опубликовала результаты независимой оценки, проведённой компанией Appen. Результаты примечательны:
- Скорость: В чистом тесте на скорость SubQ, по данным Appen, оказалась в 56 раз быстрее моделей, использующих FlashAttention — устоявшейся и уже оптимизированной техники разреженного внимания.
- Производительность в Coding: На бенчмарке LiveCodeBench, предназначенном для реальных задач соревновательного программирования, SubQ набрала 89,7% — результат, сопоставимый с ведущими Coding-моделями от OpenAI, Google DeepMind и Anthropic.
- Контекстное окно: SubQ заявлено поддерживает контекстное окно объёмом до 12 миллионов токенов. Для сравнения: большинство современных топовых моделей работают примерно с одним миллионом токенов. В так называемом тесте Needle-in-a-Haystack — где модель должна целенаправленно извлекать информацию из огромных текстовых массивов — SubQ, по данным Appen, показала 98% точности как при 6, так и при 12 миллионах токенов.
- Экономия средств: По данным компании, обработка определённого бенчмаркового запуска с моделью Opus от Anthropic обходится примерно в 2 600 долларов США — тогда как с SubQ якобы всего в 8 долларов. Эту цифру пока не удалось независимо проверить, поскольку SubQ ещё не находится в общем доступе.
«This could be a game changer, because models struggle with speed and inefficiency. But when you have kind of shocking results, it's really not as credible when you say it yourself.» – Jeanine Sinanan-Singh, Appen, Director of Generative AI Research
Ограничения и открытые вопросы
Бенчмарки не дают полного представления о возможностях модели. Они измеряют производительность в контролируемых, специфических условиях и не заменяют использование в широком спектре реальных задач. Кроме того, Subquadratic предоставила доступ к SubQ лишь очень ограниченному числу пользователей — несмотря на якобы десятки тысяч желающих в листе ожидания, включая более 500 корпоративных клиентов.
Тот факт, что точный механизм динамического отбора токенов не раскрывается, также делает полноценную научную оценку невозможной. Опытные ИИ-инженеры указывают на то, что в этой области уже «пробовали практически всё», однако Sparse Attention так и не смогла стать устойчивой альтернативой Dense Attention на уровне frontier-моделей. Мнение сообщества по-прежнему остаётся разделённым: прорывная архитектура или умело срежиссированный хайп?
SubQ также не является универсальной моделью, призванной повсеместно заменить существующие системы. Компания позиционирует её исключительно для двух сценариев: задач Coding и обработки очень больших наборов данных. Для других задач — например, творческого письма, сложных цепочек рассуждений или мультимодальной обработки — сопоставимых доказательств до сих пор представлено не было.
Что это означает для компаний?
Независимо от того, как будет развиваться дискуссия вокруг Subquadratic, она наглядно демонстрирует ключевую тему для бизнес-процессов, управляемых ИИ: вопрос стоимости и энергопотребления LLM реален и стратегически значим. Те, кто сегодня планирует проекты автоматизации, основанные на анализе больших объёмов документов — будь то контракты, техническая документация, кодовые базы или исследовательские отчёты, — быстро сталкиваются с экономическими ограничениями.
Dr. Maik Bunzel, основатель и генеральный директор mabucon.eu, видит в таких разработках, как SubQ, сигнал, движущий всю отрасль: «Если подтвердится, что архитектуры Sparse-Attention действительно способны обеспечивать производительность, сопоставимую с frontier-моделями, при доле вычислительных затрат, это коренным образом изменит расчёты для многих сценариев автоматизации. Не только для крупных корпораций, но и прежде всего для компаний среднего бизнеса, которые до сих пор медлят из-за операционных расходов».
При этом важно сохранять взвешенный подход: новым архитектурным решениям требуется время, чтобы стать готовыми к производственному использованию и надёжно масштабироваться. Компаниям следует внимательно отслеживать, станет ли SubQ доступен широкой аудитории в ближайшие месяцы и каким образом — а также какие независимые практические тесты последуют. До тех пор остаётся в силе следующее: обещание значительное, доказательство в производственной эксплуатации ещё предстоит получить.
Перспективы: конец эпохи Transformer?
Генеральный директор Subquadratic Джастин Дэнгел формулирует это провокационно: «Мы не верим, что через несколько лет кто-то ещё будет строить решения на Transformer». Это тезис, который, как и следовало ожидать, вызывает споры в сообществе ИИ-исследователей. Transformer не просто технологически доминируют — они являются основой колоссальных инвестиций в оборудование (в особенности GPU от Nvidia), конвейеры обучения и инфраструктуру.
Тем не менее история технологий показывает, что фундаментальные архитектурные сдвиги возможны, если преимущества в эффективности достаточно велики. Действительно ли Subquadratic положит начало этой трансформации или SubQ останется интересным нишевым продуктом — покажет следующий этап открытого доступа, включая реальные доступы через API и рецензируемые публикации.
Для компаний, выстраивающих сегодня стратегии в области ИИ, практический вывод таков: отслеживать технологические разработки подобного рода, гибко выстраивать пилотные проекты и воспринимать архитектурные вопросы при выборе ИИ-решений как стратегический критерий — а не ориентироваться лишь на показатели бенчмарков.