DiffusionGemma: почему новая open-source-модель Google переосмысляет архитектуру ИИ

Dr. Maik Bunzel

16.06.2026 · 5 мин. чтения

DiffusionGemma: почему новая open-source-модель Google переосмысляет архитектуру ИИ

Конец логики «токен за токеном»: что на самом деле означает DiffusionGemma

На протяжении многих лет мир языковых моделей следовал единственной парадигме: модель генерирует текст, предсказывая слово за словом — точнее, токен за токеном, — где каждый новый токен зависит от предыдущего. Этот авторегрессивный принцип настолько глубоко укоренился в архитектуре LLM, что его почти никто не ставил под сомнение. Google бросает ему принципиальный вызов с помощью DiffusionGemma — и это влечёт далеко идущие последствия для всех компаний, которые не просто потребляют ИИ, но стремятся использовать его стратегически.

DiffusionGemma — не очередное обновление в семействе моделей Gemma. Это концептуальный разрыв. Вместо последовательной генерации токенов модель использует дискретную диффузию: целые блоки до 256 токенов итеративно «очищаются от шума» параллельно — по принципу, знакомому из генерации изображений (Stable Diffusion, Flux), теперь перенесённому в область текста. Результатом становится значительно более высокая скорость генерации токенов в секунду без обязательного снижения качества.

Архитектура в деталях: Sparse MoE встречает двунаправленность

Техническую основу DiffusionGemma составляет архитектура Gemma-4 Mixture-of-Experts с 26 миллиардами параметров в совокупности — из которых при каждом прямом проходе активны лишь около 4 миллиардов. Такой Sparse-MoE-дизайн не случаен: он позволяет существенно снизить стоимость инференса при высокой ёмкости модели, поскольку маршрутизирующая сеть каждый раз активирует лишь наиболее релевантные субсети экспертов.

Особого внимания заслуживает переход от однонаправленного к двунаправленному вниманию. Классические авторегрессивные модели при генерации могут обращаться лишь к уже созданным токенам — техническое ограничение, которое в диффузионном подходе исчезает. DiffusionGemma способна одновременно «охватывать» и уточнять весь генерируемый блок, что способствует формированию более структурированных и связных выходных данных.

Дополнительно предусмотрены Encoder-Decoder-дизайн с кэшированием контекста и явный Thinking-Mode для пошагового рассуждения. Последний позволяет модели внутренне структурировать сложные запросы перед выдачей ответа — возможность, которая до сих пор была привилегией преимущественно проприетарных моделей, таких как серия o от OpenAI.

Мультимодальность как конкурентное преимущество

DiffusionGemma не ограничена текстом. Помимо текста модель обрабатывает изображения произвольного разрешения и видео — и всё это в рамках единой архитектуры. Для компаний, выстраивающих рабочие процессы в области анализа документов, визуального контроля качества или мультимедийного создания контента, это существенное преимущество: одна модель охватывает несколько модальностей, снижая сложность и барьеры при интеграции.

«Захватывающий вопрос не в том, лучше ли дискретная диффузия, чем авторегрессия, — а в том, в каких сценариях применения она структурно превосходит её. Для локальных, оптимизированных по задержке рабочих процессов с чётко ограниченными выходными блоками потенциал выглядит весьма значительным.»

Эту оценку разделяет и Dr. Maik Bunzel, основатель и генеральный директор mabucon.eu, рассматривающий данный подход как логичное следствие устойчивой тенденции: компании хотят ИИ-агентов, которые работают быстро, детерминированно и могут быть развёрнуты локально — и именно здесь DiffusionGemma способна занять нишу, которую Cloud-First-модели структурно не могут заполнить.

Локальное выполнение: ключевое практическое преимущество

Одним из центральных обещаний DiffusionGemma является возможность локального запуска на потребительском оборудовании. Благодаря сочетанию Sparse MoE и подходящего квантования модель должна работать на GPU с объёмом VRAM около 18 ГБ — то есть на оборудовании, которое во многих компаниях уже имеется, например в виде NVIDIA RTX 4090 или профессиональных рабочих станций.

Это отнюдь не тривиальная деталь. Для компаний с жёсткими требованиями к защите данных и соответствию нормативным актам — например, в сферах здравоохранения, финансовых услуг или государственного управления — локальная обработка конфиденциальных данных зачастую не просто желательна, но и предписана регуляторами. Мощная мультимодальная модель, способная полностью работать on-premises, закрывает пробел, который многие облачные провайдеры намеренно оставляют незаполненным.

При этом модель явно оптимизирована для низкой конкурентности (low concurrency) — то есть для сценариев, в которых не требуется обрабатывать сотни одновременных запросов, а один агент или небольшая команда интенсивно использует модель. Это точно соответствует профилю применения многих компаний среднего бизнеса, создающих ИИ-ассистентов для внутренних процессов.

Что компаниям необходимо знать прямо сейчас

Скорость за счёт параллелизации: Генерация целых блоков токенов вместо последовательного вывода способна резко сократить задержку для определённых типов задач — особенно это актуально для создания резюме, структурированного извлечения данных и генерации кода.
Стратегия открытого исходного кода: DiffusionGemma доступна как экспериментальная Open-Source-модель. Это означает полную возможность кастомизации, но также необходимость наличия внутренней или внешней экспертизы для развёртывания и Fine-Tuning.
Оценка зрелости архитектуры: «Экспериментальный» — не маркетинговый термин, а технический сигнал. Для производственных систем рекомендуется тщательная процедура оценки (Evals) — особенно в части Thinking-Mode и мультимодальной интеграции.
Планирование аппаратного обеспечения: Тем, кто планирует локальный инференс, следует воспринимать требование 18 ГБ VRAM как минимальный порог. В зависимости от уровня квантования и длины контекста потребность может возрастать.
Соответствие сценарию использования: Наибольшую выгоду получают рабочие нагрузки с низкой конкурентностью. Для высокопараллельных API-сервисов облачный инференс пока остаётся более эффективным решением.

Оценка: смена парадигмы в замедленном темпе

Было бы преждевременно объявлять DiffusionGemma немедленной заменой устоявшихся авторегрессионных моделей. Архитектура носит экспериментальный характер, зрелость экосистемы (инструментарий, сообщество, бенчмарки) пока находится в стадии формирования. Тем не менее концептуальный сдвиг в направлении развития реален и заслуживает самого серьёзного внимания.

Dr. Maik Bunzel из mabucon.eu помещает это в более широкий контекст: конвергенция дискретной диффузии, Sparse MoE и локального развёртывания свидетельствует о том, что следующее поколение мощных ИИ-моделей будет не обязательно больше, но архитектурно умнее. Для компаний это означает: те, кто уже сейчас понимает технические основы, смогут раньше других принимать обоснованные решения о создании собственных решений или покупке готовых (Build-or-Buy).

Поэтому подлинный стратегический вопрос звучит не как «авторегрессия или диффузия?», а иначе: Какая архитектура соответствует моему профилю применения, моей инфраструктуре и моим требованиям к соответствию нормативным требованиям? DiffusionGemma даёт убедительный новый ответ — для всё большего числа корпоративных ИИ-сценариев, которые до сих пор из-за отсутствия подходящих моделей были вынуждены мириться с неудовлетворительными компромиссами.