Какие LLM сейчас лучшие? Доктор Майк Бунцель из mabucon анализирует рынок искусственного интеллекта

Dr. Maik Bunzel

11.06.2026 · 10 мин. чтения

Какие LLM сейчас лучшие? Доктор Майк Бунцель из mabucon анализирует рынок искусственного интеллекта

Вопрос звучит просто, но таковым не является: Какая языковая модель сейчас лучшая? ChatGPT? Claude Opus? Gemini? Grok? DeepSeek? Или всё же модель с открытым исходным кодом, например Llama?

Dr. Maik Bunzel, основатель mabucon, скептически относится к универсальным рейтингам. По его мнению, важен не бренд модели, а конкретная задача применения. «LLM — это не волшебное средство. Это инструмент. И как с любым инструментом, нужно понимать, для чего именно вы его используете», — объясняет Bunzel.

Именно здесь начинается работа mabucon. Компания разрабатывает КИ-агентов, которые не просто пишут тексты или отвечают на вопросы, а понимают бизнес-процессы, планируют и выполняют их. Речь идёт об Agentic Coding, LLM-оркестрации, RAG-пайплайнах, Tool-Calling, MCP-серверах, Guardrails, Evals и Human-in-the-Loop. Коротко говоря: об ИИ-системах, которые не существуют рядом с компанией на правах чат-бота, а глубоко интегрируются в её рабочие процессы.

От сравнения моделей к реальному вопросу о процессах

Многие компании задают неправильный первый вопрос. Они спрашивают: «Какую модель нам использовать?» Bunzel начал бы иначе: «Какой процесс ежедневно отнимает у вас лишнее время?»

Ведь именно из процесса вытекает, какая модель вообще имеет смысл. Компания, которая ежедневно составляет коммерческие предложения из электронных писем и PDF-вложений, нуждается в совершенно других возможностях, чем компания, которой нужно искать информацию во внутренних базах знаний, автоматизировать поддержку клиентов или формировать ежедневные отчёты.

Поэтому в mabucon каждый проект начинается с анализа потенциала. Рабочие процессы изучаются досконально, узкие места выявляются и оцениваются по трудозатратам и эффекту. Лишь после этого речь заходит об архитектуре: какая модель берёт на себя какую часть? Где нужны быстрые ответы? Где требуется глубокое рассуждение? Где необходимо подтверждение со стороны человека? Где принципиальны защита данных, прозрачность и ведение журналов?

«Лучшая модель — это редко единственная модель. На практике почти всегда побеждает правильная оркестрация.»

ChatGPT: мощный универсал среди ИИ-моделей

OpenAI с ChatGPT для многих пользователей стал символом современного искусственного интеллекта. Актуальные GPT-модели входят в число сильнейших универсальных решений на рынке. Они особенно хороши, когда задачи разнообразны: тексты, аналитика, стратегия, программирование, резюме, творческие идеи, подготовка к исследованиям и структурированная коммуникация.

Bunzel видит ChatGPT наиболее сильным там, где компаниям нужен многофункциональный ИИ, который можно быстро запустить в продуктивную работу. Для юридических фирм, консалтинговых компаний, агентств и работников умственного труда это серьёзное преимущество. Модель, способная структурировать процессуальные документы, разрабатывать маркетинговые тексты, объяснять таблицы, проверять код и набрасывать процессы, приносит пользу немедленно.

Слабость, с точки зрения Bunzel, кроется не в недостатке возможностей, а в соблазне воспринимать ChatGPT как единственное решение.

«Тот, кто просто открывает чат и оставляет сотрудников наедине с ним, не получит автоматизации процессов. Он получит более качественную индивидуальную работу. Это полезно, но ещё не масштабирование.»

Сильные стороны: очень универсален, отлично справляется с текстами, аналитикой, стратегией, Coding и созданием контента.
Слабые стороны: без качественной интеграции часто остаётся изолированным инструментом для разовых задач.
Типичные области применения: работа со знаниями, рабочие процессы юридических компаний, SEO-тексты, внутренние ассистенты, маркетинг и планирование процессов.

ChatGPT отлично подходит в качестве базовой модели для работы со знаниями, создания контента, стратегического анализа и внутренних ассистентов. Однако в реальных агентных системах его следует комбинировать с корпоративными знаниями, чёткими Tool-Calling-правами, механизмами утверждения и циклами оценки.

Claude Opus: силён в языке, коде и длинных цепочках рассуждений

Anthropic с Claude, особенно с моделями серии Opus, нередко воспринимается как особенно сильное решение для сложных текстов, Coding и длительных мыслительных процессов. Claude часто формулирует элегантно, структурированно и естественно. Для больших документов, юридического анализа, технических спецификаций и длинных цепочек аргументации это явное преимущество.

Bunzel рассматривает Claude как модель для сложных задач, требующих точности, стиля и выносливости.

«Claude силён там, где нужно чётко и структурированно обработать длинные, сложные материалы. Особенно в работе с документами, концепциями и программными проектами это может быть очень ценным.»

Сильные стороны: высококачественный язык, анализ объёмных документов, Coding, структурированная аргументация.
Слабые стороны: не всегда является оптимальным выбором для каждого рабочего процесса; доступность и интеграция требуют проверки.
Типичные области применения: Code-Reviews, технические концепции, юридический анализ, длинные тексты и обработка документов.

Для mabucon Claude является кандидатом для сложной работы с документами, Code-Reviews, структурированного анализа и высококачественного создания текстов. В Multi-Agent-системах Claude может выступать в роли «мыслителя», тогда как другие модели берут на себя быстрые рутинные задачи.

Gemini: силён в экосистеме Google и в мультимодальности

Google Gemini раскрывает свои преимущества там, где задействованы сервисы Google, поиск, документы, таблицы, электронная почта, YouTube и мультимодальные данные. Gemini может быть особенно интересен для компаний, которые активно работают в Google Workspace, или когда задача объединяет текст, изображение, видео и поиск.

Bunzel описывает Gemini как модель с большим потенциалом для рабочих сред, в которых информация распределена по множеству систем, связанных с Google.

«Если компания организует повседневную работу в Gmail, Drive, Docs, Sheets и Meet, Gemini становится стратегически значимым. И не только из-за самой модели, но и благодаря экосистеме.»

Сильные стороны: интеграция с Google, поиск, мультимодальность, близость к Workspace, обработка различных медиаформатов.
Слабые стороны: качество может варьироваться в зависимости от интерфейса, варианта модели и интеграции.
Типичные области применения: Google Workspace, YouTube-рабочие процессы, мультимодальные исследования, внутренний поиск по знаниям и операционная автоматизация.

Для очень точных юридических или строго регулируемых процессов Bunzel не стал бы применять Gemini вслепую в одиночку, а всегда комбинировал бы его с валидацией, проверкой источников и Human-in-the-Loop. В агентных архитектурах Gemini может быть особенно силён, когда требуется обрабатывать большие информационные пространства, работать с мультимодальным контентом и автоматизировать рабочие процессы в экосистеме Google.

DeepSeek: интересен по затратам, технике и собственным развёртываниям

DeepSeek зарекомендовал себя как серьёзный провайдер — прежде всего благодаря сильным возможностям в области рассуждений и программирования при зачастую привлекательном профиле затрат. Для технических команд DeepSeek интересен, когда требуется большое количество обращений к модели или когда стоимость одного запроса играет решающую роль.

Bunzel видит в этом важный практический момент:

«При настоящей автоматизации важны не только бенчмарки. Когда агент обрабатывает тысячи операций в месяц, затраты, скорость и стабильность внезапно становятся стратегическими факторами.»

Сильные стороны: хорошее соотношение цены и качества, сильные технические возможности, интерес для большого объёма обращений к модели.
Слабые стороны: защита данных, Governance и доверие требуют особенно тщательной проверки.
Типичные области применения: технические прототипы, экономичная автоматизация, Coding-задачи и внутреннее тестирование.

Слабость заключается в Governance, защите данных и доверии. Компании должны тщательно проверять, где обрабатываются данные, какие требования по соответствию нормативам применяются и подходит ли модель для работы с конфиденциальной информацией. Особенно в юридических фирмах, медицине, финансах или при работе с внутренними корпоративными данными одной лишь дешёвой модели недостаточно.

Mistral: европейская альтернатива с потенциалом для Enterprise

Mistral особенно интересен для компаний, которые отдают приоритет европейским провайдерам, защите данных и контролируемым развёртываниям. Модели обладают высокой производительностью, экосистема растёт, и для многих Enterprise-приложений Mistral может стать стратегически грамотной альтернативой.

Bunzel подчёркивает преимущество европейских KI-стратегий:

«Не каждая компания хочет или может полностью привязать свои ключевые процессы к американским платформам. Особенно при работе с чувствительными данными, нормативными требованиями и в расчёте на долгосрочную независимость следует серьёзно рассматривать альтернативы.»

Сильные стороны: близость к ЕС, ориентация на Enterprise, контролируемые развёртывания, перспектива защиты данных.
Слабые стороны: не во всех бенчмарках достигает уровня абсолютно лучших моделей.
Типичные области применения: внутренние ассистенты, автоматизация с учётом защиты данных, Enterprise-KI и специализированные рабочие процессы.

Mistral не является самой сильной моделью в каждом бенчмарке. Однако на практике речь не всегда идёт о том, чтобы использовать абсолютно мощнейшую модель. Зачастую достаточно очень хорошей модели, если архитектура, база данных, понимание процессов и контроль выстроены правильно.

Llama и Open-Weight-модели: контроль вместо комфорта

Meta Llama и другие модели с открытыми весами особенно актуальны для компаний, которые стремятся к максимальному контролю над своей ИИ-инфраструктурой. Их можно размещать на собственных серверах, адаптировать и интегрировать во внутренние системы. Это технически сложнее, однако обеспечивает стратегическую независимость.

Bunzel рассматривает модели с открытыми весами не как замену всем облачным моделям, а как важный строительный блок.

„Если у компании есть собственные пространства данных, внутренние системы знаний или особо чувствительные процессы, самостоятельно контролируемая модель может оказаться разумным выбором. Но нужно быть честными: эксплуатация требует экспертизы."

Сильные стороны: контроль, адаптируемость, суверенитет данных и собственная инфраструктура.
Слабые стороны: хостинг, безопасность, мониторинг, обновления и оценка качества требуют значительных усилий.
Типичные сценарии применения: внутренние системы знаний, собственные RAG-системы, проекты по защите данных и специализированный корпоративный ИИ.

Сила заключается в контроле, адаптируемости и суверенитете данных. Слабость — в трудозатратах: хостинг, мониторинг, безопасность, обновления, Evals и Fine-Tuning должны быть организованы на профессиональном уровне.

Grok: силён в режиме реального времени, трендах и социальных сетях

Grok от xAI представляет особый интерес, когда важны актуальные дискуссии, динамика социальных сетей и быстрый анализ трендов. Для компаний, активно работающих с X, публичными обсуждениями, мемами или актуальными настроениями аудитории, Grok может оказаться ценным инструментом.

Тем не менее Bunzel не стал бы выбирать Grok в качестве первоочередного инструмента для высокоточной профессиональной работы.

„Для отслеживания трендов и публичных дискуссий Grok может быть интересен. Но для юридических, медицинских или бизнес-критичных процессов необходим более высокий уровень контроля."

Сильные стороны: ощущение реального времени, динамика социальных сетей, анализ трендов и публичные дискуссии.
Слабые стороны: менее подходит в качестве основы для точной профессиональной работы и регулируемых корпоративных процессов.
Типичные сценарии применения: мониторинг социальных сетей, радар трендов, публичные дискуссии, идеи для контента и быстрая оценка настроений рынка.

Таким образом, Grok — скорее радар, чем фундамент: силён там, где речь идёт о скорости, культурном контексте и публичном обсуждении; слабее там, где требуются надёжные экспертные решения.

Почему mabucon не ставит на одну модель

Ключевой тезис анализа Bunzel звучит так: Будущее принадлежит не одной наилучшей модели, а интеллектуальной комбинации нескольких моделей. Агент может использовать быструю модель для классификации, мощную модель для сложных решений, экономичную модель для рутинных задач и особо защищённую модель для работы с чувствительными данными.

К этому добавляются RAG-Pipelines — системы, которые обеспечивают целенаправленный доступ к корпоративным знаниям. Tool-Calling связывает агента с CRM, ERP, бухгалтерией, почтовыми ящиками и внутренними системами. Guardrails устанавливают границы. Evals проверяют качество. Human-in-the-Loop обеспечивает участие человека в принятии решений на критических этапах.

Разница между чат-ботом и продуктивным ИИ-агентом проста: чат-бот отвечает. Агент выполняет.

Dr. Maik Bunzel: от построения юридической фирмы к процессному интеллекту

Внимание Бунцеля к процессам — не теория. На протяжении многих лет он выстраивал специализированную юридическую фирму федерального масштаба с офисами в Котбусе, Берлине и Киле и вёл ответственность за несколько тысяч мандатов. Тот, кто работает в регулируемой, документоёмкой и коммуникационно насыщенной среде, быстро понимает, где теряется время: при фиксации, сортировке, проверке, переадресации, контроле и документировании.

Из этого опыта родился mabucon. Компания переводит мышление в категориях построения юридической фирмы, права, структуры и масштабирования в автономные ИИ-системы для бизнеса. Точность при этом — не маркетинговое слово. Для Бунцеля это ремесло. ИИ-агент не может работать «примерно правильно». Он должен быть прозрачным, соответствующим нормам и поддающимся проверке.

Самый мощный LLM — лишь настолько хорош, насколько хороша система за ним

Тот, кто сегодня спрашивает о лучшем LLM, не получит простого ответа. ChatGPT — сильный универсал. Claude убеждает в работе с языком, кодом и длинными аналитическими текстами. Gemini выигрывает в экосистеме Google и в задачах мультимодальности. DeepSeek интересен с точки зрения стоимости и технических решений. Mistral предлагает европейскую enterprise-перспективу. Llama символизирует контроль и собственные деплойменты. Grok привлекателен для анализа трендов и дискуссий в реальном времени.

Но для Dr. Maik Bunzel это лишь поверхность. Решающее значение имеет то, что компании строят на этой основе. Отдельная модель, возможно, экономит минуты. Грамотно оркестрированный агент способен изменить целые бизнес-процессы.

Поэтому настоящий вопрос звучит не так: какой LLM лучший? Более точный вопрос: какой процесс в вашей компании завтра уже не должен выполняться вручную?