Когда команда выбирает LLM для продакшена, «сравнение по бенчмаркам» — это лишь первый фильтр. Для CTO ключевой вопрос звучит иначе: какую комбинацию качества, стоимости, стабильности API, юридических ограничений и интеграций мы получим на реальной нагрузке.
Я разобрал популярные модели через призму двух контуров: качество/бенчмарки и инфраструктурная пригодность.
Современные крупные языковые модели можно оценивать по разным бенчмаркам, отражающим их способность решать широкий круг задач, включая генерацию текстов, понимание контекста и решение прикладных задач.
Важно: бенчмарк отвечает на вопрос «что модель может в лаборатории», но не отвечает на вопросы «сколько это будет стоить на 1M запросов», «как поведёт себя на пиках», «какие SLA/uptime», «где хранятся данные» и «какие есть ограничения по оплате/контрактованию». Поэтому дальше — сначала кратко про качество, затем — про инфраструктуру и эксплуатацию.
Chat GPT-5
Лидер в большинстве публичных оценок: GPT-5 — «умнее, быстрее и полезнее», со встроенным режимом рассуждений и механизмом выбора режима ответа, который решает, когда отвечать быстро, а когда — глубже анализировать.
Показывает топовые результаты в лидербордах, в том числе у Альянса в сфере ИИ (MERA): в разделе по коду вверху рейтинга — модели семейства GPT-5 (например, GPT-5.1-Codex-Max).
Сильная адаптация к прикладным задачам и интеграциям через API: есть линейка «размеров» (GPT-5 / GPT-5 mini / GPT-5 nano), настройка «глубины рассуждений», большой контекст (до 400 000) и поддержка ввода текст+изображения.
GPT-5.2
Сильное качество на русском: в MERA Text у GPT-5.2 общий результат 0.707 и 5-е место — это сводный балл по набору русскоязычных задач.
Где особенно хороша: модель в «топе» по нескольким основным задачам и на части из них показывает результат выше “человеческого” ориентира (например, RWSD, ruWorldTree, ruOpenBookQA, ruTiE).
Инфраструктура и эксплуатация (проще): это закрытая модель, доступная через API — то есть её обычно подключают вызовами к сервису, а не разворачивают у себя; в сабмите также зафиксированы параметры инференса (часто без случайности, а для кодовых задач — с temperature=0.6).
Gigachat Max
Занимает 45 место в MERA Text, общий результат — 0.588.
По задачам видно «профиль» качества: в топе по ruModAr (входит в число основных; 0.938), при этом хорошие результаты на ruWorldTree (0.975/0.975) и ruOpenBookQA (0.918/0.737), но заметно слабее на ряде задач вроде ruCodeEval (0.077/0.093/0.098), ruDetox (0.199) и ruHateSpeech (0.611).
С точки зрения эксплуатации в рамках бенчмарка это закрытая модель через API; прогон делали на инфраструктуре 5× NVIDIA H100 80GB, batch=1; генерация в большинстве задач детерминированная, а на кодовых — со сэмплированием.
DeepSeek V3
Представляет собой мощную открытую языковую модель с 671 миллиардами параметров, из которых 37 миллиардов активируются для каждого токена.
Русский (MERA Text): в рейтинге MERA для русского текста у сабмита DeepSeek-V3 общий результат 0.677 и 9-е место. В “сильных” задачах отмечены ruWorldTree (результат выше человеческого), MaMuRAMu (тоже выше человеческого), а также ruTiE/USE/MathLogicQA; среди слабых — RWSD, RCB, ruEthics и др.
Практика доступа/стабильность: веса у модели доступны по MIT-лицензии, но в конкретном замере MERA модель гоняли через API (openrouter / deepseek-chat) — поэтому в реальном проекте качество “по цифрам” упирается ещё и в провайдера/канал доступа (лимиты, задержки, доступность).
Уделю внимание, конечно, и производительности моделей на русском языке, думаю, это нам с вами особенно актуально.
GPT-5.2 — сильный универсальный ориентир по качеству: в русскоязычном бенчмарке MERA у модели 0,707 общего результата и 5-е место в рейтинге. При этом OpenAI позиционирует GPT-5.2 как модельную серию для профессиональной работы и агентных сценариев (инструменты/длинные цепочки).
YandexGPT Pro 5.1 — флагманская модель Яндекса в продуктах «Алисы»: компания указывает, что ответы «Алисы» в мессенджерах работают на базе YandexGPT 5.1 Pro и доступен режим рассуждений для сложных задач.
GigaChat 3 Ultra Preview — ставка на русскоязычность и контроль развертывания: SberDevices пишет, что это крупная открытая MoE-модель, «нативно обученная на русском», с 702B параметров и ≈36B активных (на токен), опубликованная под MIT-лицензией. В MERA эта версия показывает 0,683 и занимает 6-е место.
DeepSeek — сильная инженерная/агентная линия: в MERA для DeepSeek-V3 зафиксированы 0,677 и 9-е место. В декабре 2025 DeepSeek анонсировал V3.2 как reasoning-first модели «для агентов» и отдельно подчеркивает интеграцию thinking прямо в tool-use (а также выпуск весов). При этом по «чисто русскому» качеству многое будет зависеть от ваших данных/инструкций/пост-тюнинга, даже если общая архитектура и метрики сильные.
YandexGPT Pro 5.1 отсутствует в публичном лидерборде MERA. Возможное ограничение — часть задач в бенчмарках часто считают через log-likelihood, где нужны логиты/лог-вероятности, а многие API этого не отдают; MERA отмечает, что log-likelihood режим обычно не подходит для API-моделей и рекомендует генеративный режим. При этом MERA поддерживает оценку через API (с v1.2.0), поэтому при наличии опубликованного сабмита/интеграции модель можно замерить и сравнить.
По данным Яндекса, 5.1 Pro выигрывает у предыдущей версии и в их внутренних сравнениях приближается к GPT-4.1, но это вендорская оценка с ограниченно раскрытой методикой.
Ключевой вывод: «нет в Leaderboard» ≠ «хуже», но это означает, что сравнение становится неполным и требует либо собственного бенчмарка, либо пилота на реальных данных. В таких случаях правильная практика — фиксировать метрики качества/ошибок/стоимости на своём датасете и прогонять модели в одинаковых условиях (температура, промпт, длина контекста, формат ответа).
Для оценки инфраструктурных параметров языковых моделей я анализировал ключевые показатели, включая стоимость, размер контекстного окна (количество токенов), поддержку LangChain и стоимость обработки отзывов. Анализ основан на представленных данных, включающих модели Chat GPT-5, Gigachat Max, GPT-5.2, YandexGPT 5.1 Pro, Cotype и DeepSeek V3.
GPT-5 (OpenAI)
Стоимость токенов (Standard, за 1 млн токенов): input: $1.25 → 96,51 ₽; output: $10 → 772,09₽.
Контекстное окно: 128 000 токенов.
Поддержка LangChain: да (через стандартную интеграцию OpenAI API).
Стоимость обработки отзывов: если 300 input + 60 output токенов на 1 отзыв, то ≈ 75,3₽ за 1000 отзывов (при курсе выше).
GPT-5.2 (OpenAI)
Стоимость токенов (Standard, за 1 млн токенов): input: $1.75 → 135,12₽; output: $14 → 1080,93₽.
Контекстное окно: 128 000 токенов.
Поддержка LangChain: да (OpenAI API).
Стоимость обработки отзывов (300+60 токенов): ≈ 105,4₽ за 1000 отзывов.
GigaChat Max
Стоимость токенов: 650 ₽ за 1 млн токенов (то есть 0,65₽ за 1000 токенов).
Контекстное окно: 128 000 токенов.
Поддержка LangChain: прямой «из коробки» коннектор зависит от вашей обвязки; как минимум есть официальный SDK/инструменты вокруг GigaChat API (обычно подключают через адаптер).
Стоимость обработки отзывов (300+60 токенов): всего 360 токенов, значит ≈ 234₽ за 1000 отзывов.
YandexGPT Pro 5.1 (Yandex AI Studio)
Стоимость токенов: 0,82 ₽/1000 токенов (вход и выход, синхронно, вкл. НДС), 0,41 ₽/1000 (асинхронно, вкл. НДС).
Контекстное окно: фиксируйте по разделу лимитов/моделей.
Поддержка LangChain: практически да, потому что у AI Studio есть режим совместимости с OpenAI.
Стоимость обработки отзывов (300+60 токенов): ≈ 186,23 ₽ за 1000 отзывов.
Cotype (MWS AI / МТС)
Стоимость токенов: от 0,40 ₽ за 1000 токенов (pay-as-you-go; публично на сайте MWS GPT).
Контекстное окно: до 128 000 токенов
Поддержка LangChain: да через OpenAI-совместимый API.
Стоимость обработки отзывов (300+60=360 токенов): 0,144 ₽, 144 ₽ за 1000 отзывов.
DeepSeek V3
Стоимость токенов: вход: $0,28 / 1 млн токенов → ≈ 21,62 ₽ / 1 млн,, выход: $0,42 / 1 млн токенов → ≈ 32,43 ₽ / 1млн
Контекстное окно: 128 000 токенов.
Поддержка LangChain: да.
Стоимость обработки отзывов: (300 вход + 60 выход): ≈ 0,00843₽ (≈ 0,84 коп.) ⇒ ≈ 8,43 ₽ за 1000 отзывов.
Если задача с жёстким ограничением бюджета
DeepSeek V3 — лучший выбор по цене: ≈ 8,43 ₽ за 1000 отзывов (300+60), LangChain да, контекст 128k.
Если нужен чуть более качественный текст, но бюджет всё равно важен: GPT-5 — ≈ 75,3 ₽ за 1000 отзывов и LangChain да.
Практичный вариант: каскад — DeepSeek для 90–95% отзывов, GPT-5/5.2 только для сложных/пограничных случаев (экономит деньги без потери качества там, где важно).
Если нужны большие контексты + высококачественная генерация
DeepSeek V3 — лучший баланс большой контекст + минимальная цена; для длинных входов/доков это самый бюджетный вариант из списка.
Если приоритет — контур/корпоративная эксплуатация + 128k, то Cotype (128k, LangChain да) — но по цене на 1000 отзывов он выходит ≈ 144 ₽, то есть дороже GPT-5 в твоём расчёте (75,3 ₽), но с преимуществом “инфраструктурно ближе”.
GigaChat-2 Max тоже даёт 128k, но по твоему сценарию самый дорогой на отзывы: ≈ 234 ₽ / 1000 — я бы выбирала его, когда важнее экосистема/политики/интеграции, чем цена.
Важно: у GPT-5 / GPT-5.2 в твоих данных нет значения контекстного окна, поэтому «лучший для больших контекстов» я их не называю — иначе это было бы предположение.
Для русскоязычных задач, где важна специфика языка
Если приоритет — русскоязычная нативность + локальная экосистема, то:
— YandexGPT 5.1 Pro (LangChain “практически да” через OpenAI-совместимость) — но по цене в твоём расчёте ≈ 186,23 ₽ / 1000 отзывов.
— GigaChat-2 Max — тоже “про русский”, но ещё дороже: ≈ 234 ₽ / 1000.
Если приоритет — строгий формат и предсказуемость вывода (JSON) при минимальной цене, то DeepSeek V3 выигрывает у локальных по бюджету и даёт 128k (но при таком выборе обычно заранее проверяют качество именно на вашей предметной области).
Если приоритет — наиболее «ровная» генерация (тон/стиль/структура) и бюджет не самый жёсткий — GPT-5.2 (дороже GPT-5: ≈ 105,4 ₽ / 1000 vs 75,3 ₽ / 1000).
В следующий раз расскажу про инфраструктуру для использования LLM как сервиса. Если остались вопросы – пишите, буду рад.
Источник


