Я собрал команду из 9 ИИ-агентов, которая проектирует, пишет, тестирует и деплоит других ИИ-агентов. Полный цикл — от пользовательского запроса до production-reЯ собрал команду из 9 ИИ-агентов, которая проектирует, пишет, тестирует и деплоит других ИИ-агентов. Полный цикл — от пользовательского запроса до production-re

9 агентов, 6 моделей, 1 сервер: как собрать ИИ-компанию на open-source в марте 2026

2026/03/13 02:03
16м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу [email protected]

Я собрал команду из 9 ИИ-агентов, которая проектирует, пишет, тестирует и деплоит других ИИ-агентов. Полный цикл — от пользовательского запроса до production-ready кода с тестами и security review. Без людей в цикле.

Ниже — конкретика: какие модели, на какие роли, почему именно эти, как они шарят GPU, сколько стоят в гигабайтах и какие бенчмарки реально определяют выбор. С конфигурациями развёртывания от одной RTX 4090 до кластера A100.

TL;DR: 9 логических агентов = 3-4 физических модели. Минимальный сетап — 24 GB VRAM (одна RTX 4090). Полный продакшен — 211 GB (четыре A100). Интерактивный дашборд для визуализации всей системы.


Зачем 9 агентов вместо одного GPT-5

Первый вопрос, который задают: зачем 9 моделей, когда можно одну большую?

Ответ в бенчмарках. У каждой модели есть суперсила — и слабое место:

Модель

Active

Суперсила

Score

Слабость

Kimi K2.5

32B

Кодогенерация (HumanEval)

99.0

Тяжёлая (1T total, ~125 GB), SWE-bench только 76.8

MiniMax M2.5

10B

Real-world баги (SWE-bench)

80.2

Нет данных по reasoning и instruction following

Qwen3.5-397B

17B

Reasoning + инструкции (GPQA / IFEval)

88.4 / 92.6

SWE-bench 76.4 — хорош, но не лучший кодер

DeepSeek V3.2

37B

Универсал (MMLU-Pro + LiveCodeBench + Aider)

85.0 / 83.3 / 74.2

Нет лидерства ни в одном бенчмарке — но топ-5 везде

GLM-4.7

32B

Tool use (tau-bench)

87.4

Заточена под оценку, а не генерацию кода

Qwen2.5-Coder-32B

32B

Локальный кодинг (HumanEval + Aider)

92.7 / 73.7

Dense-модель — нет MoE-экономии, только код

Devstral Small 2

24B

Agenting в реальных кодовых базах

SWE 68.0

24B — слабее на abstract reasoning

Ни одна модель не покрывает всё. Kimi K2.5 — бог HumanEval, но весит 125 GB и посредственно чинит реальные баги. Qwen3.5-397B — лучший reasoning, но не лучший кодер. GLM-4.7 — единственная модель с по-настоящему хорошим tool use — и она вообще не про кодогенерацию. DeepSeek V3.2 — везде в топ-5, но нигде не первый.

Не бывает «лучшей модели». Бывает лучшая модель для конкретной роли. Классическая софтверная команда — это специализация: аналитик не пишет код, тестировщик не проектирует архитектуру. С LLM — то же самое.


Архитектура: от запроса до деплоя

Вот как устроен пайплайн. Пользователь говорит: «Сделай мне агента поддержки, который интегрируется с Jira», и дальше:

User Request │ ▼ [1. Оркестратор] ─── декомпозиция задачи, маршрутизация │ ├──► [2. Аналитик] ─── ARD (Agent Requirement Document) │ │ │ ▼ ├──► [3. Исследователь] ─── Context Package (API, доки, паттерны) │ │ │ ▼ ├──► [4. Архитектор] ─── TDD (Technical Design Document) │ │ │ ▼ ├──► [5. Промпт-инженер] ─── Prompt Package (системный промпт, guardrails, tool configs) │ │ │ ▼ ├──► [6. Билдер] ─── код агента + конфигурации │ │ │ ▼ │ [7. Тестировщик] ─── тесты провалены? │ │ │ │ │ да │ нет │ ▼ ▼ │ [6. Билдер] [8. Критик] ─── «это хорошо сделано?» │ (fix & retry) │ │ ▼ └──────────────► [9. Безопасник] ─── Security Audit │ ▼ Production-ready Agent

Каждый агент коммуницирует через структурированные артефакты (ARD, TDD, Prompt Package), а не через свободный текст. Это критично: передача контекста через free-form текст между агентами — это «испорченный телефон» в квадрате. Артефакты со строгой схемой решают эту проблему.

Два обязательных feedback loop:

  • Builder ↔ Tester: код не считается готовым, пока тесты не пройдены

  • Builder ↔ Critic: тесты могут пройти, но код при этом может быть плохим


9 ролей: детальный маппинг модель → задача

Теперь — самое интересное. Для каждой роли я выбрал модель по принципу: какой бенчмарк критичен для этой роли, и кто в нём лидер.

1. Оркестратор — Qwen3.5-397B (17B active)

Мозг системы. Принимает запрос, декомпозирует на подзадачи, маршрутизирует между агентами, собирает результат.

Критические бенчмарки: GPQA (глубокое рассуждение) и IFEval (точность следования инструкциям).

Почему Qwen3.5-397B: лучший GPQA 88.4% среди всех open-source + лучший IFEval 92.6%. Оркестратор должен точно понимать, что хочет пользователь, и умно решать, кому делегировать. Любая ошибка оркестратора ломает весь пайплайн по цепочке.

397 миллиардов параметров, но благодаря MoE активны только 17B на каждый токен. ~50 GB VRAM в INT4.

Бюджет: QwQ-32B (16 GB) — сильный reasoning при 32B dense.

2. Аналитик требований — Qwen3-8B

Превращает расплывчатый запрос пользователя в структурированный ARD.

Для этой роли не нужен deep reasoning или кодогенерация — нужно хорошо понимать intent и формировать structured output. Qwen3-8B с его thinking/non-thinking mode — оптимальный баланс: достаточно умный для анализа требований, достаточно лёгкий (4 GB), чтобы не отъедать GPU у более требовательных ролей.

3. Исследователь — Qwen3.5-397B (shared с Оркестратором)

Собирает контекст до проектирования: существующие решения, API-документация, reference implementations.

Шарит инстанс с Оркестратором — они никогда не работают одновременно. Оркестратор делегирует и ждёт, пока Исследователь закончит. Ноль дополнительных GPU.

Альтернатива, когда нужен огромный контекст: Llama 4 Scout с окном 10M токенов.

4. Архитектор — DeepSeek V3.2 (37B active, 685B total)

Проектирует систему: компоненты, API, data flow, error handling, выбор фреймворка.

Критические бенчмарки: нужен одновременно и хороший reasoning, и понимание кода.

Почему V3.2: MMLU-Pro 85.0 (широкая эрудиция) + SWE-bench 73.1% (понимает реальные кодовые базы) + LiveCodeBench 83.3. Это единственная модель в топ-5 одновременно по reasoning И coding бенчмаркам. ~85 GB в INT4.

Бюджет: DeepSeek-R1-Distill-Qwen-32B (16 GB) — MATH-500 94.3, CodeForces 1691.

5. Промпт-инженер — Qwen3.5-397B (shared с Оркестратором)

Создаёт системные промпты, guardrails, few-shot examples, tool configurations.

Логика выбора: модель с лучшим IFEval (92.6%) лучше всех понимает, что делает инструкции эффективными. Она знает, как LLM реагируют на формулировки — потому что сама лучше всех им следует. Шарит инстанс с Оркестратором.

6. Билдер — Qwen2.5-Coder-32B (dense)

Пишет код. Много кода. Быстро.

Специализированная coding-модель. HumanEval 92.7% (уровень GPT-4o), Aider 73.7 (polyglot — работает с разными языками и фреймворками). Dense-модель — предсказуемое качество, нет MoE-джиттера.

При INT4 — всего 16 GB. Влезает на одну consumer-карточку.

Бюджет: Qwen2.5-Coder-7B (4 GB) — HumanEval 88.4, бьёт CodeStral-22B.
Перспектива: Qwen3-Coder-Next (3B active, 80B total) — SWE-bench 70.6% при 10 GB.

7. Тестировщик — Devstral Small 2 (24B dense)

Генерирует тесты, ищет edge cases, валидирует acceptance criteria из ARD.

Ключевое: SWE-bench 68.0%. Эта модель обучена на real-world software engineering задачах. Она понимает не изолированные функции, а целые кодовые базы — контексты, зависимости, интеграции. 12 GB в INT4.

Бюджет: Falcon H1R-7B (4 GB) — AIME 83.1% reasoning при 7B. Маленькая, но думает как большая.

8. Критик — GLM-4.7 (32B active, 355B total)

Оценивает результат не по принципу «тесты прошли», а «это хорошо сделано»: качество кода, ясность промптов, надёжность guardrails, соответствие архитектуре.

Критический бенчмарк: tau-bench — оценка качества tool use в реальных сценариях. GLM-4.7: 87.4% — лучший показатель среди всех open-source моделей. Критик должен понимать, как агенты используют инструменты, и оценивать качество этого использования.

44 GB в INT4.

Бюджет: Ministral 14B Reasoning (7 GB) — AIME ~85%, GPQA 71.2.

9. Безопасник — DeepSeek V3.2 (shared с Архитектором)

Prompt injection, утечки данных, избыточные permissions, API key management, adversarial тестирование.

Шарит инстанс с Архитектором — они работают в разных фазах пайплайна (Архитектор до кода, Безопасник после). Широкая база знаний (MMLU-Pro 85.0) + понимание кода = adversarial thinking.

Бюджет: DeepSeek-R1-Qwen3-8B (4 GB) — AIME 87.5% reasoning. Adversarial thinking за 4 гигабайта.


Шаринг инстансов: 9 агентов ≠ 9 GPU

Это, пожалуй, главный архитектурный трюк. Агенты работают последовательно в пайплайне: пока Билдер пишет код, Оркестратор ждёт. Пока Тестировщик проверяет — Билдер свободен.

Модели, которые никогда не работают одновременно, разделяют один инстанс:

Shared-инстанс

Роли

Почему вместе

VRAM

Qwen3.5-397B

Оркестратор, Аналитик, Исследователь, Промпт-инженер

Последовательный пайплайн — оркестратор делегирует и ждёт

50 GB

DeepSeek V3.2

Архитектор, Безопасник

Архитектор работает до кода, Безопасник — после

85 GB

Qwen2.5-Coder-32B

Билдер, запасной Тестировщик

Билдер заканчивает до начала тестирования

16 GB

GLM-4.7

Критик

Единственная модель с хорошим tau-bench

44 GB

Devstral Small 2

Тестировщик

Специализация на реальных кодовых базах

12 GB

Итого: 9 логических агентов → 5 физических инстансов → 207 GB VRAM.

Для бюджетного варианта (3 модели, 5 агентов) — 24 GB. Одна RTX 4090.


Бенчмарки, которые реально определяют выбор

Забудьте про MMLU и HellaSwag — они давно упёрлись в потолок, лидерборды стоят на месте. В 2026 году для агентных систем критичны совсем другие метрики:

Бенчмарк

Что измеряет

Для каких ролей

Почему важен

SWE-bench Verified

Починка реальных багов в реальных GitHub-репозиториях

Builder, Tester, Architect

Единственный бенчмарк, где модель работает с реальным кодом, а не toy-примерами

IFEval

Точность следования сложным инструкциям

Orchestrator, Prompt Engineer

Оркестратор живёт на инструкциях. IFEval < 90% = агент не понимает, что от него хотят

GPQA Diamond

Graduate-level reasoning (физика, химия, биология)

Orchestrator, Architect

Показатель глубины рассуждений. Если модель решает задачи PhD-уровня, она справится с декомпозицией

tau-bench

Качество tool use в реальных (не синтетических) сценариях

Critic, любой агент с tools

Единственный бенчмарк, тестирующий реальное использование инструментов, а не только парсинг JSON

Aider Polyglot

Кодогенерация на разных языках с реальным edit-test циклом

Builder

Измеряет способность модифицировать существующий код, а не писать с нуля

LiveCodeBench

Competitive programming (свежие задачи, без утечки в training data)

Architect, Builder

Чистый тест на reasoning + код, исключает memorization

BFCL v4

Function calling accuracy

Любой агент с API-интеграциями

Стандартный бенчмарк для вызова функций. Лучший open-source: Qwen3.5-122B-A10B (72.2%)

Источники: SWE-bench Verified, LiveBench, Berkeley Function Calling Leaderboard V4, Aider LLM Leaderboards, LMSYS Arena.


MoE: почему frontier-качество стало доступным

Mixture-of-Experts — главное архитектурное изменение, сделавшее этот проект возможным. Объясню на конкретных числах:

Модель

Всего параметров

Активных за токен

Качество

VRAM (INT4)

Qwen3.5-397B

397B

17B

≈ Claude 3.5 Sonnet

50 GB

MiniMax M2.5

230B

10B

SWE-bench 80.2% (лучший open-source)

29 GB

Qwen3-Coder-Next

80B

3B

SWE-bench 70.6%

10 GB

DeepSeek V3.2

685B

37B

MMLU-Pro 85.0, LiveCodeBench 83.3

85 GB

Как это работает: Все 397B параметров загружены в VRAM, но на каждый токен работает маленькая часть — 17B. Это как офис на 400 человек, где над каждой задачей работают 17, но каждый раз — другие 17 специалистов.

Для VRAM это значит: вы платите за хранение всех параметров (VRAM = total params). Но при вычислениях платите за инференс только активных (скорость ≈ dense-модель размера active params).

Для агентной фабрики, где агенты работают последовательно, MoE идеален:

  • VRAM заняты, но один инстанс обслуживает 4 роли

  • Compute на токен — как у 17B-модели, а не 397B

  • Качество — frontier-уровня

Именно MoE позволяет запустить 9 агентов frontier-качества на нескольких GPU.


Open-source vs. API: три технических аргумента

1. Token overhead

Один пользовательский запрос → 20-30x overhead на внутреннюю коммуникацию между агентами. Оркестратор генерирует task description, Аналитик — ARD, Исследователь — Context Package, Архитектор — TDD, и так далее. Каждый артефакт — это сотни и тысячи токенов.

При API-ценах (допустим, $3/M input + $15/M output для frontier-модели) один сложный запрос обходится в $0.50-2.00. При 1000 запросах в день — $500-2000/день. На своём железе — фиксированная стоимость GPU.

2. Latency

Оркестратор на критическом пути каждого запроса. Каждый вызов API — сетевой roundtrip (50-200ms сверху). При 5-10 внутренних вызовах на запрос (Оркестратор → Аналитик → Исследователь → Архитектор → ...) сетевые задержки складываются в 0.5-2 секунды только на накладные расходы. На локальном железе — коммуникация между моделями через UNIX socket или shared memory.

3. Паритет качества

В марте 2026 китайские лабы выпустили open-source модели, которые бьют GPT-4o по большинству бенчмарков:

Метрика

Лучший open-source

Лучший проприетарный

Разрыв

SWE-bench

MiniMax M2.5 80.2%

Claude Opus 4.5 80.9%

0.7%

HumanEval

Kimi K2.5 99.0%

GPT-5.2 98.5%

OS лидирует

GPQA Diamond

Qwen3.5-397B 88.4%

Gemini-3-Pro 89.1%

0.7%

AIME 2025

Kimi K2.5 96.1%

Claude Opus 4.5 97.0%

0.9%

Все модели — MIT или Apache 2.0 лицензия. Qwen (Alibaba), DeepSeek, GLM (Zhipu), Kimi (Moonshot), MiniMax. Зависимость от проприетарных API больше не оправдана разницей в качестве.


Развёртывание: от домашнего GPU до продакшена

Конфигурация A: MVP на одной карточке (1x RTX 4090 / A100)

5 агентов, 3 модели, 24 GB VRAM:

┌─────────────────────────────────────────────────────┐ │ 1x GPU (80 GB) │ │ │ │ ┌────────────────────────┐ VRAM: 16 GB (INT4) │ │ │ QwQ-32B │ Роли: Оркестратор, │ │ │ (32B dense) │ Аналитик, Архитектор │ │ │ │ (shared) │ │ └────────────────────────┘ │ │ │ │ ┌────────────────────────┐ VRAM: 4 GB (INT4) │ │ │ Qwen2.5-Coder-7B │ Роль: Билдер │ │ └────────────────────────┘ │ │ │ │ ┌────────────────────────┐ VRAM: 4 GB (INT4) │ │ │ Falcon H1R-7B │ Роль: Тестировщик │ │ └────────────────────────┘ │ │ │ │ Свободно: ~56 GB (KV cache + headroom) │ └─────────────────────────────────────────────────────┘

Да, 24 гигабайта. RTX 4090. Пять агентов, которые принимают запрос, проектируют, пишут код, тестируют и отдают результат. На видеокарте из игрового компьютера.

Конфигурация B: Quality Team (2x A100 80GB)

7 агентов, 4 модели, 73 GB VRAM:

┌──────────────────────────┐ ┌──────────────────────────┐ │ GPU 1 (80 GB) │ │ GPU 2 (80 GB) │ │ │ │ │ │ Qwen3.5-397B (~50 GB) │ │ Qwen2.5-Coder-32B │ │ → Оркестратор │ │ (16 GB) │ │ → Аналитик │ │ → Билдер │ │ → Промпт-инженер │ │ → Тестировщик (shared) │ │ → Исследователь │ │ → Безопасник (shared) │ │ │ │ │ │ Ministral 14B (~7 GB) │ │ Свободно: ~64 GB │ │ → Критик │ │ │ └──────────────────────────┘ └──────────────────────────┘

Появляется frontier-качество Оркестратора (Qwen3.5-397B вместо QwQ-32B), отдельный Критик и Промпт-инженер.

Конфигурация C: Full Production (4x A100 80GB)

9 агентов, 6 моделей, все «best picks», 211 GB VRAM:

┌──────────────────┐ ┌──────────────────┐ ┌──────────────────┐ ┌──────────────────┐ │ GPU 1 (80GB) │ │ GPU 2 (80GB) │ │ GPU 3 (80GB) │ │ GPU 4 (80GB) │ │ │ │ │ │ │ │ │ │ Qwen3.5-397B │ │ DeepSeek V3.2 │ │ Qwen2.5-Coder │ │ GLM-4.7 │ │ ~50 GB │ │ ~85 GB │ │ -32B ~16 GB │ │ ~44 GB │ │ │ │ │ │ │ │ │ │ Оркестратор │ │ Архитектор │ │ Билдер │ │ Критик │ │ Аналитик │ │ Безопасник │ │ │ │ │ │ Исследователь │ │ │ │ Devstral 24B │ │ Falcon H1R-7B │ │ Промпт-инженер │ │ │ │ ~12 GB │ │ ~4 GB │ │ │ │ │ │ │ │ │ │ │ │ │ │ Тестировщик │ │ Router/Eval │ └──────────────────┘ └──────────────────┘ └──────────────────┘ └──────────────────┘

Каждая роль получает оптимальную модель. Все feedback loops работают с лучшими пиками.


Квантизация: что, чем и зачем

A100 не поддерживает FP8 нативно (в отличие от H100/B200), поэтому INT4 — основной формат.

Роль

Метод

Ядро

Качество vs FP16

Почему

Оркестратор, Критик

AWQ INT4

Marlin

~95%

Quality-critical роли. AWQ даёт +2-3% качества vs GPTQ

Билдер, Тестировщик

GPTQ INT4

Marlin

~93%

Throughput-critical. GPTQ чуть быстрее на генерации

Малые модели (7-14B)

AWQ INT4

~95%

При <14B разница AWQ/GPTQ минимальна

Consumer GPU

GGUF Q4_K_M

llama.cpp

~92%

Через Ollama. Q5_K_M для quality-critical ролей

Marlin kernels — ключевая оптимизация для A100: 10.9x ускорение INT4 инференса. Без Marlin INT4 на A100 работает медленнее, чем FP16 — потому что A100 нативно не оптимизирована под INT4.

Правило: Q5_K_M для Оркестратора/Архитектора/Критика (quality-critical), Q4_K_M для Билдера/Тестировщика (throughput-critical).


Инфраструктура инференса

Движок

Для чего

Рекомендация

SGLang

Агентные нагрузки

RadixAttention переиспользует KV cache между multi-turn вызовами агентов. Лучший выбор для agent factory

vLLM

Общий продакшен

Шире экосистема, стабильнее. Fallback, если SGLang вызывает проблемы

llama.cpp / Ollama

Consumer GPU

GGUF-квантизация. Лучший вариант для разработки и прототипирования на RTX

SGLang особенно важен для агентных систем: его RadixAttention хранит KV cache между multi-turn вызовами агентов. Когда Оркестратор многократно обращается к модели в рамках одной задачи, каждый вызов переиспользует кеш предыдущих — экономия compute до 40-60% на повторных обращениях.

Архитектура деплоя: одна модель на GPU (или MIG-партицию). Не пытайтесь запускать несколько моделей на одном GPU одновременно — тулинг для этого ещё незрел. Неактивные модели — на CPU offload.


Tier S: ландшафт open-source моделей (март 2026)

Для контекста — вот полная картина лидеров, из которых я выбирал:

Модель

Total / Active

Архитектура

Главное достижение

Лицензия

Kimi K2.5

1T / 32B

MoE

HumanEval 99.0, AIME 96.1, MATH 98.0

MIT

MiniMax M2.5

230B / 10B

MoE

SWE-bench 80.2 (лучший open-source)

Open

GLM-5

744B / 40B

MoE

Arena Elo 1451 (топ среди open-source)

MIT

DeepSeek V3.2

685B / 37B

MoE

MMLU-Pro 85.0, LiveCodeBench 83.3, Aider 74.2

MIT

Qwen3.5-397B

397B / 17B

MoE

GPQA 88.4, IFEval 92.6

Apache 2.0

GLM-4.7

355B / 32B

MoE

tau-bench 87.4 (лучший tool use)

Open

DeepSeek-R1

671B / 37B

MoE

MATH-500 97.3, AIME 87.5

MIT

Qwen3-235B

235B / 22B

MoE

AIME 81.5, MMLU-Pro 84.4

Apache 2.0

Все Tier S модели — из китайских лабораторий: Alibaba (Qwen), DeepSeek, Zhipu (GLM), Moonshot (Kimi), MiniMax. Все — MIT или Apache 2.0. Это новая реальность open-source AI.


Принципы проектирования агентной фабрики

Шесть правил, выведенных из исследований Anthropic, MetaGPT, metaswarm и собственных экспериментов:

1. Точное делегирование вместо «разбирайся сам». Каждый агент получает: цель, формат вывода, доступные инструменты, границы задачи. Исследование Anthropic показало, что размытое делегирование — главная причина провала multi-agent систем.

2. Spec-driven, не code-driven. ARD и TDD — первичные артефакты. Код — производный. Если спецификация правильная, код генерируется надёжно. Если спецификация плохая, никакой билдер не спасёт.

3. Обязательные feedback loops. Builder ↔ Tester и Builder ↔ Critic — неотключаемые циклы. «Я написал код, тесты пройдены» — это необходимое, но не достаточное условие качества.

4. Минимальный доступ. Сгенерированные агенты получают только необходимые permissions. Security Auditor — не опциональная роль. Агент с доступом к API и credentials — это высокорисковый артефакт.

5. Fail fast. Если агент не может выполнить задачу — он немедленно сообщает об этом Оркестратору. Никакого «сделаю плохо, но сделаю». Низкокачественный артефакт хуже, чем отсутствие артефакта — он портит всё дальше по цепочке.

6. Сохранение артефактов. Все промежуточные артефакты сохраняются. Это не опция — это обязательное условие. Без этого нет debugging, нет rollback, нет обучения из ошибок.


Интерактивный дашборд

Всё это визуализировано в интерактивном дашборде:

  • RolePanel — 9 ролей, клик для выбора

  • NeuralTopology — визуальная карта связей между агентами

  • ModelMatrix — сортируемая таблица 14+ моделей с бенчмарками, подсветкой рекомендаций

  • ComputePlan — конфигуратор GPU (A100 / H100 / B200): VRAM, bandwidth, стоимость, tokens/sec

Это единственный инструмент, который соединяет все три слоя:

Роль агента → Лучшая open-source модель → Конфигурация GPU

HuggingFace Leaderboard даёт бенчмарки, но не маппинг на роли. CrewAI/LangGraph даёт фреймворки, но не выбор моделей. Этот дашборд отвечает на вопрос, который задаёт каждая команда, строящая агентов: «Какую модель на какую роль? Сколько GPU нужно?»


Слабое место: tool calling

Честно — tool use остаётся самым слабым звеном open-source моделей. Лучший tau-bench: GLM-4.7 с 87.4%. Лучший BFCL v4: Qwen3.5-122B-A10B с 72.2%.

Для продакшена рекомендация: fine-tune на своих tool schemas. Общий function calling — это «знание языка», но ваши конкретные API — это «знание жаргона». Модели быстро учатся на десятках примеров ваших реальных инструментов.


Что из этого следует

Март 2026 — точка перегиба. Собрать свою «ИИ-компанию» стало инженерной задачей на выходные, а не проектом на квартал.

Компоненты есть:

  • Модели — frontier-уровня, MIT-лицензия, все на HuggingFace

  • Инфра — SGLang/vLLM/Ollama, consumer hardware

  • Паттерны — orchestrator-worker, artifact-based communication, feedback loops

  • Экономика — MoE дал frontier-качество за VRAM маленькой модели

Что осталось — собрать. Подобрать правильную модель на каждую роль, как нанять правильного специалиста. Только этот «специалист» стоит 4-50 GB VRAM и работает 24/7 без отпуска.

И самое интересное: эта команда из 9 агентов генерирует других агентов. Вы описываете, что вам нужно, и фабрика проходит полный цикл: требования → архитектура → код → тесты → security review → готовый агент.

Фабрика, которая производит фабрики. На одном сервере.


*Все модели доступны на HuggingFace. Бенчмарки взяты с SWE-bench Verified, LiveBench, BFCL v4, Aider Leaderboards, LMSYS Arena (февраль–март 2026).

Интерактивный дашборд: agent-factory-design.*

Исследования: Anthropic Multi-Agent Systems, MetaGPT (ICLR 2024), metaswarm.

Источник

Возможности рынка
Логотип Ucan fix life in1day
Ucan fix life in1day Курс (1)
$0.0003637
$0.0003637$0.0003637
-4.01%
USD
График цены Ucan fix life in1day (1) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Швейцарский управляющий активами заявил, что более строгие правила MiCA могут сократить криптоиндустрию по всему ЕС

Швейцарский управляющий активами заявил, что более строгие правила MiCA могут сократить криптоиндустрию по всему ЕС

 
  Политика
 
 
  Поделиться 
  
   Поделиться этой статьей
   
    Скопировать ссылкуX (Twitter)LinkedInFacebookEmail
   
  
 


 
  Более строгие правила MiCA могут сократить крипто-индустрию
Поделиться
Coindesk2026/03/13 06:47
Новости о цене Bitcoin становятся медвежьими, поскольку бычий индекс CryptoQuant достигает 10 из 100, в то время как предпродажа Pepeto с 300-кратным ростом на бирже приносит 1 741$ ежемесячно и зарабатывает на медвежьем рынке

Новости о цене Bitcoin становятся медвежьими, поскольку бычий индекс CryptoQuant достигает 10 из 100, в то время как предпродажа Pepeto с 300-кратным ростом на бирже приносит 1 741$ ежемесячно и зарабатывает на медвежьем рынке

Индекс Bull Score от CryptoQuant упал до 10 из 100, что подтверждает, что Биткоин находится глубоко на медвежьей территории со слабыми фундаментальными показателями и ограниченными бычьими перспективами
Поделиться
Techbullion2026/03/13 06:02
SLAY-ASR, или как я перестал волноваться и полюбил тренировать модели

SLAY-ASR, или как я перестал волноваться и полюбил тренировать модели

Как добавить аудио-модальность в LLMку максимально экономно? Рассказываю про серию попыток добиться совместимости эмбеддингов разной природы....Зачем?Изначально
Поделиться
ProBlockChain2026/03/13 02:25