Последние два года компании активно внедряют ИИ-агентов в реальные рабочие процессы — от поддержки клиентов и бэк-офисных операций до сложных процессов принятия решений в финансах и комплаенсе. Теперь, когда эти системы всё больше интегрируются в реальные рабочие процессы, возникает новая проблема: агенты могут извлекать информацию, но часто испытывают трудности с обеспечением последовательного и объяснимого обоснования, когда работа становится сложной, многоэтапной или высокорисковой.
Сегодня лаборатория ИИ с открытым исходным кодом Sentient запускает Arena — реальную производственную среду, где тысячи разработчиков ИИ проводят стресс-тестирование конкурирующих подходов к самым сложным задачам корпоративного мышления. В первую группу участников начального этапа Arena входят Founders Fund, Pantera и Franklin Templeton (активы под управлением более 1,5 трлн $) — что сигнализирует о раннем институциональном интересе к структурированной оценке ИИ-агентов перед внедрением в производство.
"Поскольку компании стремятся применять ИИ-агентов в исследованиях, операциях и клиентских рабочих процессах, вопрос уже не в том, насколько мощны эти системы... а в том, насколько они надёжны в реальных рабочих процессах," — сказал Джулиан Лав, управляющий директор Franklin Templeton Digital Assets.
Лав добавил, что структурированные среды, такие как Arena, помогут отделить перспективные идеи от готовых к производству возможностей.
"ИИ-агенты больше не являются экспериментом внутри предприятия; их внедряют в рабочие процессы, которые касаются клиентов, денег и операционных результатов," — сказал Химаншу Тьяги, сооснователь Sentient. "Этот сдвиг меняет то, что имеет значение. Недостаточно, чтобы система впечатляла на демонстрации. Предприятиям нужно знать, могут ли агенты надёжно рассуждать в производстве, где сбои обходятся дорого, а доверие хрупко. Им нужны сопоставимость, повторяемость и способ отслеживать улучшения надёжности с течением времени — независимо от того, какие модели или инструменты они используют."
Arena воспроизводит сложную реальность корпоративных рабочих процессов: неполную информацию, длинный контекст, неоднозначные инструкции и противоречивые источники. Вместо того чтобы оценивать, получил ли агент "правильный ответ", Arena записывает полную цепочку рассуждений, чтобы инженерные команды могли устранять сбои и проверять улучшения с течением времени.
Это обеспечивает нейтральный, независимый от поставщиков эталон для оценки рассуждений по разным моделям и стекам. Сосредоточившись на производственной производительности, а не на демонстрациях, Arena создаёт проверяемые высокорисковые возможности агентов, которые предприятия могут адаптировать к своим собственным частным данным и внутренним инструментам.
В своём первом испытании разработчики, присоединяющиеся к Arena, сосредоточатся на фундаментальной корпоративной задаче: рассуждении о документах. ИИ-агентам будет поручено рассуждать и вычислять на основе сложных неструктурированных данных — такой работы, которая лежит в основе финансового анализа, расследований первопричин, инвестиционных меморандумов и обслуживания клиентов.
Среди дополнительных участников начального этапа — alphaXiv, Fireworks, Openhands и OpenRouter, ожидается больше участников по мере расширения Arena по задачам, отраслям и интеграции моделей.
Недавние опросы подчёркивают пробел, на который нацелена Arena. 85% предприятий заявляют, что хотят стать "агентными предприятиями", и почти три из четырёх планируют развернуть автономных агентов, однако менее четверти сообщают о зрелом управлении, и многие испытывают трудности с переходом от пилота к масштабному производству. Предприятия уже используют в среднем дюжину агентов, часто изолированно, и многие отмечают, что добавление большего числа агентов создаст больше сложности, чем ценности, без лучшей оркестрации.
"В OpenHands мы всегда рады поддерживать разработчиков, использующих агентов для решения практических задач," сказал Грэм Нойбиг, главный научный сотрудник и сооснователь OpenHands. "Мы рады поддержать участников, использующих OpenHands Software Agent SDK для решения этих сложных задач."
"Arena — именно та инициатива, которая продвигает ИИ с открытым исходным кодом вперёд — они позволяют исследователям конкурировать, итерировать и внедрять инновации публично. Мы рады углубить наше партнёрство с Sentient и предоставить инфраструктуру, которая делает эксперименты быстрее и легче масштабируемыми," — сказал Алекс Аталла, сооснователь и генеральный директор OpenRouter.
Arena будет запущена глобально, приглашая тысячи разработчиков ИИ подать заявку на участие в первой эксклюзивной группе, с очными мероприятиями в Сан-Франциско начиная с марта 2026 года.
Публикация Founders Fund, Pantera и Franklin Templeton присоединяются к 'Arena' от Sentient для стресс-тестирования корпоративных ИИ-агентов впервые появилась на Metaverse Post.


