Перейти к содержимому
ТехнологииВажное

AI‑агенты провалились в новом бенчмарке APEX‑Agents: максимум 24 % точности

Исследователи компании Mercur запустили бенчмарк APEX‑Agents, который проверяет, насколько модели ИИ могут решать задачи из консалтинга, инвестиционного банкинга и юриспруденции. Ни одна система не превысила 24 % правильных ответов.

Бенчмарк воспроизводит реальную рабочую среду: модели работают с данными из Slack, Google Drive и других источников и должны делать выводы, охватывающие несколько областей.

Сигнал: Низкая эффективность нынешних моделей в профессиональных задачах откладывает масштабную автоматизацию юридических, финансовых и консалтинговых услуг минимум на 3–5 лет, а инвесторам стоит пересмотреть ожидания от ИИ‑стартапов в этих секторах.

Бенчмарк APEX‑Agents впервые измерил, насколько крупные языковые модели способны выполнять действительно сложные задачи, характерные для белых воротничков. Профессионалы на платформе Mercur сформулировали запросы, а команда Mercur оценила ответы по точности и полноте.

Что произошло

Модели Gemini 3 Flash, GPT‑5.2, Opus 4.5 и другие прошли тест, показав точность от 18 % до 24 %. Лучший результат — 24 % у Gemini 3 Flash — сравним с уровнем «интерна», когда правильный ответ получается лишь на одну из четырёх задач.

Почему это важно

Тест отличается от наборов вроде GDPval: он требует длительного выполнения задач в узкоспециализированных областях и объединения информации из разных корпоративных систем. Это выявило главное слабое место современных моделей — они не умеют эффективно связывать данные из нескольких доменов, что критично для юридических и финансовых процессов.

Результаты показывают, что автоматизация высококвалифицированных профессий, о которой часто говорят руководители ИИ‑компаний, пока недостижима. Инвесторы и компании‑пользователи должны учитывать ограниченность текущих решений при планировании внедрения ИИ.

Что дальше

Исследователи разместили набор вопросов публично на Hugging Face и пригласили другие лаборатории улучшать свои модели. Ожидается, что конкуренция ускорит развитие многодоменного вывода, но существенный прорыв, скорее всего, потребует ещё несколько лет исследований и инвестиций.

Все материалы