Бенчмарк APEX‑Agents впервые измерил, насколько крупные языковые модели способны выполнять действительно сложные задачи, характерные для белых воротничков. Профессионалы на платформе Mercur сформулировали запросы, а команда Mercur оценила ответы по точности и полноте.
Что произошло
Модели Gemini 3 Flash, GPT‑5.2, Opus 4.5 и другие прошли тест, показав точность от 18 % до 24 %. Лучший результат — 24 % у Gemini 3 Flash — сравним с уровнем «интерна», когда правильный ответ получается лишь на одну из четырёх задач.
Почему это важно
Тест отличается от наборов вроде GDPval: он требует длительного выполнения задач в узкоспециализированных областях и объединения информации из разных корпоративных систем. Это выявило главное слабое место современных моделей — они не умеют эффективно связывать данные из нескольких доменов, что критично для юридических и финансовых процессов.
Результаты показывают, что автоматизация высококвалифицированных профессий, о которой часто говорят руководители ИИ‑компаний, пока недостижима. Инвесторы и компании‑пользователи должны учитывать ограниченность текущих решений при планировании внедрения ИИ.
Что дальше
Исследователи разместили набор вопросов публично на Hugging Face и пригласили другие лаборатории улучшать свои модели. Ожидается, что конкуренция ускорит развитие многодоменного вывода, но существенный прорыв, скорее всего, потребует ещё несколько лет исследований и инвестиций.