Новая модель Anthropic Opus 4.6 резко улучшила результаты в бенчмарке Mercor, который проверяет способности решать профессиональные задачи, включая юридический анализ. При первой попытке модель показала 29,8 %, а при нескольких попытках — в среднем 45 %.
Что произошло
Opus 4.6 получила набор новых возможностей, среди которых «agent swarms». Эти суб‑агенты распределяют многошаговые задачи между собой, что позволило системе перескочить через прежний порог в 25 % и обойти конкурентов.
Почему это важно
Рост точности почти вдвое за несколько месяцев свидетельствует о том, что темпы развития фундаментальных моделей сохраняются. По словам CEO Mercor Brendan Foody, такой скачок «безумный» и меняет восприятие риска автоматизации в юридическом секторе.
Что дальше
Хотя 30 % всё ещё далеко от полной заменяемости, юридические компании уже должны планировать внедрение ИИ‑агентов в рабочие процессы, иначе они рискуют отстать от конкурентов, которые быстрее примут совместные решения.