Техническая команда Anthropic каждый год проверяет соискателей домашним заданием, но рост возможностей генеративных моделей заставил её менять условия.
Что произошло
В блоге Tristan Hume написал, что каждая новая версия Claude требовала пересмотра теста. При том же лимите времени Claude Opus 4 обыгрывал большинство реальных кандидатов, а Claude Opus 4.5 уже сравнивался с лучшими из них. Компания разрешает использовать ИИ, но теперь тест не позволяет отделить человеческую экспертизу от вывода модели.
Почему это важно
Когда система оценки перестаёт различать людей и ИИ, она теряет цель — отбор лучших инженеров. Это создает более широкий вызов: многие компании полагаются на практические задачи, которые современные код‑генераторы решают быстро.
- Рынок труда в ИТ‑секторе сталкивается с тем, что тесты быстро обучаются искусственным интеллектом.
- Цикл «модель‑тест‑модель» повышает затраты на создание оценочных материалов.
- Компаниям нужно сосредоточиться на навыках, которые сложнее автоматизировать, например, архитектурное мышление или командную коммуникацию.
Что дальше
Anthropic представила новый вариант задания, сосредоточенный на оптимизации аппаратных решений, где текущие модели показывают слабые результаты. Компания предложила сообществу придумать ещё более «непобедимый» тест, открывая пространство для совместного поиска методов оценки, которые останутся актуальными в условиях мощных код‑генераторов.