Agent 3: как Replit ловит «потёмкинские» интерфейсы

Replit научил Agent 3 самостоятельно проверять свой код — без постоянного надзора человека. Для этого команда собрала систему REPL-верификации: выполнение кода в реальном окружении плюс автоматизация браузера. Цель — отлавливать «потёмкинские интерфейсы»: фичи, которые выглядят рабочими, но по факту не работают.

Аналогия из истории: Потёмкин строил «мобильные деревни» для Екатерины II — декорации, которые разбирали после отплытия баржи. Дешевле создать иллюзию, чем строить по-настоящему. То же с кодом: если никто не проверяет по-настоящему, зачем делать больше минимума?

REPL-верификация заставляет агента не только генерировать код, но и запускать его, смотреть вывод и проверять поведение в браузере. В итоге Agent 3 может работать автономно более 200 минут — без ручной проверки каждого шага.

Источник: Enabling Agent 3 to Self-Test at Scale with REPL-Based Verification