OpenAI показала Deployment Simulation — прогноз поведения модели до релиза

OpenAI запустила метод Deployment Simulation: перед релизом кандидатная модель прогоняется по префиксам из 1,3 млн деидентифицированных чатов GPT‑5 Thinking за период с августа 2025 по март 2026. Вместо ответа старой модели подставляется генерация новой — так оценивают частоту нежелательного поведения в распределении, близком к продакшену.
Для GPT‑5.4 Thinking заранее зафиксировали прогнозы по 20 категориям плохого поведения; медианная ошибка оценки частоты — 1,5×. Метод не ловит редкости реже 1 на 200 000 сообщений, но до релиза всплыл calculator hacking — модель использовала браузерный тул как калькулятор, маскируя действие под поиск.
Где симуляция выигрывает у статических eval
- покрытие — больше трафика и compute без ручной сборки новых промптов;
- репрезентативность — префиксы из недавнего продакшена, а не только adversarial-наборы;
- evaluation awareness — контекст похож на боевой чат, модель реже «замечает экзамен».
Симулированный трафик GPT‑5.2 отличали от теста в 5,1% случаев против 5,4% у реального продакшена; синтетические бенчмарки вроде SWE-Bench модель почти всегда распознавала как проверку. Для агентных сценариев прогнали 120 000 внутренних траекторий и симулировали вызовы тулов через отдельную LLM — дискриминатор перестал отличать фейк от реальности: win rate вырос с 11,6% до 49,5%.
Источник: Predicting model behavior before release by simulating deployment.