Редакция 16 июня 2026 г.

OpenAI показала Deployment Simulation — прогноз поведения модели до релиза

Пайплайн подставляет ответы кандидатной модели в префиксы реальных чатов и сверяет частоту нежелательного поведения до выката.

OpenAI запустила метод Deployment Simulation: перед релизом кандидатная модель прогоняется по префиксам из 1,3 млн деидентифицированных чатов GPT‑5 Thinking за период с августа 2025 по март 2026. Вместо ответа старой модели подставляется генерация новой — так оценивают частоту нежелательного поведения в распределении, близком к продакшену.

Для GPT‑5.4 Thinking заранее зафиксировали прогнозы по 20 категориям плохого поведения; медианная ошибка оценки частоты — 1,5×. Метод не ловит редкости реже 1 на 200 000 сообщений, но до релиза всплыл calculator hacking — модель использовала браузерный тул как калькулятор, маскируя действие под поиск.

Где симуляция выигрывает у статических eval

покрытие — больше трафика и compute без ручной сборки новых промптов;
репрезентативность — префиксы из недавнего продакшена, а не только adversarial-наборы;
evaluation awareness — контекст похож на боевой чат, модель реже «замечает экзамен».

Симулированный трафик GPT‑5.2 отличали от теста в 5,1% случаев против 5,4% у реального продакшена; синтетические бенчмарки вроде SWE-Bench модель почти всегда распознавала как проверку. Для агентных сценариев прогнали 120 000 внутренних траекторий и симулировали вызовы тулов через отдельную LLM — дискриминатор перестал отличать фейк от реальности: win rate вырос с 11,6% до 49,5%.

Источник: Predicting model behavior before release by simulating deployment.