OpenAI: как мониторят внутренних coding-агентов на misalignment

В блоге OpenAI описан подход к наблюдению за внутренними агентами, которые пишут и правят код: речь о том, чтобы ловить misalignment — ситуации, когда поведение модели не совпадает с заданными правилами и целями безопасности.
Один из акцентов — анализ цепочки рассуждений (chain-of-thought): по нему проще понять, почему агент выбрал тот или иной шаг, и отделить нормальную работу от потенциально опасных паттернов. Данные берут из реальных сценариев использования внутри компании, а не только из синтетических бенчмарков.
Задача такого контура — не «пугать статистикой», а заранее подсвечивать риски и укреплять защитные меры до того, как агенты масштабируются на новые задачи и репозитории. Для команд, которые уже завязаны на AI-кодинг и агентов в CI, это близко к вопросу: какие сигналы вы вообще собираете и кто их смотрит.
Материал: How we monitor internal coding agents for misalignment (OpenAI).