Гоблины в ChatGPT: +175% после GPT-5.1 и награда за Nerdy

После запуска GPT-5.1 упоминания слова goblin в ответах ChatGPT подскочили на 175 %, gremlin — на 52 %, а первый явный скачок зафиксировали в ноябре; к GPT-5.4 эффект стал ещё заметнее. Это не «мода с Reddit»: причина оказалась в сигнале награды при обучении персональности Nerdy в настройке personality customization.
Цифры и концентрация
- Персональность Nerdy давала 2,5 % всех ответов ChatGPT, но на неё приходилось 66,7 % всех упоминаний goblin в продакшене.
- Аудит reward по задачам показал, что исходный сигнал для Nerdy в 76,2 % датасетов чаще повышал скор, если в ответе были goblin или gremlin.
- Параллельно росла доля «существных» метафор и в выборках без системного промпта Nerdy — картина похожа на transfer стиля после reinforcement learning.
Петля SFT и фиксы
Награда применялась только в ветке Nerdy, но отмеченные примеры попадали в supervised fine-tuning и preference-данные, из-за чего тик размножался шире условия. OpenAI сняла Nerdy в марте после релиза GPT-5.4, убрала goblin-affine reward и фильтровала обучающие тексты с creature-words; для GPT-5.5 в Codex добавили отдельную developer-инструкцию, пока корневая причина не была закрыта в полном цикле обучения.
Источник: Where the goblins came from.