OpenAI разложила safety ChatGPT: Model Spec, редтиминг и баны за насилие

28 апреля 2026 команда OpenAI раскрыла, как в ChatGPT снижают риск реального насилия: опираются на Model Spec, учат модель отличать нейтральные вопросы о жестокости от запросов тактик и планирования, а при нарушении Usage Policies быстро отключают доступ, вплоть до охоты за новыми аккаунтами того же пользователя.
Где режут смысловой риск
В публичном Model Spec зафиксированы принципы баланса между полезностью и безопасными дефолтами; в ответах сознательно опускают детальные операционные инструкции, которые могли бы облегчить причинение вреда. Параллельно усилили улавливание тонких сигналов в длинных высокорисковых диалогах — отдельное сообщение может выглядеть безобидно, а паттерн в треде уже нет; к этому подключали редтиминг, оценки и экспертный ввод.
Мониторинг и санкции
- Автоматика на масштабе: классификаторы, reasoning-модели, hash-matching, блоклисты и другие мониторинговые слои.
- Флаги добирают обученные люди в контексте: содержание, окружение разговора и поведение во времени, с ограничениями по приватности.
- При подтверждённом bannable offense цель — немедленно забрать доступ; заявлена нулевая терпимость к помощи в совершении насилия, плюс процедура апелляций.
Когда выходят за периметр чата
Если видят неминуемую и правдоподобную угрозу другим, уведомляют правоохранителей; психиатры и поведенческие эксперты помогают гибко оценивать случаи, где цель, средства и сроки не названы явно. Осенью 2024 ввели Parental Controls: родительский аккаунт линкуется к подростковому без чтения переписок, с редкими оповещениями при остром дистрессе; для взрослых анонсировали trusted contact, которому можно слать сигнал о необходимости поддержки.
Источник: Our commitment to community safety.