Редакция 28 апреля 2026 г.

OpenAI разложила safety ChatGPT: Model Spec, редтиминг и баны за насилие

28 апреля 2026 команда OpenAI раскрыла, как в ChatGPT снижают риск реального насилия: опираются на Model Spec, учат модель отличать нейтральные вопросы о жестокости от запросов тактик и планирования, а при нарушении Usage Policies быстро отключают доступ, вплоть до охоты за новыми аккаунтами того же пользователя.

Где режут смысловой риск

В публичном Model Spec зафиксированы принципы баланса между полезностью и безопасными дефолтами; в ответах сознательно опускают детальные операционные инструкции, которые могли бы облегчить причинение вреда. Параллельно усилили улавливание тонких сигналов в длинных высокорисковых диалогах — отдельное сообщение может выглядеть безобидно, а паттерн в треде уже нет; к этому подключали редтиминг, оценки и экспертный ввод.

Мониторинг и санкции

Автоматика на масштабе: классификаторы, reasoning-модели, hash-matching, блоклисты и другие мониторинговые слои.
Флаги добирают обученные люди в контексте: содержание, окружение разговора и поведение во времени, с ограничениями по приватности.
При подтверждённом bannable offense цель — немедленно забрать доступ; заявлена нулевая терпимость к помощи в совершении насилия, плюс процедура апелляций.

Когда выходят за периметр чата

Если видят неминуемую и правдоподобную угрозу другим, уведомляют правоохранителей; психиатры и поведенческие эксперты помогают гибко оценивать случаи, где цель, средства и сроки не названы явно. Осенью 2024 ввели Parental Controls: родительский аккаунт линкуется к подростковому без чтения переписок, с редкими оповещениями при остром дистрессе; для взрослых анонсировали trusted contact, которому можно слать сигнал о необходимости поддержки.

Источник: Our commitment to community safety.