Realtime API получил три голосовые модели с рассуждениями и live-переводом

Три новые realtime-модели для голоса вышли в Realtime API 7 мая 2026: GPT-Realtime-2 ведёт диалог с рассуждением уровня GPT-5 и может параллельно вызывать инструменты, GPT-Realtime-Translate удерживает темп спикера при переводе с 70+ языков на 13, GPT-Realtime-Whisper отдаёт текст синхронно с речью для субтитров и оперативных заметок. Для длинных агентских сценариев контекст GPT-Realtime-2 расширен с 32K до 128K токенов, у разработчиков есть уровни reasoning effort от minimal до xhigh.
Линейка под три задачи
- GPT-Realtime-2 — голосовой агент с преамбулами до основного ответа, параллельными tool calls и более аккуратным поведением при сбоях.
- GPT-Realtime-Translate — потоковый перевод в реальном времени с субтитрами в сессии.
- GPT-Realtime-Whisper — стриминговый speech-to-text для митингов, эфиров и линий поддержки.
На Big Bench Audio конфигурация GPT-Realtime-2 (high) даёт +15,2 % к аудиоинтеллекту относительно GPT-Realtime-1.5, а режим (xhigh) на Audio MultiChallenge — +13,8 % по следованию инструкциям в многоходовых запросах. По тарифам: GPT-Realtime-2 — $32 за 1M входных аудиотокенов ($0,40 за кэшированный ввод) и $64 за 1M выходных аудиотокенов, GPT-Realtime-Translate — $0,034 за минуту, GPT-Realtime-Whisper — $0,017 за минуту.
Источник: Advancing voice intelligence with new models in the API.