Обновлено 27 июня 2026
Realtime API OpenAI: три сессии под голос, перевод и транскрипт

OpenAI развела realtime по трём сценариям: голосовой агент на gpt-realtime-2, потоковый перевод через gpt-realtime-translate и стриминг текста с gpt-realtime-whisper. Для live-аудио с низкой задержкой — Realtime-сессия с открытым соединением; для файлов и bounded requests — request-based Audio API.
Realtime 2 добавляет reasoning в speech-to-speech: для продакшн voice-agent стартуют с reasoning.effort на low, затем подстраивают под latency и сложность задачи.
Три типа сессий
- Voice-agent — ассистент отвечает пользователю, вызывает тулы, ведёт state разговора; эндпоинт
/v1/realtime. - Translation — непрерывный перевод по мере поступления аудио; отдельный эндпоинт
/v1/realtime/translations, безresponse.createи без ожидания commit user turn. - Transcription — streaming transcript deltas без spoken responses от модели; задержку настраивают у
gpt-realtime-whisper— ниже delay даёт раньше partial text, выше — лучше качество.
Транспорт и инструменты
Для браузера и мобильных клиентов — WebRTC; для серверных media pipeline вроде телефонии или broadcast ingest — WebSockets. SIP — под телефонию для voice-agent; для translation и transcription поддержку модели нужно проверять отдельно.
К Realtime-сессии подключают function tools, MCP servers и connectors — тот же стек, что у чат-агентов, но в live-режиме.
Миграция с beta на GA
На GA-интерфейсе убирают заголовок OpenAI-Beta: realtime=v1, ephemeral credentials создают через POST /v1/realtime/client_secrets, WebRTC-сессии — через /v1/realtime/calls. Конфигурация аудио переезжает в session.audio.output, события ответа — response.output_text.delta и response.output_audio.delta.
Для идентификации end users рекомендуют заголовок OpenAI-Safety-Identifier — стабильный hashed user ID, не переносится между сессиями и Responses API.
Источник: Realtime and audio guide.