Realtime API OpenAI: три сессии под голос, перевод и транскрипт

Схема выбора между голосовым агентом, потоковым переводом и live-транскрипцией в OpenAI Realtime API.

OpenAI развела realtime по трём сценариям: голосовой агент на gpt-realtime-2, потоковый перевод через gpt-realtime-translate и стриминг текста с gpt-realtime-whisper. Для live-аудио с низкой задержкой — Realtime-сессия с открытым соединением; для файлов и bounded requests — request-based Audio API.

Realtime 2 добавляет reasoning в speech-to-speech: для продакшн voice-agent стартуют с reasoning.effort на low, затем подстраивают под latency и сложность задачи.

Три типа сессий

Voice-agent — ассистент отвечает пользователю, вызывает тулы, ведёт state разговора; эндпоинт /v1/realtime.
Translation — непрерывный перевод по мере поступления аудио; отдельный эндпоинт /v1/realtime/translations, без response.create и без ожидания commit user turn.
Transcription — streaming transcript deltas без spoken responses от модели; задержку настраивают у gpt-realtime-whisper — ниже delay даёт раньше partial text, выше — лучше качество.

Транспорт и инструменты

Для браузера и мобильных клиентов — WebRTC; для серверных media pipeline вроде телефонии или broadcast ingest — WebSockets. SIP — под телефонию для voice-agent; для translation и transcription поддержку модели нужно проверять отдельно.

К Realtime-сессии подключают function tools, MCP servers и connectors — тот же стек, что у чат-агентов, но в live-режиме.

Миграция с beta на GA

На GA-интерфейсе убирают заголовок OpenAI-Beta: realtime=v1, ephemeral credentials создают через POST /v1/realtime/client_secrets, WebRTC-сессии — через /v1/realtime/calls. Конфигурация аудио переезжает в session.audio.output, события ответа — response.output_text.delta и response.output_audio.delta.

Для идентификации end users рекомендуют заголовок OpenAI-Safety-Identifier — стабильный hashed user ID, не переносится между сессиями и Responses API.

Источник: Realtime and audio guide.