OpenAI ускоряет агентные циклы: WebSockets в Responses API и кэш на соединении

Когда агент делает десятки шагов подряд, каждый лишний HTTP-раундтрип бьёт по задержке и по стоимости. В материале OpenAI разбирают, как в связке с Responses API использовать постоянное соединение по WebSocket и кэш, привязанный к жизни сессии, чтобы снизить накладные расходы API и ускорить ответы модели в типичном «агентном» цикле вроде Codex.
Идея в двух словах
Вместо серии коротких запросов вы держите канал открытым: контекст и промежуточные артефакты можно переиспользовать на стороне соединения, не гоняя одно и то же туда-сюда текстом запроса. Это особенно заметно там, где шаги плотно завязаны друг на друга и сериализация состояния дороже, чем сам вывод токенов.
Что это меняет на практике
- Меньше «пустых» байтов — меньше повторяющихся заголовков и однотипных обёрток на каждом шаге.
- Стабильнее латентность — нет постоянного подъёма и рвения TCP/TLS на каждый микрошаг.
- Проще стримить — события из агента естественнее ложатся в поток сообщений, чем в pull-модель «запрос–ответ».
Кому смотреть в первую очередь
Если вы строите многошаговые пайплайны (оркестратор + инструменты + самокоррекция), оцените, где узкое место — сеть или сама модель. WebSocket и connection-scoped caching адресуют именно сетевой слой и «шум» вокруг вызовов; они не заменят качественный промпт, ретривер и нормальные лимиты, но могут снять ощутимый процент задержки в длинных сценариях.
Источник: OpenAI — Speeding up agentic workflows with WebSockets in the Responses API.