Редакция 22 апреля 2026 г.

OpenAI ускоряет агентные циклы: WebSockets в Responses API и кэш на соединении

Когда агент делает десятки шагов подряд, каждый лишний HTTP-раундтрип бьёт по задержке и по стоимости. В материале OpenAI разбирают, как в связке с Responses API использовать постоянное соединение по WebSocket и кэш, привязанный к жизни сессии, чтобы снизить накладные расходы API и ускорить ответы модели в типичном «агентном» цикле вроде Codex.

Идея в двух словах

Вместо серии коротких запросов вы держите канал открытым: контекст и промежуточные артефакты можно переиспользовать на стороне соединения, не гоняя одно и то же туда-сюда текстом запроса. Это особенно заметно там, где шаги плотно завязаны друг на друга и сериализация состояния дороже, чем сам вывод токенов.

Что это меняет на практике

Меньше «пустых» байтов — меньше повторяющихся заголовков и однотипных обёрток на каждом шаге.
Стабильнее латентность — нет постоянного подъёма и рвения TCP/TLS на каждый микрошаг.
Проще стримить — события из агента естественнее ложатся в поток сообщений, чем в pull-модель «запрос–ответ».

Кому смотреть в первую очередь

Если вы строите многошаговые пайплайны (оркестратор + инструменты + самокоррекция), оцените, где узкое место — сеть или сама модель. WebSocket и connection-scoped caching адресуют именно сетевой слой и «шум» вокруг вызовов; они не заменят качественный промпт, ретривер и нормальные лимиты, но могут снять ощутимый процент задержки в длинных сценариях.

Источник: OpenAI — Speeding up agentic workflows with WebSockets in the Responses API.