Продовый чеклист Responses API: WebSocket, компакшен и tool search

При 20 и более последовательных вызовах инструментов WebSocket-режим у Responses API даёт до 40% выигрыша по end-to-end времени относительно цепочки обычных HTTP-запросов, и OpenAI упаковала в один гайд рычаги качества, стоимости, латентности и данных для продакшена.
Чеклист завязан на Responses API как основной вход к новым поведению моделей, встроенным тулам и stateful-сценариям: нативные инструменты считаются в дистрибуции пост-трейна, поэтому выбор и запуск у них обычно стабильнее, чем у полностью кастомных форм.
Поведение модели и текст ответа
reasoning.effortдля gpt-5.5: значенияnone,low,medium,high,xhigh, по умолчаниюmedium; ниже — быстрее и дешевле по reasoning-токенам, выше — для диагностики, планов и многошаговых компромиссов.text.verbosityбалансирует краткость и полноту; для кода чаще берутmediumиhigh, для жёсткого таймбюджета —low.- Параметр
phaseу ассистентских сообщений:commentaryдля промежуточных заметок и прогресса,final_answerдля готового ответа; для gpt-5.3-codex и новее его нужно сохранять при продолжении диалога, чтобы срезать early stopping.
Инструменты, кеш и стоимость
tool_searchплюсdefer_loading: trueподгружает только нужные тул-доки; неймспейсы держат компактными — в гайде рекомендуют не раздувать группу сильнее 10 функций.prompt_cache_keyфиксирует префикс: стабильный ключ снижает латентность и счёт; если один префикс с тем же ключом переваливает за 15 запросов в минуту, часть трафика уходит на другие машины и эффективность кеша проседает.- Встроенные инструменты (web/file search, code interpreter, shell, MCP/connectors и др.) подключать через нативные опции Responses API до кастомных аналогов.
Длинные агенты и устойчивость
- Compaction через
previous_response_idиcontext_managementсcompact_thresholdлибо ручнойclient.responses.compact(); вывод после компакшена не править — это машинное состояние для следующего шага. reasoning.encrypted_contentвincludeдля stateless round-trip рассуждений при жёстких требованиях ZDR.background=Trueдля длинных задач требуетstore=True, совместим со streaming прогресса, но не с ZDR.- WebSocket-режим: одно «в полёте» на соединение, верхняя граница 60 минут, для параллели — несколько сокетов.
Источник: API deployment checklist.