AI Vibe Craft
← Назад к AI Vibe News

Редакция 17 апреля 2026 г.

Новости

Продовый чеклист Responses API: WebSocket, компакшен и tool search

Продовый чеклист Responses API: WebSocket, компакшен и tool search

При 20 и более последовательных вызовах инструментов WebSocket-режим у Responses API даёт до 40% выигрыша по end-to-end времени относительно цепочки обычных HTTP-запросов, и OpenAI упаковала в один гайд рычаги качества, стоимости, латентности и данных для продакшена.

Чеклист завязан на Responses API как основной вход к новым поведению моделей, встроенным тулам и stateful-сценариям: нативные инструменты считаются в дистрибуции пост-трейна, поэтому выбор и запуск у них обычно стабильнее, чем у полностью кастомных форм.

Поведение модели и текст ответа

  • reasoning.effort для gpt-5.5: значения none, low, medium, high, xhigh, по умолчанию medium; ниже — быстрее и дешевле по reasoning-токенам, выше — для диагностики, планов и многошаговых компромиссов.
  • text.verbosity балансирует краткость и полноту; для кода чаще берут medium и high, для жёсткого таймбюджета — low.
  • Параметр phase у ассистентских сообщений: commentary для промежуточных заметок и прогресса, final_answer для готового ответа; для gpt-5.3-codex и новее его нужно сохранять при продолжении диалога, чтобы срезать early stopping.

Инструменты, кеш и стоимость

  • tool_search плюс defer_loading: true подгружает только нужные тул-доки; неймспейсы держат компактными — в гайде рекомендуют не раздувать группу сильнее 10 функций.
  • prompt_cache_key фиксирует префикс: стабильный ключ снижает латентность и счёт; если один префикс с тем же ключом переваливает за 15 запросов в минуту, часть трафика уходит на другие машины и эффективность кеша проседает.
  • Встроенные инструменты (web/file search, code interpreter, shell, MCP/connectors и др.) подключать через нативные опции Responses API до кастомных аналогов.

Длинные агенты и устойчивость

  • Compaction через previous_response_id и context_management с compact_threshold либо ручной client.responses.compact(); вывод после компакшена не править — это машинное состояние для следующего шага.
  • reasoning.encrypted_content в include для stateless round-trip рассуждений при жёстких требованиях ZDR.
  • background=True для длинных задач требует store=True, совместим со streaming прогресса, но не с ZDR.
  • WebSocket-режим: одно «в полёте» на соединение, верхняя граница 60 минут, для параллели — несколько сокетов.

Источник: API deployment checklist.