AI Vibe Craft
← Назад к AI Vibe News

Редакция 2 апреля 2026 г.

Новости

В Gemini API появились уровни Flex и Priority: дешевле для фона, надёжнее для продакшена

В Gemini API появились уровни Flex и Priority: дешевле для фона, надёжнее для продакшена

В Gemini API появились два новых сервисных уровня — Flex и Priority. Они дают более явный контроль над ценой и предсказуемостью ответа через единый синхронный интерфейс: не нужно отдельно «ломать» архитектуру на стандартный онлайн‑режим и асинхронный Batch, если задача формально разная по критичности, но технически укладывается в обычные запросы.

Flex: экономия до половины стоимости

Уровень Flex ориентирован на объёмные и терпимые к задержке сценарии — обогащение данных, фоновые «размышления» агента, массовые прогоны. Google позиционирует его как способ снизить счёт примерно на 50% относительно стандартного тарифа за счёт более низкой критичности запроса: ответы могут приходить медленнее и менее гарантированно по сравнению с интерактивным UX.

При этом Flex остаётся синхронным: те же эндпоинты, что и раньше, без файлового ввода‑вывода и опроса статуса, как в Batch. Включение — через параметр service_tier в запросе; уровень заявлен для платных аккаунтов и для GenerateContent и Interactions API.

Priority: максимальная критичность под пиковую нагрузку

Priority — противоположный полюс: премиальный режим с повышенной устойчивостью к пикам платформы, чтобы критичный трафик реже «вытеснялся». Если лимиты Priority превышены, переполнение по задумке уходит на Standard, а не обрывается ошибкой; в ответе можно увидеть, каким уровнем реально обслужили запрос — удобно для прозрачного биллинга и мониторинга SLO.

Доступность Priority указана для проектов уровня Tier 2/3 на GenerateContent и Interactions API. Типичные кейсы — живые чат‑боты, модерация в реальном времени, всё, где важна стабильность под нагрузкой.

Зачем это разработчику

  • Маршрутизация по смыслу задачи: фоновые пайплайны — на Flex, пользовательский фронт — на Priority.
  • Меньше инфраструктурного шума: меньше поводов держать параллельно «два мира» синхронного API и батч‑обвязки.
  • Явный рычаг в коде: один параметр уровня сервиса вместо разрозненных обходных путей.

Детали по ценам и примерам — в официальной документации Gemini API и кукбуке Google; перед включением в проде имеет смысл прогнать нагрузочный профиль и сверить фактическую долю ответов по тиру из метаданных ответа.

Источник: Google — New ways to balance cost and reliability in the Gemini API