В Gemini API появились уровни Flex и Priority: дешевле для фона, надёжнее для продакшена

В Gemini API появились два новых сервисных уровня — Flex и Priority. Они дают более явный контроль над ценой и предсказуемостью ответа через единый синхронный интерфейс: не нужно отдельно «ломать» архитектуру на стандартный онлайн‑режим и асинхронный Batch, если задача формально разная по критичности, но технически укладывается в обычные запросы.
Flex: экономия до половины стоимости
Уровень Flex ориентирован на объёмные и терпимые к задержке сценарии — обогащение данных, фоновые «размышления» агента, массовые прогоны. Google позиционирует его как способ снизить счёт примерно на 50% относительно стандартного тарифа за счёт более низкой критичности запроса: ответы могут приходить медленнее и менее гарантированно по сравнению с интерактивным UX.
При этом Flex остаётся синхронным: те же эндпоинты, что и раньше, без файлового ввода‑вывода и опроса статуса, как в Batch. Включение — через параметр service_tier в запросе; уровень заявлен для платных аккаунтов и для GenerateContent и Interactions API.
Priority: максимальная критичность под пиковую нагрузку
Priority — противоположный полюс: премиальный режим с повышенной устойчивостью к пикам платформы, чтобы критичный трафик реже «вытеснялся». Если лимиты Priority превышены, переполнение по задумке уходит на Standard, а не обрывается ошибкой; в ответе можно увидеть, каким уровнем реально обслужили запрос — удобно для прозрачного биллинга и мониторинга SLO.
Доступность Priority указана для проектов уровня Tier 2/3 на GenerateContent и Interactions API. Типичные кейсы — живые чат‑боты, модерация в реальном времени, всё, где важна стабильность под нагрузкой.
Зачем это разработчику
- Маршрутизация по смыслу задачи: фоновые пайплайны — на Flex, пользовательский фронт — на Priority.
- Меньше инфраструктурного шума: меньше поводов держать параллельно «два мира» синхронного API и батч‑обвязки.
- Явный рычаг в коде: один параметр уровня сервиса вместо разрозненных обходных путей.
Детали по ценам и примерам — в официальной документации Gemini API и кукбуке Google; перед включением в проде имеет смысл прогнать нагрузочный профиль и сверить фактическую долю ответов по тиру из метаданных ответа.
Источник: Google — New ways to balance cost and reliability in the Gemini API