Редакция 31 мая 2026 г.

Inference theft: кража платных LLM-вызовов и проверка на каждый запрос

Атакующий перенаправляет украденные вызовы с открытого AI-эндпоинта в клиент, совместимый с провайдером модели.

Один промпт к frontier-модели стоит $2 при ~$2 за миллион HTTP на Vercel — разница в миллион раз, и inference theft превращает любой открытый AI-эндпоинт в канал перепродажи платных токенов; Vercel уже ловила такие атаки на своих API. Счета от злоупотребления легко уходят в десятки тысяч долларов.

Что такое inference theft

Inference theft — несанкционированное использование чужого платного инференса: оператор платит за каждый вызов LLM, атакующий получает токены бесплатно и перепродаёт их со скидкой. Это не обход rate limit ради личного потребления, а рынок украденного ресурса с маржой выше типичного API-абьюза; перепродажа выгодна там, где украденный поток без переделки подключается к клиенту провайдера.

Какие эндпоинты под ударом

AI playgrounds — максимум контроля над промптом, моделью и параметрами; украденные вызовы ложатся в любой стандартный клиент вроде AI SDK Playground.
Support-боты и ассистенты в доках — ниже риск при фиксированном system prompt на сервере, но обход системных инструкций уже достаточно дешёв для перепродажи.
Общие internet-facing эндпоинты — чем шире контроль над промптом, тем выше выплата за один украденный вызов; цена перепродажи растёт, если ответы вставляются в клиент, совместимый с провайдером.

Почему лимитов мало

Rate limits и auth wall при проверке раз на сессию или при регистрации не выдерживают тысячи вызовов с одного украденного токена: стоимость проверки амортизируется на весь объём. Защита должна срабатывать на каждый AI-запрос, а не на вход в сессию.

BotID на каждый запрос

На Vercel каждый AI-вызов проходит через BotID deep analysis; тот же паттерн можно повесить на свои эндпоинты несколькими строками кода — без отложенной проверки «после логина».

Источник: Protecting against token theft.