Inference theft: кража платных LLM-вызовов и проверка на каждый запрос

Один промпт к frontier-модели стоит $2 при ~$2 за миллион HTTP на Vercel — разница в миллион раз, и inference theft превращает любой открытый AI-эндпоинт в канал перепродажи платных токенов; Vercel уже ловила такие атаки на своих API. Счета от злоупотребления легко уходят в десятки тысяч долларов.
Что такое inference theft
Inference theft — несанкционированное использование чужого платного инференса: оператор платит за каждый вызов LLM, атакующий получает токены бесплатно и перепродаёт их со скидкой. Это не обход rate limit ради личного потребления, а рынок украденного ресурса с маржой выше типичного API-абьюза; перепродажа выгодна там, где украденный поток без переделки подключается к клиенту провайдера.
Какие эндпоинты под ударом
- AI playgrounds — максимум контроля над промптом, моделью и параметрами; украденные вызовы ложатся в любой стандартный клиент вроде AI SDK Playground.
- Support-боты и ассистенты в доках — ниже риск при фиксированном system prompt на сервере, но обход системных инструкций уже достаточно дешёв для перепродажи.
- Общие internet-facing эндпоинты — чем шире контроль над промптом, тем выше выплата за один украденный вызов; цена перепродажи растёт, если ответы вставляются в клиент, совместимый с провайдером.
Почему лимитов мало
Rate limits и auth wall при проверке раз на сессию или при регистрации не выдерживают тысячи вызовов с одного украденного токена: стоимость проверки амортизируется на весь объём. Защита должна срабатывать на каждый AI-запрос, а не на вход в сессию.
BotID на каждый запрос
На Vercel каждый AI-вызов проходит через BotID deep analysis; тот же паттерн можно повесить на свои эндпоинты несколькими строками кода — без отложенной проверки «после логина».
Источник: Protecting against token theft.