AI Vibe Craft
← Назад к AI Vibe News

Редакция 24 апреля 2026 г.

Разборы

Шесть метрик «интеллекта токенов»: когда дашборды LLM смотрят на вход, а не на результат

Шесть метрик «интеллекта токенов»: когда дашборды LLM смотрят на вход, а не на результат.

Почему в фокусе оказываются «входные» метрики

В исходной заметке на Dev.to выдвигается тезис: индустрия LLM-наблюдаемости в основном оптимизирует вход (токены, счёт, модель, число запросов), а не исход — ценность для бизнеса, выручку, долю успешно завершённых задач и окупаемость. В качестве примеров однотипного измерения «входа» названы Helicone, Langfuse, LangSmith, Braintrust и «каждый провайдерский дашборд» — это внутренняя классификация внутри публикации, не независимый обзор рынка.

Рамка Token Intelligence сводит разговор к тому, что важно измерять на выходе, а не только регистрировать расход токенов.

Дальше в тексте — два условных агента с одинаковым потреблением токенов, но разной «ценностью для клиента»: 10 000 и 200 долларов в месяц в терминах customer outcomes и коэффициент 50× для показателя VPT (см. следующий раздел). Ещё одна оценка в том же материале: компании недооценивали цену AI-продуктов примерно на 40–80 долларов на клиента в месяц «не из-за отсутствия усилий, а из-за отсутствия нужных данных» — без ссылки на внешнюю статистику.

VPT: ценность на токен

Value-per-Token задаётся формулой «Business Value Generated ÷ Tokens Consumed». Идея — сравнивать агентов при равном расходе токенов, но разной полезности: без VPT оптимизация «просто урезать токены» может уводить в сторону от реальной ценности.

К «стороне ценности» отнесены три пути: синхронизация с Stripe / MRR, тегирование исходов (outcome tagging, с полями вроде status, value_usd) и pattern inference по поведенческим сигналам.

TCC: плата за успешно завершённую задачу, а не за вызов

Task Completion Cost определяется как полная стоимость LLM для агента, делённая на число успешно завершённых задач — не стоимость одного вызова, а цена успешного исхода.

Числовые примеры:

  • агент A: 0,08 доллара за вызов при 40% неуспеха и в среднем 1,7 повтора → TCC 0,136 на завершённый инвойс;
  • агент B: 0,14 доллара за вызов при 95% успеха с первого раза → TCC 0,147.

Смысл иллюстрации — расхождение между «дешёвым» вызовом и реальной экономикой сценария.

MAR и AES: траектория расхода и «здоровье» агента

Margin At Risk формулируется как «прогнозируемые к концу месяца затраты на LLM при текущем темпе минус выручка на клиента». Задумка — проактивный сигнал по траектории к концу месяца, а не только реакция после перерасхода. Числовой сценарий: клиент «TechStartup Inc» — 42 доллара к концу месяца при плане 29 и 11 днях на действия (условный пример из публикации).

Agent Efficiency Score — взвешенная метрика: 40% completion rate, 30% стоимость задачи относительно среднего, 20% инверсия retry rate, 10% acceptance rate; шкала 0–100. Пороги: выше 70 — «здорово», 40–70 — «наблюдать», ниже 40 — «что-то не так». В качестве примеров приведены парсер инвойсов (84) и суммаризатор документов (31).

PRI: отдача от версии промпта

Prompt ROI Index задаётся как отношение (Outcome Rate v2 / Cost v2) ÷ (Outcome Rate v1 / Cost v1); значение выше 1,0 означает лучшую отдачу у второй версии.

Числовые примеры: промпт дороже на 30%, но completion выше на 80%PRI 1,38; промпт дешевле на 20%, но completion хуже на 40%PRI 0,67. Так PRI связывает эксперименты с промптами с измеримым коэффициентом, а не с субъективным «стало лучше».

CPF: пол цены и риск для тарифа

Cost-to-Price Floor задаётся так: «90-й перцентиль затрат LLM на клиента в тарифном ярусе ÷ (1 − целевая валовая маржа)».

Развёрнутый пример: медиана 8 долларов в месяц, 90-й перцентиль28 долларов, целевая валовая маржа 70%CPF = 28 ÷ (1 − 0,70) = 93,33 доллара; при цене 29 долларов для тарифа Pro описывается «разрыв» 64 доллара в месяц; для 40 клиентов Pro — 2560 долларов в месяц в том же счёте. Отдельно приводится обобщение о «типичном» диапазоне недооценки цены при первом расчёте CPF — 30–80 долларов в месяц на клиента — как вывод из интервью и разговоров внутри публикации, не как опубликованный бенчмарк.

От тегирования исходов к дашборду

В заключительной части публикации указан опыт работы с AI-агентами около двух лет и опора на наблюдения за командами — биографическая самоатрибуция внутри того же текста, без внешней проверки.

Для практики outcome tagging приведён пример вызова (как иллюстрация «пяти строк», а не как проверенная документация SDK):

await tf.outcome({ status: 'completed', value_usd: 50.00, user_accepted: true })

Описывается платформа Tokflo: асинхронная отправка метаданных, формулировка про «две строки кода» для интеграции и дашборд с перечисленными метриками; также фигурирует бесплатная таблица цен LLM с обновлением в течение 48 часов после изменений у провайдера — как заявление о планах внутри публикации.

В комментарии под материалом просят при цитировании ссылаться на статью и отмечают, что шесть метрик Token Intelligence — оригинальные определения рамки автора.


Источники

  1. meenakshisundaramms (Dev.to). The AI Industry Is Measuring the Wrong Thing. Here Are the 6 Metrics That Actually Matter. URL: Dev.to — дата доступа к странице (UTC): 2026-04-24T09:03:42Z. По нативному слою API Dev.to для той же страницы: время публикации 2026-04-24T06:13:26Z, ориентир длины чтения 9 минут (значения из метаданных, сопровождавших URL в редакционном отборе темы).