Редакция 27 мая 2026 г.

Как не отпускать ИИ-агента в прод вслепую: LLM-судья и траектории

Инженерам агентских систем полезно заранее продумать, как ловить «тихие» сбои, лишний расход токенов и галлюцинации до того, как включать автоматизацию «на полную». Эту связку раскрывает свежий туториал на Dev.to: оценка качества через LLM-as-Judge и отдельный взгляд на траекторию — последовательность шагов и вызовов инструментов; материал построен на Python с кодом и исполняемыми ноутбуками.

Ниже — сжатая выжимка по смыслу публикации, без цифр и деталей, которых нет в самом тексте поста.

Две опоры: судья над ответом и разбор пути агента

В материале противопоставлены две «фундаментальные» техники. LLM-as-Judge отвечает за качество финального выхода: вместо ручной ревизии на каждый коммит предлагается непрерывная шкала от 0.0 до 1.0 с пояснениями, а не только бинарный pass/fail. Вторая линза — оценка траекторий, то есть пошагового процесса: она должна ловить то, что не видно, если смотреть только на готовый текст — в том числе сомнительное использование инструментов и вопросы безопасности, плюс оптимизацию затрат. Более глубокие темы в серии обещаны последующими постами.

Почему в примерах Strands, Jupyter и AWS Bedrock

Для листингов выбран стек Strands Agents: описан автоматический захват траекторий через hooks и отдельный SDK strands-agents-evals. Приёмы применимы и к другим фреймворкам — в списке LangGraph, AutoGen и кастомные реализации; для LangGraph упоминается доступ к состоянию графа, для AutoGen — история сообщений как носитель списка вызовов инструментов. Все примеры привязаны к репозиторию how-to-evaluate-ai-agents-sample-for-aws пользователя elizabethfuentes12 на GitHub: на странице приведена команда git clone на https://github.com/elizabethfuentes12/how-to-evaluate-ai-agents-sample-for-aws.git. Формат репозитория — исполняемые Jupyter-ноутбуки со Strands Agents и AWS Bedrock; каждый ноутбук описан как автономный блок с пояснениями.

Рубрики, классы и наглядный контраст «размыто vs конкретно»

В коде фигурируют импорты и классы из strands_evals: Experiment, Case, OutputEvaluator, а также вспомогательные конструкции вроде Contains и ToolCalled. В рубриках задаются пороговые пояснения с диапазонами в духе 0.8–1.0, 0.5–0.7, 0.2–0.4 и 0.0–0.1 для разных уровней качества. В качестве модели оценщика в примере указан gpt-4o-mini, с комментарием, что вместо него можно опираться на AWS Bedrock, например идентификатор вида us.anthropic.claude-sonnet-4-20250514-v1:0. Отдельный блок сравнивает расплывчатую рубрику («Is this a good response?») и конкретную: для трёх ответов (good / mediocre / hallucinated) у расплывчатой рубрики приведены оценки 0.70 / 0.50 / 0.60 (разброс 0.20), у конкретной — 0.90 / 0.30 / 0.10 (разброс 0.80); это интерпретируется как примерно четырёхкратно большее разделение оценок. Дополнительно цитируются работы Autorubric (март 2026) и Grading Scale (январь 2026) с выводом, что шкала 0–5 даёт наиболее сильное согласование человек — LLM (корреляция Пирсона 0.89), 10-балльные шкалы добавляют шум, а бинарные теряют 73% градаций качества; рекомендация — шкала 0–5, отображаемая в коде на 0.0–1.0.

Траектории, хуки и наблюдаемость в проде

Вводится TrajectoryEvaluator из strands_evals.evaluators с рубрикой по траектории инструментов (включая диапазоны 0.8–1.0 и более низкие зоны для «шумной» траектории). Разобран пример «эффективной» и «расточительной» траектории с вызовами вроде search_flights, get_currency_exchange, get_weather и комментариями про дубликаты и нерелевантный вызов. Для продакшена описан паттерн автозахвата траектории через Strands hooks (HookProvider, AfterToolCallEvent): на каждый вызов инструмента логируются имя, аргументы и успех или ошибка. Описана интеграция OpenTelemetry и совместимость трасс с Datadog, Honeycomb и другими системами. Иллюстративная таблица с агентами A и B показывает одинаковую финальную строку ответа про рейсы при разной последовательности вызовов инструментов: оба помечены как pass, хотя B делает лишний и дублирующий вызовы — как мотивация к траекторной оценке.

Блок про исследования апреля 2026 и встроенные оценщики AWS

В отдельном фрагменте кратко изложены три работы с arXiv-идентификаторами и датой 30 апреля 2026 в формулировке страницы: D3-Gym (arXiv:2604.27977) — 565 исполняемых научных задач, с указанием 87.5% согласия автоматической оценки с «золотым» человеческим стандартом; WindowsWorld (arXiv:2604.27776) — 181 профессиональная multi-app задача и <21% успеха на multi-app сценариях; CARE (arXiv:2604.28043) — методология с «gates» на этапах и вовлечением экспертов, разработчиков и вспомогательных агентов. Параллельно описан Amazon Bedrock AgentCore как средство с встроенной оценкой и наблюдаемостью для агентских workflow в AWS: в таблице перечислены четыре примера встроенных оценщиков (Builtin.Helpfulness, Builtin.GoalSuccessRate, Builtin.Correctness, Builtin.ToolSelection), а отдельным предложением указано, что в AgentCore доступно 13 встроенных LLM-as-judge оценщиков. Есть сравнительная таблица «когда AgentCore / когда Strands Evals», включая мотивы вроде multi-model сравнения и CI/CD.

Как повторить у себя и что учесть по стоимости и частоте проверок

В конце приведён блок практических шагов: Python 3.10+, переменная OPENAI_API_KEY или доступ к AWS Bedrock, установка pip install strands-agents strands-agents-evals boto3, пути к демо-ноутбукам evaluate-with-llm-judges/01-rubric-based-evaluation и evaluate-agent-trajectories/01-trajectory-scoring внутри клонированного репозитория, пример импорта BedrockModel из strands.models.bedrock с полем model_id. В FAQ приведены ориентиры стоимости за одну оценку: порядка $0.001–0.003 для GPT-4o-mini и $0.015–0.045 для Claude Sonnet, а также режимы для CI/CD (малая suite на коммит), staging (100–500 кейсов) и production (выборка 1–5% живого трафика). В кодовом примере показано взвешенное объединение вида final_score = 0.6 * output_score + 0.4 * trajectory_score как иллюстрация совместного использования двух оценщиков.

Источники

elizabethfuentes12 (dev.to). Cómo Evaluar Agentes IA: Tutorial de LLM-as-Judge. Публикация 2026-05-26T19:03:38Z (UTC). Дата обращения к странице: 2026-05-26T22:00:00Z (UTC). URL: Dev.to
Репозиторий примеров (команда git clone на странице): https://github.com/elizabethfuentes12/how-to-evaluate-ai-agents-sample-for-aws.git
Дополнительно по метаданным dev.to для этой записи: публикация отнесена к тегам ai и programming; в шапке HTML указано «Tiempo estimado de lectura: 9 minutos»; в API dev.to для той же публикации указано время чтения 13 минут (расхождение с подписью в интерфейсе страницы не устранялось вне первоисточника).