AI Vibe Craft
← Назад к AI Vibe News

Редакция 16 апреля 2026 г.

Разборы

Кто проверяет проверяющих: LLM-судья для агентной надёжности

Кто проверяет проверяющих: LLM-судья для агентной надёжности. Когда вокруг ИИ-агентов и MCP выстраивается целый «форензик-контур», который ищет несоответствия и держит в голове цену ошибки, одного субъективного «вайб-чека» уже мало. Нужен внешний оценщик с рубрикой и опорой на этал

Когда вокруг ИИ-агентов и MCP выстраивается целый «форензик-контур», который ищет несоответствия и держит в голове цену ошибки, одного субъективного «вайб-чека» уже мало. Нужен внешний оценщик с рубрикой и опорой на эталонные факты. На Dev.to автор Ken Walger разворачивает метафору Forensic Team — агентов с MCP, которые «находят книги, анализируют метаданные и замечают расхождения», — и предлагает поверх неё The Judge: модель с сильным рассуждением, которая сверяет работу команды с Golden Dataset с известной истиной. В prerequisites он прямо опирается на уже существующий agentic workflow (в материале есть ссылка на свою серию про MCP-форензику) и на high-reasoning model в роли судьи; в качестве примеров названы Claude 3.5 Opus и GPT-4o.

Агенты, MCP и цена ошибки: зачем вообще внешний судья

Текст строится на напряжении между полезной автономией агентов и ответственностью в духе enterprise: в сценарии с дорогим предметом коллекционирования промах оценки бьёт не по «демо», а по доверию и рискам. MCP здесь не декорация, а часть рабочего контура Forensic Team. Смысловой контраст автор задаёт цитатой-ударом из англоязычного сниппета: Stop "vibe-checking" your AI agents — переход от интуитивной проверки к дисциплине измеримой надёжности.

Golden Dataset и три оси: Precision, Recall, Reasoning

«Золото» в статье материализуется как файл tests/golden_dataset.json; в качестве иллюстрации приводится пример записи с полями вроде test_id, input, expected_finding, severity. The Judge описан как high-reasoning evaluator, который сопоставляет выводы Forensic Team с этим эталоном. Рубрика оценки разложена на три оси: Precision (отмечены ли только реальные ошибки), Recall (найдены ли все), Reasoning (понятно ли, почему помечена запись). В блоке Director-Level Insight автор поднимает управленческий слой: Quantitative Reliability Score, минимальный порог качества перед выкатом и жёсткое следствие для изменений, влияющих на точность — в формулировке оригинала снижение точности на 2% после обновления модели или смены промпта должно приводить к тому, что Judge блокирует деплой (это не метрики площадки, а логика цитаты из поста).

Промпты в YAML, evaluator.py и «рукопожатие» с судьёй

Дальше в повествовании появляется шаг сделать систему наблюдаемой и управляемой: system prompts переносятся из Python client в config/prompts.yaml, чтобы проще смотреть версии и A/B-тестировать промпты против Judge на конкретных моделях. В репозиторий добавляется evaluator.py; в тексте поста на Dev.to присутствует ссылка на https://github.com/kenwalger/mcp-forensic-analyzer. В evaluation loop автор выделяет замену «проглоченных» исключений на structured logging при сбоях провайдера и этап The Handshake: запуск Forensic Team, сбор логов, передача пакета high-reasoning Judge Agent. Замкнутый контур описан как сдвиг от вопроса «запускается ли код» к «соответствует ли интеллект планке качества»; дальше автор связывает это с экономией на выборе более дешёвых моделей для простых задач — снова в рамках оригинальных формулировок, без приведённых в материале таблиц бенчмарков и без автоматических числовых отчётов о выполнении тестов на странице.

Серия и границы того, что статья обещает на самом деле

Пост помечен как Post 1 серии The Production-Grade AI Series; Post 2 (The Accountant) и Post 3 (The Guardian) в тексте значатся как Coming Soon; есть отсылка к предыдущей серии про Zero-Glue AI Mesh with MCP (ссылка внутри статьи ведёт в блог автора). По данным карточки материала на Dev.to, публикация датирована 2026-04-16T16:12:31Z, а ориентир по объёму — примерно три минуты чтения (поле reading time в данных API dev.to для этой записи). При этом на странице нет самодостаточного полного кода evaluator.py и таблиц фактических benchmark-цифр — материал намеренно остаётся на уровне пересказа рамки и цитатных формулировок, без выдуманных метрик исполнения.

Источники

  • Ken Walger, Who Audits the Auditors? Building an LLM-as-a-Judge for Agentic ReliabilityDev.to (дата доступа: 2026-04-16T21:45:00Z, UTC). Дата публикации на площадке в материале: 2026-04-16T16:12:31Z (UTC).