Stratagems: бенчмарк ИИ, который посчитал всё — кроме происхождения данных

В первом эпизоде fiction-сериала Stratagems инженер приходит на технический аудит стартапа с заявленным 89% обнаружения дефектов — и упирается в evaluation set, слишком «учебниковый» для продакшена. эпизод на Dev.to Это не кейс из новостей, а сюжет про доверие к метрикам ИИ-систем: бенчмарк выдаёт detection rate, а «правда» остаётся в том, откуда взялись образцы.
Автор xulingfeng опубликовал материал 24 июня 2026 на Dev.to с тегами programming, discuss и career; на чтение уходит около 9 минут. Эпизод открывается мотивом из The 36 Stratagems: полная подготовка рождает самоуспокоенность, привычное перестаёт настораживать.
AI Skill как продукт — и сбой после смены брокера
До аудита сюжет показывает другую грань доверия к ИИ-инструментам. Компания героя упаковывает 12 лет инфраструктурного опыта Mark Johnson в AI Skill с заявленной 96,8% точностью диагностики, рассылает письмо «Twelve years of experience, now available as a Prompt» — и увольняет инженера.
После миграции RabbitMQ→Kafka Skill продолжает выполнять старую логику retry с задержкой 450 ms. В 4:12 ночи CTO звонит: прод упал. Сценарий не про «плохой промпт», а про то, что экспортированный skill не пережил смену окружения — типичный провал, когда метрика точности на тестах не гарантирует поведение в проде.
Сюжетный AI Skill и реальный agent skill в IDE — разные вещи, но общий вопрос один: что именно измеряла «точность», и на каких данных.
Конвейер Pulse Benchmark и цифра для инвестора
Mark нанимают на technical due diligence Pulse AI перед Series B. VC-партнёр ссылается на $18 million (в тексте подчёркивается: не тысячи) и на заявление CEO: 89% production defect detection.
Вымышленная платформа Pulse Benchmark устроена как закрытый конвейер:
коммит → тесты → evaluation set → база дефектов → detection rate
На бумаге цепочка выглядит зрелой: каждый коммит автоматически попадает в оценку, результат — одна понятная метрика для раунда. Именно эта простота и делает бенчмарк опасным: одна цифра закрывает вопрос «можно ли доверять ИИ-платформе», пока никто не смотрит на состав evaluation set.
Аудит evaluation set: 98 образцов из 1247
Метод Mark простой и переносимый на реальные аудиты ML- и агентных систем: запросить evaluation set, прогнать перекрёстную проверку с открытыми базами дефектов, разметить совпадения.
В сюжете в наборе 1 247 JSON-образцов. Скрипт находит 44 точных совпадения с публичными базами (GitHub Issues, Stack Overflow, CVE — как категории в тексте, без конкретных продуктов) и 54 образца с признаками ручной «сборки». Суммарно 98 записей (7,9%) помечены красным или жёлтым.
Триггер подозрения мелкий, но показательный: null pointer exception с 4 слоями stack trace вместо типичных «семи–восьми и больше» в продакшене. Фраза аудитора звучит как диагноз: «Production data is dirty. This data isn't.»
В метаданных каждого JSON фигурирует processed_by: Apex-Lens-Cleaner v1.0.0 — модуль, которого нет в публичной архитектуре Pulse. Параллельно всплывает naming пайплайна /pulse/ingestion/{env}/{source} — эхо стандарта /knowledge/ingestion/{env}/{source} из прошлой компании Mark.
Цель 95% к Series C и разговор по телефону
CTO Torres узнаётся по стикеру на ноутбуке и совпадению workspace-стандартов. По телефону он признаёт цель «дотянуть Benchmark number до 95% перед Series C» и что 44 образца команда взяла из публичных баз, 54 написала сама.
Цитата из сюжета, которую Mark не включает в письмо инвестору целиком: «I'm trying to get the number there first… then spend a year building a real production pipeline.» Организационный конфликт здесь не в баге кода, а в приоритете метрики раунда над честным пайплайном оценки.
Mark в рекомендации VC ограничивается абзацем про 44+54 и 7,9% — без полного списка из пяти пунктов его заметок (naming pipeline, дословные копии, Apex-Lens-Cleaner). Даже аудитор фильтрует, что показать заказчику — и это тоже урок для читателя.
Fiction, ИИ в производстве текста и рамка Stratagems
Жанр поста — художественный сериал: персонажи, Pulse AI и продукты вроде Apex-Lens-Cleaner не подаются как репортаж. В финале — блок AI Post-Match Analysis с псевдо-терминалом Stratagems Database v3.1 и Tactic Match 92,3%; эпиграф и развязка отсылают к стратагеме «Deceive the Heavens to Cross the Sea».
Анонсирован следующий эпизод — «Besiege Wei to Rescue Zhao». В P.S. автор уточняет, что английский — не родной, а для полировки текста и storycraft использовал ИИ; просит поддержку через «Buy me a coffee».
Для разработчика, который оценивает agent skills, бенчмарки LLM или внутренние AI-платформы, fiction работает как стресс-тест интуиции: что вы проверите первым — процент на слайде или происхождение evaluation set?
Источники
- Stratagems #1: Mark Johnson Walked Into an AI Audit. The Benchmark Had Everything Figured Out — Except the Truth. — xulingfeng, Dev.to, 2026-06-24 (дата доступа: 2026-06-24T22:05:00Z)
- Метрики ленты Dev.to на момент публикации в ленте: 5 комментариев, 17 публичных реакций; счётчик просмотров на странице поста не отображался