AI Vibe Craft
← Назад к AI Vibe News

Редакция 16 июня 2026 г.

Разборы

AI нельзя «доверять» — его нужно проектировать: финал серии о harness для большого codebase

AI нельзя «доверять» — его нужно проектировать: финал серии о harness для большого codebase.

Ryan Tsuji, CTO airCloset, в финале шестичастной серии на Dev.to формулирует главный вывод: доверие к ИИ заменяется проектированием среды, в которой модель работает — через четыре механизма harness (knowledge graph, Auto Review, Self-Healing, Recurrence Prevention). LLM не узнает контекст, который ей не передали; «идеальное» поведение без явной спецификации — фантазия, а не вопрос качества Claude, GPT или Gemini.

Почему «не доверять» — это дизайн-решение, а не скепсис к моделям

В 2025 году задача у автора звучала прямолинейно: заставить AI реально понимать большой codebase. Уперлись в архитектурный предел — модель не догадается, какой контекст вы не положили в сессию. Формулировка «I don't trust AI to fill in the blanks for me» описывает не сомнение в выводе нейросети, а отказ полагаться на автозаполнение пробелов.

Отсюда рамка для vibe- и agent-assisted разработки: вместо надежды, что «станет умнее и само разберётся», фиксируют, где нужна детерминированность harness, а где допустим inference.

Зона детерминизма Зона inference
Какую часть codebase смотреть — из knowledge graph, не по аналогии Генерация кода, оценка findings ревью, гипотезы по логам
Список измерений ревью — заранее
Путь alert → fix PR при инциденте — фиксирован
Повтор одной и той же ловушки — lint и CI отказывают механически

Метафора автора простая: harness кладёт «рельсы»; на рельсах AI свободен, но не сходит в сторону. Аннотации на графе пишутся один раз при записи (write-time inference, проверено и заморожено), а чтение графа идёт без непроверенного inference на каждый запрос.

Две стены: context window и обучение на весах

Первая стена — масштабирование context window. Даже у моделей с очень большим окном автор наблюдает нестабильное поведение у предела: эффекты «lost in the middle» и размывания внимания.

Вторая — learning-based подходы. Fine-tuning «под организацию» Tsuji рассматривал, но не использует. Две причины зафиксированы явно. В 2025 году (и по состоянию на момент публикации — 2026) вывод learning в production остаётся исследовательской фазой с длинным путём до деплоя. Плюс нерешённая задача machine unlearning при изменении схемы и бизнес-правил, catastrophic forgetting и destructive interference при дообучении.

Вывод: раз модель «не учится» постоянно, проще подменять внешнее знание — граф, документы — чтобы отражать текущее состояние, чем гнаться за консистентностью в весах.

Архитектурный выход после обеих стен — GraphRAG плюс MCP (протокол Anthropic для подключения LLM к внешним инструментам): AI сам забирает нужный контекст в момент запроса. В тексте упомянуты db-graph MCP для natural-language над внутренними схемами БД и Sandbox MCP для безопасной публикации AI-собранных приложений для non-engineers.

Четыре механизма harness: от графа до механических барьеров

Внутренняя AI-платформа airCloset в серии названа cortex — автор отделяет это кодовое имя от коммерческих продуктов вроде Snowflake Cortex или Palo Alto Networks Cortex. Четыре механизма, которые Tsuji считает ключевыми, закрывают разные дыры в agentic-пайплайне.

Knowledge Graph (Product Graph / cpg). Вместо поиска по codebase через grep и догадки код, документация, схема БД и инфраструктура сводятся в один граф через аннотации @graph-*. AI обходит граф агентски и вытягивает факты как контекст — «supply facts as context». Предшественник на static-analysis code-graph (AST, imports, call graphs) был отброшен после примерно двух месяцев работы над 40+ репозиториями; текущая реализация — annotation-based product-graph.

Auto Review. Девять измерений ревью (responsibility, severity, type SSoT и др.) зафиксированы заранее — AI не выбирает «важные» оси сам. Цепочка: webhook → AI review → auto-fix → squash merge. Параллельные sub-agent на девять измерений автор отверг в пользу последовательной оценки в одной сессии — по его опыту, так быстрее, дешевле по токенам и согласованнее вердикты.

Self-Healing. Фиксированный поток: alert → расследование → fix PR → redeploy. Модель не переизобретает workflow реагирования на инцидент каждый раз.

Recurrence Prevention. После инцидента механически закрывают ловушки новыми lint и CI gates — чтобы та же ошибка не повторилась. В ретроспективах фигурируют правила вроде no-silent-catch и vitest-strong-matchers; порог Coverage 90%+ описан как «минимальный пол», а не самоцель.

AI coding — не про «как пользоваться AI», а про проектирование среды, в которой AI работает. Harness становится необходим, когда масштаб codebase превышает то, что один человек держит в голове.

Non-engineer PR: доменные эксперты в production-репозитории

Пятая часть серии — Non-Engineer PRs: PMO, бизнес-менеджеры и инженеры с глубоким предметным знанием открывают pull request напрямую в production-репозиторий. Качество удерживает harness — граф контекста, Auto Review, Self-Healing и Recurrence Prevention. Без этих трёх слоёв такой режим, по оценке автора, «не пережил бы и дня».

Следствие для организации процесса: исчезает прослойка «перевод требований» и очередь приоритетов инженеров — но только при заранее залоченном контексте, измерениях ревью и механических барьерах от повторных ошибок. Это не магия capability модели, а следствие спроектированной инфраструктуры: tree-sitter для AST, Cloud Run OTel → Loki / Grafana, Vitest, @cortex/otel/logger — всё перечислено в контексте построенного harness.

Модели сходятся, harness различает

Позиция из вводной части серии: models commoditize, harnesses differentiate. Качество frontier-моделей сходится; дифференциация — в org-specific harness. Четыре решения, которые Tsuji считает ключевыми: сначала зафиксировать убеждение «AI isn't something to trust»; инвестировать с готовностью выбрасывать (как code-graph после двух месяцев); не давать одной метрике вроде Coverage 90% стать самоцелью; проектировать «no inference»-структуру, а не полагаться на capability модели.

В afterword зрелые harness'ы делят инженерную работу на «бизнес-дизайн / постановку проблемы» и «фундамент безопасности и скорости» — граф, Auto Review, Self-Healing, lint, CI, observability. Для читателя, который собирает agentic IDE или MCP-стек, серия читается как карта: где inference уместен, а где нужны рельсы, которые не зависят от того, какая модель стоит в конце цепочки.

Шесть постов серии на Dev.to ведут от введения в harness cortex (ai-harness-intro) через product graph, auto review, self-healing и non-engineer PRs к этому финалу. Материал опубликован 16 июня 2026 года в ленте тега ai; время чтения по площадке — 20 минут.

Источники

  • Ryan Tsuji — «AI Isn't Something to Trust — It's Something to Design (Series Final)», Dev.to, 2026-06-16: Dev.to
  • Части серии (slugs на Dev.to): ai-harness-intro, cortex-product-graph, cortex-auto-review, cortex-self-healing, cortex-non-engineer-prs — базовый URL: https://dev.to/ryantsuji/<slug>