Редакция 8 июня 2026 г.

VP обещал, что ИИ протестирует код сам: разбор кейса про AI-assisted QA

Обязательный стандарт «ИИ пишет код и сам его проверяет» заканчивается для одного инженера переводом в legacy-команду без write-доступа — на фоне третьего дня полного cutover и $2,8M несогласованного биллинга в сюжете. На Dev.to опубликован художественный разбор: VP объявляет end-to-end AI-generated workflow, а dissent фиксируется папкой evidence/ с падающим pytest и скриншотами ещё за 27 дней до релиза; это композитный кейс о верификации ИИ-кода, а не репортаж о реальной компании.

Жанр и границы доверия к цифрам

Материал открывается формулировкой «Based on real software development trends» и прямо помечен как история на основе «сабмита от участника сообщества». Персонажи — Marcus (VP Engineering), безымянный рассказчик, CEO, CTO, CFO — и домены вроде new-api.xxx.com задуманы как элементы вымышленного сеттинга.

Ущерб $2,8M, таблица impact и цитаты из Slack — факты внутри рассказа, а не независимо подтверждённые внешние данные.

Для читателя, который ищет практику внедрения ИИ в SDLC, ценность поста — в конфликте политики «ИИ сам всё проверит» и инженерных артефактов, которые эту политику опровергают. Теги ai, programming, discuss, career на площадке задают дискуссионный, а не туториальный угол.

Политика «AI tests itself»: что обещал VP

На техвстрече Marcus отвечает на «Who writes the tests?» фразой «AI tests itself», на «Who reviews the code?» — «AI reviews it». Дальше политика формулируется жёстко: AI coding «не опция», а обязательный стандарт разработки; в слайде фигурирует тезис «WRITING BY HAND IS OVER» и бенчмарк «AI writes code 400% faster than humans».

Конкретный вендорный продукт для тестирования не назван. В репликах VP мелькает вымышленная модель Orion-7; отдельно упомянут GitHub Copilot — Marcus отменяет лицензию рассказчику на legacy-проектах. «Самотестирование» здесь — организационная вера в end-to-end AI-generated workflow, а не описание именованного CI-агента или QA-инструмента.

Доказательства до cutover: pytest, TODO и null в API

За 27 дней до production cutover рассказчик создаёт папку evidence/ и фиксирует три класса проблем в новом order module, который CEO хвалит как «AI-generated code end-to-end» и «Zero-defect delivery».

pytest tests/ --tb=short -q
# 15 passed, 8 failed

grep -rn "TODO" src/ | wc -l
# 47

Третий артефакт — API, где discount_detail возвращает null, хотя в документации поле помечено как required object. На слайде postmortem перечислены файлы screenshot-01-unit-test-failures.png, screenshot-02-todo-list.png, screenshot-03-api-null.png. Email Marcus с темой «New Order Module — Test Failures Found» и вложениями (pytest output, счётчик TODO, null response) в сюжете остаётся без ответа.

Третий день full cutover и $2,8M внутри сюжета

Кульминация привязана к третьему дню полного cutover — не канареечного режима. CFO сообщает CEO: за последние три дня у каждого обработанного заказа неверная сумма скидки. В тексте фигурирует $2 800 000 в unreconciled billing за три последовательных дня.

Метрика (в рассказе)	Значение
Заказов затронуто	1 247
Среднее расхождение на заказ	$2 246
Максимум на один заказ	$18 740
Enterprise-клиентов	16
Окно без исправления	72 часа

После встречи HR на следующий день переводит рассказчика в Legacy Systems team (три человека, проекты без дедлайнов), снимает write-доступ к репозиториям и оставляет review-only; новый main repo клонируется с public read-only.

Где сломалась верификация: compound discounts и промпт

Root cause в посте — AI-сгенерированный код для compound discounts без заданного порядка вычислений. Промпт не фиксировал последовательность «line-item → subtotal → member tier»; модель «угадывала» порядок по-разному на каждый запрос. В коде apply_compound_discount остаётся TODO о порядке compound discount; итерация идёт по dict insertion order.

В legacy-системе существовал тест test_compound_discount_sequence (последнее изменение 2019), фиксирующий порядок скидок, согласованный с Finance. Канареечный месяц прошёл с «zero incidents», но на низком трафике и простых заказах; unit-тесты в новом модуле при канарее не были полностью прогнаны. Bulk-заказы крупных клиентов с множественными скидками пошли только после full cutover — и именно там проявился баг.

Цитата Marcus в Slack до AI-разработки задаёт тон отказа от ручного контура:

Don't spend too much time on testing. AI generates its own code — it'll verify itself. Let's ship first, we'll backfill tests later.

После сюжета: review board и обязательное покрытие

Финал рассказа — не технический, а организационный. CEO вводит политику: весь AI-generated code проходит line-by-line review senior engineer перед merge; test coverage объявляется «non-negotiable»; рассказчик возглавляет независимый Code Review Board у CTO.

Для команд, которые реально внедряют Copilot, codegen и агентные пайплайны, урок сформулирован без морализаторства: обещание «ИИ протестирует себя» не заменяет падающий pytest, TODO в production path и контракт API, который возвращает null. Автор в конце призывает follow за темами AI testing и quality engineering — мост от художественного кейса к практике верификации ИИ-кода.

Источники

@xulingfeng — Our VP Said AI Would Test Itself… (Dev.to, дата доступа: 2026-06-07 UTC)