Редакция 24 июня 2026 г.

Слишком дёшево, чтобы быть хорошим? Бенчмарк восьми AI-агентов на VPS-инфраструктуре

Разработчик на реальном VPS сравнил восемь связок coding agent и LLM-модели, поручив им спроектировать и собрать продакшен-стек без панели управления. полный отчёт на Dev.to Победила связка OpenCode + GLM 5.2 — единственная, которую внешнее ревью признало готовой к продакшену «как есть», при суммарных расходах около двух долларов на весь эксперимент.

Зачем гонять AI-агентов на серверной миграции

Исходная задача — не абстрактный кодинг-челлендж, а замена связки aaPanel и OpenLiteSpeed на Caddy, shell-скрипты и минимальный FastAPI-слой для автоматизации. Автор уже прошёл путь CyberPanel → aaPanel и сместился к квазистатике на Astro; готовые обёртки вроде CaddyManager и CaddyGen отверг как не готовые к продакшену.

Бриф для моделей описывает Ubuntu 24.04, Caddy с авто-HTTPS, PHP-FPM, MariaDB, PostgreSQL и Valkey. Нужны четыре типа сайтов — static, PHP, WordPress через WP-CLI и reverse proxy для локальных Node, FastAPI или Go — плюс операции bootstrap, provisioning, бэкап и управление сервисами. Docker и control panel исключены: только скрипты и API.

Такой сценарий ближе к vibe coding на инфраструктуре, чем к классическому DevOps-туториалу: агентам отдают полный контекст продакшен-ограничений и смотрят, кто выдержит многофайловую согласованность.

Восемь комбинаций агентов и моделей

Автор протестировал восемь пар «инструмент + модель» на одном VPS-проекте. В таблице — все участники до раскрытия псевдонимов A–D:

Инструмент	Модель
Claude Code	Haiku 4.5
Copilot CLI	Haiku 4.5
OpenCode	Haiku 4.5
OpenCode	GLM 5.2
OpenCode	BigPickle (free)
OpenCode	Gemini 3.1 Pro
OpenCode	DeepSeek V4 Pro
OpenCode	GPT-OSS-120B

Четыре итоговые реализации кода получили псевдонимы A–D и прошли внешнее ревью; имена моделей раскрыты только после вердикта ревьюера. В материале также упомянуты Kilo CLI (маршрутизация через DeepInfra или OpenRouter) и отдельный тест Kimi K2.7 Code в аддендуме — 19 из 25 баллов и статус «не production-ready» из‑за паролей БД в аргументах CLI.

Copilot CLI с Haiku 4.5 попал в матрицу на фоне перехода GitHub Copilot на token billing с 1 июня 2026 и высоких тарифов Sonnet 4.6 в этой линейке (~$3/M input, ~$15/M output по данным автора).

Протокол: архитектура, код и независимое ревью

Эксперимент разбит на две фазы. Сначала каждая модель получает одинаковый функциональный бриф без лишнего контекста и предлагает архитектуру, структуру и карту API-маршрутов. Затем всем выдают единый development prompt с уже проверенной архитектурой, десятью зафиксированными техническими решениями и конвенцией exit-кодов; требование — тридцать файлов на диск, без саммари.

Код четырёх реализаций (A–D) передали модели, которая не участвовала в генерации. Сетка — пять критериев (security, correctness, idempotency, code quality, completeness) и пять файлов на реализацию: common.sh, site-create.sh, site-delete.sh, backup.sh, api/runner.py. Максимум — 25 баллов на ветку; загружено 20 файлов за один проход.

Критерий	A	B	C	D
Security	3/5	3/5	5/5	2/5
Correctness	3/5	2/5	5/5	2/5
Idempotency	3/5	3/5	5/5	3/5
Code quality	3/5	2/5	5/5	3/5
Completeness	3/5	2/5	5/5	2/5
Итого	15/25	12/25	25/25	12/25

Стоимость внешнего ревью в основной части бенчмарка — $0.0766 за 543k токенов. Имя модели-ревьюера для фазы A–D в тексте не названо; в аддендуме к Kimi фигурирует только отсылка к «Qwen 3.7 Plus review grid».

Среди типичных замечаний — silent bug в Model D (SFTP-пароль не возвращается), local вне функции в Model B, небезопасный eval "$POST_HOOK" у A и B. Model C (GLM 5.2) — единственный с asyncio в api/runner.py без утечки credentials в stdout.

Победитель и экономика: цена не предсказывает качество

После раскрытия псевдонимов победителем оказалась связка GLM 5.2 + OpenCode (ветка C): 25/25 и статус production-ready as-is. Её стоимость — $1.73 ($1.67 на код-фазу и $0.06 на планирование).

Контраст с соседями резкий:

Псевдоним	Модель	Инструмент	Стоимость ветки	Баллы
A	BigPickle	OpenCode	$0	15/25
B	Haiku 4.5	Claude Code	Pro ($20/month)	12/25
C	GLM 5.2	OpenCode	$1.73	25/25
D	DeepSeek V4 Pro	OpenCode	$0.24	12/25

Полный цикл — планирование, реализация и внешнее ревью — обошёлся в $1.94. Автор сопоставляет это с оценкой ~$25 за аналогичную по токенам сессию через Copilot + Sonnet 4.6 (без функциональных тестов и самокоррекции в той сессии). Заголовок «too cheap to be good» здесь не абстракция: бесплатный BigPickle набрал 15/25 и не прошёл порог продакшена, а подписка Claude Code Pro при 12/25 уперлась в bash-блокеры.

Брифы, промпты и evaluation grid вынесены в репозиторий pcescato/LLM-Challenge на GitHub — в самом посте тексты промптов не приводятся.

Маршрутизация моделей как рабочая стратегия vibe coding

Вывод выходит за рамки «выбрать одну дорогую модель на всё». Предлагается трёхуровневая маршрутизация:

Уровень	Модель	Ориентир стоимости	Типичные задачи
Free	BigPickle	$0	отладка, коммиты, SQL-ошибки
Budget	DeepSeek V4 Pro	$0.44/M	boilerplate, CRUD, короткие скрипты
Premium	GLM 5.2	$1.40/M	архитектура, безопасность, мультифайловая согласованность

На сложных инфраструктурных задачах дешёвый токен не гарантирует провал, а премиальный — успех. Разница между инструментами (Claude Code, Copilot CLI, OpenCode) и возможностью подключать модели через DeepInfra или OpenRouter оказывается не менее важной, чем номинальная цена за миллион токенов.

Для команд, которые собирают продакшен-стек агентами, практический сигнал простой: гонять несколько связок на одном брифе, отдавать код на внешнее ревью вне генератора и считать полную стоимость цикла — не только inference на этапе написания файлов.

Источники

Pascal Cescato, «Too cheap to be good? Think again.» — Dev.to: Dev.to (доступ 2026-06-24)
Репозиторий бенчмарка LLM-Challenge: https://github.com/pcescato/LLM-Challenge (доступ 2026-06-24)