Слишком дёшево, чтобы быть хорошим? Бенчмарк восьми AI-агентов на VPS-инфраструктуре

Разработчик на реальном VPS сравнил восемь связок coding agent и LLM-модели, поручив им спроектировать и собрать продакшен-стек без панели управления. полный отчёт на Dev.to Победила связка OpenCode + GLM 5.2 — единственная, которую внешнее ревью признало готовой к продакшену «как есть», при суммарных расходах около двух долларов на весь эксперимент.
Зачем гонять AI-агентов на серверной миграции
Исходная задача — не абстрактный кодинг-челлендж, а замена связки aaPanel и OpenLiteSpeed на Caddy, shell-скрипты и минимальный FastAPI-слой для автоматизации. Автор уже прошёл путь CyberPanel → aaPanel и сместился к квазистатике на Astro; готовые обёртки вроде CaddyManager и CaddyGen отверг как не готовые к продакшену.
Бриф для моделей описывает Ubuntu 24.04, Caddy с авто-HTTPS, PHP-FPM, MariaDB, PostgreSQL и Valkey. Нужны четыре типа сайтов — static, PHP, WordPress через WP-CLI и reverse proxy для локальных Node, FastAPI или Go — плюс операции bootstrap, provisioning, бэкап и управление сервисами. Docker и control panel исключены: только скрипты и API.
Такой сценарий ближе к vibe coding на инфраструктуре, чем к классическому DevOps-туториалу: агентам отдают полный контекст продакшен-ограничений и смотрят, кто выдержит многофайловую согласованность.
Восемь комбинаций агентов и моделей
Автор протестировал восемь пар «инструмент + модель» на одном VPS-проекте. В таблице — все участники до раскрытия псевдонимов A–D:
| Инструмент | Модель |
|---|---|
| Claude Code | Haiku 4.5 |
| Copilot CLI | Haiku 4.5 |
| OpenCode | Haiku 4.5 |
| OpenCode | GLM 5.2 |
| OpenCode | BigPickle (free) |
| OpenCode | Gemini 3.1 Pro |
| OpenCode | DeepSeek V4 Pro |
| OpenCode | GPT-OSS-120B |
Четыре итоговые реализации кода получили псевдонимы A–D и прошли внешнее ревью; имена моделей раскрыты только после вердикта ревьюера. В материале также упомянуты Kilo CLI (маршрутизация через DeepInfra или OpenRouter) и отдельный тест Kimi K2.7 Code в аддендуме — 19 из 25 баллов и статус «не production-ready» из‑за паролей БД в аргументах CLI.
Copilot CLI с Haiku 4.5 попал в матрицу на фоне перехода GitHub Copilot на token billing с 1 июня 2026 и высоких тарифов Sonnet 4.6 в этой линейке (~$3/M input, ~$15/M output по данным автора).
Протокол: архитектура, код и независимое ревью
Эксперимент разбит на две фазы. Сначала каждая модель получает одинаковый функциональный бриф без лишнего контекста и предлагает архитектуру, структуру и карту API-маршрутов. Затем всем выдают единый development prompt с уже проверенной архитектурой, десятью зафиксированными техническими решениями и конвенцией exit-кодов; требование — тридцать файлов на диск, без саммари.
Код четырёх реализаций (A–D) передали модели, которая не участвовала в генерации. Сетка — пять критериев (security, correctness, idempotency, code quality, completeness) и пять файлов на реализацию: common.sh, site-create.sh, site-delete.sh, backup.sh, api/runner.py. Максимум — 25 баллов на ветку; загружено 20 файлов за один проход.
| Критерий | A | B | C | D |
|---|---|---|---|---|
| Security | 3/5 | 3/5 | 5/5 | 2/5 |
| Correctness | 3/5 | 2/5 | 5/5 | 2/5 |
| Idempotency | 3/5 | 3/5 | 5/5 | 3/5 |
| Code quality | 3/5 | 2/5 | 5/5 | 3/5 |
| Completeness | 3/5 | 2/5 | 5/5 | 2/5 |
| Итого | 15/25 | 12/25 | 25/25 | 12/25 |
Стоимость внешнего ревью в основной части бенчмарка — $0.0766 за 543k токенов. Имя модели-ревьюера для фазы A–D в тексте не названо; в аддендуме к Kimi фигурирует только отсылка к «Qwen 3.7 Plus review grid».
Среди типичных замечаний — silent bug в Model D (SFTP-пароль не возвращается), local вне функции в Model B, небезопасный eval "$POST_HOOK" у A и B. Model C (GLM 5.2) — единственный с asyncio в api/runner.py без утечки credentials в stdout.
Победитель и экономика: цена не предсказывает качество
После раскрытия псевдонимов победителем оказалась связка GLM 5.2 + OpenCode (ветка C): 25/25 и статус production-ready as-is. Её стоимость — $1.73 ($1.67 на код-фазу и $0.06 на планирование).
Контраст с соседями резкий:
| Псевдоним | Модель | Инструмент | Стоимость ветки | Баллы |
|---|---|---|---|---|
| A | BigPickle | OpenCode | $0 | 15/25 |
| B | Haiku 4.5 | Claude Code | Pro ($20/month) | 12/25 |
| C | GLM 5.2 | OpenCode | $1.73 | 25/25 |
| D | DeepSeek V4 Pro | OpenCode | $0.24 | 12/25 |
Полный цикл — планирование, реализация и внешнее ревью — обошёлся в $1.94. Автор сопоставляет это с оценкой ~$25 за аналогичную по токенам сессию через Copilot + Sonnet 4.6 (без функциональных тестов и самокоррекции в той сессии). Заголовок «too cheap to be good» здесь не абстракция: бесплатный BigPickle набрал 15/25 и не прошёл порог продакшена, а подписка Claude Code Pro при 12/25 уперлась в bash-блокеры.
Брифы, промпты и evaluation grid вынесены в репозиторий pcescato/LLM-Challenge на GitHub — в самом посте тексты промптов не приводятся.
Маршрутизация моделей как рабочая стратегия vibe coding
Вывод выходит за рамки «выбрать одну дорогую модель на всё». Предлагается трёхуровневая маршрутизация:
| Уровень | Модель | Ориентир стоимости | Типичные задачи |
|---|---|---|---|
| Free | BigPickle | $0 | отладка, коммиты, SQL-ошибки |
| Budget | DeepSeek V4 Pro | $0.44/M | boilerplate, CRUD, короткие скрипты |
| Premium | GLM 5.2 | $1.40/M | архитектура, безопасность, мультифайловая согласованность |
На сложных инфраструктурных задачах дешёвый токен не гарантирует провал, а премиальный — успех. Разница между инструментами (Claude Code, Copilot CLI, OpenCode) и возможностью подключать модели через DeepInfra или OpenRouter оказывается не менее важной, чем номинальная цена за миллион токенов.
Для команд, которые собирают продакшен-стек агентами, практический сигнал простой: гонять несколько связок на одном брифе, отдавать код на внешнее ревью вне генератора и считать полную стоимость цикла — не только inference на этапе написания файлов.
Источники
- Pascal Cescato, «Too cheap to be good? Think again.» — Dev.to: Dev.to (доступ 2026-06-24)
- Репозиторий бенчмарка LLM-Challenge: https://github.com/pcescato/LLM-Challenge (доступ 2026-06-24)