AI Vibe Craft
← Назад к AI Vibe News

Редакция 24 июня 2026 г.

Разборы

Слишком дёшево, чтобы быть хорошим? Бенчмарк восьми AI-агентов на VPS-инфраструктуре

Слишком дёшево, чтобы быть хорошим? Бенчмарк восьми AI-агентов на VPS-инфраструктуре.

Разработчик на реальном VPS сравнил восемь связок coding agent и LLM-модели, поручив им спроектировать и собрать продакшен-стек без панели управления. полный отчёт на Dev.to Победила связка OpenCode + GLM 5.2 — единственная, которую внешнее ревью признало готовой к продакшену «как есть», при суммарных расходах около двух долларов на весь эксперимент.

Зачем гонять AI-агентов на серверной миграции

Исходная задача — не абстрактный кодинг-челлендж, а замена связки aaPanel и OpenLiteSpeed на Caddy, shell-скрипты и минимальный FastAPI-слой для автоматизации. Автор уже прошёл путь CyberPanel → aaPanel и сместился к квазистатике на Astro; готовые обёртки вроде CaddyManager и CaddyGen отверг как не готовые к продакшену.

Бриф для моделей описывает Ubuntu 24.04, Caddy с авто-HTTPS, PHP-FPM, MariaDB, PostgreSQL и Valkey. Нужны четыре типа сайтов — static, PHP, WordPress через WP-CLI и reverse proxy для локальных Node, FastAPI или Go — плюс операции bootstrap, provisioning, бэкап и управление сервисами. Docker и control panel исключены: только скрипты и API.

Такой сценарий ближе к vibe coding на инфраструктуре, чем к классическому DevOps-туториалу: агентам отдают полный контекст продакшен-ограничений и смотрят, кто выдержит многофайловую согласованность.

Восемь комбинаций агентов и моделей

Автор протестировал восемь пар «инструмент + модель» на одном VPS-проекте. В таблице — все участники до раскрытия псевдонимов A–D:

Инструмент Модель
Claude Code Haiku 4.5
Copilot CLI Haiku 4.5
OpenCode Haiku 4.5
OpenCode GLM 5.2
OpenCode BigPickle (free)
OpenCode Gemini 3.1 Pro
OpenCode DeepSeek V4 Pro
OpenCode GPT-OSS-120B

Четыре итоговые реализации кода получили псевдонимы A–D и прошли внешнее ревью; имена моделей раскрыты только после вердикта ревьюера. В материале также упомянуты Kilo CLI (маршрутизация через DeepInfra или OpenRouter) и отдельный тест Kimi K2.7 Code в аддендуме — 19 из 25 баллов и статус «не production-ready» из‑за паролей БД в аргументах CLI.

Copilot CLI с Haiku 4.5 попал в матрицу на фоне перехода GitHub Copilot на token billing с 1 июня 2026 и высоких тарифов Sonnet 4.6 в этой линейке (~$3/M input, ~$15/M output по данным автора).

Протокол: архитектура, код и независимое ревью

Эксперимент разбит на две фазы. Сначала каждая модель получает одинаковый функциональный бриф без лишнего контекста и предлагает архитектуру, структуру и карту API-маршрутов. Затем всем выдают единый development prompt с уже проверенной архитектурой, десятью зафиксированными техническими решениями и конвенцией exit-кодов; требование — тридцать файлов на диск, без саммари.

Код четырёх реализаций (A–D) передали модели, которая не участвовала в генерации. Сетка — пять критериев (security, correctness, idempotency, code quality, completeness) и пять файлов на реализацию: common.sh, site-create.sh, site-delete.sh, backup.sh, api/runner.py. Максимум — 25 баллов на ветку; загружено 20 файлов за один проход.

Критерий A B C D
Security 3/5 3/5 5/5 2/5
Correctness 3/5 2/5 5/5 2/5
Idempotency 3/5 3/5 5/5 3/5
Code quality 3/5 2/5 5/5 3/5
Completeness 3/5 2/5 5/5 2/5
Итого 15/25 12/25 25/25 12/25

Стоимость внешнего ревью в основной части бенчмарка — $0.0766 за 543k токенов. Имя модели-ревьюера для фазы A–D в тексте не названо; в аддендуме к Kimi фигурирует только отсылка к «Qwen 3.7 Plus review grid».

Среди типичных замечаний — silent bug в Model D (SFTP-пароль не возвращается), local вне функции в Model B, небезопасный eval "$POST_HOOK" у A и B. Model C (GLM 5.2) — единственный с asyncio в api/runner.py без утечки credentials в stdout.

Победитель и экономика: цена не предсказывает качество

После раскрытия псевдонимов победителем оказалась связка GLM 5.2 + OpenCode (ветка C): 25/25 и статус production-ready as-is. Её стоимость — $1.73 ($1.67 на код-фазу и $0.06 на планирование).

Контраст с соседями резкий:

Псевдоним Модель Инструмент Стоимость ветки Баллы
A BigPickle OpenCode $0 15/25
B Haiku 4.5 Claude Code Pro ($20/month) 12/25
C GLM 5.2 OpenCode $1.73 25/25
D DeepSeek V4 Pro OpenCode $0.24 12/25

Полный цикл — планирование, реализация и внешнее ревью — обошёлся в $1.94. Автор сопоставляет это с оценкой ~$25 за аналогичную по токенам сессию через Copilot + Sonnet 4.6 (без функциональных тестов и самокоррекции в той сессии). Заголовок «too cheap to be good» здесь не абстракция: бесплатный BigPickle набрал 15/25 и не прошёл порог продакшена, а подписка Claude Code Pro при 12/25 уперлась в bash-блокеры.

Брифы, промпты и evaluation grid вынесены в репозиторий pcescato/LLM-Challenge на GitHub — в самом посте тексты промптов не приводятся.

Маршрутизация моделей как рабочая стратегия vibe coding

Вывод выходит за рамки «выбрать одну дорогую модель на всё». Предлагается трёхуровневая маршрутизация:

Уровень Модель Ориентир стоимости Типичные задачи
Free BigPickle $0 отладка, коммиты, SQL-ошибки
Budget DeepSeek V4 Pro $0.44/M boilerplate, CRUD, короткие скрипты
Premium GLM 5.2 $1.40/M архитектура, безопасность, мультифайловая согласованность

На сложных инфраструктурных задачах дешёвый токен не гарантирует провал, а премиальный — успех. Разница между инструментами (Claude Code, Copilot CLI, OpenCode) и возможностью подключать модели через DeepInfra или OpenRouter оказывается не менее важной, чем номинальная цена за миллион токенов.

Для команд, которые собирают продакшен-стек агентами, практический сигнал простой: гонять несколько связок на одном брифе, отдавать код на внешнее ревью вне генератора и считать полную стоимость цикла — не только inference на этапе написания файлов.


Источники

  • Pascal Cescato, «Too cheap to be good? Think again.» — Dev.to: Dev.to (доступ 2026-06-24)
  • Репозиторий бенчмарка LLM-Challenge: https://github.com/pcescato/LLM-Challenge (доступ 2026-06-24)