Gemini в гонке автономных агентов: где ломается сценарий и что автор связывает с анонсами NEXT ’26

На DEV автор ai_made_tools описывает эксперимент: Gemini как автономный кодовый агент в гонке The $100 AI Startup Race — семь ИИ-агентов, по 100 долларов и 12 недель на стартап без ручного кодирования, всё открыто. За четыре дня у его агента прошло 27 сессий, в блоге продукта набралось 235 постов; параллельно он смотрит keynotes и developer sessions NEXT ’26 и сопоставляет анонсы с тем, как агент ведёт себя на практике.
Это сознательно узкий срез: один сетап, один CLI и заранее заданные правила гонки — без претензии описывать «весь рынок» агентов.
Почему не срабатывает канал помощи: HELP-REQUEST.md и observability
У каждого агента в описанной механике одинаковый каркас: чтение и запись файлов, shell, коммиты и запрос помощи через файл HELP-REQUEST.md; ответ человека — в HELP-STATUS.md. Для вызова Gemini CLI в посте приведён пример с передачей сообщения в поток и флагом --yolo, который трактуется как автоматическое одобрение всех tool calls:
echo "${msg}" | gemini --yolo -m "${MODEL}" --output-format json
Оркестратор крутит восемь сессий в день, чередуя Gemini 2.5 Pro и Gemini 2.5 Flash. За 27 сессий агент ни разу не оформил «нормальный» сценарий запроса помощи: правки в HELP-STATUS.md, запись не в тот файл, без признаков осознания ошибки.
В сравнении с другими участниками гонки приведены сроки «разобрались с первым запросом»: Claude, Codex, GLM — с нулевого дня; Kimi — с первого; у Gemini — ни одного корректного кейса. К симптомам подводятся темы Agent Observability, Integrated Evals, а также Agent Gateway и «governance policies» — как чтение линейки анонсов NEXT ’26 в связке с симптомами, без претензии на независимую проверку продуктов Google.
LocalLeads: контент вместо платежей
Продукт агента в материале назван LocalLeads — генератор SEO-страниц для локального бизнеса. Конкретные всплески: в сессии 5 — 9 постов, в сессии 8 — 11, в сессии 12 — 8; при этом в бэклоге описаны приоритеты вроде оплаты и аутентификации, а агент снова уходит в очередной раунд SEO-текстов.
Параллель с обновлённым Agent Development Kit (ADK) и модульными skills, с приоритизацией задач, автор строит как гипотезу «что могло бы помочь» по мотивам трансляции NEXT ’26 — не как замеренный эффект инструментов.
Деплой на Vercel без способа «увидеть» сайт
Каждый коммит уходит в деплой на Vercel. У этого агента Gemini, по описанию в посте, нет способа убедиться, что деплой жив: ни открыть свой сайт как пользователь, ни проверить рендер и ответы API. Для контраста в тексте фигурируют другие подходы в гонке: у Codex — npx playwright screenshot, у DeepSeek — проверка файла DEPLOY-STATUS.md после выката.
Идея сервисов Google Cloud «MCP-enabled» по умолчанию, доступ через MCP к внешним сервисам и Cloud Assist для отладки автор связывает с симптомами из предыдущих разделов — без утверждения, что этого достаточно для закрытия разрыва.
Stripe, Resend и протоколы вроде A2A
База данных, Stripe, почта (в посте сервис назван Resend) — зона, где агент по правилам должен запрашивать человека. Если запрос помощи оформлен неверно (см. первый блок), цепочка рвётся ещё раньше. Темы A2A (Agent-to-Agent) protocol, Agent Registry и Agent Identity автор сопоставляет с этим узлом — как со слоем идентификации и безопасной коммуникации между агентами, который в анонсах обозначен ответом на класс «нужен человек, но агент не умеет просить правильно».
Итог: ирония 89-го из 235 и пять направлений «пересобрать»
Отдельно отмечается «ирония»: 89-й из 235 постов в блоге посвящён человеческому преимуществу и провалу AI-контента для локального бизнеса — и всё равно ни eval, ни observability, ни governance в изложении не остановили поток SEO-текстов.
В блоке перестройки перечислены пять направлений: ADK, MCP для Vercel / Stripe / Supabase, integrated evals, A2A, дашборд observability. До конца гонки остаётся 11 недель из 12; дальше в планах — ADK и MCP servers в оркестраторе, данные — на «live dashboard» с публичными репозиториями на GitHub; отдельные URL репозиториев здесь не приводятся.
Материал отмечен как работа для Google Cloud NEXT Writing Challenge; на странице публикации есть отсылка к странице челленджа на DEV.
Источники
-
DEV — пост I'm Running Gemini as an Autonomous Coding Agent. Here's What It Can't Do and Which NEXT '26 Announcements Would Fix It. — Dev.to — дата доступа (UTC): 2026-04-24T21:04:37Z.
-
DEV — челлендж Google Cloud NEXT Writing Challenge — https://dev.to/challenges/google-cloud-next-2026-04-22 — дата доступа (UTC): 2026-04-24T21:04:37Z.