Дообучение Gemma 4 в Cloud Run Jobs: serverless GPU и классификация пород питомцев

Google анонсировал Gemma 4 — новое поколение открытых моделей. В публикации на Dev.to под учётной записью организации разобран практический сценарий: fine-tuning Gemma 4 через Cloud Run Jobs на serverless GPU (в частности NVIDIA RTX PRO 6000) для классификации пород домашних животных. Это цепочка «модель → адаптация → облако для инференса», наглядная для тех, кто собирает ML-контуры на GCP.
Материал вышел 28 апреля 2026 и подаётся как обновление прежнего разбора дообучения Gemma 3 на той же задаче: после релиза Gemma 4 автор переписывает конфигурацию и код. Ниже — сжатый пересказ ключевых тезисов по тексту публикации и ссылкам из неё.
Gemma 4: анонс, лицензия и заявленные возможности модели
В публикации на Dev.to приводится ссылка на анонс Gemma 4 на сайте Google:
https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
Линейка распространяется под лицензией Apache 2.0. В посте перечислены заявленные особенности: упор на reasoning и multi-step planning, function-calling, структурированный JSON-вывод, нативные system instructions; мультимодальность (изображения, видео, в отдельных вариантах — аудио); для крупных моделей — контекст до 256K токенов; для архитектуры MoE с 26B параметрами указано, что при inference активируется порядка 3.8B параметров.
Формулировки про места на Arena AI text leaderboard для открытых моделей (#3 для 31B, #6 для 26B MoE) воспроизводят содержание того же материала — это не независимая сверка с лидербордом.
Важно: цифры рейтингов и сравнения с другими моделями здесь отражают только формулировки внутри статьи на Dev.to, без дополнительной верификации по первоисточникам лидерборда.
GPU, память и приёмы обучения в облаке
Для сценария используются Cloud Run и GPU NVIDIA RTX PRO 6000 с 96 GB VRAM. Ориентировочная оценка объёма весов: Gemma 4 31B в bfloat16 — порядка ~62 GB, при QLoRA (4-bit) — порядка 18–20 GB VRAM (в оригинале оговорка «roughly»).
Применяются LoRA/PEFT, QLoRA через bitsandbytes и gradient checkpointing, чтобы удержать обучение на одном GPU.
Что меняется в коде по сравнению с пайплайном под Gemma 3
Для загрузки модели используется класс AutoModelForMultimodalLM — вместо более узкого варианта для связки «изображение–текст», чтобы поддержать полную мультимодальную цепочку.
Для адаптеров задаётся target_modules="all-linear": это связано с обёрткой Gemma4ClippableLinear и необходимостью задействовать vision tower, не обходя клиппинг активаций.
Описана логика маскирования лейблов при динамическом числе image soft tokens: коллатор ищет токены названия породы и маскирует префикс до контрольного маркера <|turn|>.
Данные Oxford-IIIT Pet и метрики на задаче классификации
Датасет — Oxford-IIIT Pet. В материале указаны объёмы выборок: порядка ~4 000 примеров для обучения и 3 669 для оценки; промежуточный этап на подвыборке — 700 train, 200 eval, около 50 minutes.
Baseline точности: 89% для Gemma 4 против 67% для Gemma 3 на этой задаче (со ссылкой в исходном материале на предыдущий пост про Gemma 3). Ориентир STOA для датасета — 94% accuracy (как сформулировано на Dev.to, без отдельной проверки из вторичных источников).
Финальная конфигурация обучения задаётся гиперпараметрами вроде LoRA Rank 64 / Alpha 64 и learning rate 5e-5.
Практический контур: репозиторий, регион и Cloud Run Job
На Dev.to шаги сведены в такую цепочку. Prerequisites: проект GCP с биллингом, подключённые API (Cloud Run, Artifact Registry, Cloud Build, Secret Manager), наличие GPU в регионе (пример — europe-west4) и токен Hugging Face для загрузки весов.
Дальше: клон https://github.com/GoogleCloudPlatform/devrel-demos (ветка пути ai-ml/finetune_gemma), локальный запуск на CPU на маленьком поднаборе, выкладка весов в GCS, сборка образа через Cloud Build, создание Cloud Run Job с типом GPU nvidia-rtx-pro-6000, примеры переменных окружения и аргументов job. Подробные ссылки на документацию Cloud Run и codelab по inference приведены в оригинальной публикации на Dev.to.
Источники
-
Основной материал на Dev.to: Fine-Tuning Gemma 4 with Cloud Run Jobs: Serverless GPUs (NVIDIA RTX 6000 Pro) for pet breed classification — дата доступа: 2026-04-29 (UTC).
-
Анонс Gemma 4 на сайте Google (URL есть в тексте поста на Dev.to): Gemma 4 — при необходимости юридически значимых формулировок ориентируйтесь на этот первоисточник.