AI Vibe Craft
← Назад к AI Vibe News

Редакция 13 июня 2026 г.

Разборы

DiffusionGemma: диффузионный inference вместо авторегрессии и новая арифметика tokens/sec

DiffusionGemma: диффузионный inference вместо авторегрессии и новая арифметика tokens/sec.

Google DeepMind представила DiffusionGemma — экспериментальную open-weight LLM, где текст собирается дискретной диффузией, а не по одному токену слева направо. В разборе на Dev.to показано, почему на одном H100 модель выходит за отметку 1000 tokens/sec — до четырёх раз быстрее сопоставимых авторегрессивных LLM — и как уложить её в 18 ГБ VRAM на потребительском GPU.

Диффузионный canvas вместо очереди токенов: что меняется в inference

Классическая авторегрессия фиксирует один токен за forward pass и тянет за собой KV cache по всей уже сгенерированной цепочке. DiffusionGemma работает иначе: модель заполняет блок из 256 токенов («canvas») шумом и за несколько шагов denoising выводит весь блок сразу — примерно 15–20 токенов фиксируется за один проход, а не один. До 48 шагов denoising; когда уверенность по токену превышает порог, он коммитится в KV cache (adaptive stopping). Для ответов длиннее 256 токенов блоки склеиваются последовательно — режим block-autoregressive.

Под капотом — Gemma 4 в конфигурации 26B MoE (8 активных из 128 экспертов): 3,8 млрд активных параметров при inference при 25,2 млрд total. Контекст — до 256K токенов, словарь 262K. Attention на canvas двунаправленный: токен N «видит» соседей внутри блока, что открывает сценарии code infilling, inline-редактирования и self-correction — типичные задачи для IDE и агентных пайплайнов, где latency важнее длинного «размышления» в одну сторону.

Мультимодальность заявлена day-one: interleaved text, image (до 1120 visual tokens), video (до 60 секунд при 1 fps), плюс OCR и понимание экранов — по карточке на Hugging Face и в материалах Google.

Скорость на H100, RTX 5090 и потребительском железе

Цифры throughput в источниках сходятся по порядку, но формулировки чуть расходятся — для свежего релиза без стороннего бенчмарка это ожидаемо.

Условия Заявленный throughput Источник
H100, FP8, low batch 1100+ tokens/sec Dev.to
H100, low-to-medium batch 1000+ tokens/sec Google Blog, Hugging Face
RTX 5090 700+ tokens/sec Dev.to, Google Blog
Сопоставимая авторегрессивная модель на том же H100 ~200–250 tokens/sec Dev.to
Ускорение vs AR до 4× Google Blog, сниппет первоисточника

Квантованная сборка укладывается в 18 ГБ VRAM — Google и автор разбора отдельно упоминают RTX 4090 как целевое потребительское железо для deploy. В таблице Dev.to для отметки 700+ tokens/sec фигурирует RTX 5090, не 4090: при переносе бенчмарка на своё железо ориентируйтесь на условия теста, а не на заголовок.

Google предупреждает: ускорение измерялось на dedicated GPU при low-to-medium batch; на Apple Silicon, где узкое место — пропускная способность памяти, прирост может не повториться. Hugging Face рекомендует sampler Entropy Bound (EB) для конфигурации >1100 tokens/sec на H100 FP8 — деталь, которую стоит заложить в production-конфиг, если гоняете latency-sensitive нагрузку, а не синтетику ради цифры в README.

Trade-offs: где DiffusionGemma проигрывает Gemma 4 и когда это не критично

Google называет модель experimental и прямо советует Gemma 4 autoregressive там, где нужен максимум качества. Таблица бенчмарков из разбора на Dev.to (совпадает с model card на Hugging Face для ключевых строк) показывает разрыв:

Benchmark DiffusionGemma Gemma 4 26B (AR)
MMLU Pro 77,6% 82,6%
AIME 2026 69,1% 88,3%
GPQA Diamond 73,2% 82,3%
MMMU Pro (Vision) 54,3% 73,8%

Сильные стороны диффузионной схемы — code infilling, правка документа на лету, приложения с жёстким бюджетом latency и single-GPU efficiency за счёт 3,8B active params. Слабые — reasoning-heavy задачи, сложная математика, vision: здесь авторегрессивная Gemma 4 впереди. Для high-QPS облачного batching у DiffusionGemma Google фиксирует diminishing returns и потенциально более высокие serving costs против насыщенного AR-serving — важный контраргумент, если выбираете стек под массовый API, а не edge-чат в IDE.

Fine-tuning остаётся рычагом: в Developer Guide Google приводит Sudoku case study — base около 0% → SFT 80% success при меньшем числе denoising steps (12 вместо 48). Экосистема day-one включает Unsloth, Hackable Diffusion на JAX, NeMo и HF PEFT/LoRA — сигнал, что модель задумана как платформа для экспериментов, а не только как готовый чат-бот.

Open weights: Apache 2.0 и Hugging Face без gating

DiffusionGemma вышла как experimental open model (10 июня 2026, блог Google). Лицензия — Apache 2.0; веса лежат в репозитории google/diffusiongemma-26B-A4B-it на Hugging Face (gated: false). Официальный стек документации — launch blog плюс Developer Guide от 10 июня 2026.

Пост на Dev.to (12 июня 2026, автор sayed_ali_alkamel) — авторский how-to поверх релиза Google: цифры и таблицы согласуются с Google/HF, но формулировки вида «Google заявляет» безопаснее опирать на блог Google, а практические рецепты — на Developer Guide и разбор.

Deploy сегодня: vLLM с OpenAI-compatible endpoint

Оба источника — Dev.to и Google Developers Blog — дают совпадающий рецепт поднятия через vLLM:

pip install vllm

vllm serve google/diffusiongemma-26B-A4B-it \
  --max-model-len 262144 \
  --max-num-seqs 4 \
  --gpu-memory-utilization 0.85 \
  --attention-backend TRITON_ATTN \
  --generation-config vllm \
  --hf-overrides '{"diffusion_sampler": "entropy_bound", "diffusion_entropy_bound": 0.1}' \
  --diffusion-config '{"canvas_length": 256}' \
  --enable-chunked-prefill

После старта endpoint совместим с OpenAI API на http://localhost:8000 — удобная точка входа для агентных обёрток и локальных IDE-плагинов без переписывания клиента. Альтернативные runtime из разбора: Hugging Face Transformers (DiffusionGemmaForBlockDiffusion), SGLang, MLX для Apple Silicon, NVIDIA NIM и Vertex AI Model Garden.

Практический чеклист: поднять на H100 или RTX 4090 с квантованием под 18 ГБ VRAM, прогнать latency-sensitive workload (не только синтетический бенчмарк), сравнить $/1M tokens с текущим AR-стеком и замерить UX для code infilling в IDE и real-time чата. Именно такой сценарий — локальный быстрый inference без облака — связывает архитектуру диффузии с повседневной разработкой с LLM в продукте.


Источники

  • DiffusionGemma: How Google's New Open LLM Hits 1,000 Tokens/sec and Changes Inference Economics — Dev.to, 12 июня 2026; дата доступа: 12 июня 2026
  • Introducing DiffusionGemma — Google Blog, 10 июня 2026; дата доступа: 12 июня 2026
  • DiffusionGemma: The Developer Guide — Google Developers Blog, 10 июня 2026; дата доступа: 12 июня 2026
  • google/diffusiongemma-26B-A4B-it — Hugging Face model card; дата доступа: 12 июня 2026