DiffusionGemma: диффузионный inference вместо авторегрессии и новая арифметика tokens/sec

Google DeepMind представила DiffusionGemma — экспериментальную open-weight LLM, где текст собирается дискретной диффузией, а не по одному токену слева направо. В разборе на Dev.to показано, почему на одном H100 модель выходит за отметку 1000 tokens/sec — до четырёх раз быстрее сопоставимых авторегрессивных LLM — и как уложить её в 18 ГБ VRAM на потребительском GPU.
Диффузионный canvas вместо очереди токенов: что меняется в inference
Классическая авторегрессия фиксирует один токен за forward pass и тянет за собой KV cache по всей уже сгенерированной цепочке. DiffusionGemma работает иначе: модель заполняет блок из 256 токенов («canvas») шумом и за несколько шагов denoising выводит весь блок сразу — примерно 15–20 токенов фиксируется за один проход, а не один. До 48 шагов denoising; когда уверенность по токену превышает порог, он коммитится в KV cache (adaptive stopping). Для ответов длиннее 256 токенов блоки склеиваются последовательно — режим block-autoregressive.
Под капотом — Gemma 4 в конфигурации 26B MoE (8 активных из 128 экспертов): 3,8 млрд активных параметров при inference при 25,2 млрд total. Контекст — до 256K токенов, словарь 262K. Attention на canvas двунаправленный: токен N «видит» соседей внутри блока, что открывает сценарии code infilling, inline-редактирования и self-correction — типичные задачи для IDE и агентных пайплайнов, где latency важнее длинного «размышления» в одну сторону.
Мультимодальность заявлена day-one: interleaved text, image (до 1120 visual tokens), video (до 60 секунд при 1 fps), плюс OCR и понимание экранов — по карточке на Hugging Face и в материалах Google.
Скорость на H100, RTX 5090 и потребительском железе
Цифры throughput в источниках сходятся по порядку, но формулировки чуть расходятся — для свежего релиза без стороннего бенчмарка это ожидаемо.
| Условия | Заявленный throughput | Источник |
|---|---|---|
| H100, FP8, low batch | 1100+ tokens/sec | Dev.to |
| H100, low-to-medium batch | 1000+ tokens/sec | Google Blog, Hugging Face |
| RTX 5090 | 700+ tokens/sec | Dev.to, Google Blog |
| Сопоставимая авторегрессивная модель на том же H100 | ~200–250 tokens/sec | Dev.to |
| Ускорение vs AR | до 4× | Google Blog, сниппет первоисточника |
Квантованная сборка укладывается в 18 ГБ VRAM — Google и автор разбора отдельно упоминают RTX 4090 как целевое потребительское железо для deploy. В таблице Dev.to для отметки 700+ tokens/sec фигурирует RTX 5090, не 4090: при переносе бенчмарка на своё железо ориентируйтесь на условия теста, а не на заголовок.
Google предупреждает: ускорение измерялось на dedicated GPU при low-to-medium batch; на Apple Silicon, где узкое место — пропускная способность памяти, прирост может не повториться. Hugging Face рекомендует sampler Entropy Bound (EB) для конфигурации >1100 tokens/sec на H100 FP8 — деталь, которую стоит заложить в production-конфиг, если гоняете latency-sensitive нагрузку, а не синтетику ради цифры в README.
Trade-offs: где DiffusionGemma проигрывает Gemma 4 и когда это не критично
Google называет модель experimental и прямо советует Gemma 4 autoregressive там, где нужен максимум качества. Таблица бенчмарков из разбора на Dev.to (совпадает с model card на Hugging Face для ключевых строк) показывает разрыв:
| Benchmark | DiffusionGemma | Gemma 4 26B (AR) |
|---|---|---|
| MMLU Pro | 77,6% | 82,6% |
| AIME 2026 | 69,1% | 88,3% |
| GPQA Diamond | 73,2% | 82,3% |
| MMMU Pro (Vision) | 54,3% | 73,8% |
Сильные стороны диффузионной схемы — code infilling, правка документа на лету, приложения с жёстким бюджетом latency и single-GPU efficiency за счёт 3,8B active params. Слабые — reasoning-heavy задачи, сложная математика, vision: здесь авторегрессивная Gemma 4 впереди. Для high-QPS облачного batching у DiffusionGemma Google фиксирует diminishing returns и потенциально более высокие serving costs против насыщенного AR-serving — важный контраргумент, если выбираете стек под массовый API, а не edge-чат в IDE.
Fine-tuning остаётся рычагом: в Developer Guide Google приводит Sudoku case study — base около 0% → SFT 80% success при меньшем числе denoising steps (12 вместо 48). Экосистема day-one включает Unsloth, Hackable Diffusion на JAX, NeMo и HF PEFT/LoRA — сигнал, что модель задумана как платформа для экспериментов, а не только как готовый чат-бот.
Open weights: Apache 2.0 и Hugging Face без gating
DiffusionGemma вышла как experimental open model (10 июня 2026, блог Google). Лицензия — Apache 2.0; веса лежат в репозитории google/diffusiongemma-26B-A4B-it на Hugging Face (gated: false). Официальный стек документации — launch blog плюс Developer Guide от 10 июня 2026.
Пост на Dev.to (12 июня 2026, автор sayed_ali_alkamel) — авторский how-to поверх релиза Google: цифры и таблицы согласуются с Google/HF, но формулировки вида «Google заявляет» безопаснее опирать на блог Google, а практические рецепты — на Developer Guide и разбор.
Deploy сегодня: vLLM с OpenAI-compatible endpoint
Оба источника — Dev.to и Google Developers Blog — дают совпадающий рецепт поднятия через vLLM:
pip install vllm
vllm serve google/diffusiongemma-26B-A4B-it \
--max-model-len 262144 \
--max-num-seqs 4 \
--gpu-memory-utilization 0.85 \
--attention-backend TRITON_ATTN \
--generation-config vllm \
--hf-overrides '{"diffusion_sampler": "entropy_bound", "diffusion_entropy_bound": 0.1}' \
--diffusion-config '{"canvas_length": 256}' \
--enable-chunked-prefill
После старта endpoint совместим с OpenAI API на http://localhost:8000 — удобная точка входа для агентных обёрток и локальных IDE-плагинов без переписывания клиента. Альтернативные runtime из разбора: Hugging Face Transformers (DiffusionGemmaForBlockDiffusion), SGLang, MLX для Apple Silicon, NVIDIA NIM и Vertex AI Model Garden.
Практический чеклист: поднять на H100 или RTX 4090 с квантованием под 18 ГБ VRAM, прогнать latency-sensitive workload (не только синтетический бенчмарк), сравнить $/1M tokens с текущим AR-стеком и замерить UX для code infilling в IDE и real-time чата. Именно такой сценарий — локальный быстрый inference без облака — связывает архитектуру диффузии с повседневной разработкой с LLM в продукте.
Источники
- DiffusionGemma: How Google's New Open LLM Hits 1,000 Tokens/sec and Changes Inference Economics — Dev.to, 12 июня 2026; дата доступа: 12 июня 2026
- Introducing DiffusionGemma — Google Blog, 10 июня 2026; дата доступа: 12 июня 2026
- DiffusionGemma: The Developer Guide — Google Developers Blog, 10 июня 2026; дата доступа: 12 июня 2026
- google/diffusiongemma-26B-A4B-it — Hugging Face model card; дата доступа: 12 июня 2026