Редакция 15 апреля 2026 г.

Gemini 3.1 Flash TTS: Google показала новую модель речи с аудио-тегами и 70+ языками

Google анонсировала Gemini 3.1 Flash TTS — обновлённую нейросетевую модель синтеза речи, которую компания описывает как более управляемую и выразительную по сравнению с предыдущими решениями линейки.

Доступ к модели открывается поэтапно в формате предпросмотра: разработчики могут подключать её через Gemini API и Google AI Studio, корпоративные сценарии — через Vertex AI, а пользователи Google Workspace получают интеграцию в Google Vids.

Качество и позиция на рынке

По данным Google, качество произношения заметно выросло; на слепом опросе предпочтений на платформе Artificial Analysis модель набрала около 1211 Elo и, по оценке того же сервиса, попала в удачное соотношение цены и качества среди конкурентов. Заявлены нативные диалоги на нескольких голосах и поддержка более 70 языков.

Аудио-теги и «режиссёрский» режим

Ключевое нововведение — аудио-теги: прямо в текст сценария можно вписывать естественно-языковые указания, которые меняют темп, аффект и манеру подачи. В AI Studio это оформлено как работа «с кресла режиссёра»: задаётся контекст сцены, подбираются голосовые профили, а встроенные теги позволяют подкрутить интонацию внутри фразы. Настройки затем можно выгрузить в код вызовов Gemini API, чтобы сохранять узнаваемые голоса между проектами.

Маркировка SynthID

Все сгенерированные дорожки помечаются невидимым водяным знаком SynthID — так проще отличать синтетическую озвучку от живой записи и снижать риск злоупотреблений.

Материал подготовлен по публикации Google Blog.