Google представила Gemini 3.1 Flash TTS — новую модель синтеза речи с упором на выразительность, управляемость и качество. Компания позиционирует её как следующее поколение AI-озвучки для разработчиков, бизнеса и пользовательских сценариев, а запуск с 15 апреля 2026 года проходит в preview через Gemini API и Google AI Studio, через Vertex AI для корпоративных клиентов и через Google Vids для пользователей Workspace.
Мы считаем, что главный смысл этого релиза не в очередной «более естественной» озвучке, а в попытке Google превратить TTS из простого голосового движка в более точный инструмент режиссуры речи. В анонсе прямо говорится о granular audio tags — специальных текстовых командах, которые позволяют управлять стилем, темпом и подачей голоса прямо внутри входного текста. Это заметно важнее обычного обещания «голос стал лучше», потому что речь идет уже не просто о генерации фразы, а о контроле исполнения.
По данным Google, Gemini 3.1 Flash TTS поддерживает более 70 языков и получила улучшения в естественности звучания. Компания отдельно ссылается на лидерборд Artificial Analysis TTS Arena, где модель набрала Elo 1211, а также утверждает, что она попала в «наиболее привлекательный квадрант» по сочетанию качества и стоимости. Эти оценки важны, но мы бы относились к ним как к сильному маркетинговому аргументу, а не как к окончательному приговору рынку: лидерборды полезны, но реальное качество в продакшене всегда проверяется на конкретных задачах, голосах и языках. Факты про Elo и позиционирование на графике заявлены Google со ссылкой на Artificial Analysis, а осторожная оценка значимости этих метрик — уже наша редакционная интерпретация.
Самая практическая часть анонса — это новый уровень контроля. Google описывает три ключевых блока: scene direction для задания контекста сцены и поведения персонажей, speaker-level specificity с Audio Profiles и Director’s Notes для управления темпом, тоном и акцентом, а также inline tags, которые позволяют менять выразительность даже внутри одной реплики. После настройки эти параметры можно экспортировать в код Gemini API, чтобы сохранять одинаковые голоса и поведение между проектами и платформами.
Мы думаем, что именно это делает модель интересной не только для классического озвучивания текста, но и для более сложных сценариев: AI-аватаров, голосовых интерфейсов, учебных продуктов, рекламных генераторов, видео-контента и диалоговых систем с несколькими персонажами. Google отдельно подчеркивает поддержку native multi-speaker dialogue, а это уже прямой сигнал в сторону сценариев, где нужен не один диктор, а более живое взаимодействие голосов. Факт про multi-speaker dialogue заявлен в анонсе, а вывод о прикладных сценариях — наша редакционная оценка.
Отдельно Google делает акцент на безопасности. Весь аудиоконтент, созданный Gemini 3.1 Flash TTS, маркируется с помощью SynthID — невидимого водяного знака, встроенного прямо в аудиосигнал. Компания подает это как механизм для более надежного выявления AI-сгенерированного контента и снижения рисков дезинформации. На фоне роста количества синтетических голосов это уже не декоративная функция, а важная часть инфраструктуры доверия. Факт про SynthID и заявленную цель предотвращения misinformation подтверждается анонсом Google, а оценка значимости этого шага — наша редакционная позиция.
На наш взгляд, Google движется в предсказуемом, но важном направлении: рынок AI-озвучки уходит от борьбы только за «натуральность» и приходит к борьбе за точность управления. Побеждать будут не те, кто просто звучит приятно, а те, кто позволяет быстро и стабильно получать нужную интонацию, характер, темп и структуру сцены. Gemini 3.1 Flash TTS выглядит именно как шаг в эту сторону.