语音生成的“导演时代”：Google 发布 Gemini 3.1 Flash TTS，实现极致的情感表达与精准控制

随着 Google 推出全新的 Gemini 3.1 Flash TTS 模型，AI 语音生成领域正迎来一场从“机械朗读”到“艺术演绎”的技术革命。这款全新的音频模型不仅在音质上实现了质的飞跃，更通过引入革命性的控制机制，赋予了开发者前所未有的创作自由度。

此次更新的核心亮点在于“音频标签”（Audio Tags）技术的应用。通过在文本输入中直接嵌入自然语言指令，开发者现在可以像导演调度演员一样，精准地控制 AI 语音的语调、语速以及情感交付。这种细粒度的控制能力，让原本单调的文本转换能够呈现出极具感染力的声音表现力，为构建下一代沉浸式 AI 语音应用奠定了基础。

在性能表现方面，Gemini 3.1 Flash TTS 展现出了极强的竞争力。根据权威的 Artificial Analysis TTS 排行榜数据，该模型在基于数千次盲测的人类偏好评估中，取得了高达 1,211 的 Elo 分数。更具行业意义的是，该模型被评估机构定位在“最具吸引力象限”——这意味着它在提供顶尖语音质量的同时，实现了极佳的成本效益比，为大规模商业化应用扫清了障碍。

此外，Gemini 3.1 Flash TTS 还具备强大的全球化与交互能力。它原生支持超过 70 种语言，并具备出色的多角色对话能力，能够处理复杂的音频场景。为了应对 AI 生成内容可能带来的伦理挑战，Google 还在所有生成的音频中集成了 SynthID 数字水印技术。这种肉眼不可见、听觉不可察的隐形水印，能够有效识别 AI 生成内容，从而在推动技术创新的同时，筑起一道抵御虚假信息传播的安全防线。

目前，开发者已可以通过 Google AI Studio、Vertex AI 以及 Google Vids 开始体验这一前沿技术。随着 Gemini 3.1 Flash TTS 的落地，我们正站在一个全新的时代门口：一个声音可以被精准编排、情感可以被数字化模拟、且安全可控的 AI 语音时代。

🔗 来源：Blog

语音生成的“导演时代”：Google 发布 Gemini 3.1 Flash TTS，实现极致的情感表达与精准控制

用户反馈

推荐意见

类别

我的帐户

导航

搜索

配置浏览器推送通知

Chrome (安卓)

Chrome (台式电脑)

Safari (iOS 16.4+)

Safari (macOS)

Edge (安卓)

Edge (台式电脑)

Firefox (安卓)

Firefox (台式电脑)