秒杀传统 TTS？！Gemini 原生中文 TTS 体验提示词模板

显示全部楼层

大家好，我是 Kate。

Gemini 新推出的 TTS 模型在音质、情绪表达和可控性方面都远超预期。它最核心的特点可以用一句话概括：不仅知道说什么，而且知道如何说。

无论是儿童故事的温馨细腻、悬疑剧情的紧张压抑，还是电竞解说的激情澎湃，Gemini 2.5 TTS 都能游刃有余地驾驭。本文将系统介绍它的效果、特点和实际玩法。

一、先听效果：几个风格迥异的音频示例

示例一：儿童睡前故事（温柔风格）

效果评价：语调温柔、节奏舒缓，带有近距离耳语感。在停顿、轻重、音色上的处理都非常自然，几乎可以直接作为成品音频使用。

AUDIO PROFILE: 月亮姐姐"枕边的星星"THE SCENE: 柔软的梦境入口

夜晚九点，一间布置温馨的儿童房。小夜灯投射出旋转的星星和月亮，在天花板上缓缓流动。窗外有轻柔的风声和远处偶尔传来的蛐蛐叫声。小朋友已经钻进了软绵绵的被窝，抱着最爱的小兔子玩偶，眼皮有些沉，却还舍不得闭上，等待着今晚的故事。房间里弥漫着淡淡的薰衣草香气，一切都在轻轻地说：该睡啦。DIRECTOR'S NOTES

Style:

"云朵般的柔软"：声音轻盈、温暖，像被棉花糖包裹。每一个字都带着微笑和拥抱的感觉，让孩子感到绝对的安全。

情感基调：满溢的爱意和耐心，仿佛整个世界都慢了下来，此刻只有你和这个小小的听众。

气息控制：呼吸平稳而深长，带有轻微的气声，营造出亲密的"悄悄话"感觉，像妈妈趴在床边耳语。

Pace:

缓——慢——的节奏，像摇篮轻轻晃动。

句与句之间留有足够的停顿，让小朋友的想象力跟上画面。

语调渐渐走低、变轻，像一条小溪慢慢流进梦乡。

关键的可爱词汇轻轻上扬，如"小~兔子""软~绵绵""亮晶晶~"

Accent: 标准而柔和的普通话，咬字清晰但不生硬，带有天然的"妈妈音"——圆润、包容、甜而不腻。SAMPLE CONTEXT

月亮姐姐适合用于：儿童睡前故事音频、冥想引导、亲子类播客、儿童有声读物，或任何需要"安心入睡"氛围的内容。TRANSCRIPT

（轻柔地）好啦，小宝贝……被子盖好了吗？今天呀，月亮姐姐要给你讲一个——小星星找妈妈的故事。

（停顿，声音更轻）从前呢，在很远很远的天上，住着一颗小~星星。它呀，是天空中最小最小的那一颗，亮晶晶的，就像你眼睛里闪闪的光。

有一天晚上呢，小星星一不小心，从云朵做的小床上——滚了下来。（轻轻的）"咕噜噜，咕噜噜……"它滚呀滚，滚到了一片软~绵绵的棉花云上。

"妈妈？妈妈在哪里呀？"小星星眨了眨眼睛，四周都是白白的云，好安静呀……

（声音渐渐变得更轻、更慢）可是它一点都不害怕。你知道为什么吗？因为啊……月亮妈妈一直在天上，轻轻地、轻轻地看着它呢……就像现在，有人在轻轻地、轻轻地……看着你……

（近乎耳语）闭上眼睛吧，小宝贝……小星星找到妈妈了……你也要去找你的梦了……晚安……

示例二：32 年老刑警的悬疑独白

效果评价：成功营造出广播剧式的悬疑氛围。语速偏慢、情绪压抑，关键句子带有停顿和气声，能稳定地呈现"克制的恐怖感"，而不是简单地大吼大叫。

示例三：深夜食堂的烟火气独白

效果评价：语速适中、略带笑意、偶尔拉长尾音，听着有一种"回家了"的温暖感。

示例四：电竞解说（情绪递进爆发）

效果评价：完美呈现"前期紧张克制 → 中段语速加快 → 团战情绪爆发 → 最后略带沙哑的兴奋感"的节奏曲线，非常接近真人解说。

二、Gemini 2.5 TTS 核心特点

模型版本

Gemini 2.5 TTS 分为 Flash 和 Pro 两个版本，核心能力包括：

特性	说明
风格控制	通过自然语言指导音频的风格、口音、节奏和语调
语速调节	可根据场景需求灵活调整
多角色对话	最多支持 2 个说话人
语音选项	提供约 30 种音色
上下文窗口	32K Token

语言支持

官方列出的 24 种支持语言中虽然没有明确标注中文，但实际体验下来，对中文（普通话）的支持相当出色，包括口语化表达都能说得很自然。

与传统 TTS 的核心区别

传统 TTS 的工作方式是"选一个音色 + 输入文本"就完事了。而 Gemini 原生 TTS 背后是大型语言模型，它能根据你给的提示去理解该怎么说，包括：

情绪曲线的控制
气息变化的处理
停顿和重音的把握
整体氛围的营造

三、提示词构建方法

要让 Gemini TTS 发挥最佳效果，提示词的构建至关重要。

一个完整的 TTS 提示词示例：

情绪标注技巧

在转录文本中可以使用括号来标注情绪，例如：

（轻声微笑）
（语速放慢）
（停顿两秒）

Gemini 会自动识别这些括号内容（不会朗读出来），并据此调整语音的情感表达。虽然不能百分百匹配，但整体质量已经相当不错。

小技巧

不需要特别记忆提示词格式，Gemini 官方文档里都有详细说明。你可以直接复制官方示例，然后发给其他大模型（比如 Claude），让它帮你生成适合特定场景的提示词。

https://ai.google.dev/gemini-api/docs/speech-generation?hl=zh-cn

四、AI Studio 使用指南

基本流程

进入 ai.dev 首页
选择 Audio 能力
选择 Gemini 2.5 Pro TTS 模型

界面说明

进入页面后会看到：

风格指示区域：描述整段音频的整体气质
Speaker 1 / Speaker 2：两个说话人选项，支持多人对话场景
可从多人模式切换到单人模式

预制应用

AI Studio 提供了非常实用的预制应用 synergy_intro

https://aistudio.google.com/app/apps/bundled/synergy_intro

左侧可选择不同的音频类型（Podcast、电台、电影预告、睡前故事等）
点击即可查看对应的系统提示词

右侧显示支持的语言列表（包括普通话）
每个示例旁边都标注了推荐的音色和性别信息

双人对话示例(ai.dev)

通过不同说话人的设置，可以把两种完全不同的年龄感和语气分开建模。

五、推荐音色速查表

场景类型	推荐音色	特点
睡前故事 / ASMR	Vindemiatrix	温柔、细腻、有"哄睡感"
Podcast	Zubenelgenubi	自然、亲和
电台广播	Vindemiatrix	舒适、专业
悬疑故事 / 电影风格	Algieba	有张力、氛围感强

💡 提示：官方预制应用已经帮你做了一轮"声音筛选"和场景匹配，直接点选就能试听，非常方便。

七、总结

Gemini 2.5 TTS 真正厉害的地方在于：在同样一段文字下，它能根据你写的音频档案、场景和导演笔记，给出风格差异巨大但都很自然的声音表现。

如果你愿意多花一点时间打磨提示词，把角色、氛围和情绪节奏都描述清楚，Gemini 2.5 TTS 完全有潜力成为一个能够长期复用的"虚拟配音演员"。

秒杀传统 TTS？！Gemini 原生中文 TTS 体验 提示词模板