Qwen3-TTS全面开源:支持超低延迟流式合成的多语言语音大模型
还记得上一次被AI语音惊艳到是什么时候吗?
当大多数TTS模型还在为清晰度和自然度做权衡时,通义千问Qwen团队悄然发布了一款能真正"随心所欲"生成语音的大模型——Qwen3-TTS。
它不仅能用3秒音频实现完美声纹克隆,还能通过自然语言描述"设计"出你想象中的任何声音——稚嫩萝莉、沉稳大叔、异国腔调一应俱全。更令人惊叹的是,它支持97毫秒首包延迟的实时流式生成,让TTS真正迈入实时交互时代。
今天,我们就来深度拆解"集大成者"的Qwen3-TTS语音大模型,看看它究竟有何过人之处。
🌟 核心亮点一览
1. 两条技术路线,满足不同场景需求
Qwen3-TTS并非单一模型,而是一整套模型家族的统称,核心包含两种编码器路线:
| 特性 | Qwen3-TTS-25Hz | Qwen3-TTS-12Hz |
| 编码频率 | 25 Hz | 12.5 Hz |
| 编码器类型 | 单码本+DiT解码 | 多码本(16层)+轻量CNN |
| 优势 | 长文本稳定性强 | 超低延迟(97ms)、流式友好 |
| 适用场景 | 长文档合成、播客生成 | 实时对话、多轮交互 |
简单选择指南:追求极致低延迟能力选12Hz;长文本生成稳定性优先选25Hz。而本次开源的是Qwen3-TTS-12Hz系列模型。
2. 3秒声纹克隆,还原度拉满
无需大量样本,在仅有3秒参考音频的情况下,Qwen3-TTS便能精准捕捉说话者的声纹特征,并在多语言场景下保持一致的音色:
# 仅需一行代码即可完成克隆
wavs, sr = model.generate_voice_clone(
text="I'm solving the equation: x = [-b ± √(b²-4ac)] / 2a",
language="English",
ref_audio="reference.wav", # 3秒音频即可
ref_text="This is my voice sample."
)
在多语言评测中,Qwen3-TTS在所有10种语言的说话人相似度指标上均超越MiniMax和ElevenLabs:
| 语言 | 中文 | 英语 | 日语 | 韩语 | 俄语 |
| 相似度 | 0.811 | 0.829 | 0.798 | 0.812 | 0.781 |
注:相似度基于WavLM说话人验证模型,1.0为完美匹配
3. 自然语言"定制语音",所想即所得
想要一个"略带紧张的17岁男生,音域偏高,紧张时元音会收紧"的声音?不再是天方夜谭。在VoiceDesign模式下,你只需要"描述"即可:
wavs, sr = model.generate_voice_design(
text="H-hey! You dropped your... uh... calculus notebook?",
language="English",
instruct="Male, 17 years old, tenor range, gaining confidence - deeper breath support now, though vowels still tighten when nervous"
)
这一能力在InstructTTSEval评测中表现卓越,Description-Speech Consistency达到81.1%(中文)和82.4%(英文),超越Hume等专业产品。
4. 跨语言"无缝"切换,中→韩仅4.82%错误率
跨语言语音合成一直是个难题——如何在切换语言时保持音色不变?以往模型在中→韩等"远距离"语言对上错误率常超过20%,而Qwen3-TTS将其压至4.82%:
| 语言对 | Qwen3-TTS-12Hz-1.7B | CosyVoice3 |
| zh→ko | 4.82 | 14.4 |
| zh→en | 2.77 | 2.98 |
| en→zh | 4.77 | 5.09 |
| ko→zh | 1.08 | 1.06 |
5. 10分钟长文本稳定生成,无重复无卡顿
长音频合成容易出现重复、遗漏或音色漂移。Qwen3-TTS-25Hz在超过10分钟的文本上仍能保持**1.52%**的超低词错率,远优于同类模型:
| 模型 | 中文长文本 | 英文长文本 |
| Higgs-Audio-v2 | 5.505 | 6.917 |
| VibeVoice | 22.619 | 1.780 |
| Qwen3-TTS-25Hz-1.7B | 1.517 | 1.225 |
🔧 技术架构深度解析
为什么做两种Tokenizer?
在语音编解码器的设计上,团队面临一个经典矛盾:
- 纯语义编码器(如S3 Tokenizer):压缩率高,但声音表现力不足
- 纯声学编码器(如VQ-VAE):细节丰富,但难以用LLM建模
于是,团队采用了双轨设计:
Qwen-TTS-Tokenizer-25Hz:平衡语义与声学
- 基于Qwen2-Audio继续预训练
- 两阶段训练:第一阶段学语义(优化ASR任务),第二阶段加声学细节
- 单码本,25Hz,用块注意力DiT+Flow Matching实现流式解码
为什么叫"平衡"?实验表明,语义信息不足时声音空洞,声学细节过多又会导致LLM建模困难、长序列误差累积——25Hz方案找到了最佳平衡点。
Qwen-TTS-Tokenizer-12Hz:为超低延迟而生
- 参考Mimi架构,采用16层残差矢量量化(RVQ)
- 第1层编码语义,后续15层渐进编码声学细节
- 全因果编码器+轻量卷积解码器,无需look-ahead,即生成即解码
- 双通道流式架构,集成多令牌预测(MTP) 模块
性能对比一目了然:
| 模型 | 1并发首包延迟 | 6并发首包延迟 | 实时因子(RTF) |
| Qwen3-TTS-12Hz-0.6B | 97 ms | 299 ms | 0.434 |
| Qwen3-TTS-12Hz-1.7B | 101 ms | 333 ms | 0.463 |
而25Hz版本的首包延迟通常在140-500毫秒区间——这正是实时互动场景的分水岭。
🚀 快速上手
步骤1:环境准备
# 创建独立环境(推荐)
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts
# 安装核心包
pip install -U qwen-tts
# 可选:加速推理(需兼容硬件)
pip install -U flash-attn --no-build-isolation
步骤2:生成你的第一条语音
import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel
# 加载模型(自动下载,也可本地指定路径)
model = Qwen3TTSModel.from_pretrained(
"Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",
device_map="cuda:0",
dtype=torch.bfloat16,
attn_implementation="flash_attention_2"
)
# 生成!
wavs, sr = model.generate_custom_voice(
text="其实我真的有发现,我是一个特别善于观察别人情绪的人。",
language="Chinese",
speaker="Vivian",
instruct="用特别愤怒的语气说"
)
# 保存
sf.write("output.wav", wavs[0], sr)
步骤3:试试Web界面(可选)
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000
# 浏览器打开 http://localhost:8000
三种核心模式
1. 声音设计(Voice Design)
从文本描述创建全新的声音,适用于角色配音、虚拟主播等场景。
model.generate_voice_design(
text="小猫咪,你是不是在家等我好久啦!来抱一个~",
language="Chinese",
instruct="采用清新甜美的少女音色,音调轻快有活力,语气自然俏皮,传递出亲切温暖又不失可爱的表达风格。"
)
2. 声音克隆(Voice Clone)
从参考音频中提取说话人特征,适用于配音、语音助手个性化等场景。
# 提示:可以构建一次缓存,避免重复提取特征
prompt = model.create_voice_clone_prompt(
ref_audio="demo.wav",
ref_text="这是我的声音样本"
)
# 多次复用
wavs = model.generate_voice_clone(
text=["句子1", "句子2"],
voice_clone_prompt=prompt
)
3. 自定义声音(Custom Voice)
使用内置的9个高品质预设音色,无需训练即可调用。
| 说话人 | 描述 | 母语 |
| Vivian | 明亮、略带锋芒的年轻女声 | 中文 |
| Serena | 温暖、柔和的年轻女声 | 中文 |
| Uncle_Fu | 沉稳的男性声音,音色低沉圆润 | 中文 |
| Dylan | 北京青年男声,音色清晰自然 | 中文(北京话) |
| Eric | 活泼的成都男声,声音略带沙哑 | 中文(四川话) |
| Ryan | 节奏感强的动态男声 | 英语 |
| Aiden | 阳光美式男声,中频清晰 | 英语 |
| Ono_Anna | 可爱的日语女声,音色轻快灵动 | 日语 |
| Sohee | 温暖的韩语女声,情感丰富 | 韩语 |
评测结果
零样本语音克隆(Seed-TTS测试集)
| 模型 | 中文 | 英文 |
| Seed-TTS | 1.12 | 2.25 |
| FireRedTTS 2 | 1.14 | 1.95 |
| CosyVoice 3 | 0.71 | 1.45 |
| Qwen3-TTS-12Hz-1.7B | 0.77 | 1.24 |
编解码器质量(LibriSpeech test-clean)
| 模型 | PESQ_WB | PESQ_NB | STOI | UTMOS | 相似度 |
| Mimi | 2.88 | 3.42 | 0.94 | 3.87 | 0.87 |
| FireRedTTS 2 | 2.73 | 3.28 | 0.94 | 3.88 | 0.87 |
| Qwen-TTS-Tokenizer-12Hz | 3.21 | 3.68 | 0.96 | 4.16 | 0.95 |
模型下载
所有模型均已开源在ModelScope,支持自动下载或手动下载:
modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --local_dir ./model_path
🎯 总结:Qwen3-TTS意味着什么?
- 对开发者:
一个模型覆盖多场景。无论是实时对话、长文本播客、跨语言配音,还是声纹克隆、声音设计,你不再需要拼凑不同工具链——Qwen3-TTS一套搞定。 - 对研究者:
一个值得研究的架构案例。双编码器设计、残差多码本、流式因果编解码……这些思路为语音-语言一体化建模提供了新范式。 - 对未来:
通向"全能音频模型"的基石。正如报告末尾所说:"Qwen3-TTS统一了多样的语音生成任务……为下一代全能音频系统铺平道路"——我们拭目以待。
参考资料
- GitHub: https://github.com/QwenLM/Qwen3-TTS
- ModelScope 模型库: https://modelscope.cn/collections/Qwen/Qwen3-TTS
- 技术博客: https://qwen.ai/blog?id=qwen3tts-0115
- 论文: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf
- ModelScope 在线 Demo: https://modelscope.cn/studios/Qwen/Qwen3-TTS
- API 文档: https://www.alibabacloud.com/help/en/model-studio/qwen-tts-voice-design
点击即可跳转模型链接
https://modelscope.cn/collections/Qwen/Qwen3-TTS
更多推荐




所有评论(0)