Qwen3-TTS全面开源：支持超低延迟流式合成的多语言语音大模型

魔搭ModelScope社区

10人浏览 · 2026-01-26 13:56:22

魔搭ModelScope社区 · 2026-01-26 13:56:22 发布

还记得上一次被AI语音惊艳到是什么时候吗？

当大多数TTS模型还在为清晰度和自然度做权衡时，通义千问Qwen团队悄然发布了一款能真正"随心所欲"生成语音的大模型——Qwen3-TTS。

它不仅能用3秒音频实现完美声纹克隆，还能通过自然语言描述"设计"出你想象中的任何声音——稚嫩萝莉、沉稳大叔、异国腔调一应俱全。更令人惊叹的是，它支持97毫秒首包延迟的实时流式生成，让TTS真正迈入实时交互时代。

今天，我们就来深度拆解"集大成者"的Qwen3-TTS语音大模型，看看它究竟有何过人之处。

🌟 核心亮点一览

1. 两条技术路线，满足不同场景需求

Qwen3-TTS并非单一模型，而是一整套模型家族的统称，核心包含两种编码器路线：

特性	Qwen3-TTS-25Hz	Qwen3-TTS-12Hz
编码频率	25 Hz	12.5 Hz
编码器类型	单码本+DiT解码	多码本（16层）+轻量CNN
优势	长文本稳定性强	超低延迟（97ms）、流式友好
适用场景	长文档合成、播客生成	实时对话、多轮交互

简单选择指南：追求极致低延迟能力选12Hz；长文本生成稳定性优先选25Hz。而本次开源的是Qwen3-TTS-12Hz系列模型。

2. 3秒声纹克隆，还原度拉满

无需大量样本，在仅有3秒参考音频的情况下，Qwen3-TTS便能精准捕捉说话者的声纹特征，并在多语言场景下保持一致的音色：

# 仅需一行代码即可完成克隆
wavs, sr = model.generate_voice_clone(
    text="I'm solving the equation: x = [-b ± √(b²-4ac)] / 2a",
    language="English",
    ref_audio="reference.wav",  # 3秒音频即可
    ref_text="This is my voice sample."
)

在多语言评测中，Qwen3-TTS在所有10种语言的说话人相似度指标上均超越MiniMax和ElevenLabs：

语言	中文	英语	日语	韩语	俄语
相似度	0.811	0.829	0.798	0.812	0.781

注：相似度基于WavLM说话人验证模型，1.0为完美匹配

3. 自然语言"定制语音"，所想即所得

想要一个"略带紧张的17岁男生，音域偏高，紧张时元音会收紧"的声音？不再是天方夜谭。在VoiceDesign模式下，你只需要"描述"即可：

wavs, sr = model.generate_voice_design(
    text="H-hey! You dropped your... uh... calculus notebook?",
    language="English",
    instruct="Male, 17 years old, tenor range, gaining confidence - deeper breath support now, though vowels still tighten when nervous"
)

这一能力在InstructTTSEval评测中表现卓越，Description-Speech Consistency达到81.1%（中文）和82.4%（英文），超越Hume等专业产品。

4. 跨语言"无缝"切换，中→韩仅4.82%错误率

跨语言语音合成一直是个难题——如何在切换语言时保持音色不变？以往模型在中→韩等"远距离"语言对上错误率常超过20%，而Qwen3-TTS将其压至4.82%：

语言对	Qwen3-TTS-12Hz-1.7B	CosyVoice3
zh→ko	4.82	14.4
zh→en	2.77	2.98
en→zh	4.77	5.09
ko→zh	1.08	1.06

5. 10分钟长文本稳定生成，无重复无卡顿

长音频合成容易出现重复、遗漏或音色漂移。Qwen3-TTS-25Hz在超过10分钟的文本上仍能保持**1.52%**的超低词错率，远优于同类模型：

模型	中文长文本	英文长文本
Higgs-Audio-v2	5.505	6.917
VibeVoice	22.619	1.780
Qwen3-TTS-25Hz-1.7B	1.517	1.225

🔧 技术架构深度解析

为什么做两种Tokenizer？

在语音编解码器的设计上，团队面临一个经典矛盾：

纯语义编码器（如S3 Tokenizer）：压缩率高，但声音表现力不足
纯声学编码器（如VQ-VAE）：细节丰富，但难以用LLM建模

于是，团队采用了双轨设计：

Qwen-TTS-Tokenizer-25Hz：平衡语义与声学

基于Qwen2-Audio继续预训练
两阶段训练：第一阶段学语义（优化ASR任务），第二阶段加声学细节
单码本，25Hz，用块注意力DiT+Flow Matching实现流式解码

为什么叫"平衡"？实验表明，语义信息不足时声音空洞，声学细节过多又会导致LLM建模困难、长序列误差累积——25Hz方案找到了最佳平衡点。

Qwen-TTS-Tokenizer-12Hz：为超低延迟而生

参考Mimi架构，采用16层残差矢量量化（RVQ）
第1层编码语义，后续15层渐进编码声学细节
全因果编码器+轻量卷积解码器，无需look-ahead，即生成即解码
双通道流式架构，集成多令牌预测（MTP）模块

性能对比一目了然：

模型	1并发首包延迟	6并发首包延迟	实时因子（RTF）
Qwen3-TTS-12Hz-0.6B	97 ms	299 ms	0.434
Qwen3-TTS-12Hz-1.7B	101 ms	333 ms	0.463

而25Hz版本的首包延迟通常在140-500毫秒区间——这正是实时互动场景的分水岭。

🚀 快速上手

步骤1：环境准备

# 创建独立环境（推荐）
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts
# 安装核心包
pip install -U qwen-tts
# 可选：加速推理（需兼容硬件）
pip install -U flash-attn --no-build-isolation

步骤2：生成你的第一条语音

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel
# 加载模型（自动下载，也可本地指定路径）
model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2"
)
# 生成！
wavs, sr = model.generate_custom_voice(
    text="其实我真的有发现，我是一个特别善于观察别人情绪的人。",
    language="Chinese",
    speaker="Vivian",
    instruct="用特别愤怒的语气说"
)
# 保存
sf.write("output.wav", wavs[0], sr)

步骤3：试试Web界面（可选）

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000
# 浏览器打开 http://localhost:8000

三种核心模式

1. 声音设计（Voice Design）

从文本描述创建全新的声音，适用于角色配音、虚拟主播等场景。

model.generate_voice_design(
    text="小猫咪，你是不是在家等我好久啦！来抱一个～",
    language="Chinese",
    instruct="采用清新甜美的少女音色，音调轻快有活力，语气自然俏皮，传递出亲切温暖又不失可爱的表达风格。"
)

2. 声音克隆（Voice Clone）

从参考音频中提取说话人特征，适用于配音、语音助手个性化等场景。

# 提示：可以构建一次缓存，避免重复提取特征
prompt = model.create_voice_clone_prompt(
    ref_audio="demo.wav",
    ref_text="这是我的声音样本"
)
# 多次复用
wavs = model.generate_voice_clone(
    text=["句子1", "句子2"],
    voice_clone_prompt=prompt
)

3. 自定义声音（Custom Voice）

使用内置的9个高品质预设音色，无需训练即可调用。

说话人	描述	母语
Vivian	明亮、略带锋芒的年轻女声	中文
Serena	温暖、柔和的年轻女声	中文
Uncle_Fu	沉稳的男性声音，音色低沉圆润	中文
Dylan	北京青年男声，音色清晰自然	中文（北京话）
Eric	活泼的成都男声，声音略带沙哑	中文（四川话）
Ryan	节奏感强的动态男声	英语
Aiden	阳光美式男声，中频清晰	英语
Ono_Anna	可爱的日语女声，音色轻快灵动	日语
Sohee	温暖的韩语女声，情感丰富	韩语

评测结果

零样本语音克隆（Seed-TTS测试集）

模型	中文	英文
Seed-TTS	1.12	2.25
FireRedTTS 2	1.14	1.95
CosyVoice 3	0.71	1.45
Qwen3-TTS-12Hz-1.7B	0.77	1.24

编解码器质量（LibriSpeech test-clean）

模型	PESQ_WB	PESQ_NB	STOI	UTMOS	相似度
Mimi	2.88	3.42	0.94	3.87	0.87
FireRedTTS 2	2.73	3.28	0.94	3.88	0.87
Qwen-TTS-Tokenizer-12Hz	3.21	3.68	0.96	4.16	0.95

模型下载

所有模型均已开源在ModelScope，支持自动下载或手动下载：

modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --local_dir ./model_path

🎯 总结：Qwen3-TTS意味着什么？

对开发者：
一个模型覆盖多场景。无论是实时对话、长文本播客、跨语言配音，还是声纹克隆、声音设计，你不再需要拼凑不同工具链——Qwen3-TTS一套搞定。
对研究者：
一个值得研究的架构案例。双编码器设计、残差多码本、流式因果编解码……这些思路为语音-语言一体化建模提供了新范式。
对未来：
通向"全能音频模型"的基石。正如报告末尾所说："Qwen3-TTS统一了多样的语音生成任务……为下一代全能音频系统铺平道路"——我们拭目以待。

参考资料

GitHub: https://github.com/QwenLM/Qwen3-TTS
ModelScope 模型库: https://modelscope.cn/collections/Qwen/Qwen3-TTS
技术博客: https://qwen.ai/blog?id=qwen3tts-0115
论文: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf
ModelScope 在线 Demo: https://modelscope.cn/studios/Qwen/Qwen3-TTS
API 文档: https://www.alibabacloud.com/help/en/model-studio/qwen-tts-voice-design

点击即可跳转模型链接

https://modelscope.cn/collections/Qwen/Qwen3-TTS