还记得上一次被AI语音惊艳到是什么时候吗?

当大多数TTS模型还在为清晰度和自然度做权衡时,通义千问Qwen团队悄然发布了一款能真正"随心所欲"生成语音的大模型——Qwen3-TTS。

它不仅能用3秒音频实现完美声纹克隆,还能通过自然语言描述"设计"出你想象中的任何声音——稚嫩萝莉、沉稳大叔、异国腔调一应俱全。更令人惊叹的是,它支持97毫秒首包延迟的实时流式生成,让TTS真正迈入实时交互时代。

今天,我们就来深度拆解"集大成者"的Qwen3-TTS语音大模型,看看它究竟有何过人之处。

 

🌟 核心亮点一览

1. 两条技术路线,满足不同场景需求

Qwen3-TTS并非单一模型,而是一整套模型家族的统称,核心包含两种编码器路线:

特性 Qwen3-TTS-25Hz Qwen3-TTS-12Hz
编码频率 25 Hz 12.5 Hz
编码器类型 单码本+DiT解码 多码本(16层)+轻量CNN
优势 长文本稳定性强 超低延迟(97ms)、流式友好
适用场景 长文档合成、播客生成 实时对话、多轮交互
简单选择指南:追求极致低延迟能力选12Hz;长文本生成稳定性优先选25Hz。而本次开源的是Qwen3-TTS-12Hz系列模型。

2. 3秒声纹克隆,还原度拉满

无需大量样本,在仅有3秒参考音频的情况下,Qwen3-TTS便能精准捕捉说话者的声纹特征,并在多语言场景下保持一致的音色:

# 仅需一行代码即可完成克隆
wavs, sr = model.generate_voice_clone(
    text="I'm solving the equation: x = [-b ± √(b²-4ac)] / 2a",
    language="English",
    ref_audio="reference.wav",  # 3秒音频即可
    ref_text="This is my voice sample."
)

在多语言评测中,Qwen3-TTS在所有10种语言的说话人相似度指标上均超越MiniMax和ElevenLabs:

语言 中文 英语 日语 韩语 俄语
相似度 0.811 0.829 0.798 0.812 0.781
注:相似度基于WavLM说话人验证模型,1.0为完美匹配

3. 自然语言"定制语音",所想即所得

想要一个"略带紧张的17岁男生,音域偏高,紧张时元音会收紧"的声音?不再是天方夜谭。在VoiceDesign模式下,你只需要"描述"即可:

wavs, sr = model.generate_voice_design(
    text="H-hey! You dropped your... uh... calculus notebook?",
    language="English",
    instruct="Male, 17 years old, tenor range, gaining confidence - deeper breath support now, though vowels still tighten when nervous"
)

这一能力在InstructTTSEval评测中表现卓越,Description-Speech Consistency达到81.1%(中文)和82.4%(英文),超越Hume等专业产品。

4. 跨语言"无缝"切换,中→韩仅4.82%错误率

跨语言语音合成一直是个难题——如何在切换语言时保持音色不变?以往模型在中→韩等"远距离"语言对上错误率常超过20%,而Qwen3-TTS将其压至4.82%

语言对 Qwen3-TTS-12Hz-1.7B CosyVoice3
zh→ko 4.82 14.4
zh→en 2.77 2.98
en→zh 4.77 5.09
ko→zh 1.08 1.06

5. 10分钟长文本稳定生成,无重复无卡顿

长音频合成容易出现重复、遗漏或音色漂移。Qwen3-TTS-25Hz在超过10分钟的文本上仍能保持**1.52%**的超低词错率,远优于同类模型:

模型 中文长文本 英文长文本
Higgs-Audio-v2 5.505 6.917
VibeVoice 22.619 1.780
Qwen3-TTS-25Hz-1.7B 1.517 1.225


🔧 技术架构深度解析

为什么做两种Tokenizer?

在语音编解码器的设计上,团队面临一个经典矛盾:

  • 纯语义编码器(如S3 Tokenizer):压缩率高,但声音表现力不足
  • 纯声学编码器(如VQ-VAE):细节丰富,但难以用LLM建模

 

于是,团队采用了双轨设计:

Qwen-TTS-Tokenizer-25Hz:平衡语义与声学

  • 基于Qwen2-Audio继续预训练
  • 两阶段训练:第一阶段学语义(优化ASR任务),第二阶段加声学细节
  • 单码本,25Hz,用块注意力DiT+Flow Matching实现流式解码
为什么叫"平衡"?实验表明,语义信息不足时声音空洞,声学细节过多又会导致LLM建模困难、长序列误差累积——25Hz方案找到了最佳平衡点。

Qwen-TTS-Tokenizer-12Hz:为超低延迟而生

  • 参考Mimi架构,采用16层残差矢量量化(RVQ)
  • 第1层编码语义,后续15层渐进编码声学细节
  • 全因果编码器+轻量卷积解码器,无需look-ahead,即生成即解码
  • 双通道流式架构,集成多令牌预测(MTP) 模块

 

性能对比一目了然:

模型 1并发首包延迟 6并发首包延迟 实时因子(RTF)
Qwen3-TTS-12Hz-0.6B 97 ms 299 ms 0.434
Qwen3-TTS-12Hz-1.7B 101 ms 333 ms 0.463
而25Hz版本的首包延迟通常在140-500毫秒区间——这正是实时互动场景的分水岭。

 

🚀 快速上手

步骤1:环境准备

# 创建独立环境(推荐)
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts
# 安装核心包
pip install -U qwen-tts
# 可选:加速推理(需兼容硬件)
pip install -U flash-attn --no-build-isolation

步骤2:生成你的第一条语音

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel
# 加载模型(自动下载,也可本地指定路径)
model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2"
)
# 生成!
wavs, sr = model.generate_custom_voice(
    text="其实我真的有发现,我是一个特别善于观察别人情绪的人。",
    language="Chinese",
    speaker="Vivian",
    instruct="用特别愤怒的语气说"
)
# 保存
sf.write("output.wav", wavs[0], sr)

步骤3:试试Web界面(可选)

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000
# 浏览器打开 http://localhost:8000

三种核心模式

1. 声音设计(Voice Design)

从文本描述创建全新的声音,适用于角色配音、虚拟主播等场景。

model.generate_voice_design(
    text="小猫咪,你是不是在家等我好久啦!来抱一个~",
    language="Chinese",
    instruct="采用清新甜美的少女音色,音调轻快有活力,语气自然俏皮,传递出亲切温暖又不失可爱的表达风格。"
)

2. 声音克隆(Voice Clone)

从参考音频中提取说话人特征,适用于配音、语音助手个性化等场景。

# 提示:可以构建一次缓存,避免重复提取特征
prompt = model.create_voice_clone_prompt(
    ref_audio="demo.wav",
    ref_text="这是我的声音样本"
)
# 多次复用
wavs = model.generate_voice_clone(
    text=["句子1", "句子2"],
    voice_clone_prompt=prompt
)

3. 自定义声音(Custom Voice)

使用内置的9个高品质预设音色,无需训练即可调用。

说话人 描述 母语
Vivian 明亮、略带锋芒的年轻女声 中文
Serena 温暖、柔和的年轻女声 中文
Uncle_Fu 沉稳的男性声音,音色低沉圆润 中文
Dylan 北京青年男声,音色清晰自然 中文(北京话)
Eric 活泼的成都男声,声音略带沙哑 中文(四川话)
Ryan 节奏感强的动态男声 英语
Aiden 阳光美式男声,中频清晰 英语
Ono_Anna 可爱的日语女声,音色轻快灵动 日语
Sohee 温暖的韩语女声,情感丰富 韩语

评测结果

零样本语音克隆(Seed-TTS测试集)

模型 中文 英文
Seed-TTS 1.12 2.25
FireRedTTS 2 1.14 1.95
CosyVoice 3 0.71 1.45
Qwen3-TTS-12Hz-1.7B 0.77 1.24

编解码器质量(LibriSpeech test-clean)

模型 PESQ_WB PESQ_NB STOI UTMOS 相似度
Mimi 2.88 3.42 0.94 3.87 0.87
FireRedTTS 2 2.73 3.28 0.94 3.88 0.87
Qwen-TTS-Tokenizer-12Hz 3.21 3.68 0.96 4.16 0.95

模型下载

所有模型均已开源在ModelScope,支持自动下载或手动下载:

modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --local_dir ./model_path

🎯 总结:Qwen3-TTS意味着什么?

  1. 对开发者:
    一个模型覆盖多场景。无论是实时对话、长文本播客、跨语言配音,还是声纹克隆、声音设计,你不再需要拼凑不同工具链——Qwen3-TTS一套搞定。
  2. 对研究者:
    一个值得研究的架构案例。双编码器设计、残差多码本、流式因果编解码……这些思路为语音-语言一体化建模提供了新范式。
  3. 对未来:
    通向"全能音频模型"的基石。正如报告末尾所说:"Qwen3-TTS统一了多样的语音生成任务……为下一代全能音频系统铺平道路"——我们拭目以待。

参考资料

  • GitHub: https://github.com/QwenLM/Qwen3-TTS
  • ModelScope 模型库: https://modelscope.cn/collections/Qwen/Qwen3-TTS
  • 技术博客: https://qwen.ai/blog?id=qwen3tts-0115
  • 论文: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf
  • ModelScope 在线 Demo: https://modelscope.cn/studios/Qwen/Qwen3-TTS
  • API 文档: https://www.alibabacloud.com/help/en/model-studio/qwen-tts-voice-design

点击即可跳转模型链接

https://modelscope.cn/collections/Qwen/Qwen3-TTS

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐