Step-Audio：引领实时语音交互新纪元，多模态大模型开源生态重磅发布

2025年2月17日，Step-Audio技术团队正式对外公布三项关键成果：推理代码与模型权重全量开源（含Step-Audio-Chat对话模型、Step-Audio-TTS-3B合成模型及配套Tokenizer）、多轮音频交互评测基准StepEval-Audio-360上线，以及技术白皮书《Step-Audio：智能语音交互的统一理解与生成框架》同步发布。这一系列举措标志着业界首个实现"语音理解

虞旋律

418人浏览 · 2025-10-30 02:17:29

虞旋律 · 2025-10-30 02:17:29 发布

Step-Audio：引领实时语音交互新纪元，多模态大模型开源生态重磅发布

【免费下载链接】Step-Audio-TTS-3B 项目地址: https://ai.gitcode.com/StepFun/Step-Audio-TTS-3B

🌟 核心发布亮点

📌 技术架构解析

系统核心突破

Step-Audio构建了四维度技术壁垒：

千亿级多模态基座：1300亿参数的Step-Audio-Chat模型实现语音识别、语义理解、情感迁移、声音风格转化等全功能集成
零人工数据生成体系：基于130B模型自主合成高质量语音数据，支撑Step-Audio-TTS-3B实现RAP、哼唱等创新能力
微米级语音调控：支持9种情绪（含轻蔑、惊喜）、12种方言变体及16级语速控制，韵律误差率低于0.3%
工具增强交互范式：通过ToolCall协议实现语音控制第三方应用，结合角色扮演引擎拓展Agent应用场景

双码本编码机制

系统采用独创的并行编码架构：Linguistic Tokenizer（1024码本/16.7Hz）负责语言结构解析，Semantic Tokenizer（4096码本/25Hz）捕捉声学细节，通过2:3时序交错策略实现双码流同步。这种设计使语音特征提取效率提升40%，同时将语义损失率控制在0.8%以内。

实时推理引擎

为实现毫秒级响应，系统开发了五层优化管线：

语音活动检测（VAD）模块：采用改进型WebRTC算法，响应延迟<80ms
流式分词器：动态窗口机制处理41.6Hz码率音频流
上下文管理器：基于注意力压缩技术维护20轮对话状态
混合解码器：融合流匹配模型与神经声码器，生成速度达3.2x实时
控制器中枢：协调各子系统实现150ms内端到端响应

🛠️ 模型部署指南

资源获取渠道

开发者可通过两大平台获取完整模型资源：

Hugging Face：Step-Audio-Tokenizer、Step-Audio-Chat、Step-Audio-TTS-3B权重库
ModelScope：提供针对中文优化的模型版本及本地化部署工具

硬件配置要求

模型组件	采样率配置	最低显存要求	推荐配置
Tokenizer	41.6Hz	1.5GB	NVIDIA T4
TTS-3B	41.6Hz	8GB	NVIDIA V100
Chat模型	41.6Hz	265GB	4×A800 80GB

快速启动流程

# 环境准备
git clone https://gitcode.com/StepFun/Step-Audio-TTS-3B
conda create -n stepaudio python=3.10
conda activate stepaudio
pip install -r requirements.txt

# 模型下载
git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-Chat

# 启动演示
python app.py --model-path ./Step-Audio-Chat --port 7860