阶跃星辰原生语音推理模型登顶全球权威语音模型榜！开源！

魔搭ModelScope社区

139人浏览 · 2026-01-19 17:07:13

魔搭ModelScope社区 · 2026-01-19 17:07:13 发布

阶跃星辰开源模型Step-Audio-R1.1，拿下全球第一！

大模型评测榜单 Artificial Analysis Speech Reasoning 更新，阶跃星辰原生语音推理模型 Step-Audio-R1.1 登顶榜首。

该榜单是目前业界评估“原生语音模型”（Native Audio Models）最权威的第三方基准之一。核心考量模型直接处理音频并进行复杂逻辑推理的能力，主要考察维度包括准确率、首包延迟等。

和大语言模型同理，语音模型同样需要具备强大推理能力，才能提供更高阶智能、更自然交互。

Step-Audio-R1.1 以 96.4% 准确率，超越 Grok、Gemini、GPT-Realtime 等主流一线模型，刷新历史最好成绩。

在性能与速度的综合权衡上，Step-Audio-R1.1 全面领先同类语音模型。

Step-Audio-R1 是由阶跃星辰发布的全球首个开源原生语音推理模型。它可以在不增加额外时延的情况下，端到端理解语音内容，“像人类一样听到对话即可思考”。

核心能力包括：

深度语音推理
实时响应能力
音频领域的可扩展 CoT

Step-Audio-R1.1 是最新升级版本，兼顾更强实时对话和复杂语音推理能力。与传统流式语音模型以牺牲智能性换取低延迟不同，R1.1 支持“边说边思考”（thinking while speaking），在不牺牲速度的前提下实现高智能水平。完整的实时语音 API 将在 2 月上线，目前开放的chat模式已搭载 R1.1 核心，支持边想边说的流式推理。

案例一：分析猫猫吵架

📎分析猫猫吵架.mp4

根据提供的所有音频片段，这两只猫咪正在进行激烈的打斗和嘶吼。

可以从以下几点判断：

1、声音特征：音频中充满了持续、高亢且充满攻击性的猫叫和嘶吼声。这并非普通猫咪之间玩耍的打闹声，而是带有明显威胁和对抗意味的咆哮。

2、互动状态：可以听到不止一只猫的声音，它们的叫声此起彼伏，表明它们正在直接对抗。

3、人类干预：在音频的后半部分，可以清晰地听到有人在用中文劝阻：“别骂了”“别打了”，这直接说明了当时的情况是两只猫正在激烈争斗，甚至可能已经造成了伤害或噪音过大，导致主人不得不介入制止。

综上所述，这两只猫咪正在发生激烈的打斗，可能是由于领地争端、资源竞争（如食物或主人关注）或其他冲突引发的。

案例二：理解海豹舞BGM韩语歌词

（最近抖音上很火的海豹舞，魔性BGM本来是一位外国友人在反复练习韩语词汇）

📎理解海豹舞BGM韩语歌词.mp4

我对说话人正在进行的活动分析如下：

这位说话人正在进行韩语口语发音练习或朗读训练。具体分析依据如下：内容重复性高：她反复念诵着结构相似的词组，

例如：

메기메긴하다 / 메기메긴한(Megi-megi-n ha-da / Megi-megi-n han)

这种高度重复的模式是典型的语言学习或发音练习特征，而非自然对话。总结来说，音频中的说话人并非在进行日常交流，而是在一个结构化的、有明确目的的口语训练场景中。

她通过快速、重复地朗读设计好的词组，来练习韩语的特定发音技巧或语法点，最可能的身份是语言学习者或从事声音相关工作的专业人士。

目前，Step-Audio-R1.1 权重已上传至ModelScope，并可在ModelScope创空间体验试玩：

模型：https://modelscope.cn/models/stepfun-ai/Step-Audio-R1.1
体验：https://modelscope.cn/studios/stepfun-ai/Step-Audio-R1

GitHub地址：

https://github.com/stepfun-ai/Step-Audio-R1

同时，欢迎大家下载体验或前往「阶跃星辰开放平台体验中心」试玩！

https://www.stepfun.com/studio/audio?tab=conversation

1月19日（周一），Step-Audio-R1.1 核心作者、阶跃星辰多模态大模型研究员田飞将通过直播为大家带来该工作的深度技术解析，来预约，别错过！

点击直达模型体验～

https://modelscope.cn/studios/stepfun-ai/Step-Audio-R1

欢迎加入ModelScope魔搭中文开源社区

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！

更多推荐

cover

SenseNova U1开源：原生统一多模态理解与生成，8B参数达到同量级SOTA

ModelScope魔搭社区

cover

Mistral Medium 3.5开源：一套权重搞定编码、推理和指令遵循，4块GPU即可部署

ModelScope魔搭社区

cover

蚂蚁百灵双响开源：万亿旗舰 Ling-2.6-1T 与高效 Agent 主力 Ling-2.6-flash

ModelScope魔搭社区

所有评论(0)

查看更多评论

魔搭ModelScope社区

@coc_modelscope

已为社区贡献959条内容