通义实验室开源 PrismAudio：518M 参数全面超越 5B 量级的视频配音模型

魔搭ModelScope社区

109人浏览 · 2026-03-26 16:25:45

魔搭ModelScope社区 · 2026-03-26 16:25:45 发布

通义实验室开源 PrismAudio，一个强大的视频配音（V2A）模型。仅 518M 参数、0.63s 推理时延，在语义、时序、美学、空间及主观评分五项指标上全面超越现有 5B 量级方法。

其核心创新在于将整体推理分解为四路专项 CoT 模块（语义、时序、美学、空间），每路模块配备独立奖励函数，构建精准的 CoT–奖励对应关系，通过多维强化学习后训练实现协同优化，从根本上解决多目标耦合问题。同时提出 Fast-GRPO，采用混合 ODE-SDE 采样策略，大幅降低扩散模型强化学习的训练开销。

开源地址：

模型地址：https://www.modelscope.cn/models/iic/PrismAudio

github：https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio

魔搭创空间体验：

https://www.modelscope.cn/studios/iic/PrismAudio/summary

视频配音效果

Sora2 + PrismAudio

00:48

Veo3 + PrismAudio

00:45

模型原理

视频生成音频（V2A）任务需要在四个关键感知维度之间取得平衡：语义一致性、视听时间同步、美学质量和空间准确性。然而，现有方法存在目标耦合问题——将相互竞争的优化目标混入单一损失函数，同时缺乏对人类偏好的对齐。

PrismAudio是首个将强化学习（RL）与专项思维链（CoT）规划相结合的 V2A 生成框架。具体而言，研究团队将整体推理分解为四个专项 CoT 模块（语义、时序、美学、空间 CoT），每个模块配备独立的奖励函数。这种 CoT-奖励的一一对应关系，使多维强化学习优化成为可能，引导模型从多个视角同步提升推理质量，从根本上解决目标耦合问题，同时保持可解释性。

为降低训练开销，研究团队还提出 Fast-GRPO，采用混合 ODE-SDE 采样策略，相比现有 GRPO 实现大幅减少了训练时间。

左图：利用 Gemini 2.5 Pro 构建 CoT 训练数据，并微调 VideoLLaMA2 以生成分解式 CoT。右图：基于 Fast-GRPO 的多维 CoT 强化学习框架，用于音频基础模型的后训练阶段。

1. 分解式多维思维链

与其让模型用一条推理路径"包揽一切"，不如将其拆解——PrismAudio 设计了四个专门化 CoT 模块，各司其职：

Semantic CoT → 识别音频事件及其属性
Temporal CoT → 推断音频事件的时序结构
Aesthetic CoT → 评估自然度、保真度等音质维度
Spatial CoT → 分析声源方向与空间位置

四路 CoT 拼接后作为结构化条件，输入音频基础模型，使生成过程有据可循、可解释、可控。

2. 多维度强化学习奖励

每个 CoT 模块配备一个专属奖励函数，形成精准的 CoT–奖励对应关系：

🎯 语义 → MS-CLAP

⏱️ 时序 → Synchformer

🎨 美学 → Meta Audiobox Aesthetics

📍 空间 → StereoCRW

四路奖励聚合后，通过组内归一化计算优势分数，驱动模型在所有感知维度上协同提升，而非顾此失彼。

3. Fast-GRPO：高效扩散强化学习

将强化学习引入扩散模型，训练开销是绕不开的难题。现有 Flow-GRPO 在每步去噪均启用 SDE 采样，代价极高。

Fast-GRPO 的核心思路是把随机性限制在刀刃上：

大部分去噪步骤走确定性 ODE，快速高效
仅在随机选取的小时间窗口内启用 SDE，保留探索空间

这一设计将函数评估次数从 T 压缩至窗口宽度 w，且理论上保证终端分布不受影响。

在单独优化CLAP的实验中，Fast-GRPO 仅需 200 步即超越 Flow-GRPO 600 步的最终性能，最终指标更高（0.51 vs. 0.47）。

4.音频基础模型的关键优化

在 ThinkSound 架构基础上进行两项关键升级：

VideoPrism（替换 CLIP）：专为视频理解预训练的统一视觉 Transformer，在多事件复杂场景检索中 R@1（Recall@1，即 top-1 检索召回率：正确结果排在第一位的比例）达 51.02%，显著优于 CLIP（26.53%）
T5-Gemma（替换 T5）：具备指令跟随能力的编码器架构，在 3+ 步骤复杂推理任务中准确率达 92%，远超标准 T5-Large（77%）

AudioCanvas 评测基准构建

此外，研究团队构建了 AudioCanvas 评测基准，相比现有数据集具备更均衡的分布和更多样复杂的真实场景，涵盖 300 个单事件类别和 501 个多事件样本。

模型定量结果

域内评估（VGGSound 测试集）

PrismAudio（518M参数）以最小的模型规模，在语义（CLAP 0.47）、时序同步（DeSync 0.41）、美学质量（PQ 6.38）、空间准确性以及主观评分（MOS-Q 4.21 / MOS-C 4.22）上全面超越所有基线，推理速度仅 0.63 秒，远快于 HunyuanVideo-Foley（10.63 秒）和 ThinkSound（1.07 秒）。

域外评估（AudioCanvas 基准）

域外泛化能力同样突出，PrismAudio 在 CLAP（0.52）、DeSync（0.36）、PQ（6.68）等核心指标上均领先，主观评分 MOS-Q 4.12 / MOS-C 4.01，验证了框架的强泛化性。

模型推理

环境安装

git clone -b prismaudio https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound

conda create -n prismaudio python=3.10
conda activate prismaudio
chmod +x scripts/PrismAudio/setup/build_env.sh
./scripts/PrismAudio/setup/build_env.sh

# Download pretrained weights to Directory ckpts/
# From Hugging Face: https://huggingface.co/liuhuadai/ThinkSound
# From ModelScope:   https://www.modelscope.cn/models/iic/ThinkSound
git lfs install
git clone https://huggingface.co/FunAudioLLM/PrismAudio ckpts

推理脚本

chmod +x scripts/PrismAudio/demo.sh
./scripts/PrismAudio/demo.sh <path-to-your-demo-video> "<CoT description>"

点击即可跳链接

https://modelscope.cn/models/iic/PrismAudio

欢迎加入ModelScope魔搭中文开源社区

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！

更多推荐

35B参数科学性能比肩万亿参数模型，『书生』科学大模型Intern-S2-Preview开源

ModelScope魔搭社区

MemPrivacy 开源：让端云 Agent 记住你，但不把隐私交出去

ModelScope魔搭社区

Ring-2.6-1T 正式开源：为真实复杂任务打造的万亿级思考模型

ModelScope魔搭社区

所有评论(0)

查看更多评论

魔搭ModelScope社区

@coc_modelscope

已为社区贡献966条内容

通义实验室开源 PrismAudio：518M 参数全面超越 5B 量级的视频配音模型

魔搭ModelScope社区

视频配音效果

模型原理

1. 分解式多维思维链

2. 多维度强化学习奖励

3. Fast-GRPO：高效扩散强化学习

4.音频基础模型的关键优化

AudioCanvas 评测基准构建

模型定量结果

域内评估（VGGSound 测试集）

域外评估（AudioCanvas 基准）

模型推理

所有评论(0)

温馨提示：您尚未绑定手机号

魔搭ModelScope社区