通义实验室开源 PrismAudio,一个强大的视频配音(V2A)模型。仅 518M 参数、0.63s 推理时延,在语义、时序、美学、空间及主观评分五项指标上全面超越现有 5B 量级方法。

 

其核心创新在于将整体推理分解为四路专项 CoT 模块(语义、时序、美学、空间),每路模块配备独立奖励函数,构建精准的 CoT–奖励对应关系,通过多维强化学习后训练实现协同优化,从根本上解决多目标耦合问题。同时提出 Fast-GRPO,采用混合 ODE-SDE 采样策略,大幅降低扩散模型强化学习的训练开销。

 

开源地址:

模型地址:https://www.modelscope.cn/models/iic/PrismAudio

github:https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio

 

魔搭创空间体验:

https://www.modelscope.cn/studios/iic/PrismAudio/summary

 

视频配音效果

Sora2 + PrismAudio

 

00:48

 

Veo3 + PrismAudio

 

00:45

模型原理

视频生成音频(V2A)任务需要在四个关键感知维度之间取得平衡:语义一致性、视听时间同步、美学质量和空间准确性。然而,现有方法存在目标耦合问题——将相互竞争的优化目标混入单一损失函数,同时缺乏对人类偏好的对齐。

 

PrismAudio是首个将强化学习(RL)与专项思维链(CoT)规划相结合的 V2A 生成框架。具体而言,研究团队将整体推理分解为四个专项 CoT 模块(语义、时序、美学、空间 CoT),每个模块配备独立的奖励函数。这种 CoT-奖励的一一对应关系,使多维强化学习优化成为可能,引导模型从多个视角同步提升推理质量,从根本上解决目标耦合问题,同时保持可解释性。

 

为降低训练开销,研究团队还提出 Fast-GRPO,采用混合 ODE-SDE 采样策略,相比现有 GRPO 实现大幅减少了训练时间。

 

左图:利用 Gemini 2.5 Pro 构建 CoT 训练数据,并微调 VideoLLaMA2 以生成分解式 CoT。 右图:基于 Fast-GRPO 的多维 CoT 强化学习框架,用于音频基础模型的后训练阶段。

 

1. 分解式多维思维链

与其让模型用一条推理路径"包揽一切",不如将其拆解——PrismAudio 设计了四个专门化 CoT 模块,各司其职:

  • Semantic CoT → 识别音频事件及其属性
  • Temporal CoT → 推断音频事件的时序结构
  • Aesthetic CoT → 评估自然度、保真度等音质维度
  • Spatial CoT → 分析声源方向与空间位置

四路 CoT 拼接后作为结构化条件,输入音频基础模型,使生成过程有据可循、可解释、可控。

 

2. 多维度强化学习奖励

每个 CoT 模块配备一个专属奖励函数,形成精准的 CoT–奖励对应关系:

🎯 语义 → MS-CLAP

⏱️ 时序 → Synchformer

🎨 美学 → Meta Audiobox Aesthetics

📍 空间 → StereoCRW

四路奖励聚合后,通过组内归一化计算优势分数,驱动模型在所有感知维度上协同提升,而非顾此失彼。

 

3. Fast-GRPO:高效扩散强化学习

将强化学习引入扩散模型,训练开销是绕不开的难题。现有 Flow-GRPO 在每步去噪均启用 SDE 采样,代价极高。

 

Fast-GRPO 的核心思路是把随机性限制在刀刃上

  • 大部分去噪步骤走确定性 ODE,快速高效
  • 仅在随机选取的小时间窗口内启用 SDE,保留探索空间

这一设计将函数评估次数从 T 压缩至窗口宽度 w,且理论上保证终端分布不受影响。

在单独优化CLAP的实验中,Fast-GRPO 仅需 200 步即超越 Flow-GRPO 600 步的最终性能,最终指标更高(0.51 vs. 0.47)。

 

4.音频基础模型的关键优化

在 ThinkSound 架构基础上进行两项关键升级:

  • VideoPrism(替换 CLIP):专为视频理解预训练的统一视觉 Transformer,在多事件复杂场景检索中 R@1(Recall@1,即 top-1 检索召回率:正确结果排在第一位的比例)达 51.02%,显著优于 CLIP(26.53%)
  • T5-Gemma(替换 T5):具备指令跟随能力的编码器架构,在 3+ 步骤复杂推理任务中准确率达 92%,远超标准 T5-Large(77%)

AudioCanvas 评测基准构建

此外,研究团队构建了 AudioCanvas 评测基准,相比现有数据集具备更均衡的分布和更多样复杂的真实场景,涵盖 300 个单事件类别501 个多事件样本

 

模型定量结果

域内评估(VGGSound 测试集)

PrismAudio(518M参数)以最小的模型规模,在语义(CLAP 0.47)、时序同步(DeSync 0.41)、美学质量(PQ 6.38)、空间准确性以及主观评分(MOS-Q 4.21 / MOS-C 4.22)上全面超越所有基线,推理速度仅 0.63 秒,远快于 HunyuanVideo-Foley(10.63 秒)和 ThinkSound(1.07 秒)。

 

域外评估(AudioCanvas 基准)

域外泛化能力同样突出,PrismAudio 在 CLAP(0.52)、DeSync(0.36)、PQ(6.68)等核心指标上均领先,主观评分 MOS-Q 4.12 / MOS-C 4.01,验证了框架的强泛化性。

 

模型推理

环境安装

git clone -b prismaudio https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound

conda create -n prismaudio python=3.10
conda activate prismaudio
chmod +x scripts/PrismAudio/setup/build_env.sh
./scripts/PrismAudio/setup/build_env.sh

# Download pretrained weights to Directory ckpts/
# From Hugging Face: https://huggingface.co/liuhuadai/ThinkSound
# From ModelScope:   https://www.modelscope.cn/models/iic/ThinkSound
git lfs install
git clone https://huggingface.co/FunAudioLLM/PrismAudio ckpts

 

推理脚本

chmod +x scripts/PrismAudio/demo.sh
./scripts/PrismAudio/demo.sh <path-to-your-demo-video> "<CoT description>"

点击即可跳链接

https://modelscope.cn/models/iic/PrismAudio

 

 

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐