01 引言

上海交通大学、上海创智学院、南洋理工大学、腾讯混元团队、天津大学、数搭国际数据开源社区、北京大学、复旦大学等机构联合发布 MMAE(Massive Multitask Audio Editing Benchmark),首个面向通用指令式音频编辑的综合评测基准。MMAE 包含 2,000 条真实场景音频编辑任务与 17,741 条细粒度 rubric 评测项,系统覆盖 7 种模态、6 级难度、8 类操作。团队对 5 款主流音频编辑模型做了全面”体检”,结果显示:即便表现最优的模型,指令遵循率也仅在五成上下,完美编辑率(EMR)更是全部低于 5%

开源地址:

01 数据集构成

MMAE共包含2000道音频编辑任务,系统性覆盖模态、复杂度与操作类型三个维度,形成结构化、多层次的评测体系:

MMAE在三个维度上的数据分布

MMAE中覆盖不同模态、复杂度、操作类型的数据示例

02 数据构建与评测方法

真实音频 + 人机协作标注

MMAE 所有测评样本均来自真实场景音频,而非合成数据。初始标注由专业团队通过人机协作(Human-LLM Collaboration)完成,再经过多轮精细化修订与独立审核:每条数据都由不同于原标注者的审核人员复核,不达标的样本被反复修正或淘汰,以保证数据高质量、无歧义、可验证。

rubric 评测体系

这是 MMAE 区别于传统评测的核心创新。FAD、CLAP 等粗粒度指标只能给出”总体打分”,无法定位模型究竟在哪一环节出错。MMAE 为每条样本平均设计约 9 条细粒度 rubric,每条都是一个原子化选择题,分别从两个维度评估:

  • IFR(Instruction Following Rate,指令遵循率):指令要求的修改有没有做到。
  • CR(Consistency Rate,一致性率):指令未涉及的部分有没有被破坏。

同时引入 EMR(Exact Match Rate,精确匹配率):仅当一条样本的所有 rubric 全部通过才计为成功。这套设计既保证可解释性(哪一环出错一目了然),又能有效阻断”只改不保”或”只保不改”的投机策略。

以一个多音频任务为例,指令为”把音频 2 的歌词全改成 ‘Hachimi’,声音用音频 1 的音色”,对应 5 条 rubric:歌词是否为反复出现的”Hachimi”(IFR)、音色是否接近音频 1(IFR)、伴奏是否与原音频 2 基本一致(CR)、旋律节奏是否被改动(CR)、是否出现音质劣化(CR)。

Rubrics标注与测评

17,741 条 rubric 通过流水线自动化生成:先用 Omni-Captioner 中提出的 Omni-Detective 管线提取音频细粒度标注,再由 LLM 批量生成草稿,最后人工审核修正。评分阶段由多模态大模型 Qwen3-Omni 担任”阅卷老师”逐条判分;为降低位置偏见,每次评分随机打乱选项顺序,每条 rubric 独立评估 3 次取多数决。

03 实验结果

研究团队评测了5个具有代表性的音频编辑模型,包括Step-Audio-EditX、Ming-UniAudio、MMEdit、Audio-Omni和SmartDJ。结果显示,即便是当前性能最优的模型,在整体编辑任务中也仅能正确完成不到一半的操作,而能够同时做到“修改准确且不破坏原有内容”的完美编辑案例则极为有限。

进一步分析表明,随着任务复杂度的提升(从单步操作到多轮、多跳、多指令),模型性能显著下降;在涉及多模态混合(如语音、音乐与环境音同时存在)的场景中,模型表现更是大幅退化。这表明,当前方法在简单情境下具备一定能力,但距离真实复杂应用场景仍有明显差距。

主要实验结果

此外,实验还揭示出若干值得关注的现象:

  • 仅看单一指标容易对模型能力产生误判:例如,Identity 基线直接输出原始音频,不执行任何编辑操作,能获得 94.13% 的 CR,部分提取任务也能拿到一些IFR分数;而 Noise 基线输出纯噪声,虽然完全破坏了原始输入,但在部分删除类任务中也可能获得较高的 IFR。这说明音频编辑本质上同时包含两个目标:既要准确完成修改,又要尽可能保留原有内容。只关注其中任何一项,都可能让模型通过“投机策略”获得不错分数。因此,MMAE 将 Instruction Following 与 Consistency 作为两个独立的评测维度,并引入EMR指标,对编辑能力进行更全面的刻画。
  • Agent机制提升有限:SmartDJ在引入Gemini 2.0 Flash 进行规划后,IFR略有提升,但CR有所下降。这表明当前系统在“理解”(规划准确性)与“执行”(编辑可靠性)两个层面仍存在瓶颈,提示基础模型能力仍需进一步加强。
  • 平均能力与完美执行存在差异:尽管Step-Audio-EditX 在IFR与CR上均优于 Ming-UniAudio,但其EMR反而略低。这反映出模型在“覆盖更多任务类型”与“确保单个任务完全正确”之间存在权衡,也提示平均指标并不能完全反映系统整体可靠性。

04 上手实践

MMAE 使用 Qwen3-Omni 作为评判模型,依据评分标准对音频编辑输出逐条打分。完整评测分三步。

步骤 1:部署 Qwen3-Omni

克隆官方仓库并按其说明配置环境:

git clone https://github.com/QwenLM/Qwen3-Omni.git
cd Qwen3-Omni
# 按官方 README 安装依赖
随后启动 vLLM 服务。仓库提供了参考部署脚本
launch_qwen3_omni.sh


,会在 8 块 GPU 上启动两个 Qwen3-Omni 实例(每个 tensor-parallel=4),分别监听 80018002 端口。需将脚本中的
MODEL_DIR


改为本地模型权重路径。

步骤 2:准备预测结果

在 MMAE 基准输入数据(元数据)上运行你的音频编辑模型,在原始 chatml 格式的 messages 后追加一条 assistant 回复,写入输出音频路径:

{
"id": "69e897fbf1844435bec75eca",
"messages": [
{"role": "user", "content": [
{"type": "text", "text": "Extract the music component from the audio."},
{"type": "audio", "audio_url": "wav/69e897fbf1844435bec75eca/audio1.wav"}
]},
{"role": "assistant", "content": [
{"type": "audio", "audio_url": "your_output_wav_path"}
]}
]
}
audio_url


可为绝对路径,或相对于预测文件目录(或
--audio_root


)的相对路径。将修改后的元数据另存为 JSON,即为模型预测结果。

步骤 3:运行评估

python -m eval.score \
--predictions path/to/your_predictions.json \
--base_urls "http://localhost:8001/v1,http://localhost:8002/v1" \
--audio_root path/to/audio_root \
--output_dir outputs/your_model \
--concurrency 8
Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐