引言

Google Magenta 团队发布并开源了 Magenta RealTime 2(MRT2),一个 24 亿参数的实时音乐模型——你可以像演奏乐器一样使用它,并直接在 MacBook(Apple Silicon)本地运行。与”把提示词离线渲染成一段音轨”的生成式音乐模型不同,MRT2 是实时、可交互的,除文本外还支持 MIDI 与音频控制,帧大小 40 毫秒、控制延迟约 200 毫秒,较初代 Magenta RealTime 降低约 15 倍。模型提供 Base(2.4B)与 Small(230M)两个版本,配套开源了 Python 库(pip install magenta-rt,基于 JAX/MLX 与 SequenceLayers)以及一个由 MLX 驱动、可在 MacBook GPU 上做流式音频生成的 C++ 推理引擎。它既可作为独立应用运行,也能嵌入 DAW 或集成进其他音乐软件。

本次开源包含:

• Magenta RealTime 2:开放权重模型(24 亿参数),支持通过 MIDI、文本、音频进行低延迟实时控制的高质量实时音乐合成

• 开源 Python 库(pip install magenta-rt):通过 JAX/MLX 使用 SequenceLayers 提供推理能力

• C++ 推理引擎:通过 MLX 在 MacBook GPU 上高效进行流式音频生成

• 一套示例应用:基于推理引擎构建,既展现 MRT2 的创作潜力,也可作为参考帮助你构建新乐器与软件集成

开源地址:

• ModelScope:https://modelscope.cn/models/google/magenta-realtime-2

• Github: https://github.com/magenta/magenta-realtime

六种全新的演奏与创作能力

MRT2 的音频单元(AU)插件与独立应用为你带来全新的音乐能力与创作可能:

MIDI 引导

按住一个音符或和弦,模型即可生成一整个跟随你和声走向的合奏;你也可以与这个合奏一起即兴演奏。

文本转合成器(Text-to-Synth)

输入一段描述(例如”弦乐合奏”“disco funk”),即可生成一件全新的、可完整演奏的 MIDI 乐器

00:29

音频克隆

放入一小段音频片段,即可创建一件模拟该音色的可演奏乐器。

00:34

提示词混合

在任意音频提示词与文本提示词之间平滑插值,探索全新的曲风。

00:32

声音设计

将音乐与音效相结合,并动态调节混沌度,创造出全新的音色质感。

00:34

调制 / 手势控制

使用 LFO、MIDI 控制器,甚至摄像头来穿梭于潜空间之中,对连续手势做出低延迟响应。

技术:15倍低延迟的实时音乐模型

十年来,Magenta 团队始终倡导”将 AI 作为音乐人的工具,而非替代品”。从 2017 年首个神经合成器 NSynth,到 DDSP、Piano Genie,再到首个实时音乐模型 Magenta RealTime,MRT2 将延迟较第一版降低约 15 倍,可在标准硬件上运行并直接集成进 DAW,让实时模型成为一件真正的乐器。

MRT 与 MRT2 都是在 SpectroStream 编解码器产出的音频 token 序列上运行的编解码语言模型(codec language model)。相比初代,MRT2 在延迟与控制上做了系统性升级:

帧级自回归 + 帧对齐条件控制 MRT2 通过帧级自回归(frame-level autoregression)配合帧对齐条件控制(frame-aligned conditioning)实现低延迟。模型对持续跟随 MIDI 输入的音频进行建模,同时接受可为音频或文本的风格提示词(经 MusicCoCa 嵌入)。为将交互延迟降至最低,两类信号在每一步生成时都作为帧对齐条件注入,使模型能在单帧(40 毫秒,外加若干经验性延迟来源)内对信号变化做出反应。

因果滑动窗口注意力 + 可学习注意力嵌入 该方法的关键在于采用因果滑动窗口注意力(causal sliding window attention),在实现连续流式生成的同时限制内存占用;并引入可学习的注意力嵌入,以提升对任意时长的泛化能力,减少长上下文生成时的上下文淘汰伪影(如振铃和反馈啸叫)。

MLX 驱动的 C++ 推理引擎 初代需要高性能 GPU/TPU,MRT2 则把实时生成带到了音乐人真正在用的硬件上。借助 Apple 的 MLX 框架打通 Python 与 C++:将基于 SequenceLayers 实现的 MRT2 模型编译为 .mlxfn 容器(打包权重与计算图),由 C++ 推理引擎加载并在 Apple Silicon GPU 上高效执行;引擎同时负责模型状态、音频缓冲/重采样、MIDI 输入等基础设施,可嵌入许多支持 C++ 的音乐应用框架。

MLX 让两种规模的模型都能在任意 Apple Silicon Mac 上进行离线(非实时)推理,而实时流式生成(生成速度快于播放速度)支持的设备如下:

模型

平台

Base(2.4B)

MacBook M3 Pro(或更高)、MacBook M2 Max(或更高)

Small(230M)

任意 Apple Silicon MacBook,包括 MacBook Air

实践:在你的MacBook上本地跑起来

系统要求

Base 模型需要 M3 Pro / M2 Max 或更高配置。Small 模型可在任意 Apple Silicon MacBook 上运行,包括 MacBook Air。

模型生成 48kHz 立体声音频,需将音频采样率设为 48kHz——在 DAW(插件)中或”音频 MIDI 设置”(独立应用)中进行设置。

本地安装指引

  1. 下载安装包,并解压zip文件
  2. 安装应用:独立应用双击即可运行
  3. 首次启动需下载模型权重(Base 约 2.5GB,Small 约 450MB),可能需要几分钟。

以colider为例:双击后进入下载模型页面

等待模型下载完即可使用

写在最后

Magenta 团队用机器学习打造新乐器已近 10 年。有了 MRT2,AI 乐器终于开始具备音乐创作工具应有的可控性与即时性,但仍有大量空间值得探索——从更丰富的交互、更低的控制延迟,到能实现即兴合奏与实时音频控制的音频流式输入。团队也将很快为 MRT2 带来更多功能与示例应用,包括:

• 微调:让任何人都能在自己的数据上直接训练,定制模型

• 示例演出工具:与 Manaswi Mishra 合作打造

点击阅读原文,直达模型体验~

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐