谷歌 Magenta RealTime 2 开源:一台 MacBook 本地玩转实时音乐生成,附手把手部署教程
引言
Google Magenta 团队发布并开源了 Magenta RealTime 2(MRT2),一个 24 亿参数的实时音乐模型——你可以像演奏乐器一样使用它,并直接在 MacBook(Apple Silicon)本地运行。与”把提示词离线渲染成一段音轨”的生成式音乐模型不同,MRT2 是实时、可交互的,除文本外还支持 MIDI 与音频控制,帧大小 40 毫秒、控制延迟约 200 毫秒,较初代 Magenta RealTime 降低约 15 倍。模型提供 Base(2.4B)与 Small(230M)两个版本,配套开源了 Python 库(pip install magenta-rt,基于 JAX/MLX 与 SequenceLayers)以及一个由 MLX 驱动、可在 MacBook GPU 上做流式音频生成的 C++ 推理引擎。它既可作为独立应用运行,也能嵌入 DAW 或集成进其他音乐软件。
本次开源包含:
• Magenta RealTime 2:开放权重模型(24 亿参数),支持通过 MIDI、文本、音频进行低延迟实时控制的高质量实时音乐合成
• 开源 Python 库(pip install magenta-rt):通过 JAX/MLX 使用 SequenceLayers 提供推理能力
• C++ 推理引擎:通过 MLX 在 MacBook GPU 上高效进行流式音频生成
• 一套示例应用:基于推理引擎构建,既展现 MRT2 的创作潜力,也可作为参考帮助你构建新乐器与软件集成

开源地址:
• ModelScope:https://modelscope.cn/models/google/magenta-realtime-2
• Github: https://github.com/magenta/magenta-realtime
六种全新的演奏与创作能力
MRT2 的音频单元(AU)插件与独立应用为你带来全新的音乐能力与创作可能:
MIDI 引导
按住一个音符或和弦,模型即可生成一整个跟随你和声走向的合奏;你也可以与这个合奏一起即兴演奏。

文本转合成器(Text-to-Synth)
输入一段描述(例如”弦乐合奏”“disco funk”),即可生成一件全新的、可完整演奏的 MIDI 乐器

00:29
音频克隆
放入一小段音频片段,即可创建一件模拟该音色的可演奏乐器。

00:34
提示词混合
在任意音频提示词与文本提示词之间平滑插值,探索全新的曲风。

00:32
声音设计
将音乐与音效相结合,并动态调节混沌度,创造出全新的音色质感。

00:34
调制 / 手势控制
使用 LFO、MIDI 控制器,甚至摄像头来穿梭于潜空间之中,对连续手势做出低延迟响应。

技术:15倍低延迟的实时音乐模型
十年来,Magenta 团队始终倡导”将 AI 作为音乐人的工具,而非替代品”。从 2017 年首个神经合成器 NSynth,到 DDSP、Piano Genie,再到首个实时音乐模型 Magenta RealTime,MRT2 将延迟较第一版降低约 15 倍,可在标准硬件上运行并直接集成进 DAW,让实时模型成为一件真正的乐器。
MRT 与 MRT2 都是在 SpectroStream 编解码器产出的音频 token 序列上运行的编解码语言模型(codec language model)。相比初代,MRT2 在延迟与控制上做了系统性升级:

帧级自回归 + 帧对齐条件控制 MRT2 通过帧级自回归(frame-level autoregression)配合帧对齐条件控制(frame-aligned conditioning)实现低延迟。模型对持续跟随 MIDI 输入的音频进行建模,同时接受可为音频或文本的风格提示词(经 MusicCoCa 嵌入)。为将交互延迟降至最低,两类信号在每一步生成时都作为帧对齐条件注入,使模型能在单帧(40 毫秒,外加若干经验性延迟来源)内对信号变化做出反应。
因果滑动窗口注意力 + 可学习注意力嵌入 该方法的关键在于采用因果滑动窗口注意力(causal sliding window attention),在实现连续流式生成的同时限制内存占用;并引入可学习的注意力嵌入,以提升对任意时长的泛化能力,减少长上下文生成时的上下文淘汰伪影(如振铃和反馈啸叫)。
MLX 驱动的 C++ 推理引擎 初代需要高性能 GPU/TPU,MRT2 则把实时生成带到了音乐人真正在用的硬件上。借助 Apple 的 MLX 框架打通 Python 与 C++:将基于 SequenceLayers 实现的 MRT2 模型编译为 .mlxfn 容器(打包权重与计算图),由 C++ 推理引擎加载并在 Apple Silicon GPU 上高效执行;引擎同时负责模型状态、音频缓冲/重采样、MIDI 输入等基础设施,可嵌入许多支持 C++ 的音乐应用框架。

MLX 让两种规模的模型都能在任意 Apple Silicon Mac 上进行离线(非实时)推理,而实时流式生成(生成速度快于播放速度)支持的设备如下:
模型
平台
Base(2.4B)
MacBook M3 Pro(或更高)、MacBook M2 Max(或更高)
Small(230M)
任意 Apple Silicon MacBook,包括 MacBook Air
实践:在你的MacBook上本地跑起来
系统要求
Base 模型需要 M3 Pro / M2 Max 或更高配置。Small 模型可在任意 Apple Silicon MacBook 上运行,包括 MacBook Air。
模型生成 48kHz 立体声音频,需将音频采样率设为 48kHz——在 DAW(插件)中或”音频 MIDI 设置”(独立应用)中进行设置。
本地安装指引
- 下载安装包,并解压zip文件
- 安装应用:独立应用双击即可运行
- 首次启动需下载模型权重(Base 约 2.5GB,Small 约 450MB),可能需要几分钟。
以colider为例:双击后进入下载模型页面

等待模型下载完即可使用

写在最后
Magenta 团队用机器学习打造新乐器已近 10 年。有了 MRT2,AI 乐器终于开始具备音乐创作工具应有的可控性与即时性,但仍有大量空间值得探索——从更丰富的交互、更低的控制延迟,到能实现即兴合奏与实时音频控制的音频流式输入。团队也将很快为 MRT2 带来更多功能与示例应用,包括:
• 微调:让任何人都能在自己的数据上直接训练,定制模型
• 示例演出工具:与 Manaswi Mishra 合作打造
点击阅读原文,直达模型体验~
更多推荐




所有评论(0)