谷歌 Magenta RealTime 2 开源：一台 MacBook 本地玩转实时音乐生成，附手把手部署教程

魔搭ModelScope社区

5人浏览 · 2026-06-12 17:18:03

魔搭ModelScope社区 · 2026-06-12 17:18:03 发布

引言

Google Magenta 团队发布并开源了 Magenta RealTime 2（MRT2），一个 24 亿参数的实时音乐模型——你可以像演奏乐器一样使用它，并直接在 MacBook（Apple Silicon）本地运行。与”把提示词离线渲染成一段音轨”的生成式音乐模型不同，MRT2 是实时、可交互的，除文本外还支持 MIDI 与音频控制，帧大小 40 毫秒、控制延迟约 200 毫秒，较初代 Magenta RealTime 降低约 15 倍。模型提供 Base（2.4B）与 Small（230M）两个版本，配套开源了 Python 库（pip install magenta-rt，基于 JAX/MLX 与 SequenceLayers）以及一个由 MLX 驱动、可在 MacBook GPU 上做流式音频生成的 C++ 推理引擎。它既可作为独立应用运行，也能嵌入 DAW 或集成进其他音乐软件。

本次开源包含：

• Magenta RealTime 2：开放权重模型（24 亿参数），支持通过 MIDI、文本、音频进行低延迟实时控制的高质量实时音乐合成

• 开源 Python 库（pip install magenta-rt）：通过 JAX/MLX 使用 SequenceLayers 提供推理能力

• C++ 推理引擎：通过 MLX 在 MacBook GPU 上高效进行流式音频生成

• 一套示例应用：基于推理引擎构建，既展现 MRT2 的创作潜力，也可作为参考帮助你构建新乐器与软件集成

开源地址：

• ModelScope：https://modelscope.cn/models/google/magenta-realtime-2

• Github: https://github.com/magenta/magenta-realtime

六种全新的演奏与创作能力

MRT2 的音频单元（AU）插件与独立应用为你带来全新的音乐能力与创作可能：

MIDI 引导

按住一个音符或和弦，模型即可生成一整个跟随你和声走向的合奏；你也可以与这个合奏一起即兴演奏。

文本转合成器（Text-to-Synth）

输入一段描述（例如”弦乐合奏”“disco funk”），即可生成一件全新的、可完整演奏的 MIDI 乐器

00:29

音频克隆

放入一小段音频片段，即可创建一件模拟该音色的可演奏乐器。

00:34

提示词混合

在任意音频提示词与文本提示词之间平滑插值，探索全新的曲风。

00:32

声音设计

将音乐与音效相结合，并动态调节混沌度，创造出全新的音色质感。

00:34

调制 / 手势控制

使用 LFO、MIDI 控制器，甚至摄像头来穿梭于潜空间之中，对连续手势做出低延迟响应。

技术：15倍低延迟的实时音乐模型

十年来，Magenta 团队始终倡导”将 AI 作为音乐人的工具，而非替代品”。从 2017 年首个神经合成器 NSynth，到 DDSP、Piano Genie，再到首个实时音乐模型 Magenta RealTime，MRT2 将延迟较第一版降低约 15 倍，可在标准硬件上运行并直接集成进 DAW，让实时模型成为一件真正的乐器。

MRT 与 MRT2 都是在 SpectroStream 编解码器产出的音频 token 序列上运行的编解码语言模型（codec language model）。相比初代，MRT2 在延迟与控制上做了系统性升级：

帧级自回归 + 帧对齐条件控制　MRT2 通过帧级自回归（frame-level autoregression）配合帧对齐条件控制（frame-aligned conditioning）实现低延迟。模型对持续跟随 MIDI 输入的音频进行建模，同时接受可为音频或文本的风格提示词（经 MusicCoCa 嵌入）。为将交互延迟降至最低，两类信号在每一步生成时都作为帧对齐条件注入，使模型能在单帧（40 毫秒，外加若干经验性延迟来源）内对信号变化做出反应。

因果滑动窗口注意力 + 可学习注意力嵌入　该方法的关键在于采用因果滑动窗口注意力（causal sliding window attention），在实现连续流式生成的同时限制内存占用；并引入可学习的注意力嵌入，以提升对任意时长的泛化能力，减少长上下文生成时的上下文淘汰伪影（如振铃和反馈啸叫）。

MLX 驱动的 C++ 推理引擎　初代需要高性能 GPU/TPU，MRT2 则把实时生成带到了音乐人真正在用的硬件上。借助 Apple 的 MLX 框架打通 Python 与 C++：将基于 SequenceLayers 实现的 MRT2 模型编译为 .mlxfn 容器（打包权重与计算图），由 C++ 推理引擎加载并在 Apple Silicon GPU 上高效执行；引擎同时负责模型状态、音频缓冲/重采样、MIDI 输入等基础设施，可嵌入许多支持 C++ 的音乐应用框架。