告别 “缸中之脑”：为何 Agent Runtime 至关重要？MuleRun 如何实现突破？

魔搭ModelScope社区

20人浏览 · 2025-09-03 17:49:05

魔搭ModelScope社区 · 2025-09-03 17:49:05 发布

00.前言

TL;DR：很多 AI Agent 被困在受限且一刀切的沙箱内，而 MuleRun 是全球首个通过提供可完全自定义且持久化的 Agent Runtime 来解决这一问题的平台——即你可以定义操作系统、访问原生软件、跨会话保留状态并分配硬件资源。这让你能打造真正的“数字化工人”，而不仅仅是受限的聊天机器人。

想象一下：有一个极为聪明的人类意识被关在一个缸里，电极把世界的感知输给你，但你永远无法真正触碰那个世界。你可以思考、推理、规划，但你的行动永远受制于这个容器。

这不仅是哲学上的思想实验，它正是当下多数 AI Agent 的现实。

01.被忽视的 Runtime

AI 社区有一个“痴迷点”，我们不断争论模型架构、调优提示、设计记忆系统、构建复杂的工具集成，然而我们忽略了一个最关键的部分：我们的 Agent 实际运行在哪里？

当下大多数 Agent 实际上是“缸中之脑”——强大的推理系统被困在极度受限的执行环境里，例如：

Browser Agent（如 ChatGPT Operator）只能通过网页界面交互，在浏览器内点击按钮、填写表单。
容器化解决方案（如 Manus）使用带浏览器和代码沙箱的 e2b 虚拟机，但缺乏视觉能力或 GUI 软件安装能力。

这里根本的限制是什么？是这些平台都不允许自行配置 Agent Runtime。就像雇了一个软件工程师，却只给了他一个带计算器插件的浏览器。

02.为什么 Runtime 至关重要？

本地文件系统作为外部记忆

在记忆与持久性方面，基于 Browser Agent 和基于 Computer Agent 之间的差别尤其明显。Browser Agent 受限于网页交互，无法访问本地存储或在会话间保持持久状态。

除了 Context Windows，真正的 Agent 还需要更多持久化记忆。例如，Claude Code 将 TODO 文件作为外部工作记忆；Manus 会把更长的上下文存储在本地文件里。这些并不是权宜之计，而是构建能在复杂的、多会话工作流中维持状态的 Agent 的根本模式。

合适的 Runtime 能让 Agent：

管理项目工作区（跨交互且长期存在）
存储并检索上下文信息（不受限于 token limits）
构建累积知识库
缓存昂贵的计算和中间结果

创建自我修改工具

拥有完整 Runtime 权限的 Agent 能自己编写工具，这也是 Agent 走向自主的关键。它们可以：

为特定工作流编写自定义脚本
根据需求构建特定领域的实用工具
在不同软件系统间创建集成

这会产生强大的复利效应：随着时间的推移，Agent 能通过不断扩展自己的工具集，变得愈发强大。

选择本地库与软件

你选用的文件、库、工具与软件会在很大程度上决定 Agent 的能力。如果 Agent 能访问预装的软件和库，它们获得的原生能力是其他方式无法比拟的。

比如，如果每次会话都要从零开始编写视频下载器，你可能会陷入 AI 编码的试错循环，耗费大量时间和 token，而 MuleRun 的All-In-One Downloader 能帮你避免这个问题。

03.MuleRun 的独特之处

我们从一开始就深知 Runtime 的重要性，所以我们正在构建 MuleRun Creator Studio，它允许你为 Agent 自定义完整的 Runtime，即能够：

定义操作系统、预安装软件及硬件规格
设置网络策略与安全边界
可以保存 rumtime 配置，供后续会话使用
同一 Runtime 可以被不同 Agent 复用

下表对比了 MuleRun 与其他方案在 Runtime 方面的能力，MuleRun 完整的 Runtime 能为 Agent 带来更强大和更灵活的环境。

能力	No Visible Runtime （Zapier、Make.com）	Limited Runtime （Manus、ChatGPT Operator）	Full Configurable Runtime （MuleRun）
可配置环境	❌	❌	✅
原生软件访问	❌	⭕️	✅
持久文件系统	❌	❌	✅
硬件配置	❌	❌	✅
跨会话状态	❌	✅	✅

❌ 不支持, ⭕️ 有限支持, ✅ 支持

04.MuleRun Agent Runtime 案例

崩坏：星穹铁道（Honkai: Star Rail Booster）Agent（https://mulerun.com/agents/550e8400-e29b-41d4-a716-446655440005）可以帮助你在游戏客户端内自动完成复杂任务。这个 Agent 跑在 Windows 环境，预安装了软件，并分配了专用 GPU。这种强大的环境控制能力无法在 browser-based 方案中实现。

📎4c061f9a-c4e0-438a-9161-c8b826a67680.mp4

在游戏中自动完成复杂任务需要多种核心 Runtime 能力，以下是 MuleRun 与其它方案的对比：

能力	该能力对游戏自动化的重要性	No Visible Runtime （Zapier、Make.com）	Limited Runtime （Manus、ChatGPT Operator）	Full Configurable Runtime （MuleRun）
原生软件访问	《崩坏：星穹铁道》是一个较大且复杂的 Windows 应用，Agent 需要能直接启动游戏客户端并与它交互。	❌	⭕ （游戏无法在本地运行。游戏可以在浏览器打开，但因延迟和硬件限制，无法正常运行）	✅
专用 GPU 访问	现代 3D 游戏图形密集，需要大量 GPU 来渲染场景与角色，否则游戏无法启动。	❌	❌	✅
操作系统级别的 I/O 控制	在游戏中自动完成复杂任务需要对鼠标移动、点击、键盘输入等有精确且不受限的控制。	❌ （不支持键鼠 I/O）	❌ （不支持键鼠 I/O）	✅ （支持键鼠标 I/O）