告别 “缸中之脑”:为何 Agent Runtime 至关重要?MuleRun 如何实现突破?
00.前言
TL;DR:很多 AI Agent 被困在受限且一刀切的沙箱内,而 MuleRun 是全球首个通过提供可完全自定义且持久化的 Agent Runtime 来解决这一问题的平台——即你可以定义操作系统、访问原生软件、跨会话保留状态并分配硬件资源。这让你能打造真正的“数字化工人”,而不仅仅是受限的聊天机器人。
想象一下:有一个极为聪明的人类意识被关在一个缸里,电极把世界的感知输给你,但你永远无法真正触碰那个世界。你可以思考、推理、规划,但你的行动永远受制于这个容器。
这不仅是哲学上的思想实验,它正是当下多数 AI Agent 的现实。
01.被忽视的 Runtime
AI 社区有一个“痴迷点”,我们不断争论模型架构、调优提示、设计记忆系统、构建复杂的工具集成,然而我们忽略了一个最关键的部分:我们的 Agent 实际运行在哪里?
当下大多数 Agent 实际上是“缸中之脑”——强大的推理系统被困在极度受限的执行环境里,例如:
- Browser Agent(如 ChatGPT Operator)只能通过网页界面交互,在浏览器内点击按钮、填写表单。
- 容器化解决方案(如 Manus)使用带浏览器和代码沙箱的 e2b 虚拟机,但缺乏视觉能力或 GUI 软件安装能力。
这里根本的限制是什么?是这些平台都不允许自行配置 Agent Runtime。就像雇了一个软件工程师,却只给了他一个带计算器插件的浏览器。
02.为什么 Runtime 至关重要?
本地文件系统作为外部记忆
在记忆与持久性方面,基于 Browser Agent 和基于 Computer Agent 之间的差别尤其明显。Browser Agent 受限于网页交互,无法访问本地存储或在会话间保持持久状态。
除了 Context Windows,真正的 Agent 还需要更多持久化记忆。例如,Claude Code 将 TODO 文件作为外部工作记忆;Manus 会把更长的上下文存储在本地文件里。这些并不是权宜之计,而是构建能在复杂的、多会话工作流中维持状态的 Agent 的根本模式。
合适的 Runtime 能让 Agent:
- 管理项目工作区(跨交互且长期存在)
- 存储并检索上下文信息(不受限于 token limits)
- 构建累积知识库
- 缓存昂贵的计算和中间结果
创建自我修改工具
拥有完整 Runtime 权限的 Agent 能自己编写工具,这也是 Agent 走向自主的关键。它们可以:
- 为特定工作流编写自定义脚本
- 根据需求构建特定领域的实用工具
- 在不同软件系统间创建集成
这会产生强大的复利效应:随着时间的推移,Agent 能通过不断扩展自己的工具集,变得愈发强大。
选择本地库与软件
你选用的文件、库、工具与软件会在很大程度上决定 Agent 的能力。如果 Agent 能访问预装的软件和库,它们获得的原生能力是其他方式无法比拟的。
比如,如果每次会话都要从零开始编写视频下载器,你可能会陷入 AI 编码的试错循环,耗费大量时间和 token,而 MuleRun 的All-In-One Downloader 能帮你避免这个问题。
03.MuleRun 的独特之处
我们从一开始就深知 Runtime 的重要性,所以我们正在构建 MuleRun Creator Studio,它允许你为 Agent 自定义完整的 Runtime,即能够:
- 定义操作系统、预安装软件及硬件规格
- 设置网络策略与安全边界
- 可以保存 rumtime 配置,供后续会话使用
- 同一 Runtime 可以被不同 Agent 复用
下表对比了 MuleRun 与其他方案在 Runtime 方面的能力,MuleRun 完整的 Runtime 能为 Agent 带来更强大和更灵活的环境。
能力 |
No Visible Runtime (Zapier、Make.com) |
Limited Runtime (Manus、ChatGPT Operator) |
Full Configurable Runtime (MuleRun) |
可配置环境 |
❌ |
❌ |
✅ |
原生软件访问 |
❌ |
⭕️ |
✅ |
持久文件系统 |
❌ |
❌ |
✅ |
硬件配置 |
❌ |
❌ |
✅ |
跨会话状态 |
❌ |
✅ |
✅ |
❌ 不支持, ⭕️ 有限支持, ✅ 支持
04.MuleRun Agent Runtime 案例
崩坏:星穹铁道(Honkai: Star Rail Booster)Agent(https://mulerun.com/agents/550e8400-e29b-41d4-a716-446655440005)可以帮助你在游戏客户端内自动完成复杂任务。这个 Agent 跑在 Windows 环境,预安装了软件,并分配了专用 GPU。这种强大的环境控制能力无法在 browser-based 方案中实现。
📎4c061f9a-c4e0-438a-9161-c8b826a67680.mp4
在游戏中自动完成复杂任务需要多种核心 Runtime 能力,以下是 MuleRun 与其它方案的对比:
能力 |
该能力对游戏自动化的重要性 |
No Visible Runtime (Zapier、Make.com) |
Limited Runtime (Manus、ChatGPT Operator) |
Full Configurable Runtime (MuleRun) |
原生软件访问 |
《崩坏:星穹铁道》是一个较大且复杂的 Windows 应用,Agent 需要能直接启动游戏客户端并与它交互。 |
❌ |
⭕ (游戏无法在本地运行。游戏可以在浏览器打开,但因延迟和硬件限制,无法正常运行) |
✅ |
专用 GPU 访问 |
现代 3D 游戏图形密集,需要大量 GPU 来渲染场景与角色,否则游戏无法启动。 |
❌ |
❌ |
✅ |
操作系统级别的 I/O 控制 |
在游戏中自动完成复杂任务需要对鼠标移动、点击、键盘输入等有精确且不受限的控制。 |
❌ (不支持键鼠 I/O) |
❌ (不支持键鼠 I/O) |
✅ (支持键鼠标 I/O) |
❌ 不支持, ⭕️ 有限支持, ✅ 支持
05.从“缸中之脑”到工作坊
“缸中之脑”的哲学难题在问:如果你的现实受限于人工边界,你怎样才能知道?
对 Agent 而言,答案很简单:给它们一台真正的计算机。
正如 Anthropic 在研究中提到:大量现代工作通过计算机完成。让 AI 以人类相同的方式直接与计算机软件交互,将解锁当代 AI 助手无法实现的大量应用。
Agent 的未来需要更好的提示词、更大的上下文窗口、更优的推理能力,以及支持它们成为真正 “数字工人” 所需的 Runtime。尽管社区在推理能力上已取得巨大进步,同时我们也需要将 Agent 从人工限制中解放出来,以释放其全部潜力。
06.关于 MuleRun
MuleRun(https://mulerun.com/) 是全球首个 Agent Marketplace,为 Agent Creator 和 Consumer 提供一个连接的平台,是 Agent 届的“淘宝”。
目前,平台已上架多个领域的精品 Agent,包括 3D 建模、求职、视频生成、社媒内容生成等。
- MuleRun 当前处于邀测阶段,全网已出现“一码难求”现象。现还有少量邀请码,如需获取,请在文章中评论:“激活码”,会随机抽取10位幸运用户发放。
- 如果你希望建立技术合作(如生态集成),欢迎邮件 yu@mulerun.com。
- 如果你想成为 Creator,欢迎加入 Creator Program,获取专属权益。
- MuleRun Discord:https://discord.gg/KK3zXcMkhg
- MuleRun X:https://x.com/mulerun_ai
更多推荐
所有评论(0)