通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
00.前言
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
GUI-Owl不仅具备精准的界面理解、复杂任务规划与细粒度动作执行能力,更实现了在多智能体框架中灵活扮演多种角色——包括规划者、执行者、反思者与记录者,真正实现“能看、会想、善协作”的智能体闭环。
目前,GUI-Owl的完整技术方案、训练数据与模型权重已全面开源,配套的异步强化学习框架与轨迹爬取系统也同步开放。
Github: https://github.com/X-PLUG/MobileAgent
论文: https://arxiv.org/abs/2508.15144
模型下载:
GUI-Owl-32B
https://modelscope.cn/models/iic/GUI-Owl-32B
GUI-Owl-7B
https://modelscope.cn/models/iic/GUI-Owl-7B
01.交互能力展示
📎0bc3x4assaab44akpyn63rufdp6dfg7qckia.f10002.mp4
02.模型构建方式
GUI-Owl基础模型,源于三大核心能力的系统性构建:精准定位、复杂规划、动作因果理解。
一、精准界面元素定位:让AI“指哪打哪”
为实现像素级理解,团队构建了三类高质量接地(grounding)数据:
- 开源数据集整合:融合多个公开GUI数据集,覆盖多样界面场景;
- 无障碍树合成:提取移动端/桌面端UI元素的边界框与功能语义,结合Qwen2.5-VL生成视觉-语义对齐描述;
- PC截图密集定位:通过Google Images爬取主流应用界面,利用SAM模型分割图像区域,再由大模型完成细粒度元素标注。
所有标注结果与Omniparser V2检测结果比对,确保数据质量。原始指令经Qwen2.5-Max重写为自然任务语言,提升泛化能力。
二、复杂任务规划:教会AI“先想后做”
面对跨应用、长周期任务,GUI-Owl通过两种方式构建规划能力:
- 从历史轨迹提炼经验:将成功操作轨迹转化为结构化“任务执行手册”,训练模型掌握任务流;
- 从大模型蒸馏知识:使用Qwen3-235B生成复杂任务计划(如“在微博搜索某热点并截图发朋友圈”),筛选清洗后形成高质量规划数据集。
三、动作语义理解:掌握“操作如何改变界面”
团队构建了前后截图对+动作标签的双层级数据体系:
- 第一层:模型根据界面变化反推操作类型(点击、滑动、输入)及参数(坐标、文本);
- 第二层:判断操作描述与实际变化是否语义一致(如“点击登录”后是否跳转主页)。
这套机制让GUI-Owl建立起“视觉差异→用户行为”的强因果推理能力。
03.强化学习进阶:越用越强的自动化智能体
为了突破监督学习的性能天花板,MobileAgent团队引入轨迹级别强化学习,团队构建了一套全异步、解耦式RL训练基础设施:
- Rollout与策略更新解耦:支持同步策略采样与异步off-policy推理,大幅提升训练吞吐;
- 高性能推理集群部署:rollout服务运行在H20等高性能GPU上,显著提升长序列任务处理效率;
- 统一多任务接口:所有任务通过插件化接入,支持步骤级、轨迹级、智能体级信息传递,降低环境耦合成本。
此外,他们提出了TRPO方法,使得模型在动态环境中实现稳定涨点。
实验证明,该框架在真实GUI环境中带来高达8个点的性能提升,甚至超越32B级别SoTA模型。
04.多智能体协同:MobileAgent-V3,让AI组队干活
面对复杂任务,单模型往往力不从心。为此,MobileAgent团队推出全新多智能体框架 MobileAgent-V3,构建四位“Agent”协同作战体系:
🎯 Manager Agent
接收用户指令后,调用外部知识库KRAG,将模糊任务拆解为有序子目标。执行中持续接收反馈,动态调整计划、修正错误、重排优先级。
🛠️ Worker Agent
根据当前界面状态选择最优动作,输出包含推理过程、操作指令与意图说明的完整行动元组,确保每一步“有据可依”。
🔍 Reflector Agent
每步操作后,对比预期与实际界面变化,判断成功或失败,并生成归因分析,如:“未跳转主页,可能因按钮被遮挡”。
📚 Notetaker Agent
仅在任务成功时触发,自动提取验证码、登录凭证、订单号等关键信息,存入长期记忆,避免重复操作。
在真实环境测试中,MobileAgent-V3相较单模型方案,任务成功率提升7~8%,尤其在跨应用、多跳任务中表现突出。
05.未来展望
GUI-Owl与MobileAgent-V3的开源,标志着通用图形界面智能体进入新阶段。它不再是一个“固定流程”的自动化脚本,而是一个具备基础知识、推理能力与协作机制的“多面手AI”。
其技术路径——“GUI知识构建 + 强化学习优化 + 多智能体协同”——为未来智能体发展提供了清晰范式。
未来,这一框架可广泛应用于:
- 自动化测试与运维
- 残障人士辅助操作
- 企业流程自动化(RPA升级)
- 教育、政务等低代码场景
期待开源社区基于GUI-Owl,共同探索更多“让AI替人类点手机、操作电脑”的可能性。
06.直播预告
为了让大家更进一步了解MobileAgent-v3,魔搭社区《AI模型社》栏目邀请到项目核心作者带来技术解读,欢迎预约关注👇
🕦直播时间:
9月10日(星期三)20:00
📄直播主题:
通义Mobile-Agent: 多模态、多端GUI智能体
点击链接, 即可跳转模型链接~
更多推荐
所有评论(0)