UI-Ins：让 GUI 智能体真正“看懂”用户指令的新范式

魔搭ModelScope社区

149人浏览 · 2025-10-30 18:01:53

魔搭ModelScope社区 · 2025-10-30 18:01:53 发布

低成本、高精度、强泛化——通义实验室联合中国人民大学发布全新 GUI Grounding模型 UI-Ins，首次将指令视为动态推理路径，实现 SOTA 性能与涌现推理能力。

01GUI Grounding模型为何“看不懂”用户？

在迈向通用人工智能（AGI）的道路上，图形用户界面（GUI）智能体正成为关键一环。无论是自动操作手机 App、控制桌面软件，还是辅助残障人士使用电脑，GUI 智能体的核心能力之一，就是 “Grounding” ——即根据自然语言指令，在屏幕截图中精准定位目标 UI 元素。

然而，现有方法普遍将用户指令视为静态代理（static proxy），忽视了一个关键事实：同一个操作意图，可以用多种方式表达。

例如，要“关闭窗口”，人类可能会说：

外观视角：“点击红色的 × 按钮”
功能视角：“关闭当前文件管理器”
空间视角：“点击右上角的按钮”
意图视角：“退出这个界面”

人类能灵活切换视角，选择最有效的描述方式。但当前模型大多只在单一指令风格上训练，缺乏多视角理解与动态选择能力，导致在面对复杂、模糊或隐式指令时表现不佳。

更严重的是，论文作者对主流 GUI Grounding数据集（如 OS-Atlas、Widget Captioning、AMEX）进行了人工审查，发现高达 23.3% 的指令存在错误或歧义（如指向多个 UI 元素、或根本无对应元素），严重污染训练数据。

🔍 关键发现：仅通过在推理时切换不同视角的指令，就能在 ScreenSpot-Pro 上实现 76% 的相对性能提升——这说明指令多样性本身就是一种未被充分利用的“免费性能”。

02核心创新

为解决上述问题，UI-Ins 提出了 “指令即推理”（Instruction-as-Reasoning）新范式：

不再把指令当作被动输入，而是将其视为动态的推理路径（Reasoning Pathway）。模型在执行任务前，会主动“思考”：哪种描述视角最有助于准确定位目标？甚至可以组合多个视角，或生成全新推理角度！

1. 高质量多视角数据构建

UI-Ins 团队构建了一套端到端的数据清洗与增强流水线：

预处理：检测 UI 元素，通过 IoU 对齐修正原始标注框，过滤错误样本。
多视角指令生成：利用多模态大模型，为每个 UI 元素生成四类高质量指令：
- Appearance（外观）：图标、颜色、文字等视觉特征
- Functionality（功能）：点击后的行为或目的
- Location（空间）：相对于其他元素的位置
- Intent（意图）：用户最终目标
指令验证：再次调用多模态大模型，确保每条指令唯一对应目标元素，避免歧义。

该流程将原始数据的错误率从 23.3% 降至 <8%，并显著提升模型在多个基准上的表现。

2. 两阶段训练框架：SFT + 强化学习（RL）

UI-Ins 采用监督微调（SFT） + 强化学习（RL）的两阶段训练策略：

SFT 阶段：教会模型“多视角思考”

每个训练样本包含两种视角：一种作为用户指令，另一种作为模型需生成的“推理过程”。
模型输出格式为：
目标：让模型学会将任意指令转化为结构化推理路径，再预测坐标。

RL 阶段：优化“最优视角选择”

使用 Group Relative Policy Optimization (GRPO) 算法。
在推理时不指定视角，鼓励模型自主探索最佳推理路径。
奖励函数：若预测坐标落在目标 bounding box 内，则奖励为 1，否则为 0。
通过 Z-score 归一化奖励，稳定训练过程。

💡 关键突破：该框架有效缓解了 SFT+RL 中常见的 “策略崩溃”（Policy Collapse）问题——SFT 阶段的多视角训练为 RL 提供了丰富的探索空间，避免模型陷入单一、僵化的输出模式。

03性能表现：全面刷新 SOTA

UI-Ins 在五大主流 GUI Grounding基准上均取得当前最佳（SOTA）成绩：

基准	UI-Ins-32B	提升亮点
UI-I2E-Bench	87.3%	隐式指令理解能力显著增强
MMBench-GUI L2	84.9%	复杂层级指令处理更稳健
ScreenSpot-Pro	57.0%	专业软件高分辨率场景表现优异
ScreenSpot-V2	94.9%	跨平台（Windows/macOS/Android）泛化强
ShowDown	73.8%	低级控制与指令跟随能力突出

📌 特别亮点：在 MMBench-GUI L2 的“Advanced”子集（需推理用户意图）上，UI-Ins-7B 相比 Qwen2.5-VL-7B 提升 159.4%；在 UI-I2E-Bench 的“隐式”子集上，UI-Ins-32B 相比 GTA1 提升 6.6%，证明其在复杂语义理解上的优势。

在线智能体表现：74.1% 任务成功率！

更令人振奋的是，UI-Ins 不仅在静态Grounding任务上表现出色，在真实动态环境中同样可靠。

实验设置：在 AndroidWorld 基准中，使用 GPT-5 作为规划器（Planner），UI-Ins-7B 作为执行器（Executor）。
结果：任务成功率达 74.1%，超越 Gemini 2.5 Computer Use（69.7%）、UI-TARS-2（73.3%）等闭源模型。
意义：证明 UI-Ins 的Grounding能力可直接转化为真实世界智能体的行动可靠性。

04UI-Ins 到底“强”在哪里？

1. 指令多样性 ≠ 自由形式推理（Free-Form Reasoning）

实验表明，传统的自由形式推理在 RL 阶段反而会降低性能（UI-Tars-1.5-7B 下降 6.4%）。
而 UI-Ins 的结构化多视角推理则显著提升性能（Qwen2.5-VL-7B 提升 9.9%）。

2. 涌现能力：超越预定义视角

UI-Ins 不仅能使用四种预定义视角，还能：

组合视角：如“点击右上角（空间）的红色×（外观）按钮来关闭窗口（意图）”。
生成新视角：如基于 UI 元素状态（“未激活的按钮”）、组件分组（“在对齐控制组中”）等进行推理。
定性分析显示，1477 个样本中出现了 5245 种不同推理方式，远超训练时的 4 种。

3. 消融实验验证各模块必要性

配置	MMBench-GUI L2	UI-I2E-Bench
无 SFT + 无 RL	63.4%	56.0%
仅 RL	72.4%	69.2%
仅 SFT	76.3%	70.1%
SFT + RL（完整）	83.1%	81.1%

移除中间推理步骤会导致 UI-I2E-Bench 性能下降超 10%，证明结构化推理是性能核心。

05开源应用

UI-Ins 基于 Qwen2.5-VL 架构，支持图像+文本多模态输入，推理脚本简洁高效：

from modelscope import AutoProcessor, Qwen2_5_VLForConditionalGeneration

开源资源一览：

模型：

UI-Ins-7B:https://www.modelscope.cn/models/Tongyi-MiA/UI-Ins-7B

UI-Ins-32B:https://www.modelscope.cn/models/Tongyi-MiA/UI-Ins-32B

论文：https://arxiv.org/abs/2510.20286

代码仓库：https://github.com/alibaba/UI-Ins

包含完整的 SFT/RL 训练代码、数据处理流程、评估脚本，方便研究者复现与二次开发。

06从“映射”到“理解”，GUI 智能体的新起点

UI-Ins 的成功证明：理解用户意图比识别像素位置更重要。通过将指令转化为动态推理路径，模型真正学会了“思考”，而非简单映射。

未来，UI-Ins 的思想可拓展至：

多步骤任务规划
跨平台 UI 适配
无障碍人机交互
低资源设备部署（7B 模型即可胜任）

点击即可跳转模型链接

ModelScope 魔搭社区www.modelscope.cn/organization/Tongyi-MiA

欢迎加入ModelScope魔搭中文开源社区

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！

更多推荐

SCOPE 开源：首个跨游戏 FPS 世界模型，逐像素动作控制零样本泛化未见场景

ModelScope魔搭社区

CHI-Bench 开源：75 个美国医疗长程工作流压测 30 个前沿 Agent，最强 Claude Code 仅过 28%，端到端医院–保险工司协作直接归零

ModelScope魔搭社区

AgentScope 2.0 发布：从"跑通 Demo"到"稳定落地"，构建可靠智能体的工程底座

ModelScope魔搭社区

所有评论(0)

查看更多评论

魔搭ModelScope社区

@coc_modelscope

已为社区贡献977条内容

UI-Ins：让 GUI 智能体真正“看懂”用户指令的新范式

魔搭ModelScope社区

01GUI Grounding模型为何“看不懂”用户？

02核心创新

1. 高质量多视角数据构建

2. 两阶段训练框架：SFT + 强化学习（RL）

SFT 阶段：教会模型“多视角思考”

RL 阶段：优化“最优视角选择”

03性能表现：全面刷新 SOTA

在线智能体表现：74.1% 任务成功率！

04UI-Ins 到底“强”在哪里？

1. 指令多样性 ≠ 自由形式推理（Free-Form Reasoning）

2. 涌现能力：超越预定义视角

3. 消融实验验证各模块必要性

05开源应用

开源资源一览：

06从“映射”到“理解”，GUI 智能体的新起点

所有评论(0)

温馨提示：您尚未绑定手机号

魔搭ModelScope社区