低成本、高精度、强泛化——通义实验室联合中国人民大学发布全新 GUI Grounding模型 UI-Ins,首次将指令视为动态推理路径,实现 SOTA 性能与涌现推理能力。

01GUI Grounding模型为何“看不懂”用户?

在迈向通用人工智能(AGI)的道路上,图形用户界面(GUI)智能体正成为关键一环。无论是自动操作手机 App、控制桌面软件,还是辅助残障人士使用电脑,GUI 智能体的核心能力之一,就是 “Grounding” ——即根据自然语言指令,在屏幕截图中精准定位目标 UI 元素。

 

然而,现有方法普遍将用户指令视为静态代理(static proxy),忽视了一个关键事实:同一个操作意图,可以用多种方式表达。

 

例如,要“关闭窗口”,人类可能会说:

  • 外观视角:“点击红色的 × 按钮”
  • 功能视角:“关闭当前文件管理器”
  • 空间视角:“点击右上角的按钮”
  • 意图视角:“退出这个界面”

 

人类能灵活切换视角,选择最有效的描述方式。但当前模型大多只在单一指令风格上训练,缺乏多视角理解与动态选择能力,导致在面对复杂、模糊或隐式指令时表现不佳。

 

更严重的是,论文作者对主流 GUI Grounding数据集(如 OS-Atlas、Widget Captioning、AMEX)进行了人工审查,发现高达 23.3% 的指令存在错误或歧义(如指向多个 UI 元素、或根本无对应元素),严重污染训练数据。

 

🔍 关键发现:仅通过在推理时切换不同视角的指令,就能在 ScreenSpot-Pro 上实现 76% 的相对性能提升——这说明指令多样性本身就是一种未被充分利用的“免费性能”。

02核心创新

为解决上述问题,UI-Ins 提出了 “指令即推理”(Instruction-as-Reasoning) 新范式:

不再把指令当作被动输入,而是将其视为动态的推理路径(Reasoning Pathway)。模型在执行任务前,会主动“思考”:哪种描述视角最有助于准确定位目标?甚至可以组合多个视角,或生成全新推理角度!

 

1. 高质量多视角数据构建

UI-Ins 团队构建了一套端到端的数据清洗与增强流水线:

  • 预处理:检测 UI 元素,通过 IoU 对齐修正原始标注框,过滤错误样本。
  • 多视角指令生成:利用多模态大模型,为每个 UI 元素生成四类高质量指令:
    • Appearance(外观):图标、颜色、文字等视觉特征
    • Functionality(功能):点击后的行为或目的
    • Location(空间):相对于其他元素的位置
    • Intent(意图):用户最终目标
  • 指令验证:再次调用多模态大模型,确保每条指令唯一对应目标元素,避免歧义。

该流程将原始数据的错误率从 23.3% 降至 <8%,并显著提升模型在多个基准上的表现。

 

2. 两阶段训练框架:SFT + 强化学习(RL)

UI-Ins 采用 监督微调(SFT) + 强化学习(RL) 的两阶段训练策略:

SFT 阶段:教会模型“多视角思考”

  • 每个训练样本包含两种视角:一种作为用户指令,另一种作为模型需生成的“推理过程”。
  • 模型输出格式为:
  • 目标:让模型学会将任意指令转化为结构化推理路径,再预测坐标。

 

RL 阶段:优化“最优视角选择”

  • 使用 Group Relative Policy Optimization (GRPO) 算法。
  • 在推理时不指定视角,鼓励模型自主探索最佳推理路径。
  • 奖励函数:若预测坐标落在目标 bounding box 内,则奖励为 1,否则为 0。
  • 通过 Z-score 归一化奖励,稳定训练过程。
💡 关键突破:该框架有效缓解了 SFT+RL 中常见的 “策略崩溃”(Policy Collapse) 问题——SFT 阶段的多视角训练为 RL 提供了丰富的探索空间,避免模型陷入单一、僵化的输出模式。

03性能表现:全面刷新 SOTA

UI-Ins 在五大主流 GUI Grounding基准上均取得当前最佳(SOTA)成绩:

基准 UI-Ins-32B 提升亮点
UI-I2E-Bench 87.3% 隐式指令理解能力显著增强
MMBench-GUI L2 84.9% 复杂层级指令处理更稳健
ScreenSpot-Pro 57.0% 专业软件高分辨率场景表现优异
ScreenSpot-V2 94.9% 跨平台(Windows/macOS/Android)泛化强
ShowDown 73.8% 低级控制与指令跟随能力突出
📌 特别亮点:在 MMBench-GUI L2 的“Advanced”子集(需推理用户意图)上,UI-Ins-7B 相比 Qwen2.5-VL-7B 提升 159.4%;在 UI-I2E-Bench 的“隐式”子集上,UI-Ins-32B 相比 GTA1 提升 6.6%,证明其在复杂语义理解上的优势。

在线智能体表现:74.1% 任务成功率!

更令人振奋的是,UI-Ins 不仅在静态Grounding任务上表现出色,在真实动态环境中同样可靠。

  • 实验设置:在 AndroidWorld 基准中,使用 GPT-5 作为规划器(Planner),UI-Ins-7B 作为执行器(Executor)。
  • 结果:任务成功率达 74.1%,超越 Gemini 2.5 Computer Use(69.7%)、UI-TARS-2(73.3%)等闭源模型。
  • 意义:证明 UI-Ins 的Grounding能力可直接转化为真实世界智能体的行动可靠性。

04UI-Ins 到底“强”在哪里?

1. 指令多样性 ≠ 自由形式推理(Free-Form Reasoning)

  • 实验表明,传统的自由形式推理在 RL 阶段反而会降低性能(UI-Tars-1.5-7B 下降 6.4%)。
  • 而 UI-Ins 的结构化多视角推理则显著提升性能(Qwen2.5-VL-7B 提升 9.9%)。

2. 涌现能力:超越预定义视角

UI-Ins 不仅能使用四种预定义视角,还能:

  • 组合视角:如“点击右上角(空间)的红色×(外观)按钮来关闭窗口(意图)”。
  • 生成新视角:如基于 UI 元素状态(“未激活的按钮”)、组件分组(“在对齐控制组中”)等进行推理。
  • 定性分析显示,1477 个样本中出现了 5245 种不同推理方式,远超训练时的 4 种。

3. 消融实验验证各模块必要性

配置 MMBench-GUI L2 UI-I2E-Bench
无 SFT + 无 RL 63.4% 56.0%
仅 RL 72.4% 69.2%
仅 SFT 76.3% 70.1%
SFT + RL(完整) 83.1% 81.1%
移除中间推理步骤会导致 UI-I2E-Bench 性能下降超 10%,证明结构化推理是性能核心。

05开源应用

UI-Ins 基于 Qwen2.5-VL 架构,支持图像+文本多模态输入,推理脚本简洁高效:

from modelscope import AutoProcessor, Qwen2_5_VLForConditionalGeneration

开源资源一览:

模型:

UI-Ins-7B:https://www.modelscope.cn/models/Tongyi-MiA/UI-Ins-7B

UI-Ins-32B:https://www.modelscope.cn/models/Tongyi-MiA/UI-Ins-32B

 

论文:https://arxiv.org/abs/2510.20286

代码仓库:https://github.com/alibaba/UI-Ins

 

包含完整的 SFT/RL 训练代码、数据处理流程、评估脚本,方便研究者复现与二次开发。

 

06从“映射”到“理解”,GUI 智能体的新起点

UI-Ins 的成功证明:理解用户意图比识别像素位置更重要。通过将指令转化为动态推理路径,模型真正学会了“思考”,而非简单映射。

 

未来,UI-Ins 的思想可拓展至:

  • 多步骤任务规划
  • 跨平台 UI 适配
  • 无障碍人机交互
  • 低资源设备部署(7B 模型即可胜任)

 

点击即可跳转模型链接

ModelScope 魔搭社区www.modelscope.cn/organization/Tongyi-MiA

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐