Qwen 团队正式开源 Qwen-AgentWorld,业内首个原生语言世界模型(Language World Model, LWM)。模型通过对 MCP、Search、Terminal、SWE、Web、OS、Android 七大 Agent 领域的环境进行联合建模,把"环境模拟"这一原本依赖外部 Sandbox 的能力,直接内化到了基础模型自身。旗舰版 Qwen-AgentWorld-397B-A17B 在自建的 AgentWorldBench 上拿到 58.71 分,超过 GPT-5.4(58.25)和 Claude Sonnet 4.6(56.04);轻量版 Qwen-AgentWorld-35B-A3B 同样达到 56.39,相对基模 Qwen3.5-35B-A3B 提升 +8.66。原生上下文 262,144 tokens,兼容 SGLang/vLLM/Transformers 等主流推理后端。

开源地址:

  • 合集:https://modelscope.cn/collections/Qwen/Qwen-AgentWorld
  • 模型:https://modelscope.cn/models/Qwen/Qwen-AgentWorld-35B-A3B
  • Benchmark:https://modelscope.cn/datasets/Qwen/AgentWorldBench
  • 技术报告:https://modelscope.cn/papers/2606.24597
  • 代码:https://github.com/QwenLM/Qwen-AgentWorld
  • 博客:https://qwen.ai/blog?id=qwen-agentworld

模型概览

Qwen-AgentWorld 把 Agent 训练里"和真实环境交互"这一成本最高、最不稳定的环节抽象成了一个可被语言模型直接预测的世界模型。给定任意工具调用或动作输入,模型可以生成与真实环境一致的反馈,从而让强化学习训练脱离对真实 Sandbox 的依赖。

模型一次性覆盖了七大智能体领域,分文本型环境与 GUI 型环境两类:

类别 领域 模拟内容
文本环境 Terminal Shell 输出、文件系统状态、进程行为
文本环境 Search URL、摘要、排名、页面内容
文本环境 MCP 工具调用响应、状态变更、服务协议
文本环境 SWE 代码执行、测试结果、编译错误
GUI 环境 Web 用户交互后浏览器 DOM 状态变化
GUI 环境 Android 触摸/手势操作后 Android UI 层级变化
GUI 环境 OS 文件系统、窗口管理、应用行为

训练流程

Qwen-AgentWorld 采用三阶段训练,把"环境模拟能力"从预训练数据贯穿到偏好学习。

第一阶段 CPT(Continual Pre-Training):在 Qwen3.5-35B-A3B 基础上继续预训练,注入七大领域的轨迹数据,包括真实 Sandbox 采集的工具调用日志、网页交互轨迹、终端会话和 GUI 操作流,让模型先具备对"环境状态如何随动作演化"的基础感知。

第二阶段 SFT(Supervised Fine-Tuning):在 7,094 条高质量样本上做监督微调。这批数据通过 Rejection Sampling 从多个候选轨迹中筛出格式正确、事实一致、状态连贯的样例,让模型学会以可控的格式输出环境反馈。

第三阶段 RL(Reinforcement Learning):使用 GSPO 算法进行偏好优化,奖励函数同时包含 Rule-based(格式/结构性约束)和 Rubric-based(事实性、一致性、真实性、质量四个维度的细粒度评分)两类信号,进一步推高生成反馈的可靠性。

AgentWorldBench 与性能表现

为了系统评估世界模型的"模拟保真度",团队配套发布了 AgentWorldBench:覆盖 9 个 Agent 基准、5 个前沿模型作为被模拟对象(GPT-5.4、Claude Sonnet 4.6、Qwen3-Max 等),从 Format、Factuality、Consistency、Realism、Quality 五个维度打分。

整体得分上,Qwen-AgentWorld-397B-A17B 取得第一:

模型 AgentWorldBench 总分
Qwen-AgentWorld-397B-A17B 58.71
GPT-5.4 58.25
Qwen-AgentWorld-35B-A3B 56.39
Claude Sonnet 4.6 56.04
Qwen3.5-35B-A3B(基模) 47.73

35B-A3B 在仅激活 3B 参数的前提下相对自身基模提升 +8.66,且分数高于 Claude Sonnet 4.6,说明世界模型能力可以通过这种训练范式被显式地"压"进小模型。

 

语言世界模型涌现的推理模式

在 RL 阶段,团队观察到 Qwen-AgentWorld 自发涌现出三类典型的推理行为,使得生成的环境反馈比直接续写更可信:

  • 自我纠错(Self-Correction):模型使用「Wait!」作为自我纠错的触发信号,以修正中间预测。团队统计到此类中断出现 1347 次,分布在 129 个轮次中,用于及时回退错误状态。
  • 信息泄漏防护(Info-Leak Prevention):当真实工具不应在当前轮次返回某字段时,模型会主动屏蔽对应内容,避免把后续步骤的"答案"提前透露给 Agent。
  • 多步因果推理(Multi-Step Causal Reasoning):在 GUI/Terminal 这类强状态依赖场景中,模型显式推断"上一步动作 → 中间状态 → 当前可见反馈"的链路,再生成最终观察。

 

探索世界建模在智能体训练中的作用

范式一:解耦的环境模拟器(Sim RL)

第一种用法是把 Qwen-AgentWorld 作为独立的环境模拟器,让 Agent 在它生成的"想象环境"里做 RL,完全不依赖真实 Sandbox。

在 Zero-Shot 设置下,对 Claw 系列工具使用基准做 Sim RL:

基准 Qwen3.5-35B-A3B Sim RL 后 提升
Claw-Eval 65.4 69.7 +4.3
QwenClawBench 47.9 55.0 +7.1

在 MCP 控制环境下做 Sim RL:

基准 Qwen3.5-35B-A3B-SFT Sim RL 后 提升
Tool Decathlon 32.4 36.1 +3.7
MCPMark 21.5 33.8 +12.3

在 Search 控制环境下用 35B-A3B 做 Sim RL:

基准 Qwen3.5-35B-A3B-SFT Sim RL 后 提升
WideSearch F1 Item 34.02 50.31 +16.29
WideSearch F1 Row 13.72 24.21 +10.49

在 Search 控制环境下用 Qwen3.5-397B-A17B 做 Sim RL:

基准 Qwen3.5-397B-A17B-SFT Sim RL 后 提升
WideSearch F1 Item 70.11 73.98 +3.87
WideSearch F1 Row 45.69 51.74 +6.05

更关键的是 Sim RL 与真实环境 RL 的对比:在 WideSearch 上,使用 Qwen-AgentWorld 作为模拟器训练得到的 Agent 拿到 50.3% F1 Item,而在真实搜索环境里直接 RL 的版本只有 45.6%。也就是说,纯模拟训练不仅省掉了真实工具调用的延迟和成本,还反过来超越了在真实环境训练的效果。

范式二:智能体基础模型

第二种用法是把 Qwen-AgentWorld 当作 Agent 的"基础模型",在它的权重上继续做下游 Agent 任务的 RL,相当于用世界模型的先验给 RL 预热。

在多个核心 Agent 基准上的提升如下:

基准 Qwen3.5-35B-A3B-SFT LWM + RL 提升
Terminal-Bench 2.0 33.3 39.6 +6.3
SWE-Bench Verified 64.5 67.9 +3.4
SWE-Bench Pro 42.2 47.4 +5.2
WideSearch F1 Item 33.4 46.2 +12.8
Claw-Eval(OOD) 53.6 64.9 +11.3
QwenClawBench(OOD) 39.8 49.4 +9.7
BFCL v4(OOD) 62.3 71.3 +9.0

值得注意的是后三项都是 Out-of-Domain:RL 阶段并未直接训练这些数据,但通过 LWM 预热依然拿到了两位数提升,说明世界模型把"对环境的理解"沉淀成了可迁移的通用 Agent 先验。

模型实战

Qwen-AgentWorld-35B-A3B 模型已在 ModelScope 发布,兼容 SGLang、vLLM、Transformers 等主流后端。

 

SGLang

SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \
    --model-path Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tp-size 4 \
    --context-length 262144 \
    --reasoning-parser qwen3

vLLM

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tensor-parallel-size 4 \
    --max-model-len 262144 \
    --reasoning-parser qwen3 \
    --language-model-only \
    --trust-remote-code

Transformers

from modelscope import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen-AgentWorld-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto",
)
messages = [
    {
        "role": "system",
        "content": "You are a language world model simulating a Linux terminal environment. "
                   "Given the user's command, predict the terminal output."
    },
    {
        "role": "user",
        "content": "Action: execute_bash\nCommand: ls -la /home/user/project/"
    }
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048, temperature=0.6)
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True)
print(response)

更多部署细节、推理参数与工具调用配置,可在模型详情页查看:https://modelscope.cn/models/Qwen/Qwen-AgentWorld-35B-A3B

 

写在最后

Qwen-AgentWorld 把"环境模拟"从工程问题变成了模型问题。一边作为解耦的模拟器,让 Agent 的 RL 训练摆脱对真实 Sandbox 的依赖,省掉真实工具调用的延迟与成本,还能在搜索类任务上反超在真实环境直接训练的版本;一边作为 Agent 基础模型,给下游 RL 提供世界模型先验,在终端、代码、搜索、工具调用等核心场景上稳定带来提升,并对未见过的 OOD 任务依然有效。配合 AgentWorldBench 这套覆盖格式、事实性、一致性、真实性、质量五个维度的评测协议,整个 Agent 训练流程第一次有了一个统一、可比、可复现的语言世界模型底座。

 

合集

https://modelscope.cn/collections/Qwen/Qwen-AgentWorld

 

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐