Qwen-AgentWorld 开源: 面向通用智能体的语言世界模型
Qwen 团队正式开源 Qwen-AgentWorld,业内首个原生语言世界模型(Language World Model, LWM)。模型通过对 MCP、Search、Terminal、SWE、Web、OS、Android 七大 Agent 领域的环境进行联合建模,把"环境模拟"这一原本依赖外部 Sandbox 的能力,直接内化到了基础模型自身。旗舰版 Qwen-AgentWorld-397B-A17B 在自建的 AgentWorldBench 上拿到 58.71 分,超过 GPT-5.4(58.25)和 Claude Sonnet 4.6(56.04);轻量版 Qwen-AgentWorld-35B-A3B 同样达到 56.39,相对基模 Qwen3.5-35B-A3B 提升 +8.66。原生上下文 262,144 tokens,兼容 SGLang/vLLM/Transformers 等主流推理后端。
开源地址:
- 合集:https://modelscope.cn/collections/Qwen/Qwen-AgentWorld
- 模型:https://modelscope.cn/models/Qwen/Qwen-AgentWorld-35B-A3B
- Benchmark:https://modelscope.cn/datasets/Qwen/AgentWorldBench
- 技术报告:https://modelscope.cn/papers/2606.24597
- 代码:https://github.com/QwenLM/Qwen-AgentWorld
- 博客:https://qwen.ai/blog?id=qwen-agentworld
模型概览
Qwen-AgentWorld 把 Agent 训练里"和真实环境交互"这一成本最高、最不稳定的环节抽象成了一个可被语言模型直接预测的世界模型。给定任意工具调用或动作输入,模型可以生成与真实环境一致的反馈,从而让强化学习训练脱离对真实 Sandbox 的依赖。
模型一次性覆盖了七大智能体领域,分文本型环境与 GUI 型环境两类:
| 类别 | 领域 | 模拟内容 |
| 文本环境 | Terminal | Shell 输出、文件系统状态、进程行为 |
| 文本环境 | Search | URL、摘要、排名、页面内容 |
| 文本环境 | MCP | 工具调用响应、状态变更、服务协议 |
| 文本环境 | SWE | 代码执行、测试结果、编译错误 |
| GUI 环境 | Web | 用户交互后浏览器 DOM 状态变化 |
| GUI 环境 | Android | 触摸/手势操作后 Android UI 层级变化 |
| GUI 环境 | OS | 文件系统、窗口管理、应用行为 |

训练流程
Qwen-AgentWorld 采用三阶段训练,把"环境模拟能力"从预训练数据贯穿到偏好学习。
第一阶段 CPT(Continual Pre-Training):在 Qwen3.5-35B-A3B 基础上继续预训练,注入七大领域的轨迹数据,包括真实 Sandbox 采集的工具调用日志、网页交互轨迹、终端会话和 GUI 操作流,让模型先具备对"环境状态如何随动作演化"的基础感知。
第二阶段 SFT(Supervised Fine-Tuning):在 7,094 条高质量样本上做监督微调。这批数据通过 Rejection Sampling 从多个候选轨迹中筛出格式正确、事实一致、状态连贯的样例,让模型学会以可控的格式输出环境反馈。
第三阶段 RL(Reinforcement Learning):使用 GSPO 算法进行偏好优化,奖励函数同时包含 Rule-based(格式/结构性约束)和 Rubric-based(事实性、一致性、真实性、质量四个维度的细粒度评分)两类信号,进一步推高生成反馈的可靠性。

AgentWorldBench 与性能表现
为了系统评估世界模型的"模拟保真度",团队配套发布了 AgentWorldBench:覆盖 9 个 Agent 基准、5 个前沿模型作为被模拟对象(GPT-5.4、Claude Sonnet 4.6、Qwen3-Max 等),从 Format、Factuality、Consistency、Realism、Quality 五个维度打分。

整体得分上,Qwen-AgentWorld-397B-A17B 取得第一:
| 模型 | AgentWorldBench 总分 |
| Qwen-AgentWorld-397B-A17B | 58.71 |
| GPT-5.4 | 58.25 |
| Qwen-AgentWorld-35B-A3B | 56.39 |
| Claude Sonnet 4.6 | 56.04 |
| Qwen3.5-35B-A3B(基模) | 47.73 |
35B-A3B 在仅激活 3B 参数的前提下相对自身基模提升 +8.66,且分数高于 Claude Sonnet 4.6,说明世界模型能力可以通过这种训练范式被显式地"压"进小模型。

语言世界模型涌现的推理模式
在 RL 阶段,团队观察到 Qwen-AgentWorld 自发涌现出三类典型的推理行为,使得生成的环境反馈比直接续写更可信:
- 自我纠错(Self-Correction):模型使用「Wait!」作为自我纠错的触发信号,以修正中间预测。团队统计到此类中断出现 1347 次,分布在 129 个轮次中,用于及时回退错误状态。
- 信息泄漏防护(Info-Leak Prevention):当真实工具不应在当前轮次返回某字段时,模型会主动屏蔽对应内容,避免把后续步骤的"答案"提前透露给 Agent。
- 多步因果推理(Multi-Step Causal Reasoning):在 GUI/Terminal 这类强状态依赖场景中,模型显式推断"上一步动作 → 中间状态 → 当前可见反馈"的链路,再生成最终观察。

探索世界建模在智能体训练中的作用
范式一:解耦的环境模拟器(Sim RL)
第一种用法是把 Qwen-AgentWorld 作为独立的环境模拟器,让 Agent 在它生成的"想象环境"里做 RL,完全不依赖真实 Sandbox。
在 Zero-Shot 设置下,对 Claw 系列工具使用基准做 Sim RL:
| 基准 | Qwen3.5-35B-A3B | Sim RL 后 | 提升 |
| Claw-Eval | 65.4 | 69.7 | +4.3 |
| QwenClawBench | 47.9 | 55.0 | +7.1 |
在 MCP 控制环境下做 Sim RL:
| 基准 | Qwen3.5-35B-A3B-SFT | Sim RL 后 | 提升 |
| Tool Decathlon | 32.4 | 36.1 | +3.7 |
| MCPMark | 21.5 | 33.8 | +12.3 |
在 Search 控制环境下用 35B-A3B 做 Sim RL:
| 基准 | Qwen3.5-35B-A3B-SFT | Sim RL 后 | 提升 |
| WideSearch F1 Item | 34.02 | 50.31 | +16.29 |
| WideSearch F1 Row | 13.72 | 24.21 | +10.49 |
在 Search 控制环境下用 Qwen3.5-397B-A17B 做 Sim RL:
| 基准 | Qwen3.5-397B-A17B-SFT | Sim RL 后 | 提升 |
| WideSearch F1 Item | 70.11 | 73.98 | +3.87 |
| WideSearch F1 Row | 45.69 | 51.74 | +6.05 |
更关键的是 Sim RL 与真实环境 RL 的对比:在 WideSearch 上,使用 Qwen-AgentWorld 作为模拟器训练得到的 Agent 拿到 50.3% F1 Item,而在真实搜索环境里直接 RL 的版本只有 45.6%。也就是说,纯模拟训练不仅省掉了真实工具调用的延迟和成本,还反过来超越了在真实环境训练的效果。

范式二:智能体基础模型
第二种用法是把 Qwen-AgentWorld 当作 Agent 的"基础模型",在它的权重上继续做下游 Agent 任务的 RL,相当于用世界模型的先验给 RL 预热。
在多个核心 Agent 基准上的提升如下:
| 基准 | Qwen3.5-35B-A3B-SFT | LWM + RL | 提升 |
| Terminal-Bench 2.0 | 33.3 | 39.6 | +6.3 |
| SWE-Bench Verified | 64.5 | 67.9 | +3.4 |
| SWE-Bench Pro | 42.2 | 47.4 | +5.2 |
| WideSearch F1 Item | 33.4 | 46.2 | +12.8 |
| Claw-Eval(OOD) | 53.6 | 64.9 | +11.3 |
| QwenClawBench(OOD) | 39.8 | 49.4 | +9.7 |
| BFCL v4(OOD) | 62.3 | 71.3 | +9.0 |
值得注意的是后三项都是 Out-of-Domain:RL 阶段并未直接训练这些数据,但通过 LWM 预热依然拿到了两位数提升,说明世界模型把"对环境的理解"沉淀成了可迁移的通用 Agent 先验。
模型实战
Qwen-AgentWorld-35B-A3B 模型已在 ModelScope 发布,兼容 SGLang、vLLM、Transformers 等主流后端。
SGLang
SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \
--model-path Qwen/Qwen-AgentWorld-35B-A3B \
--port 8000 \
--tp-size 4 \
--context-length 262144 \
--reasoning-parser qwen3
vLLM
VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
--port 8000 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--language-model-only \
--trust-remote-code
Transformers
from modelscope import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen-AgentWorld-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto",
)
messages = [
{
"role": "system",
"content": "You are a language world model simulating a Linux terminal environment. "
"Given the user's command, predict the terminal output."
},
{
"role": "user",
"content": "Action: execute_bash\nCommand: ls -la /home/user/project/"
}
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048, temperature=0.6)
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True)
print(response)
更多部署细节、推理参数与工具调用配置,可在模型详情页查看:https://modelscope.cn/models/Qwen/Qwen-AgentWorld-35B-A3B
写在最后
Qwen-AgentWorld 把"环境模拟"从工程问题变成了模型问题。一边作为解耦的模拟器,让 Agent 的 RL 训练摆脱对真实 Sandbox 的依赖,省掉真实工具调用的延迟与成本,还能在搜索类任务上反超在真实环境直接训练的版本;一边作为 Agent 基础模型,给下游 RL 提供世界模型先验,在终端、代码、搜索、工具调用等核心场景上稳定带来提升,并对未见过的 OOD 任务依然有效。配合 AgentWorldBench 这套覆盖格式、事实性、一致性、真实性、质量五个维度的评测协议,整个 Agent 训练流程第一次有了一个统一、可比、可复现的语言世界模型底座。
合集
https://modelscope.cn/collections/Qwen/Qwen-AgentWorld
更多推荐




所有评论(0)