Qwen-AgentWorld 开源: 面向通用智能体的语言世界模型

魔搭ModelScope社区

109人浏览 · 2026-06-26 09:32:40

魔搭ModelScope社区 · 2026-06-26 09:32:40 发布

Qwen 团队正式开源 Qwen-AgentWorld，业内首个原生语言世界模型（Language World Model, LWM）。模型通过对 MCP、Search、Terminal、SWE、Web、OS、Android 七大 Agent 领域的环境进行联合建模，把"环境模拟"这一原本依赖外部 Sandbox 的能力，直接内化到了基础模型自身。旗舰版 Qwen-AgentWorld-397B-A17B 在自建的 AgentWorldBench 上拿到 58.71 分，超过 GPT-5.4（58.25）和 Claude Sonnet 4.6（56.04）；轻量版 Qwen-AgentWorld-35B-A3B 同样达到 56.39，相对基模 Qwen3.5-35B-A3B 提升 +8.66。原生上下文 262,144 tokens，兼容 SGLang/vLLM/Transformers 等主流推理后端。

开源地址：

合集：https://modelscope.cn/collections/Qwen/Qwen-AgentWorld
模型：https://modelscope.cn/models/Qwen/Qwen-AgentWorld-35B-A3B
Benchmark：https://modelscope.cn/datasets/Qwen/AgentWorldBench
技术报告：https://modelscope.cn/papers/2606.24597
代码：https://github.com/QwenLM/Qwen-AgentWorld
博客：https://qwen.ai/blog?id=qwen-agentworld

模型概览

Qwen-AgentWorld 把 Agent 训练里"和真实环境交互"这一成本最高、最不稳定的环节抽象成了一个可被语言模型直接预测的世界模型。给定任意工具调用或动作输入，模型可以生成与真实环境一致的反馈，从而让强化学习训练脱离对真实 Sandbox 的依赖。

模型一次性覆盖了七大智能体领域，分文本型环境与 GUI 型环境两类：

类别	领域	模拟内容
文本环境	Terminal	Shell 输出、文件系统状态、进程行为
文本环境	Search	URL、摘要、排名、页面内容
文本环境	MCP	工具调用响应、状态变更、服务协议
文本环境	SWE	代码执行、测试结果、编译错误
GUI 环境	Web	用户交互后浏览器 DOM 状态变化
GUI 环境	Android	触摸/手势操作后 Android UI 层级变化
GUI 环境	OS	文件系统、窗口管理、应用行为

训练流程

Qwen-AgentWorld 采用三阶段训练，把"环境模拟能力"从预训练数据贯穿到偏好学习。

第一阶段 CPT（Continual Pre-Training）：在 Qwen3.5-35B-A3B 基础上继续预训练，注入七大领域的轨迹数据，包括真实 Sandbox 采集的工具调用日志、网页交互轨迹、终端会话和 GUI 操作流，让模型先具备对"环境状态如何随动作演化"的基础感知。

第二阶段 SFT（Supervised Fine-Tuning）：在 7,094 条高质量样本上做监督微调。这批数据通过 Rejection Sampling 从多个候选轨迹中筛出格式正确、事实一致、状态连贯的样例，让模型学会以可控的格式输出环境反馈。

第三阶段 RL（Reinforcement Learning）：使用 GSPO 算法进行偏好优化，奖励函数同时包含 Rule-based（格式/结构性约束）和 Rubric-based（事实性、一致性、真实性、质量四个维度的细粒度评分）两类信号，进一步推高生成反馈的可靠性。

AgentWorldBench 与性能表现

为了系统评估世界模型的"模拟保真度"，团队配套发布了 AgentWorldBench：覆盖 9 个 Agent 基准、5 个前沿模型作为被模拟对象（GPT-5.4、Claude Sonnet 4.6、Qwen3-Max 等），从 Format、Factuality、Consistency、Realism、Quality 五个维度打分。

整体得分上，Qwen-AgentWorld-397B-A17B 取得第一：

模型	AgentWorldBench 总分
Qwen-AgentWorld-397B-A17B	58.71
GPT-5.4	58.25
Qwen-AgentWorld-35B-A3B	56.39
Claude Sonnet 4.6	56.04
Qwen3.5-35B-A3B（基模）	47.73

35B-A3B 在仅激活 3B 参数的前提下相对自身基模提升 +8.66，且分数高于 Claude Sonnet 4.6，说明世界模型能力可以通过这种训练范式被显式地"压"进小模型。

语言世界模型涌现的推理模式

在 RL 阶段，团队观察到 Qwen-AgentWorld 自发涌现出三类典型的推理行为，使得生成的环境反馈比直接续写更可信：

自我纠错（Self-Correction）：模型使用「Wait!」作为自我纠错的触发信号，以修正中间预测。团队统计到此类中断出现 1347 次，分布在 129 个轮次中，用于及时回退错误状态。
信息泄漏防护（Info-Leak Prevention）：当真实工具不应在当前轮次返回某字段时，模型会主动屏蔽对应内容，避免把后续步骤的"答案"提前透露给 Agent。
多步因果推理（Multi-Step Causal Reasoning）：在 GUI/Terminal 这类强状态依赖场景中，模型显式推断"上一步动作 → 中间状态 → 当前可见反馈"的链路，再生成最终观察。

探索世界建模在智能体训练中的作用

范式一：解耦的环境模拟器（Sim RL）

第一种用法是把 Qwen-AgentWorld 作为独立的环境模拟器，让 Agent 在它生成的"想象环境"里做 RL，完全不依赖真实 Sandbox。

在 Zero-Shot 设置下，对 Claw 系列工具使用基准做 Sim RL：

基准	Qwen3.5-35B-A3B	Sim RL 后	提升
Claw-Eval	65.4	69.7	+4.3
QwenClawBench	47.9	55.0	+7.1

在 MCP 控制环境下做 Sim RL：

基准	Qwen3.5-35B-A3B-SFT	Sim RL 后	提升
Tool Decathlon	32.4	36.1	+3.7
MCPMark	21.5	33.8	+12.3

在 Search 控制环境下用 35B-A3B 做 Sim RL：

基准	Qwen3.5-35B-A3B-SFT	Sim RL 后	提升
WideSearch F1 Item	34.02	50.31	+16.29
WideSearch F1 Row	13.72	24.21	+10.49

在 Search 控制环境下用 Qwen3.5-397B-A17B 做 Sim RL：

基准	Qwen3.5-397B-A17B-SFT	Sim RL 后	提升
WideSearch F1 Item	70.11	73.98	+3.87
WideSearch F1 Row	45.69	51.74	+6.05

更关键的是 Sim RL 与真实环境 RL 的对比：在 WideSearch 上，使用 Qwen-AgentWorld 作为模拟器训练得到的 Agent 拿到 50.3% F1 Item，而在真实搜索环境里直接 RL 的版本只有 45.6%。也就是说，纯模拟训练不仅省掉了真实工具调用的延迟和成本，还反过来超越了在真实环境训练的效果。

范式二：智能体基础模型

第二种用法是把 Qwen-AgentWorld 当作 Agent 的"基础模型"，在它的权重上继续做下游 Agent 任务的 RL，相当于用世界模型的先验给 RL 预热。

在多个核心 Agent 基准上的提升如下：

基准	Qwen3.5-35B-A3B-SFT	LWM + RL	提升
Terminal-Bench 2.0	33.3	39.6	+6.3
SWE-Bench Verified	64.5	67.9	+3.4
SWE-Bench Pro	42.2	47.4	+5.2
WideSearch F1 Item	33.4	46.2	+12.8
Claw-Eval（OOD）	53.6	64.9	+11.3
QwenClawBench（OOD）	39.8	49.4	+9.7
BFCL v4（OOD）	62.3	71.3	+9.0

值得注意的是后三项都是 Out-of-Domain：RL 阶段并未直接训练这些数据，但通过 LWM 预热依然拿到了两位数提升，说明世界模型把"对环境的理解"沉淀成了可迁移的通用 Agent 先验。

模型实战

Qwen-AgentWorld-35B-A3B 模型已在 ModelScope 发布，兼容 SGLang、vLLM、Transformers 等主流后端。

SGLang

SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \
    --model-path Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tp-size 4 \
    --context-length 262144 \
    --reasoning-parser qwen3

vLLM

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tensor-parallel-size 4 \
    --max-model-len 262144 \
    --reasoning-parser qwen3 \
    --language-model-only \
    --trust-remote-code

Transformers

from modelscope import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen-AgentWorld-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto",
)
messages = [
    {
        "role": "system",
        "content": "You are a language world model simulating a Linux terminal environment. "
                   "Given the user's command, predict the terminal output."
    },
    {
        "role": "user",
        "content": "Action: execute_bash\nCommand: ls -la /home/user/project/"
    }
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048, temperature=0.6)
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True)
print(response)

更多部署细节、推理参数与工具调用配置，可在模型详情页查看：https://modelscope.cn/models/Qwen/Qwen-AgentWorld-35B-A3B

写在最后

Qwen-AgentWorld 把"环境模拟"从工程问题变成了模型问题。一边作为解耦的模拟器，让 Agent 的 RL 训练摆脱对真实 Sandbox 的依赖，省掉真实工具调用的延迟与成本，还能在搜索类任务上反超在真实环境直接训练的版本；一边作为 Agent 基础模型，给下游 RL 提供世界模型先验，在终端、代码、搜索、工具调用等核心场景上稳定带来提升，并对未见过的 OOD 任务依然有效。配合 AgentWorldBench 这套覆盖格式、事实性、一致性、真实性、质量五个维度的评测协议，整个 Agent 训练流程第一次有了一个统一、可比、可复现的语言世界模型底座。

合集

https://modelscope.cn/collections/Qwen/Qwen-AgentWorld