SCOPE 开源:首个跨游戏 FPS 世界模型,逐像素动作控制零样本泛化未见场景
中国科学院大学联合腾讯、新加坡国立大学等机构开源了 SCOPE,一个面向第一人称射击(FPS)游戏的交互式世界模型。该模型首次提出逐像素空间选择性动作调节机制,将离散事件(开火、换弹)的视觉效果精确约束在武器区域(scope 内),同时保持环境区域的稳定生成。基于 5B 参数视频扩散 Transformer 端到端训练,SCOPE 在 CrossFPS 测试集上 8 项指标中取得 7 项最优(JEPA 0.806、FVD 690.3、动作完成率 71.5%),并可零样本迁移至训练中从未出现的游戏风格。

开源地址:
- Modelscope Model:
https://www.modelscope.cn/models/zztong/SCOPE
- Modelscope Dataset:
https://www.modelscope.cn/datasets/zztong/CrossFPS
- GitHub:
https://github.com/z2tong/SCOPE
- Project Page:
https://z2tong.github.io/SCOPE
效果展示
丰富的动作控制
SCOPE 支持逐帧 10 自由度密集控制,可同时组合多个动作(瞄准 + 开火、移动 + 切枪等),在多种未见环境中实现高可玩性。以下为部分生成示例



零样本场景泛化
仅凭单帧上下文图像即可零样本泛化至未见过的视觉风格,无需任何微调。以下为跨风格迁移示例:






方法
FPS 游戏的世界模型面临独特挑战:玩家同时执行高频相机旋转(超过 180°/s)和密集离散事件(开火、换弹、近战),现有方法将动作全局注入所有空间位置,导致一个开火指令扰动全帧所有像素。
SCOPE 的核心观察是:FPS 动作具有空间选择性——离散事件仅影响武器附近的局部区域(scope 内),而连续控制驱动的场景流动应保持环境稳定(scope 外)。

SCOPE 模块
SCOPE 模块插入预训练视频扩散 Transformer 的每个 block 中(共 30 层),位于文本交叉注意力与 FFN 之间。其核心操作:
空间重塑
- 将 token 序列从标准布局 () 重塑为逐像素时序序列 () ,使每个空间位置持有独立的时间序列,实现逐像素条件化。
离散通路(交叉注意力)
- 离散信号(6 维:开火、瞄准、换弹、跳跃、近战、切枪)经 MLP 编码后作为 Key/Value,逐像素特征作为 Query。scope 内像素对动作信号强注意,scope 外像素产生近零注意力——空间约束自然从视觉内容中浮现。
连续通路(时序自注意力)
- 连续信号(4 维:双摇杆轴)在每帧提取时间窗口,与逐像素特征拼接后经 MLP 融合,再通过带 RoPE 的时序自注意力建模平滑自运动。由于离散通路已捕获 scope 内动态,连续通路专注于无污染的 scope 外生成。
两条通路的残差相加后回归标准 token 布局,进入 FFN。
Action-CFG
训练时以概率 将所有动作替换为可学习空嵌入。推理时通过引导尺度 控制动作强度: 放大响应, 衰减响应,实现可调节的交互反馈。
CrossFPS数据集
CrossFPS 是首个多游戏 FPS 数据集,包含 69,000 个 5 秒片段(20fps,480×832),覆盖 7 款游戏:

每个片段配备逐帧 10 维手柄遥测(4 连续轴 + 6 离散按键)。数据经过三阶段处理:
- 动作分布平衡
过采样高强度片段,对抗长尾分布。
- 视觉-动作去偏
保留场景与动作低互信息的片段,防止模型学习游戏策略而非物理映射。动作熵从 1.85 提升至 2.94 bits。
- 动能归一化
基于光流的增益校准,对齐不同游戏引擎的动作-像素位移比(归一化后跨游戏增益方差仅 0.034)。
性能表现
主实验
在 CrossFPS 测试集上与三个 SOTA 交互式世界模型对比:

SCOPE 在 8 项指标中 7 项最优。Photometric Smoothness 0.198 比次优 LingBot-World(0.626)好 3.2 倍,验证了 scope 分离的有效性。HY-World 1.5 因全局归一化稀释高频 FPS 信号,Dynamic Degree 仅 0.225,几乎输出静态画面。
动作可控性(未见场景)
使用 GPT-image-2 合成训练中从未出现的首帧,测试动作完成率:

随着任务复杂度提升,SCOPE 的优势更加明显:多动作组合 75.3% vs 28.7%,环境交互 54% vs 21.3%。
快速开始
依赖要求
- Python >= 3.10
- 支持 CUDA 的 PyTorch >= 2.0
- GPU:NVIDIA 显卡,显存 >= 24 GB(单 GPU 推理并启用 CPU 卸载)
安装
git clone https://github.com/z2tong/SCOPE.git
cd SCOPE
pip install -e .
下载权重
# 一条命令下载所有权重(SCOPE DiT + Text Encoder + VAE + Tokenizer)
modelscope download zizhaotong/SCOPE --local-dir ./SCOPE
推理:单张图像 + 动作序列
python inference.py \
--model_dir ./SCOPE \
--input_image input.png \
--action_path action.parquet \
--prompt "First-person shooter perspective in a modern city" \
--seed 42
批量推理:图像目录
python inference.py \
--model_dir ./SCOPE \
--input_image_dir ./images \
--action_path action.parquet \
--prompt "First-person view in a battlefield" \
--output_dir ./outputs
输入一张首帧图片和一段 .parquet 格式的动作序列文件(包含逐帧 10 维手柄遥测信号),模型即可生成对应的 5 秒视频片段。动作文件格式与 CrossFPS 数据集一致,包含 4 个连续轴(左右摇杆 X/Y)和 6 个离散按键(开火、瞄准、换弹、跳跃、近战、切枪)的逐帧记录。
更多推荐




所有评论(0)