SCOPE 开源：首个跨游戏 FPS 世界模型，逐像素动作控制零样本泛化未见场景

魔搭ModelScope社区

17人浏览 · 2026-05-29 10:24:34

魔搭ModelScope社区 · 2026-05-29 10:24:34 发布

中国科学院大学联合腾讯、新加坡国立大学等机构开源了 SCOPE，一个面向第一人称射击（FPS）游戏的交互式世界模型。该模型首次提出逐像素空间选择性动作调节机制，将离散事件（开火、换弹）的视觉效果精确约束在武器区域（scope 内），同时保持环境区域的稳定生成。基于 5B 参数视频扩散 Transformer 端到端训练，SCOPE 在 CrossFPS 测试集上 8 项指标中取得 7 项最优（JEPA 0.806、FVD 690.3、动作完成率 71.5%），并可零样本迁移至训练中从未出现的游戏风格。

📎demo_video.mp4

开源地址：

Modelscope Model：

https://www.modelscope.cn/models/zztong/SCOPE

Modelscope Dataset：

https://www.modelscope.cn/datasets/zztong/CrossFPS

GitHub：

https://github.com/z2tong/SCOPE

Project Page：

https://z2tong.github.io/SCOPE

效果展示

丰富的动作控制

SCOPE 支持逐帧 10 自由度密集控制，可同时组合多个动作（瞄准 + 开火、移动 + 切枪等），在多种未见环境中实现高可玩性。以下为部分生成示例

📎ctrl_scope_fire2.mp4

📎15.mp4

📎12_new.mp4

零样本场景泛化

仅凭单帧上下文图像即可零样本泛化至未见过的视觉风格，无需任何微调。以下为跨风格迁移示例：

方法

FPS 游戏的世界模型面临独特挑战：玩家同时执行高频相机旋转（超过 180°/s）和密集离散事件（开火、换弹、近战），现有方法将动作全局注入所有空间位置，导致一个开火指令扰动全帧所有像素。

SCOPE 的核心观察是：FPS 动作具有空间选择性——离散事件仅影响武器附近的局部区域（scope 内），而连续控制驱动的场景流动应保持环境稳定（scope 外）。

SCOPE 模块

SCOPE 模块插入预训练视频扩散 Transformer 的每个 block 中（共 30 层），位于文本交叉注意力与 FFN 之间。其核心操作：

空间重塑

将 token 序列从标准布局 () 重塑为逐像素时序序列 () ，使每个空间位置持有独立的时间序列，实现逐像素条件化。

离散通路（交叉注意力）

离散信号（6 维：开火、瞄准、换弹、跳跃、近战、切枪）经 MLP 编码后作为 Key/Value，逐像素特征作为 Query。scope 内像素对动作信号强注意，scope 外像素产生近零注意力——空间约束自然从视觉内容中浮现。

连续通路（时序自注意力）

连续信号（4 维：双摇杆轴）在每帧提取时间窗口，与逐像素特征拼接后经 MLP 融合，再通过带 RoPE 的时序自注意力建模平滑自运动。由于离散通路已捕获 scope 内动态，连续通路专注于无污染的 scope 外生成。

两条通路的残差相加后回归标准 token 布局，进入 FFN。

Action-CFG

训练时以概率将所有动作替换为可学习空嵌入。推理时通过引导尺度控制动作强度：放大响应，衰减响应，实现可调节的交互反馈。

CrossFPS数据集

CrossFPS 是首个多游戏 FPS 数据集，包含 69,000 个 5 秒片段（20fps，480×832），覆盖 7 款游戏：

每个片段配备逐帧 10 维手柄遥测（4 连续轴 + 6 离散按键）。数据经过三阶段处理：

动作分布平衡

过采样高强度片段，对抗长尾分布。

视觉-动作去偏

保留场景与动作低互信息的片段，防止模型学习游戏策略而非物理映射。动作熵从 1.85 提升至 2.94 bits。

动能归一化

基于光流的增益校准，对齐不同游戏引擎的动作-像素位移比（归一化后跨游戏增益方差仅 0.034）。

性能表现

主实验

在 CrossFPS 测试集上与三个 SOTA 交互式世界模型对比：

SCOPE 在 8 项指标中 7 项最优。Photometric Smoothness 0.198 比次优 LingBot-World（0.626）好 3.2 倍，验证了 scope 分离的有效性。HY-World 1.5 因全局归一化稀释高频 FPS 信号，Dynamic Degree 仅 0.225，几乎输出静态画面。

动作可控性（未见场景）

使用 GPT-image-2 合成训练中从未出现的首帧，测试动作完成率：

随着任务复杂度提升，SCOPE 的优势更加明显：多动作组合 75.3% vs 28.7%，环境交互 54% vs 21.3%。

快速开始

依赖要求

Python >= 3.10
支持 CUDA 的 PyTorch >= 2.0
GPU：NVIDIA 显卡，显存 >= 24 GB（单 GPU 推理并启用 CPU 卸载）

安装


git clone https://github.com/z2tong/SCOPE.git
cd SCOPE
pip install -e .

下载权重


# 一条命令下载所有权重（SCOPE DiT + Text Encoder + VAE + Tokenizer）
modelscope download zizhaotong/SCOPE --local-dir ./SCOPE

推理：单张图像 + 动作序列


python inference.py \
    --model_dir ./SCOPE \
    --input_image input.png \
    --action_path action.parquet \
    --prompt "First-person shooter perspective in a modern city" \
    --seed 42

批量推理：图像目录


python inference.py \
    --model_dir ./SCOPE \
    --input_image_dir ./images \
    --action_path action.parquet \
    --prompt "First-person view in a battlefield" \
    --output_dir ./outputs

输入一张首帧图片和一段 .parquet 格式的动作序列文件（包含逐帧 10 维手柄遥测信号），模型即可生成对应的 5 秒视频片段。动作文件格式与 CrossFPS 数据集一致，包含 4 个连续轴（左右摇杆 X/Y）和 6 个离散按键（开火、瞄准、换弹、跳跃、近战、切枪）的逐帧记录。