中国科学院大学联合腾讯、新加坡国立大学等机构开源了 SCOPE,一个面向第一人称射击(FPS)游戏的交互式世界模型。该模型首次提出逐像素空间选择性动作调节机制,将离散事件(开火、换弹)的视觉效果精确约束在武器区域(scope 内),同时保持环境区域的稳定生成。基于 5B 参数视频扩散 Transformer 端到端训练,SCOPE 在 CrossFPS 测试集上 8 项指标中取得 7 项最优(JEPA 0.806、FVD 690.3、动作完成率 71.5%),并可零样本迁移至训练中从未出现的游戏风格。

📎demo_video.mp4

开源地址:

  • Modelscope Model:

https://www.modelscope.cn/models/zztong/SCOPE

  • Modelscope Dataset:

https://www.modelscope.cn/datasets/zztong/CrossFPS

  • GitHub:

https://github.com/z2tong/SCOPE 

  • Project Page:

https://z2tong.github.io/SCOPE

 

效果展示

丰富的动作控制

SCOPE 支持逐帧 10 自由度密集控制,可同时组合多个动作(瞄准 + 开火、移动 + 切枪等),在多种未见环境中实现高可玩性。以下为部分生成示例

📎ctrl_scope_fire2.mp4

📎15.mp4

📎12_new.mp4

 

零样本场景泛化

仅凭单帧上下文图像即可零样本泛化至未见过的视觉风格,无需任何微调。以下为跨风格迁移示例:

📎1_highlight.mp4

📎3.mp4

📎7_highlight.mp4

📎11_highlight.mp4

📎12.mp4

📎13.mp4

 

方法

FPS 游戏的世界模型面临独特挑战:玩家同时执行高频相机旋转(超过 180°/s)和密集离散事件(开火、换弹、近战),现有方法将动作全局注入所有空间位置,导致一个开火指令扰动全帧所有像素。

SCOPE 的核心观察是:FPS 动作具有空间选择性——离散事件仅影响武器附近的局部区域(scope 内),而连续控制驱动的场景流动应保持环境稳定(scope 外)。

 

SCOPE 模块

SCOPE 模块插入预训练视频扩散 Transformer 的每个 block 中(共 30 层),位于文本交叉注意力与 FFN 之间。其核心操作:

空间重塑

  • 将 token 序列从标准布局  ()  重塑为逐像素时序序列  () ,使每个空间位置持有独立的时间序列,实现逐像素条件化。

离散通路(交叉注意力)

  • 离散信号(6 维:开火、瞄准、换弹、跳跃、近战、切枪)经 MLP 编码后作为 Key/Value,逐像素特征作为 Query。scope 内像素对动作信号强注意,scope 外像素产生近零注意力——空间约束自然从视觉内容中浮现。

连续通路(时序自注意力)

  • 连续信号(4 维:双摇杆轴)在每帧提取时间窗口,与逐像素特征拼接后经 MLP 融合,再通过带 RoPE 的时序自注意力建模平滑自运动。由于离散通路已捕获 scope 内动态,连续通路专注于无污染的 scope 外生成。

两条通路的残差相加后回归标准 token 布局,进入 FFN。

 

Action-CFG

训练时以概率  将所有动作替换为可学习空嵌入。推理时通过引导尺度  控制动作强度: 放大响应, 衰减响应,实现可调节的交互反馈。

CrossFPS数据集

CrossFPS 是首个多游戏 FPS 数据集,包含 69,000 个 5 秒片段(20fps,480×832),覆盖 7 款游戏:

每个片段配备逐帧 10 维手柄遥测(4 连续轴 + 6 离散按键)。数据经过三阶段处理:

  • 动作分布平衡

过采样高强度片段,对抗长尾分布。

  • 视觉-动作去偏

保留场景与动作低互信息的片段,防止模型学习游戏策略而非物理映射。动作熵从 1.85 提升至 2.94 bits。

  • 动能归一化

基于光流的增益校准,对齐不同游戏引擎的动作-像素位移比(归一化后跨游戏增益方差仅 0.034)。

性能表现

主实验

在 CrossFPS 测试集上与三个 SOTA 交互式世界模型对比:

SCOPE 在 8 项指标中 7 项最优。Photometric Smoothness 0.198 比次优 LingBot-World(0.626)好 3.2 倍,验证了 scope 分离的有效性。HY-World 1.5 因全局归一化稀释高频 FPS 信号,Dynamic Degree 仅 0.225,几乎输出静态画面。

 

动作可控性(未见场景)

使用 GPT-image-2 合成训练中从未出现的首帧,测试动作完成率:

 

随着任务复杂度提升,SCOPE 的优势更加明显:多动作组合 75.3% vs 28.7%,环境交互 54% vs 21.3%。

 

快速开始

依赖要求

  • Python >= 3.10
  • 支持 CUDA 的 PyTorch >= 2.0
  • GPU:NVIDIA 显卡,显存 >= 24 GB(单 GPU 推理并启用 CPU 卸载)

 

安装


git clone https://github.com/z2tong/SCOPE.git
cd SCOPE
pip install -e .

下载权重


# 一条命令下载所有权重(SCOPE DiT + Text Encoder + VAE + Tokenizer)
modelscope download zizhaotong/SCOPE --local-dir ./SCOPE

推理:单张图像 + 动作序列


python inference.py \
    --model_dir ./SCOPE \
    --input_image input.png \
    --action_path action.parquet \
    --prompt "First-person shooter perspective in a modern city" \
    --seed 42

批量推理:图像目录


python inference.py \
    --model_dir ./SCOPE \
    --input_image_dir ./images \
    --action_path action.parquet \
    --prompt "First-person view in a battlefield" \
    --output_dir ./outputs

输入一张首帧图片和一段 .parquet 格式的动作序列文件(包含逐帧 10 维手柄遥测信号),模型即可生成对应的 5 秒视频片段。动作文件格式与 CrossFPS 数据集一致,包含 4 个连续轴(左右摇杆 X/Y)和 6 个离散按键(开火、瞄准、换弹、跳跃、近战、切枪)的逐帧记录。

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐