FantasyWorld 正式开源！一次前向传播，同时生成视频与 3D 几何——视频世界模型的新范

魔搭ModelScope社区

47人浏览 · 2026-02-24 09:43:26

魔搭ModelScope社区 · 2026-02-24 09:43:26 发布

日前，高德地图在扫街榜发布会上正式亮相了「飞行街景」以及背后使用的新一代几何一致的世界模型「FantasyWorld」。 FantasyWorld 是一个统一的前馈式世界模型框架，能够在单次前向传播中同时生成高质量视频和几何一致的 3D 场景信息——不需要逐场景优化，不需要后处理，输入一张图片和相机轨迹，一步到位。该工作已被ICLR 2026 收录，WorldScore 排行榜第一名。

FantasyWorld 项目正式开源，代码与模型权重现已全面开放！

开源链接

📄 论文：http://arxiv.org/abs/2509.21657

🌐 项目主页：http://fantasy-amap.github.io/fantasy-world

💻 GitHub：http://github.com/Fantasy-AMAP/fantasy-world

🤖 ModelScope：

FantasyWorld-Wan2.1-I2V-14B-480P：
https://www.modelscope.cn/models/amap_cvlab/FantasyWorld-Wan2.1-I2V-14B-480P
World-Wan2.2-Fun-A14B-Control-Camera：https://www.modelscope.cn/models/amap_cvlab/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera

当前的视频生成模型（如 Sora、Wan 系列等）已经能生成极为逼真的视频内容，但它们有一个核心缺陷：缺乏空间一致性。视频看起来漂亮，但其中隐含的 3D 几何结构往往是混乱的——相机运动时物体会"漂移"，深度关系不稳定，无法直接用于需要精确空间理解的下游任务，比如具身智能导航、新视角合成、XR 内容创作等。

传统的解决思路通常有两条路径：要么在生成后做昂贵的逐场景优化（Per-scene Optimization），要么训练独立的 3D 重建模型再与视频拼接。前者推理成本高，后者两套系统难以协同。

FantasyWorld 提出了第三条路：直接在视频生成模型内部注入 3D 几何推理能力，让视频生成和 3D 重建在同一个网络中联合完成，实现真正的"一体化"。

核心架构解析

FantasyWorld 的整体架构可以拆解为三个关键设计：

1. 预调节模块（Preconditioning Blocks, PCBs）

PCBs 是 FantasyWorld 的"前端"组件。它的核心思想是：复用冻结的 WanDiT 去噪器，对输入的噪声隐变量进行"预处理"，产出部分去噪后的隐变量，供后续几何分支使用。

为什么需要这一步？因为如果直接让几何分支在纯噪声上操作，网络很难学到有意义的特征。PCBs 确保了几何路径始终在有信息含量的特征空间中工作，而不是在随机噪声上"空转"。

2. 重建生成一体化模块（IRG Blocks）

IRG 模块是 FantasyWorld 的核心骨干网络，采用非对称双分支结构：

想象先验分支（Imagination Prior Branch）：负责视频外观合成，继承视频生成模型的强大先验知识，生成高保真的视觉内容。
几何一致性分支（Geometry-Consistent Branch）：负责显式的 3D 推理，包括逐帧深度估计、点云生成和相机轨迹预测。

两个分支之间通过 轻量级适配器 和 双向交叉注意力机制 进行信息耦合：视频分支为几何分支提供丰富的视觉上下文，几何分支则反过来用空间约束"校准"视频生成，避免几何上的不一致。

3. 两阶段训练策略

FantasyWorld 的训练分为两个阶段：

阶段一（几何预训练）：使用 VGGT 风格的模型，单独训练几何分支，学习精确的深度估计、点云重建和相机轨迹回归能力。这一步为后续联合训练打下几何基础。
阶段二（联合生成）：将阶段一训练好的几何骨干网络，无缝集成到 Wan 视频生成流程中，端到端联合训练视频生成与 3D 重建。视频生成的先验知识反过来正则化 3D 预测，两者互相促进。

开源核心亮点

Wan2.2 强力驱动，画质全面进化

本次发布了两个版本的模型：

模型版本	特点	适用场景
FantasyWorld-Wan2.1-I2V-14B-480P	严格复现论文配置	学术基准测试、论文结果复现
FantasyWorld-Wan2.2-Fun-A14B-Control-Camera	升级基座 + 更大数据 + 更高分辨率	追求最佳效果的实际应用

Wan2.2 版本在视频质量、时间一致性和相机控制精度上都有显著提升，配合 FantasyWorld 独有的 PCBs 模块，完美继承了 Wan2.2 的高保真画质。

单次前向传播，告别测试时优化

这一点值得反复强调：FantasyWorld 采用纯 Feed-forward 架构。你给模型一张参考图、一段相机轨迹、一句文本提示，它就直接输出时空一致的视频和可用的 3D 几何信息。

不需要像 NeRF/3DGS 那样对每个场景做几十分钟甚至几小时的优化，也不需要额外跑 COLMAP 之类的 SfM 管线。这对实际部署意义重大。

通用 3D 表征，赋能下游任务

FantasyWorld 产出的不仅是视频像素，还包含：

逐帧深度图：密集的深度估计
稠密点云：可直接用于 3D 重建
相机轨迹：精确的相机内外参数

这些几何特征无需微调即可直接服务于多种下游任务，有效填补了视频基础模型在 3D 空间推理上的空白。

WorldScore 排行榜第一名

FantasyWorld 在斯坦福大学李飞飞教授团队推出的 WorldScore 排行榜中荣获第一名，在与全球最先进模型的对比中验证了方法的有效性。同时，论文已被 ICLR 2026 接收。

模型实战

环境安装

# 克隆仓库
git clone https://github.com/Fantasy-AMAP/fantasy-world.git
cd fantasy-world
# 创建环境
conda create -n fantasyworld python=3.10
conda activate fantasyworld
pip install -r requirements.txt
pip install thirdparty/utils3d/

方案一：使用 Wan2.1 版本（论文复现）

下载模型：

pip install modelscope
modelscope download Wan-AI/Wan2.1-I2V-14B-480P \
    --local_dir ./models/Wan-AI/Wan2.1-I2V-14B-480P
modelscope download "amap_cvlab/FantasyWorld-Wan2.1-I2V-14B-480P" \
    --local_dir ./models/FantasyWorld-Wan2.1-I2V-14B-480P/

运行推理：

python inference_wan21.py \
    --wan_ckpt_path ./models/Wan-AI/Wan2.1-I2V-14B-480P \
    --model_ckpt ./models/FantasyWorld-Wan2.1-I2V-14B-480P/model.pth \
    --image_path ./examples/images/input_image.png \
    --camera_json_path ./examples/cameras/camera_data.json \
    --prompt "In the Open Loft Living Room, sunlight streams through large windows, highlighting the sleek fireplace and elegant wooden stairs." \
    --output_dir ./output-wan21 \
    --sample_steps 50 \
    --using_scale True

参数说明：

--wan_ckpt_path：Wan 基座模型路径（必填）
--model_ckpt：FantasyWorld 权重路径（必填）
--image_path：输入参考图片（必填）
--camera_json_path：相机轨迹 JSON 文件（必填）
--prompt：场景描述文本（必填）
--output_dir：输出目录（可选，默认为输入图片所在目录）
--sample_steps：采样步数（可选，默认 50）
--using_scale：是否启用 scale 归一化（可选，默认 True）

方案二：使用 Wan2.2 版本（最佳性能）

下载模型

pip install modelscope
# 下载基座模型
modelscope download "alibaba-pai/Wan2.2-Fun-A14B-Control-Camera" \
    --local_dir ./models/PAI/Wan2.2-Fun-A14B-Control-Camera
# 下载 Reward LoRA
modelscope download "alibaba-pai/Wan2.2-Fun-Reward-LoRAs" \
    --local_dir ./models/PAI/Wan2.2-Fun-Reward-LoRAs
# 下载 FantasyWorld 权重
modelscope download "acvlab/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera" \
    --local_dir ./models/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera/

运行推理

python inference_wan22.py \
    --image_path ./examples/images/input_image.png \
    --end_image_path ./examples/images/end_image.png \
    --wan_ckpt_path ./models/ \
    --camera_json_path ./examples/cameras/camera_data.json \
    --prompt "In the Open Loft Living Room, sunlight streams through large windows, highlighting the sleek fireplace and elegant wooden stairs." \
    --model_ckpt_high ./models/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera/high_noise_model.pth \
    --model_ckpt_low ./models/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera/low_noise_model.pth \
    --output_dir ./output-wan22 \
    --sample_steps 50 \
    --using_scale True

注意 Wan2.2 版本需要额外提供尾帧图片（--end_image_path），并且使用了高噪声和低噪声两套模型权重（--model_ckpt_high 和 --model_ckpt_low），进一步提升生成质量。

技术意义与应用前景

FantasyWorld 的核心贡献在于 打破了视频生成与 3D 重建之间的壁垒。此前，这两个任务通常由独立的系统分别处理，而 FantasyWorld 首次证明：在一个统一的扩散模型框架下，视频的"外观想象"和"几何推理"不仅可以共存，还能互相增强。

这一范式对以下领域有直接的推动作用：

具身智能：机器人在模拟环境中进行视觉导航时，需要的不仅是"看起来像"的视频，更需要精确的深度和空间关系。FantasyWorld 提供的几何一致视频正好填补了这一需求。
自动驾驶仿真：在驾驶场景中生成几何一致的多视角视频，有望大幅降低仿真数据的构建成本。
新视角合成：从单张图片出发，FantasyWorld 可以沿指定相机轨迹生成新视角，同时输出深度和点云，为后续的 3D 内容创作提供便利。
XR/游戏内容生成：对于需要快速构建 3D 场景的应用场景，FantasyWorld 的前馈式架构具有显著的效率优势。

致谢

FantasyWorld 的实现离不开以下优秀的开源项目：Wan、VideoX-Fun、DiffSynth-Studio 和 VGGT。

模型链接：

FantasyWorld-Wan2.1-I2V-14B-480P：
https://www.modelscope.cn/models/amap_cvlab/FantasyWorld-Wan2.1-I2V-14B-480P

World-Wan2.2-Fun-A14B-Control-Camera：https://www.modelscope.cn/models/amap_cvlab/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera