FantasyWorld 正式开源!一次前向传播,同时生成视频与 3D 几何——视频世界模型的新范
日前,高德地图在扫街榜发布会上正式亮相了「飞行街景」以及背后使用的新一代几何一致的世界模型「FantasyWorld」。 FantasyWorld 是一个统一的前馈式世界模型框架,能够在单次前向传播中同时生成高质量视频和几何一致的 3D 场景信息——不需要逐场景优化,不需要后处理,输入一张图片和相机轨迹,一步到位。该工作已被ICLR 2026 收录,WorldScore 排行榜第一名。
FantasyWorld 项目正式开源,代码与模型权重现已全面开放!
开源链接
📄 论文:http://arxiv.org/abs/2509.21657
🌐 项目主页:http://fantasy-amap.github.io/fantasy-world
💻 GitHub:http://github.com/Fantasy-AMAP/fantasy-world
🤖 ModelScope:
- FantasyWorld-Wan2.1-I2V-14B-480P:
https://www.modelscope.cn/models/amap_cvlab/FantasyWorld-Wan2.1-I2V-14B-480P
- World-Wan2.2-Fun-A14B-Control-Camera:https://www.modelscope.cn/models/amap_cvlab/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera

当前的视频生成模型(如 Sora、Wan 系列等)已经能生成极为逼真的视频内容,但它们有一个核心缺陷:缺乏空间一致性。视频看起来漂亮,但其中隐含的 3D 几何结构往往是混乱的——相机运动时物体会"漂移",深度关系不稳定,无法直接用于需要精确空间理解的下游任务,比如具身智能导航、新视角合成、XR 内容创作等。
传统的解决思路通常有两条路径:要么在生成后做昂贵的逐场景优化(Per-scene Optimization),要么训练独立的 3D 重建模型再与视频拼接。前者推理成本高,后者两套系统难以协同。
FantasyWorld 提出了第三条路:直接在视频生成模型内部注入 3D 几何推理能力,让视频生成和 3D 重建在同一个网络中联合完成,实现真正的"一体化"。
核心架构解析
FantasyWorld 的整体架构可以拆解为三个关键设计:
1. 预调节模块(Preconditioning Blocks, PCBs)
PCBs 是 FantasyWorld 的"前端"组件。它的核心思想是:复用冻结的 WanDiT 去噪器,对输入的噪声隐变量进行"预处理",产出部分去噪后的隐变量,供后续几何分支使用。
为什么需要这一步?因为如果直接让几何分支在纯噪声上操作,网络很难学到有意义的特征。PCBs 确保了几何路径始终在有信息含量的特征空间中工作,而不是在随机噪声上"空转"。
2. 重建生成一体化模块(IRG Blocks)
IRG 模块是 FantasyWorld 的核心骨干网络,采用非对称双分支结构:
- 想象先验分支(Imagination Prior Branch):负责视频外观合成,继承视频生成模型的强大先验知识,生成高保真的视觉内容。
- 几何一致性分支(Geometry-Consistent Branch):负责显式的 3D 推理,包括逐帧深度估计、点云生成和相机轨迹预测。
两个分支之间通过 轻量级适配器 和 双向交叉注意力机制 进行信息耦合:视频分支为几何分支提供丰富的视觉上下文,几何分支则反过来用空间约束"校准"视频生成,避免几何上的不一致。
3. 两阶段训练策略
FantasyWorld 的训练分为两个阶段:
- 阶段一(几何预训练):使用 VGGT 风格的模型,单独训练几何分支,学习精确的深度估计、点云重建和相机轨迹回归能力。这一步为后续联合训练打下几何基础。
- 阶段二(联合生成):将阶段一训练好的几何骨干网络,无缝集成到 Wan 视频生成流程中,端到端联合训练视频生成与 3D 重建。视频生成的先验知识反过来正则化 3D 预测,两者互相促进。
开源核心亮点
Wan2.2 强力驱动,画质全面进化
本次发布了两个版本的模型:
| 模型版本 | 特点 | 适用场景 |
| FantasyWorld-Wan2.1-I2V-14B-480P | 严格复现论文配置 | 学术基准测试、论文结果复现 |
| FantasyWorld-Wan2.2-Fun-A14B-Control-Camera | 升级基座 + 更大数据 + 更高分辨率 | 追求最佳效果的实际应用 |
Wan2.2 版本在视频质量、时间一致性和相机控制精度上都有显著提升,配合 FantasyWorld 独有的 PCBs 模块,完美继承了 Wan2.2 的高保真画质。
单次前向传播,告别测试时优化
这一点值得反复强调:FantasyWorld 采用纯 Feed-forward 架构。你给模型一张参考图、一段相机轨迹、一句文本提示,它就直接输出时空一致的视频和可用的 3D 几何信息。
不需要像 NeRF/3DGS 那样对每个场景做几十分钟甚至几小时的优化,也不需要额外跑 COLMAP 之类的 SfM 管线。这对实际部署意义重大。
通用 3D 表征,赋能下游任务
FantasyWorld 产出的不仅是视频像素,还包含:
- 逐帧深度图:密集的深度估计
- 稠密点云:可直接用于 3D 重建
- 相机轨迹:精确的相机内外参数
这些几何特征无需微调即可直接服务于多种下游任务,有效填补了视频基础模型在 3D 空间推理上的空白。
WorldScore 排行榜第一名
FantasyWorld 在斯坦福大学李飞飞教授团队推出的 WorldScore 排行榜中荣获第一名,在与全球最先进模型的对比中验证了方法的有效性。同时,论文已被 ICLR 2026 接收。
模型实战
环境安装
# 克隆仓库
git clone https://github.com/Fantasy-AMAP/fantasy-world.git
cd fantasy-world
# 创建环境
conda create -n fantasyworld python=3.10
conda activate fantasyworld
pip install -r requirements.txt
pip install thirdparty/utils3d/
方案一:使用 Wan2.1 版本(论文复现)
下载模型:
pip install modelscope
modelscope download Wan-AI/Wan2.1-I2V-14B-480P \
--local_dir ./models/Wan-AI/Wan2.1-I2V-14B-480P
modelscope download "amap_cvlab/FantasyWorld-Wan2.1-I2V-14B-480P" \
--local_dir ./models/FantasyWorld-Wan2.1-I2V-14B-480P/
运行推理:
python inference_wan21.py \
--wan_ckpt_path ./models/Wan-AI/Wan2.1-I2V-14B-480P \
--model_ckpt ./models/FantasyWorld-Wan2.1-I2V-14B-480P/model.pth \
--image_path ./examples/images/input_image.png \
--camera_json_path ./examples/cameras/camera_data.json \
--prompt "In the Open Loft Living Room, sunlight streams through large windows, highlighting the sleek fireplace and elegant wooden stairs." \
--output_dir ./output-wan21 \
--sample_steps 50 \
--using_scale True
参数说明:
--wan_ckpt_path:Wan 基座模型路径(必填)--model_ckpt:FantasyWorld 权重路径(必填)--image_path:输入参考图片(必填)--camera_json_path:相机轨迹 JSON 文件(必填)--prompt:场景描述文本(必填)--output_dir:输出目录(可选,默认为输入图片所在目录)--sample_steps:采样步数(可选,默认 50)--using_scale:是否启用 scale 归一化(可选,默认 True)
方案二:使用 Wan2.2 版本(最佳性能)
下载模型
pip install modelscope
# 下载基座模型
modelscope download "alibaba-pai/Wan2.2-Fun-A14B-Control-Camera" \
--local_dir ./models/PAI/Wan2.2-Fun-A14B-Control-Camera
# 下载 Reward LoRA
modelscope download "alibaba-pai/Wan2.2-Fun-Reward-LoRAs" \
--local_dir ./models/PAI/Wan2.2-Fun-Reward-LoRAs
# 下载 FantasyWorld 权重
modelscope download "acvlab/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera" \
--local_dir ./models/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera/
运行推理
python inference_wan22.py \
--image_path ./examples/images/input_image.png \
--end_image_path ./examples/images/end_image.png \
--wan_ckpt_path ./models/ \
--camera_json_path ./examples/cameras/camera_data.json \
--prompt "In the Open Loft Living Room, sunlight streams through large windows, highlighting the sleek fireplace and elegant wooden stairs." \
--model_ckpt_high ./models/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera/high_noise_model.pth \
--model_ckpt_low ./models/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera/low_noise_model.pth \
--output_dir ./output-wan22 \
--sample_steps 50 \
--using_scale True
注意 Wan2.2 版本需要额外提供尾帧图片(--end_image_path),并且使用了高噪声和低噪声两套模型权重(--model_ckpt_high 和 --model_ckpt_low),进一步提升生成质量。
技术意义与应用前景
FantasyWorld 的核心贡献在于 打破了视频生成与 3D 重建之间的壁垒。此前,这两个任务通常由独立的系统分别处理,而 FantasyWorld 首次证明:在一个统一的扩散模型框架下,视频的"外观想象"和"几何推理"不仅可以共存,还能互相增强。
这一范式对以下领域有直接的推动作用:
- 具身智能:机器人在模拟环境中进行视觉导航时,需要的不仅是"看起来像"的视频,更需要精确的深度和空间关系。FantasyWorld 提供的几何一致视频正好填补了这一需求。
- 自动驾驶仿真:在驾驶场景中生成几何一致的多视角视频,有望大幅降低仿真数据的构建成本。
- 新视角合成:从单张图片出发,FantasyWorld 可以沿指定相机轨迹生成新视角,同时输出深度和点云,为后续的 3D 内容创作提供便利。
- XR/游戏内容生成:对于需要快速构建 3D 场景的应用场景,FantasyWorld 的前馈式架构具有显著的效率优势。
致谢
FantasyWorld 的实现离不开以下优秀的开源项目:Wan、VideoX-Fun、DiffSynth-Studio 和 VGGT。
模型链接:
FantasyWorld-Wan2.1-I2V-14B-480P:
https://www.modelscope.cn/models/amap_cvlab/FantasyWorld-Wan2.1-I2V-14B-480P
World-Wan2.2-Fun-A14B-Control-Camera:https://www.modelscope.cn/models/amap_cvlab/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera
更多推荐




所有评论(0)