Diffusion Templates: 开启 Diffusion 模型的插件化生成能力

魔搭ModelScope社区

9人浏览 · 2026-05-26 10:45:22

魔搭ModelScope社区 · 2026-05-26 10:45:22 发布

在扩散模型（Diffusion Models）横扫图像与视频生成的今天，ControlNet、LoRA、IP-Adapter 等工具，早已成了创作者和开发者工作流里的标配。但繁荣背后，一个越来越让人头疼的问题浮出水面：模型生态，太“碎”了。

相信不少开发者都踩过这样的坑：好不容易跑通一个新模型，想加个控制功能，一看代码结构——完全不兼容；想一次性叠加多个控制条件，结果插件之间在底层“打架”，特征层冲突不断。现在的 Diffusion 插件生态，更像是一堆需要手工“打补丁”的孤岛。每次拼接，都在考验开发者的耐心和底层功底。

我们更需要的，不是更多单打独斗的精致模型，而是一种通用的模型联结方式。大语言模型（LLM）如今之所以能无限扩展能力，靠的就是 MCP、Skills 这类标准化插件机制。如果 Diffusion 模型也能拥有同样的即插即用生态，AI 创作的效率和自由度，会不会迎来一次彻底的爆发？

近日，我们正式推出专为 Diffusion 模型设计的插件框架——Diffusion Templates。这个框架能大幅降低可控生成技术的训练和使用难度，让开发者能够通过丰富的 Templates 来精准控制模型的生成结果。

项目主页：

https://modelscope.github.io/diffusion-templates-web/

开源资源：

开源代码：

https://github.com/modelscope/DiffSynth-Studio

技术报告：

https://arxiv.org/abs/2604.24351

文档参考：https://diffsynth-studio-doc.readthedocs.io/zh-cn/latest/Diffusion_Templates/Introducing_Diffusion_Templates.html
在线体验：https://modelscope.cn/studios/DiffSynth-Studio/Diffusion-Templates
范例 Template 模型集合（含 11 个模型）：https://modelscope.cn/collections/DiffSynth-Studio/KleinBase4B-Templates
相关开源数据集（含 17 个数据集）：https://modelscope.cn/collections/DiffSynth-Studio/ImagePulseV2

效果展示

先来看几个例子，这是一只猫猫，我们带它穿越到二次元世界：

使用第一个 Template 进行图像编辑，把画面风格改为二次元动漫风格
使用第二个 Template 进行局部重绘，让周围环境保持不变
使用第三个 Template 进行亮度调节，适当调高亮度保证画面明亮且清晰

Template 1: 图像编辑

Template 2: 局部重绘

Tplate 3: 亮度调节

scale: 0.6

二次元的猫猫出现在了三次元的世界，抽象的技术创造出了具象的艺术表达。

再来看另外一个例子，这是一只模糊的猫猫，我们用两个 Template 提升画面的清晰度：

使用第一个 Template 进行超分辨率，渲染出高分辨率的图像
使用第二个 Template 进行锐利激发，提升画面细节的清晰度

Template 1: 超分辨

Template 2: 锐利激发

scale: 0.8

两个以不同目标训练的模型，协同渲染出了更棒的画面。

框架介绍

Diffusion Templates 是一套完善的 Diffusion 模型插件框架，在这个框架中，每一个插件被称为 Template，它可以像模板一样引导模型，模型发挥自身的生成能力向模板中填充信息，最终生成清晰的画面内容。框架的结构如下图所示：

Diffusion Template 框架包含以下模块设计：

Template Input: Template 模型的输入，其中的字段由每个 Template 模型自身决定，为模型开发者提供最大限度的开发自由度。
Template Model: Template 模型，可从魔搭模型库加载或从本地路径加载，让模型的使用简单易用。
Template Cache: Template 模型的输出，也是基础模型 Diffusion Pipeline 的输入，因此其中包含的字段是 Diffusion Pipeline 的输入参数的子集。
Template Pipeline: 用于调度多个 Template 模型的模块，该模块负责加载 Template 模型、整合多个 Template 模型的输出。

其中 Template Cache 是最核心的框架概念，我们在其中设计了一些模型能力媒介格式，例如 KV-Cache 等，Template 模型通过 Template Cache 将信息传递给基础模型，对生成内容进行控制。

为了方便开发者快速了解 Diffusion Templates，我们基于 FLUX.2-klein-base-4B，训练了 11 个覆盖多个场景的 Template 模型，并将这些模型一并开源。每个 Template 模型存储在独立的模型仓库中，保证插件与基础框架解耦，同时方便开发者适配。

目前，Diffusion Templates 框架的代码已在 DiffSynth-Studio 项目下完全开源。

本次开源的代码也包含了模型的训练，我们希望通过这个框架，大幅降低可控生成模型的训练门槛，让模型开发者们能够更方便地探索新奇的模型技术，一起构建丰富的开源模型生态，为 AI 技术发展添砖加瓦！

模型一览

以下是本次开源的 11 个 Template 模型，这些模型基于基础模型 FLUX.2-klein-base-4B 训练，能够为这一基础模型提供各种可控生成能力，这些 Template 模型与 FLUX.2-klein-base-4B 的 LoRA 和微调版本也是兼容的。未来我们会基于这一框架提供更多基础模型的 Templates。

1. 亮度调节

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Brightness

精准控制画面的光照强度，从柔和的晨光到强烈的逆光，随心所欲。

scale = 0.3

scale = 0.5

scale = 0.7

2. 结构控制

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-ControlNet

类似 ControlNet 的功能，通过输入参考图对生成图像的空间结构、物体轮廓与透视关系进行精准引导，让创作更加可控。

Condition

Prompt: A cat is sitting on a stone, bathed in bright sunshine.

Prompt: A cat is sitting on a stone, surrounded by colorful magical particles.

3. 超分辨率

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Upscaler

将低分辨率图像升级为高清大图，在保持原有构图和语义的基础上，智能重绘并补充丰富的细节纹理。

低清晰度输入

高清晰度输出

4. 锐利激发

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Sharpness

提升画面锐利度与清晰度，可与超分辨率模型叠加使用，获得更加清晰的视觉效果。

scale = 0.1

scale = 0.8

5. 图像编辑

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Edit

基于自然语言指令，对图像中的特定物体、动作或属性进行精准修改。与主流图像编辑模型不同，本模型采用 KV-Cache 传递输入图像信息，推理速度显著提升。

输入图

Prompt: Put a hat on this cat.

Prompt: Make the cat turn its head to look to the right.

6. 美学对齐

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Aesthetic

通过调整美学参数，优化图像的美学评分，让生成结果更符合人类审美偏好。

scale = 0

scale = 1.0

scale = 2.5

7. 局部重绘

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Inpaint

输入原图和遮罩图，仅在遮罩区域内重新生成新内容，实现精准的局部编辑。

原图

遮罩图

Prompt: An orange cat is sitting on a stone.

8. 年龄控制

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Age

在生成人像时灵活控制人物年龄，从稚嫩孩童到沧桑老者，一键切换。

Age = 20

Age = 50

Age = 80

9. 色调调节

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-SoftRGB

自由调整画面色调与色彩氛围，营造温暖、冷峻等不同的视觉风格。

Color: #D0B98A

Color: #808080

Color: #5EA3AE

10. 内容参考

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-ContentRef

参考输入图像的风格、构图等特征，生成具有相似特质的新画面，实现风格迁移与内容复用。

参考图

生成图

11. 魔性熊猫

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-PandaMeme

这是一个彩蛋模型，能够生成各种魔性十足的熊猫头表情包。

Prompt: A meme with a happy expression.

Prompt: A meme with a sleepy expression.

Prompt: A meme with a surprised expression.

欢迎加入ModelScope魔搭中文开源社区

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！

更多推荐

TogetherAI开源OSCAR：超越 TurboQuant! 面向真实 Serving 的 2-bit KV Cache量化

ModelScope魔搭社区

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

ModelScope魔搭社区

Claw-Eval开源：300个真实任务，端到端评测AI智能体的完成度、安全性与鲁棒性

ModelScope魔搭社区

所有评论(0)

查看更多评论

魔搭ModelScope社区

@coc_modelscope

已为社区贡献973条内容

Diffusion Templates: 开启 Diffusion 模型的插件化生成能力

魔搭ModelScope社区

效果展示

框架介绍

模型一览

1. 亮度调节

2. 结构控制

3. 超分辨率

4. 锐利激发

5. 图像编辑

6. 美学对齐

7. 局部重绘

8. 年龄控制

9. 色调调节

10. 内容参考

11. 魔性熊猫

所有评论(0)

温馨提示：您尚未绑定手机号

魔搭ModelScope社区