在扩散模型(Diffusion Models)横扫图像与视频生成的今天,ControlNet、LoRA、IP-Adapter 等工具,早已成了创作者和开发者工作流里的标配。但繁荣背后,一个越来越让人头疼的问题浮出水面:模型生态,太“碎”了。

相信不少开发者都踩过这样的坑:好不容易跑通一个新模型,想加个控制功能,一看代码结构——完全不兼容;想一次性叠加多个控制条件,结果插件之间在底层“打架”,特征层冲突不断。现在的 Diffusion 插件生态,更像是一堆需要手工“打补丁”的孤岛。每次拼接,都在考验开发者的耐心和底层功底。

我们更需要的,不是更多单打独斗的精致模型,而是一种通用的模型联结方式。大语言模型(LLM)如今之所以能无限扩展能力,靠的就是 MCP、Skills 这类标准化插件机制。如果 Diffusion 模型也能拥有同样的即插即用生态,AI 创作的效率和自由度,会不会迎来一次彻底的爆发?

近日,我们正式推出专为 Diffusion 模型设计的插件框架——Diffusion Templates。这个框架能大幅降低可控生成技术的训练和使用难度,让开发者能够通过丰富的 Templates 来精准控制模型的生成结果。

项目主页:

https://modelscope.github.io/diffusion-templates-web/

开源资源:

  • 开源代码:

https://github.com/modelscope/DiffSynth-Studio

  • 技术报告:

https://arxiv.org/abs/2604.24351

  • 文档参考:https://diffsynth-studio-doc.readthedocs.io/zh-cn/latest/Diffusion_Templates/Introducing_Diffusion_Templates.html
  • 在线体验:https://modelscope.cn/studios/DiffSynth-Studio/Diffusion-Templates
  • 范例 Template 模型集合(含 11 个模型):https://modelscope.cn/collections/DiffSynth-Studio/KleinBase4B-Templates
  • 相关开源数据集(含 17 个数据集):https://modelscope.cn/collections/DiffSynth-Studio/ImagePulseV2

效果展示

先来看几个例子,这是一只猫猫,我们带它穿越到二次元世界:

  • 使用第一个 Template 进行图像编辑,把画面风格改为二次元动漫风格
  • 使用第二个 Template 进行局部重绘,让周围环境保持不变
  • 使用第三个 Template 进行亮度调节,适当调高亮度保证画面明亮且清晰

 

Template 1: 图像编辑

 

 

Template 2: 局部重绘

 

Tplate 3: 亮度调节

scale: 0.6

 

 

二次元的猫猫出现在了三次元的世界,抽象的技术创造出了具象的艺术表达。

再来看另外一个例子,这是一只模糊的猫猫,我们用两个 Template 提升画面的清晰度:

  • 使用第一个 Template 进行超分辨率,渲染出高分辨率的图像
  • 使用第二个 Template 进行锐利激发,提升画面细节的清晰度

 

Template 1: 超分辨

 

Template 2: 锐利激发

scale: 0.8

 

 

两个以不同目标训练的模型,协同渲染出了更棒的画面。

 

框架介绍

Diffusion Templates 是一套完善的 Diffusion 模型插件框架,在这个框架中,每一个插件被称为 Template,它可以像模板一样引导模型,模型发挥自身的生成能力向模板中填充信息,最终生成清晰的画面内容。框架的结构如下图所示:

 

 

Diffusion Template 框架包含以下模块设计:

  • Template Input: Template 模型的输入,其中的字段由每个 Template 模型自身决定,为模型开发者提供最大限度的开发自由度。
  • Template Model: Template 模型,可从魔搭模型库加载或从本地路径加载,让模型的使用简单易用。
  • Template Cache: Template 模型的输出,也是基础模型 Diffusion Pipeline 的输入,因此其中包含的字段是 Diffusion Pipeline 的输入参数的子集。
  • Template Pipeline: 用于调度多个 Template 模型的模块,该模块负责加载 Template 模型、整合多个 Template 模型的输出。

其中 Template Cache 是最核心的框架概念,我们在其中设计了一些模型能力媒介格式,例如 KV-Cache 等,Template 模型通过 Template Cache 将信息传递给基础模型,对生成内容进行控制。

为了方便开发者快速了解 Diffusion Templates,我们基于 FLUX.2-klein-base-4B,训练了 11 个覆盖多个场景的 Template 模型,并将这些模型一并开源。每个 Template 模型存储在独立的模型仓库中,保证插件与基础框架解耦,同时方便开发者适配。

 

 

目前,Diffusion Templates 框架的代码已在 DiffSynth-Studio 项目下完全开源。

 

本次开源的代码也包含了模型的训练,我们希望通过这个框架,大幅降低可控生成模型的训练门槛,让模型开发者们能够更方便地探索新奇的模型技术,一起构建丰富的开源模型生态,为 AI 技术发展添砖加瓦!

模型一览

以下是本次开源的 11 个 Template 模型,这些模型基于基础模型 FLUX.2-klein-base-4B 训练,能够为这一基础模型提供各种可控生成能力,这些 Template 模型与 FLUX.2-klein-base-4B 的 LoRA 和微调版本也是兼容的。未来我们会基于这一框架提供更多基础模型的 Templates。

1. 亮度调节

模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Brightness

精准控制画面的光照强度,从柔和的晨光到强烈的逆光,随心所欲。

scale = 0.3

 

scale = 0.5

 

scale = 0.7

 

2. 结构控制

模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-ControlNet

类似 ControlNet 的功能,通过输入参考图对生成图像的空间结构、物体轮廓与透视关系进行精准引导,让创作更加可控。

Condition

 

Prompt: A cat is sitting on a stone, bathed in bright sunshine.

 

Prompt: A cat is sitting on a stone, surrounded by colorful magical particles.

 

 

3. 超分辨率

模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Upscaler

将低分辨率图像升级为高清大图,在保持原有构图和语义的基础上,智能重绘并补充丰富的细节纹理。

低清晰度输入

 

高清晰度输出

 

4. 锐利激发

模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Sharpness

提升画面锐利度与清晰度,可与超分辨率模型叠加使用,获得更加清晰的视觉效果。

scale = 0.1

 

scale = 0.8

 

5. 图像编辑

模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Edit

基于自然语言指令,对图像中的特定物体、动作或属性进行精准修改。与主流图像编辑模型不同,本模型采用 KV-Cache 传递输入图像信息,推理速度显著提升。

输入图

 

Prompt: Put a hat on this cat.

 

Prompt: Make the cat turn its head to look to the right.

 

6. 美学对齐

模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Aesthetic

通过调整美学参数,优化图像的美学评分,让生成结果更符合人类审美偏好。

scale = 0

 

scale = 1.0

 

scale = 2.5

 

7. 局部重绘

模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Inpaint

输入原图和遮罩图,仅在遮罩区域内重新生成新内容,实现精准的局部编辑。

原图

 

遮罩图

 

Prompt: An orange cat is sitting on a stone.

 

8. 年龄控制

模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Age

在生成人像时灵活控制人物年龄,从稚嫩孩童到沧桑老者,一键切换。

Age = 20

 

Age = 50

 

Age = 80

 

9. 色调调节

模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-SoftRGB

自由调整画面色调与色彩氛围,营造温暖、冷峻等不同的视觉风格。

Color: #D0B98A

 

Color: #808080

 

Color: #5EA3AE

 

10. 内容参考

模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-ContentRef

参考输入图像的风格、构图等特征,生成具有相似特质的新画面,实现风格迁移与内容复用。

参考图

 

生成图

 

11. 魔性熊猫

模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-PandaMeme

这是一个彩蛋模型,能够生成各种魔性十足的熊猫头表情包。

Prompt: A meme with a happy expression.

 

 

Prompt: A meme with a sleepy expression.

 

 

Prompt: A meme with a surprised expression.

 

 

 

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐