首个2步LoRA！2步实现Qwen-Image-2512高质量图片生成

魔搭ModelScope社区

25人浏览 · 2026-02-03 10:48:43

魔搭ModelScope社区 · 2026-02-03 10:48:43 发布

生一张图要多久？一分钟？30秒？

阿里巴巴智能引擎团队给出的答案是：眨眼之间。

当前的扩散生成模型往往需要 40~50 步迭代，若考虑 CFG（Classifier-Free Guidance），则等效于 80~100 步前向计算。这意味着用户需要经历漫长的等待，服务器也背负着高昂的推理成本。以 Qwen-Image 为例，单张图片生成往往需要近一分钟。

阿里智能引擎提出一个全新方案：针对 Qwen 最新开源模型，成功将 SOTA 压缩水平推进到了 2 步（Step）。在保证极具竞争力的生成效果前提下，实现了 40 倍的惊人加速。用户等待 5 秒左右即可生成 4 张 2k 分辨率的图片

AIGC专区免费体验

（地址：https://modelscope.cn/aigc/imageGeneration）

呜哩 AI 平台免费体验（限时）

（地址：https://www.wuli.art）

ComfyUI的官方Qwen-Image-2512工作流也支持推理

开源地址：

HuggingFace：https://huggingface.co/Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-Steps

ModelScope：Qwen-Image-2512-Turbo-LoRA-2-Steps

工业落地级蒸馏方案深度拆解

从样本空间到概率空间，Reverse-KL实现蒸馏细节保留

传统轨迹蒸馏的“细节困境”

早期的蒸馏方案[1,2]，往往可以被归纳为轨迹蒸馏（Trajectory Distillation）。具体的，其本身主要思想是希望蒸馏后模型（student model）能够模仿原模型（teacher model）在多步生成的路径：

Progressive Distillation：student model需要直接对齐teacher model多次迭代后的输出；
Consistency Distillation：student需要保证在teacher model的去噪轨迹上，输出相同的结果。

但这类方法在实践中很难在低迭代步数下实现高质量生成，最突出的问题是生成图像模糊，这一现象在近期研究[3]中也得到验证：

问题根源在于约束方式：轨迹蒸馏直接对student model的生成样本 xstudentx_{student} 做约束，使其在特定距离度量下对齐teacher预测出的高质量输出x_{teacher}，具体可以表达为

Loss=f(xstudent,xteacher)Loss = f(x_{student}, x_{teacher})

其中f(\cdot)是特定的距离函数， xteacherx_{teacher} 是teacher经过多次去噪以后得到的输出。可以看出，这一loss这种Loss对所有图像patch一视同仁，对于一些特别细节的部分（如文字，人物五官）因占比低而学习不充分，student模型的细节常出现明显扭曲。

从样本空间到概率空间，直接降低缺陷样本生成概率

近期，基于概率空间的蒸馏方案在较少步数场景（4~8步）获得了巨大的成功，基本解决上述的细节丢失的问题。其中最有影响力的工作之一是DMD2算法，这里具体的算法方案可以参考原论文[4]。DMD2将约束从样本空间转换到了概率空间，其Loss设计为：

Loss=∫x0pstudent(x0)log⁡pstudent(x0)pteacher(x0)dx0=Ex0∼pstudent(x0)∫x0log⁡pstudent(x0)pteacher(x0)dx0.Loss =\int_{x_0} p_{student}(x_0)\log \frac{p_{student}(x_0)}{p_{teacher}(x_0)} dx_0 = \mathbb E_{x_0\sim p_{student}(x_0)} \int_{x_0} \log \frac{p_{student}(x_0)}{p_{teacher}(x_0)} dx_0.

这是典型的Reverse-KL的蒸馏Loss，其本身有一个显著的特性：

当 pteacher(x0)→0p_{teacher}(x_0)\to 0 ，如果 pstudent(x0)>0p_{student}(x_0) > 0 ，那就会有 Loss→+∞Loss \to +\infty 。

这意味着：对于student model生成的每一张图片 x0x_0 ，如果它不符合真实图片分布（ pteacher(x0)→0p_{teacher}(x_0)\to 0 ），就会导致Loss爆炸。

因此，DMD2这类算法的本质思想是：不直接告诉student“应该模仿什么”，而是让student自己生成图片，然后让teacher model指导“哪里不对”。这种Reverse-KL Loss的设计可以显著提升生成图片的细节性和合理性，已经成为当下扩散步数蒸馏的主要策略。

热启动缓解分布退化

尽管Reverse-KL可以显著降低不合理样本的生成概率，其本身也存在严重的mode-collapse和分布过于锐化的问题[5]。具体表现在多样性降低，饱和度增加，形体增加等问题。这些问题在2步蒸馏的设定下变得尤为突出。为了缓解分布退化问题，常见做法是给模型一个更合理的初始化[6]。在这里我们使用PCM[7]蒸馏进行模型热启动。实验表明，热启动后的模型的形体扭曲问题得到明显改善。

对抗学习引入真实数据先验

如上文所述，DMD2本质上是“学生生成—>教师指导”，蒸馏过程不依赖真实数据，这种做法有优有劣：

✅ 优势：极大提升方案普适性（高质量真实数据难获取）；
⚠️ 局限：设定了天然上限——student永远学习teacher的生成分布，无法超越teacher。

同时由于loss设计的问题，DMD2蒸馏在高质量细节纹理（如苔藓、动物毛发等）上生成的效果往往差强人意，如下图所示。

为了增强2步student model在细节上的表现能力，我们引入了对抗学习（GAN）来进一步提升监督效果。GAN的Loss可以拆解为：

生成Loss（让生成图骗过判别器）：Lossgen(x0)=log⁡D(x0)Loss_{gen}(x_0) = \log D(x_0)

判别Loss（区分真假图）： Lossdis(x0)=log⁡D(xreal)−log⁡D(x0)Loss_{dis}(x_0) =\log D(x_{real}) -\log D(x_0)

这里 x0x_0 是student生成的图片， xrealx_{real} 是训练集中引入的真实数据， D(⋅)D(\cdot) 是判别器根据输入样本判断其为真实数据的概率。简单来说，对抗训练一方面需要判别器尽可能判定student model生成的图片为假，另一方面有需要student model尽可能的欺骗判别器。为了提升对抗训练的稳定性和效果，我们做了如下改进：

真实数据混合策略：按固定比例混合高质量真实数据和teacher生成图，提升泛化度和训练稳定性；
特征提取器引入：使用额外的DINO模型作为feature extractor，提供更鲁棒的特征表示；
Loss权重调整：增加对抗训练在loss中的占比。

经实验验证，增加对抗训练后，student model的画面质感和细节表现显著提升：

从应用效果出发，细节决定成败

极少步数扩散生成一直是一个重要的方向，然而，单一算法方案受限于其本身的原理设计，往往存在一些不尽如人意的问题。团队正是从落地效果出发，逐个发现并分析蒸馏带来的效果问题（如扭曲、纹理确实）并针对性解决，才能使得最后的2步生成模型达到工业场景可落地的水准。

然而，尽管在大多数场景下Wuli-Qwen-Image-Turbo能够和原模型比肩，在一些复杂场景下，受限于去噪步数，仍存在可改进空间。团队在后续的release中将会持续发布速度更快、效果更好的生成模型。

持续迭代，拥抱开源

接下来，团队将持续推出并迭代更多扩散加速技术，并开源模型权重，期待与开源社区共同成长。我们的所有技术都会同步在呜哩AI平台上线，无论你是专业设计师、内容创作者，还是AI爱好者，呜哩都能让你的创意即刻成像。

团队介绍：阿里巴巴智能引擎，是阿里 AI 工程系统的建设者与维护者。团队聚焦于大模型全链路工程能力建设，持续优化研发范式，专注大模型训推性能优化、引擎平台、Agent 应用平台等关键组件，为集团各业务提供高效稳定的 AI 工程基础设施。团队坚持开放共享的技术文化，贡献了Havenask、RTP-LLM、DiffSynth-Engine、XDL、Euler、ROLL 等优秀开源项目，与行业共赢共进。