Boogu-Image-0.1 开源：统一图像生成与编辑家族,Turbo 仅 3-4 步生成对标闭源 SOTA

魔搭ModelScope社区

33人浏览 · 2026-06-23 09:42:03

魔搭ModelScope社区 · 2026-06-23 09:42:03 发布

Boogu 团队开源 Boogu-Image-0.1,一个 Apache-2.0 协议下的统一图像生成与编辑模型家族,在同一架构下同时支持文生图、指令式图像编辑以及中英双语文本渲染。家族包含三个变体:Base 面向超密集文本渲染与下游微调,Edit 面向指令式图像编辑与跨风格迁移,Turbo 为蒸馏版本,在与 Base 相同参数量下通常 3-4 步即可完成高质量逼真摄影生成。

在自建的 Boogu Arena 1000+ 提示词 ELO 偏好评测中,Boogu-Image-0.1 在所有参评开源与闭源系统中位列前排;在 Qwen-Image-Bench 上排名所评测开源模型第一。

除模型权重与训练/推理代码外,团队同步上线了魔搭创空间,可直接在线体验 Boogu-Image-0.1-Edit

开源地址：

体验创空间：https://modelscope.cn/studios/Boogu/boogu-image-edit-gradio
模型权重：
https://modelscope.cn/organization/Boogu
开源代码： https://github.com/boogu-project/Boogu-Image
项目主页：https://boogu.org/
Twitter：https://x.com/booguteam

开源模型家族

Boogu-Image-0.1 家族提供覆盖生成、编辑及多场景基础应用的完整模型矩阵,可按需选用。

Boogu-Image-0.1-Base：基础模型，具备强大的多样性和可控性，非常适合微调和下游开发。主要用于超密集文本渲染；若追求逼真摄影效果，Turbo 通常是更好的默认选择。
Boogu-Image-0.1-Edit：图像编辑与变换变体，,支持指令式编辑、跨风格迁移、产品级渲染等任务,在保持原始主体与构图一致的前提下完成编辑。
Boogu-Image-0.1-Turbo：蒸馏变体，参数量相同，通常仅需 3~4 步即可完成生成。专注于高质量生成和逼真摄影效果，同时保留双语文本渲染能力和对提示词的遵循能力。

生图与编辑效果

📸 精美而精准的摄影

Boogu 能精准理解摄影类提示词，生成具有自然光照、协调构图与忠实细节的高质量图像。即使在更复杂的真实场景中，它也能保持主体、背景与空间关系的一致性。Boogu希望文生图不仅做到"正确"，更能产出更具真实感与吸引力的视觉作品。

📝 多样且稳定的文本渲染

Boogu 支持丰富多样的文字密集型视觉设计，从海报、邮票到文档、界面、品牌指南与手写板报。它致力于在不同版式下实现可读的结构、稳定的排版以及健壮的中英双语渲染。

🎨 丰富而优美的风格化

Boogu 能处理多样的风格化生成场景。目标不仅是风格迁移，而是稳定、有吸引力、且对提示词敏感的创意生成。

🖌️ 多功能图像编辑

支持广泛的编辑任务，包括物体插入、替换与移除，属性与材质修改，背景与场景替换，以及跨艺术风格的忠实风格迁移，同时保持原始主体和构图的一致性

✨个性化海报设计与产品渲染

生成个性化的海报布局和干净的产品可视化图像，具备一致的品牌风格、精致的字体排印，以及达到产品级标准的灯光与构图。

✍️ 精准的文本编辑

支持细粒度的图像内文本编辑——可替换、添加或删除中英文字符，并灵活调整字体、字重、颜色和布局，以匹配不同的设计意图。

📊 综合性能领先

在众多场景和基准测试中表现优异，Boogu-Image-0.1 系列模型在 Boogu Arena 的评估中，位列所有开源及闭源系统中的顶尖水平

评测表现

Boogu Arena

基于 LLM 生成的多样用户角色与 1000+ 提示词的 ELO 偏好评测。Boogu-Image-0.1 家族在所有参评的开源与闭源系统中位列前排。

Qwen-Image-Bench：

在该基准上 Boogu-Image-0.1 在所评测的开源模型中排名第一。

图像编辑

在保持文生图质量的同时,Boogu-Image-0.1-Edit 仍具备有竞争力的图像编辑性能,实现统一生成与编辑。

主流开源模型场景细分

基于内部对各类别典型提示的评估,按场景对模型能力进行打分(⭐ 越多越好):

模型	写实摄影	简单文本渲染	密集文本渲染
Boogu-Image-0.1-Turbo	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
Boogu-Image-0.1-Base	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
Z-Image-Turbo	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐
Qwen-Image-2512	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐

结论:

Turbo 在逼真摄影与简单文本渲染上同时表现良好
Base 更适合海报、文档、品牌指南等密集 / 超密集双语文本场景。
任务以密集或超密集文本渲染为主时,推荐使用 Boogu-Image-0.1-Base 并设置 2K 输出分辨率,以获得最佳版式保真度与字符准确性。

本地部署与推理

显存配置参考

不同显存档位下推荐的优化开关组合(T2I 1K / 2K):

显存	1K 推荐配置（T2I ）	2K 推荐配置（T2I）
12GB	非量化：--enable_sequential_cpu_offload_flag量化：--enable_model_cpu_offload_flag --use_fp8_weights	非量化：--enable_sequential_cpu_offload_flag量化：--enable_group_offload_flag --use_fp8_weights
16GB	非量化：--enable_sequential_cpu_offload_flag量化：--enable_model_cpu_offload_flag --use_fp8_weights	非量化：--enable_sequential_cpu_offload_flag量化：--enable_model_cpu_offload_flag --use_fp8_weights
24GB	非量化：--enable_model_cpu_offload_flag量化：--use_fp8_weights	--enable_model_cpu_offload_flag
32GB	非量化：--enable_model_cpu_offload_flag量化：--use_fp8_weights	非量化：--enable_model_cpu_offload_flag量化：--use_fp8_weights
40GB	基础模型	非量化：--enable_model_cpu_offload_flag量化：--use_fp8_weights
80GB	基础模型	基础模型

环境安装

git clone https://github.com/boogu-project/Boogu-Image.git
cd Boogu-Image
bash quick_start.sh
conda activate boogu

模型下载

modelscope download --model Boogu/Boogu-Image-0.1-Edit --local_dir Boogu/Boogu-Image-0.1-Edit

图像编辑（TI2I ）推理：

export device="cuda:0" # Required
mkdir -p outputs/test_ti2i/
python inference.py \
    --pretrained_pipeline_name_or_path "Boogu/Boogu-Image-0.1-Edit" \
    --input_image_paths "input_image_examples/03.jpg" \
    --instruction "Change the style to a colored pencil drawing." \
    --num_inference_steps 50 \
    --height 1024 --width 1024 \
    --text_guidance_scale 5.0 --image_guidance_scale 1.0 \
    --output_image_path "outputs/test_ti2i/out_1.png" \
    --device "$device"

建议将输入图片整体resize到1M pixels ，而不是短边resize到1k，与官方的训练适配。更多推理脚本(文生图、Turbo 少步推理、量化部署等)可在 GitHub 仓库 Boogu-Image 中查看。

模型链接：https://modelscope.ai/organization/Boogu