Boogu-Image-0.1 开源:统一图像生成与编辑家族,Turbo 仅 3-4 步生成对标闭源 SOTA

Boogu 团队开源 Boogu-Image-0.1,一个 Apache-2.0 协议下的统一图像生成与编辑模型家族,在同一架构下同时支持文生图、指令式图像编辑以及中英双语文本渲染。家族包含三个变体:Base 面向超密集文本渲染与下游微调,Edit 面向指令式图像编辑与跨风格迁移,Turbo 为蒸馏版本,在与 Base 相同参数量下通常 3-4 步即可完成高质量逼真摄影生成。
在自建的 Boogu Arena 1000+ 提示词 ELO 偏好评测中,Boogu-Image-0.1 在所有参评开源与闭源系统中位列前排;在 Qwen-Image-Bench 上排名所评测开源模型第一。
除模型权重与训练/推理代码外,团队同步上线了魔搭创空间,可直接在线体验 Boogu-Image-0.1-Edit

开源地址:
- 体验创空间:https://modelscope.cn/studios/Boogu/boogu-image-edit-gradio
- 模型权重:
https://modelscope.cn/organization/Boogu - 开源代码: https://github.com/boogu-project/Boogu-Image
- 项目主页:https://boogu.org/
- Twitter:https://x.com/booguteam
开源模型家族
Boogu-Image-0.1 家族提供覆盖生成、编辑及多场景基础应用的完整模型矩阵,可按需选用。
- Boogu-Image-0.1-Base:基础模型,具备强大的多样性和可控性,非常适合微调和下游开发。主要用于超密集文本渲染;若追求逼真摄影效果,Turbo 通常是更好的默认选择。
- Boogu-Image-0.1-Edit:图像编辑与变换变体,,支持指令式编辑、跨风格迁移、产品级渲染等任务,在保持原始主体与构图一致的前提下完成编辑。
- Boogu-Image-0.1-Turbo:蒸馏变体,参数量相同,通常仅需 3~4 步即可完成生成。专注于高质量生成和逼真摄影效果,同时保留双语文本渲染能力和对提示词的遵循能力。

生图与编辑效果
📸 精美而精准的摄影
Boogu 能精准理解摄影类提示词,生成具有自然光照、协调构图与忠实细节的高质量图像。即使在更复杂的真实场景中,它也能保持主体、背景与空间关系的一致性。Boogu希望文生图不仅做到"正确",更能产出更具真实感与吸引力的视觉作品。


📝 多样且稳定的文本渲染
Boogu 支持丰富多样的文字密集型视觉设计,从海报、邮票到文档、界面、品牌指南与手写板报。它致力于在不同版式下实现可读的结构、稳定的排版以及健壮的中英双语渲染。


🎨 丰富而优美的风格化
Boogu 能处理多样的风格化生成场景。目标不仅是风格迁移,而是稳定、有吸引力、且对提示词敏感的创意生成。


🖌️ 多功能图像编辑
支持广泛的编辑任务,包括物体插入、替换与移除,属性与材质修改,背景与场景替换,以及跨艺术风格的忠实风格迁移,同时保持原始主体和构图的一致性

✨个性化海报设计与产品渲染
生成个性化的海报布局和干净的产品可视化图像,具备一致的品牌风格、精致的字体排印,以及达到产品级标准的灯光与构图。

✍️ 精准的文本编辑
支持细粒度的图像内文本编辑——可替换、添加或删除中英文字符,并灵活调整字体、字重、颜色和布局,以匹配不同的设计意图。

📊 综合性能领先
在众多场景和基准测试中表现优异,Boogu-Image-0.1 系列模型在 Boogu Arena 的评估中,位列所有开源及闭源系统中的顶尖水平
评测表现
Boogu Arena
基于 LLM 生成的多样用户角色与 1000+ 提示词的 ELO 偏好评测。Boogu-Image-0.1 家族在所有参评的开源与闭源系统中位列前排。

Qwen-Image-Bench:
在该基准上 Boogu-Image-0.1 在所评测的开源模型中排名第一。


图像编辑
在保持文生图质量的同时,Boogu-Image-0.1-Edit 仍具备有竞争力的图像编辑性能,实现统一生成与编辑。

主流开源模型场景细分
基于内部对各类别典型提示的评估,按场景对模型能力进行打分(⭐ 越多越好):
| 模型 | 写实摄影 | 简单文本渲染 | 密集文本渲染 |
| Boogu-Image-0.1-Turbo | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| Boogu-Image-0.1-Base | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Z-Image-Turbo | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ |
| Qwen-Image-2512 | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
结论:
- Turbo 在逼真摄影与简单文本渲染上同时表现良好
- Base 更适合海报、文档、品牌指南等密集 / 超密集双语文本场景。
- 任务以密集或超密集文本渲染为主时,推荐使用 Boogu-Image-0.1-Base 并设置 2K 输出分辨率,以获得最佳版式保真度与字符准确性。
本地部署与推理
显存配置参考
不同显存档位下推荐的优化开关组合(T2I 1K / 2K):
| 显存 | 1K 推荐配置(T2I ) | 2K 推荐配置(T2I) |
| 12GB | 非量化:--enable_sequential_cpu_offload_flag量化:--enable_model_cpu_offload_flag --use_fp8_weights | 非量化:--enable_sequential_cpu_offload_flag量化:--enable_group_offload_flag --use_fp8_weights |
| 16GB | 非量化:--enable_sequential_cpu_offload_flag量化:--enable_model_cpu_offload_flag --use_fp8_weights | 非量化:--enable_sequential_cpu_offload_flag量化:--enable_model_cpu_offload_flag --use_fp8_weights |
| 24GB | 非量化:--enable_model_cpu_offload_flag量化:--use_fp8_weights | --enable_model_cpu_offload_flag |
| 32GB | 非量化:--enable_model_cpu_offload_flag量化:--use_fp8_weights | 非量化:--enable_model_cpu_offload_flag量化:--use_fp8_weights |
| 40GB | 基础模型 | 非量化:--enable_model_cpu_offload_flag量化:--use_fp8_weights |
| 80GB | 基础模型 | 基础模型 |
环境安装
git clone https://github.com/boogu-project/Boogu-Image.git
cd Boogu-Image
bash quick_start.sh
conda activate boogu
模型下载
modelscope download --model Boogu/Boogu-Image-0.1-Edit --local_dir Boogu/Boogu-Image-0.1-Edit
图像编辑(TI2I )推理:
export device="cuda:0" # Required
mkdir -p outputs/test_ti2i/
python inference.py \
--pretrained_pipeline_name_or_path "Boogu/Boogu-Image-0.1-Edit" \
--input_image_paths "input_image_examples/03.jpg" \
--instruction "Change the style to a colored pencil drawing." \
--num_inference_steps 50 \
--height 1024 --width 1024 \
--text_guidance_scale 5.0 --image_guidance_scale 1.0 \
--output_image_path "outputs/test_ti2i/out_1.png" \
--device "$device"
建议将输入图片整体resize到1M pixels ,而不是短边resize到1k,与官方的训练适配。更多推理脚本(文生图、Turbo 少步推理、量化部署等)可在 GitHub 仓库 Boogu-Image 中查看。
模型链接:https://modelscope.ai/organization/Boogu
更多推荐




所有评论(0)