Boogu 团队开源 Boogu-Image-0.1,一个 Apache-2.0 协议下的统一图像生成与编辑模型家族,在同一架构下同时支持文生图、指令式图像编辑以及中英双语文本渲染。家族包含三个变体:Base 面向超密集文本渲染与下游微调,Edit 面向指令式图像编辑与跨风格迁移,Turbo 为蒸馏版本,在与 Base 相同参数量下通常 3-4 步即可完成高质量逼真摄影生成。

在自建的 Boogu Arena 1000+ 提示词 ELO 偏好评测中,Boogu-Image-0.1 在所有参评开源与闭源系统中位列前排;在 Qwen-Image-Bench 上排名所评测开源模型第一。

除模型权重与训练/推理代码外,团队同步上线了魔搭创空间,可直接在线体验 Boogu-Image-0.1-Edit

 

开源地址:

  • 体验创空间:https://modelscope.cn/studios/Boogu/boogu-image-edit-gradio
  • 模型权重:
    https://modelscope.cn/organization/Boogu
  • 开源代码: https://github.com/boogu-project/Boogu-Image
  • 项目主页:https://boogu.org/
  • Twitter:https://x.com/booguteam

开源模型家族

Boogu-Image-0.1 家族提供覆盖生成、编辑及多场景基础应用的完整模型矩阵,可按需选用。

  • Boogu-Image-0.1-Base:基础模型,具备强大的多样性和可控性,非常适合微调和下游开发。主要用于超密集文本渲染;若追求逼真摄影效果,Turbo 通常是更好的默认选择。
  • Boogu-Image-0.1-Edit:图像编辑与变换变体,,支持指令式编辑、跨风格迁移、产品级渲染等任务,在保持原始主体与构图一致的前提下完成编辑。
  • Boogu-Image-0.1-Turbo:蒸馏变体,参数量相同,通常仅需 3~4 步即可完成生成。专注于高质量生成和逼真摄影效果,同时保留双语文本渲染能力和对提示词的遵循能力。

 

生图与编辑效果

📸 精美而精准的摄影

Boogu 能精准理解摄影类提示词,生成具有自然光照、协调构图与忠实细节的高质量图像。即使在更复杂的真实场景中,它也能保持主体、背景与空间关系的一致性。Boogu希望文生图不仅做到"正确",更能产出更具真实感与吸引力的视觉作品。

 

 

📝 多样且稳定的文本渲染

Boogu 支持丰富多样的文字密集型视觉设计,从海报、邮票到文档、界面、品牌指南与手写板报。它致力于在不同版式下实现可读的结构、稳定的排版以及健壮的中英双语渲染。

 

 

 

🎨 丰富而优美的风格化

Boogu 能处理多样的风格化生成场景。目标不仅是风格迁移,而是稳定、有吸引力、且对提示词敏感的创意生成。

 

 

 

🖌️ 多功能图像编辑

支持广泛的编辑任务,包括物体插入、替换与移除,属性与材质修改,背景与场景替换,以及跨艺术风格的忠实风格迁移,同时保持原始主体和构图的一致性

 

个性化海报设计与产品渲染

生成个性化的海报布局和干净的产品可视化图像,具备一致的品牌风格、精致的字体排印,以及达到产品级标准的灯光与构图。

 

✍️ 精准的文本编辑

支持细粒度的图像内文本编辑——可替换、添加或删除中英文字符,并灵活调整字体、字重、颜色和布局,以匹配不同的设计意图。

 

 

📊 综合性能领先

在众多场景和基准测试中表现优异,Boogu-Image-0.1 系列模型在 Boogu Arena 的评估中,位列所有开源及闭源系统中的顶尖水平

 

评测表现

Boogu Arena

基于 LLM 生成的多样用户角色与 1000+ 提示词的 ELO 偏好评测。Boogu-Image-0.1 家族在所有参评的开源与闭源系统中位列前排。

 

Qwen-Image-Bench:

在该基准上 Boogu-Image-0.1 在所评测的开源模型中排名第一

 

 

图像编辑

在保持文生图质量的同时,Boogu-Image-0.1-Edit 仍具备有竞争力的图像编辑性能,实现统一生成与编辑。

 

主流开源模型场景细分

基于内部对各类别典型提示的评估,按场景对模型能力进行打分(⭐ 越多越好):

模型 写实摄影 简单文本渲染 密集文本渲染
Boogu-Image-0.1-Turbo ⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐
Boogu-Image-0.1-Base ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐
Z-Image-Turbo ⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐
Qwen-Image-2512 ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐

 

结论:

  • Turbo 在逼真摄影与简单文本渲染上同时表现良好
  • Base 更适合海报、文档、品牌指南等密集 / 超密集双语文本场景。
  • 任务以密集或超密集文本渲染为主时,推荐使用 Boogu-Image-0.1-Base 并设置 2K 输出分辨率,以获得最佳版式保真度与字符准确性。

本地部署与推理

显存配置参考

不同显存档位下推荐的优化开关组合(T2I 1K / 2K):

显存 1K 推荐配置(T2I ) 2K 推荐配置(T2I)
12GB 非量化:--enable_sequential_cpu_offload_flag量化:--enable_model_cpu_offload_flag --use_fp8_weights 非量化:--enable_sequential_cpu_offload_flag量化:--enable_group_offload_flag --use_fp8_weights
16GB 非量化:--enable_sequential_cpu_offload_flag量化:--enable_model_cpu_offload_flag --use_fp8_weights 非量化:--enable_sequential_cpu_offload_flag量化:--enable_model_cpu_offload_flag --use_fp8_weights
24GB 非量化:--enable_model_cpu_offload_flag量化:--use_fp8_weights --enable_model_cpu_offload_flag
32GB 非量化:--enable_model_cpu_offload_flag量化:--use_fp8_weights 非量化:--enable_model_cpu_offload_flag量化:--use_fp8_weights
40GB 基础模型 非量化:--enable_model_cpu_offload_flag量化:--use_fp8_weights
80GB 基础模型 基础模型

 

环境安装

git clone https://github.com/boogu-project/Boogu-Image.git
cd Boogu-Image
bash quick_start.sh
conda activate boogu

 

模型下载

modelscope download --model Boogu/Boogu-Image-0.1-Edit --local_dir Boogu/Boogu-Image-0.1-Edit

 

图像编辑(TI2I )推理

export device="cuda:0" # Required
mkdir -p outputs/test_ti2i/
python inference.py \
    --pretrained_pipeline_name_or_path "Boogu/Boogu-Image-0.1-Edit" \
    --input_image_paths "input_image_examples/03.jpg" \
    --instruction "Change the style to a colored pencil drawing." \
    --num_inference_steps 50 \
    --height 1024 --width 1024 \
    --text_guidance_scale 5.0 --image_guidance_scale 1.0 \
    --output_image_path "outputs/test_ti2i/out_1.png" \
    --device "$device"

建议将输入图片整体resize到1M pixels ,而不是短边resize到1k,与官方的训练适配。更多推理脚本(文生图、Turbo 少步推理、量化部署等)可在 GitHub 仓库 Boogu-Image 中查看。

模型链接:https://modelscope.ai/organization/Boogu

 

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐