经过一段时间的打磨,腾讯混元带来了最新的生图模型“混元图像2.1(HunyuanImage 2.1)”!

这是一个开源的文生图模型,支持原生2K生图,在多个方面达到业界领先水平:

01

01.在2.0架构的基础上全面升级,更加注重生成效果与性能之间的平衡,性能更强

0

02.不仅支持中英文的原生输入,还能够实现中英文文本与复杂语义的高质量生成

03

03.生成图片的整体美学表现和适用场景的多样性方面都有了显著提升

 

这意味着,设计师、插画师等视觉创作者能够更加高效、便捷地将自己的创意转化为画面。无论是生成高保真的创意插画,还是制作包含中英文宣传语的海报和包装设计,亦或是复杂的四格漫画与连环画,混元图像2.1都能为创作者提供快速、高质量的支持。
 

作为一款开源模型, 混元图像2.1能够灵活适配社区多样化的衍生需求,模型权重和代码已在Hugging Face、GitHub、ModelScope等开源社区正式发布,个人和企业开发者均可基于这一基础模型开展研究,或开发各类衍生模型与插件。
 

另外,一个提前打听到的消息:混元原生多模态图像生成模型,也在路上了。


 

先看看混元图像2.1都有什么东西。

得益于更大规模的图文对齐数据集,混元图像2.1在复杂语义理解和跨领域泛化能力上有了显著提升,它支持最长达1000个tokens的提示词,可精准生成场景细节、人物表情和动作,实现多物体的分别描述与控制。

此外,混元图像2.1还能够对图像中的文字进行精细控制,使文字信息与画面自然融合。

 

新升级模型,有几个亮点:


1、模型对复杂语义理解能力强,支持多主体分别描述与精确生成

我们可以直接让模型生成一个具有连环画故事效果的图片:
 

提示词

八幅游戏漫画风格插图,排列成两行,每行四幅。第一行,从左到右:第一幅,在浅黄色背景上,中央用圆润的艺术字体写着标题"小喵的一天"。第二幅,一只橘白相间的小猫咪在温暖的毯子上打哈欠伸懒腰,眼睛半眯着。第三幅,小猫咪坐在地上,正专心致志地舔舐自己的前爪。第四幅,小猫咪在一个碗里享用鱼干零食,嘴里嚼得津津有味。第二行,从左到右:第五幅,小猫咪正在玩一个红色的毛线球。第六幅,小猫咪正在努力爬上一棵大树的树干。第七幅,小猫咪在草地上追逐一只黄色的蝴蝶。第八幅,小猫咪回到毯子上,准备蜷缩成一团睡觉。清晰的线条,扁平化的色彩。

提示词

一幅由四个画格组成的卡通漫画,以2x2的网格形式排列,讲述了一只变色龙的难题。

左上角第一格:一只卡通风格的变色龙趴在一片宽大的、呈翠绿色的植物叶子上。它的皮肤是与叶片完全相同的绿色,并带有浅绿色的纹理细节,实现了完美的伪装,几乎与背景融为一体。变色龙的大眼睛好奇地转动着,身体姿态放松,场景背景是模糊的绿色丛林。

 

右上角第二格:同一只变色龙正从叶子边缘爬到一根粗糙的、呈深棕色的树枝上。它的身体颜色已经完全转变为与树枝一致的深棕色,皮肤表面模仿出树皮的纹理。它的头部微微抬起,嘴角上扬,眼神中流露出自豪和得意的神情。

 

左下角第三格:这只变色龙自信地走到一片铺在草地上的野餐布前。它的一只前爪已经踏上了野餐布,野餐布是由红白相间的方格图案构成。此时变色龙的身体仍然保持着棕色,它正准备完全走上这块图案复杂的布料,表情显得充满期待。
 

右下角第四格:变色龙完全站在了红白格子野餐布的中央。它的颜色系统出现了故障,身体表面在多种颜色和图案之间混乱地快速闪烁,包括霓虹粉的斑点、电光蓝的条纹和像素化的色块,完全无法匹配背景的格子图案。它的眼睛睁得滚圆,嘴巴大张呈惊恐的O形,身体周围出现了表示慌乱的动态线条和汗珠。

 

这组图像整体呈现出线条清晰、色彩鲜明的四格漫画作品风格。

提示词

创意交通信号灯,灯罩内从上到下分别是:顶部一个方形红色机器人(双臂交叉,表情严肃)、中间一个圆形黄色机器人(旋转天线,疑惑表情)、底部一个三角形绿色机器人(双臂上举,欢呼表情),取代传统信号灯。信号灯带有铆钉装饰的深灰色金属灯杆和结构。背景是清澈的蓝天和蓬松的白云。整体场景明亮欢快,具有卡通、俏皮的风格,玩具机器人风格,金属质感,关节分明。

是的,看完上面的case,我也觉得可以生成自己的绘本了。

2、模型对图像中的文字和场景细节的把控更为稳定

提示词

A wildlife poster design for the Serengeti plains features a central illustration of a chibi-style explorer riding a lion cub, set against a backdrop of rolling hills. At the top of the composition, the title "Serengeti: Roar of Adventure" is displayed in a large, whimsical font with decorative, swirling letters. The main scene depicts a wide-eyed chibi explorer, characterized by a large head and a small body, sitting atop a friendly lion cub. The explorer wears a green explorer's hat, a backpack, and holds onto the cub's mane, looking forward with a look of wonder. The lion cub, with a light brown mane and a smiling expression, strides forward, its body rendered in warm orange tones. In the background, the Serengeti plains are illustrated with rolling hills and savanna grass, all in shades of warm yellow and soft brown. Below the main illustration, the tagline "Where Dreams Run Wild" is written in a smaller, elegant script. The overall presentation is that of a poster design, combining a cute chibi illustration style with playful, whimsical typography.

提示词

A hyper-realistic photograph of a glass cube diorama on a lush, mossy forest floor, illuminated by dappled sunlight. Inside the transparent cube, an intricate landscape of miniature, highly detailed landmarks and cultural icons from China are meticulously arranged. This includes both traditional and modern architecture, such as the Great Wall winding across a terrain, a classic pagoda, and the sleek form of the Oriental Pearl Tower, all surrounded by miniature greenery. At the base of the diorama, the 3D word "China" is prominently displayed in large, bold, white block letters. The background forest is softly blurred, creating a bokeh effect that directs attention to the sharp details of the diorama. The overall look is crisp, elegant, and immersive, with a shallow depth of field.

3、模型支持风格丰富,如真人、漫画与搪胶手办等,并具备较高美感

提示词

一幅画面描绘了一只黑色的猫正骑着一把扫帚在天空中飞行,下方是广阔的草原。画面中央是一只胖乎乎的黑色猫咪,它戴着一顶高高的、尖顶的深紫色巫师帽,帽子上装饰有金色纹路。猫的双眼呈黄色,面部表情专注,它紧紧抓住扫帚杆,四肢张开以保持平衡。它骑着一把由木制长柄和干草捆扎而成的扫帚,扫帚的尾部拖着动态模糊。在猫和扫帚的下方,是连绵起伏的绿色草原,草原上可以看到小丘和零星的野花。天空是淡蓝色的,漂浮着几朵白云,飞行轨迹周围有速度线。整体画面呈现出明显的吉卜力动画电影风格,具有温暖的色调、流畅的线条和丰富的细节。这张图片是典型的吉卜力工作室动画风格的数字插画作品。

更多效果,如动漫、游戏画面:

提示词

一只Q版拟人的小考拉,穿着T恤和短裤,骑着一辆小单车在城市街头,背景虚化成街头摄影的质感。

提示词

一幅超现实主义风格的悟空手办,人物漂浮在半空,身体部分化为液态银色金属,眼神锐利,手拿着金箍棒,背景是一条巨龙在云雾中盘旋,鳞片闪烁光芒,场景充满力量感,空中有闪电。
 

混元图像2.1模型不仅采用了海量训练数据,还利用结构化、不同长度、内容多样的caption,极大提升了对文本描述的理解能力。在caption模型中,引入了OCR和IP RAG专家模型,有效增强了对复杂文字识别和世界知识的响应能力。

 

为大幅降低计算量、提升训练和推理效率,模型采用了32倍超高压缩倍率的VAE, 并使用dinov2对齐和repa loss来降低训练难度。因此,模型能高效原生生成2K图

 

在文本编码方面,混元图像2.1配备了双文本编码器:一个MLLM模块用于进一步提升图文对齐能力,另一个ByT5模型则增强了文字生成表现力。整体架构为17B参数的单/双流DiT模型。

此外,混元图像2.1还在17B参数量级的模型上解决了平均流模型(meanflow)的训练稳定性问题,将模型推理步数由100步蒸馏到8 步,显著提升推理速度的同时保证了模型原有的效果。

本次,混元还带来了一个开源的混元文本改写模型(PromptEnhancer)——这是业内首个系统化、工业级的中英文改写模型,能够对用户的文本指令进行结构化优化,丰富视觉表达,使改写后的文本生成图像的语义表现得到大幅提升。

腾讯混元在图像生成领域持续深耕,曾发布首个开源的中文原生DiT架构图像大模型——混元DiT,以及业界首个商用级实时生图模型——混元图像2.0。此次推出的原生2K模型混元图像2.1则在效果与性能之间实现了更好的平衡,能够满足用户和企业在多样化视觉场景下的多种需求。

同时,腾讯混元坚定拥抱开源,陆续开放了多种尺寸语言模型,图像、视频、3D等完整多模态生成能力和工具集插件,提供接近商业模型性能的开源基座。图像、视频衍生模型数量总数达到3000个,混元3D系列模型社区下载量超过230万,已成为全球最受欢迎的3D开源模型。

【相关链接】

  • 腾讯混元官网:https://hunyuan.tencent.com/image
  • Github:https://github.com/Tencent-Hunyuan/HunyuanImage-2.1
  • ModelScope:https://modelscope.cn/models/Tencent-Hunyuan/HunyuanImage-2.1
     

点击链接,直达模型链接~

https://modelscope.cn/models/Tencent-Hunyuan/HunyuanImage-2.1

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐