Face-to-Photo 模型开源！联名麦橘MERJIC，遇见另一个你！

魔搭ModelScope社区

183人浏览 · 2025-10-17 18:34:32

魔搭ModelScope社区 · 2025-10-17 18:34:32 发布

魔搭DiffSynth-Studio 团队携手知名创作者麦橘MERJIC，正式开源全新 AI 图像生成模型——Face-to-Photo！该模型基于 Qwen-Image-Edit，采用 LoRA 的模型结构，专为人脸图像生成而优化，将一张普通的人脸照片转化为质感精美的高质量图像。这个模型目前已经可以在魔搭 AIGC 专区直接体验。

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Qwen-Image-Edit-F2P

在线体验：ModelScope 魔搭社区

模型介绍

Face-to-Photo 模型的核心优势在于其对原始人脸特征的极致还原能力。不同于以往如 InfiniteYou 等人脸保持模型，Face-to-Photo 能够精准捕捉并忠实复现输入图像中的面部细节。无论人脸位于画面中央还是边缘，无论角度、大小或姿态如何变化，模型都能在保留面部特征的同时，生成自然、美观的图像。

这个 LoRA 模型让我们看到了 Qwen-Image-Edit 模型的更多潜力，训练一个小小的 LoRA 就可以赋予模型更多能力。

效果展示

让我们来一起看看模型生成的美美照片吧！

提示词：杰作, 最高品质, 真实照片, 一位温柔的年轻女性, 侧身轻轻拂过薰衣草花穗, 她穿着一件简约的白色棉麻连衣裙, 戴着一顶草编帽, 身处傍晚时分的普罗旺斯薰衣草田, 背景是无尽的紫色花海和远处的田园农舍。

提示词：杰作, 最高品质, 真实照片, 一位穿着夏日连衣裙的年轻女性, 悠闲地坐在剑桥康河的平底船上, 背景是古老的学院建筑和岸边的垂柳, 夏日午后阳光明媚, 氛围宁静惬意。

提示词：杰作, 最高品质, 电影感街拍, 一位年轻女性, 坐在一家挂满鲜花的伦敦传统酒吧外, 背景是温暖的灯光和古老的木质门窗, 夜晚氛围温馨而有生活气息, 焦外光斑。

提示词：杰作, 最高品质, 专业摄影, 一位美丽的年轻女性, 单人, 温柔的微笑, 走在深秋公园铺满落叶的小径上, 穿着卡其色风衣和温暖的围巾, 背景是金黄色的枫树林, 动态抓拍, 长焦镜头, 背景虚化, 电影感, 高细节。

提示词：杰作, 最高品质, 室内生活摄影, 真实照片, 一位穿着宽松米色羊绒衫的年轻女性, 舒适地坐在洒满阳光的飘窗上, 手里捧着一本杂志, 窗外的绿植和柔和的光线构成了她的背景, 氛围宁静、温暖而慵懒。

推理代码

安装 DiffSynth-Studio：

git clone https://github.com/modelscope/DiffSynth-Studio.git  
cd DiffSynth-Studio
pip install -e .

推理代码：

from diffsynth.pipelines.qwen_image import QwenImagePipeline, ModelConfig
import torch
from PIL import Image

pipe = QwenImagePipeline.from_pretrained(
    torch_dtype=torch.bfloat16,
    device="cuda",
    model_configs=[
        ModelConfig(model_id="Qwen/Qwen-Image-Edit", origin_file_pattern="transformer/diffusion_pytorch_model*.safetensors"),
        ModelConfig(model_id="Qwen/Qwen-Image", origin_file_pattern="text_encoder/model*.safetensors"),
        ModelConfig(model_id="Qwen/Qwen-Image", origin_file_pattern="vae/diffusion_pytorch_model.safetensors"),
    ],
    tokenizer_config=None,
    processor_config=ModelConfig(model_id="Qwen/Qwen-Image-Edit", origin_file_pattern="processor/"),
)
pipe.load_lora(pipe.dit, lora_config=ModelConfig(model_id="DiffSynth-Studio/Qwen-Image-Edit-F2P", origin_file_pattern="model.safetensors"))

face_image = Image.open("face_image.png").convert("RGB")
image = pipe(
    prompt="摄影。一个年轻女性穿着黄色连衣裙，站在花田中，背景是五颜六色的花朵和绿色的草地。",
    negative_prompt="将人物的手指改为残缺的、扭曲的，放大头部使其头身比异常，把人物变成身材矮小的大头娃娃，生成刺眼的阳光，让整个画面色彩变得过饱和，把双腿扭曲成X型腿或O型腿",
    edit_image=face_image,
    seed=0,
    num_inference_steps=40,
    height=1152, width=864,
)
image.save("image.jpg")

此外，我们还提供了以下代码，以便从人像照片中裁剪出人脸部分，作为本模型的输入：

from modelscope import snapshot_download
from insightface.app import FaceAnalysis
from PIL import Image
import numpy as np
import cv2

def initialize_face_detector():
    snapshot_download("ByteDance/InfiniteYou", allow_file_pattern="supports/insightface/*", cache_dir="models")
    face_detector = FaceAnalysis(name='antelopev2', root="models/ByteDance/InfiniteYou/supports/insightface")
    face_detector.prepare(ctx_id=0, det_size=(640, 640))
    return face_detector

def crop_face(face_detector, image):
    face_info = face_detector.get(cv2.cvtColor(np.array(image), cv2.COLOR_RGB2BGR))
    bbox = sorted(face_info, key=lambda x: (x['bbox'][2] - x['bbox'][0]) * (x['bbox'][3] - x['bbox'][1]))[-1]['bbox']
    face_image = image.crop(list(map(int, bbox)))
    return face_image

face_detector = initialize_face_detector()
image = Image.open("photo.jpg")
crop_face(face_detector, image).save("face.jpg")