SDXL-EcomID / README_ZH.md
Ruxue99's picture
Update README_ZH.md
515e4e5 verified
|
raw
history blame
11.1 kB
alibaba alimama
EcomID 旨在从单个ID参考图像生成定制的保ID图像,优势在于很强的语义一致性,同时受人脸关键点控制。

此仓库提供了 EcomID 方法和模型,方法上结合了 PuLIDInstantID 的优点,以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。

EcomID 概述

EcomID 结构

alibaba
  • PuLID 的 IP-Adapter:EcomID 借鉴了 PuLID 的 ID-Encoder 和交叉注意力组件,其使用对齐损失训练而成。 故而该方法有效减少了 ID embedding 对交叉注意力部分的文本 embedding的干扰,最小化对底层模型文本到图像能力的干扰。

  • InstantID 的 IdentityNet 架构:利用 200 万张美观的人像图像数据集,训练了IdentityNet,增强了关键点控制,提高了 ID 一致性和面部真实感。在训练过程中,IP-adapter 被冻结,只有 IdentityNet 被训练。面部Keypoint用作条件输入,同时面部嵌入通过交叉注意力集成到 IdentityNet 中。

展示案例

与其他方法的比较

1、保留文本到图像能力

Prompt 参考图像 EcomID InstantID
女孩,白皮肤,黑头发,长卷发,在欧洲风格的客厅,复古色调,装饰品,景深。 参考图像 EcomID图像 InstantID图像

如上所示,EcomID 保留了背景生成能力,同时最大限度地减少了风格化,从而大大增强了真实感。 如图可见,EcomID的背景语义一致性得到了改善,且在生成真实图像方面格外有优势。

2、改善面部控制和相似度

Prompt 参考图像 EcomID InstantID PuLID
在图书馆前站着的男人的特写肖像,抱着两个微笑的幼儿 参考图像 EcomID图像 InstantID图像 PuLID图像

如上所示,EcomID 使用关键点作为训练的条件输入,允许精确调整面部位置、大小和方向。这种能力确保生成的人像更加可控,同时进一步增强了面部相似性和图像的整体质量。

更多案例

EcomID 提高了人像表现,提供了更真实和美观的外观,同时确保语义一致性和更好的内部 ID 相似性(即,不随年龄、发型、眼镜或其他身体变化而变化的特征)。

Prompt 参考图像 EcomID InstantID PuLID
一个双辫小女孩的特写肖像,穿着白色裙子,傍晚在海滩上。 参考图像 EcomID图像 InstantID图像 PuLID图像
一个非常小的女孩,双辫,带着帽子和白色裙子,傍晚在海滩上。 参考图像 EcomID图像 InstantID图像 PuLID图像
一个满脸胡茬的侦探,戴着帽子,阴影投在他方形的下巴上,嘴里叼着一根香烟,他的风衣唤起了电影黑色风格,在一个阴雨小巷里。 参考图像 EcomID图像 InstantID图像 PuLID图像
一个微笑的女孩,齐刘海和长发,穿着校服,站在樱花树下,手里拿着一本书。 参考图像 EcomID图像 InstantID图像 PuLID图像
一个非常老的女巫,穿着黑色斗篷,戴着尖顶帽,手握魔杖,在雾气缭绕的森林背景下。 参考图像 EcomID图像 InstantID图像 PuLID图像
一个身穿赛博朋克风格的男人:霓虹配件,反光太阳镜,和带有发光电路图案的皮夹克。他在湿润的城市风貌中冷静地站着。 参考图像 EcomID图像 InstantID图像 PuLID图像

更多基础模型、分辨率和风格

SDXL 模型 Prompt 参考图像 EcomID InstantID PuLID
sd-xl-base-1.0 女孩,单独,棕色头发,手里抱着一个小泰迪熊,穿着校服,站在图书馆里,卡通风格 参考图像 EcomID图像 InstantID图像 PuLID图像
EcomXL 一个非常小的女孩的特写肖像,双辫,带着帽子和白色裙子,傍晚在海滩上。 参考图像 EcomID图像 InstantID图像 PuLID图像
DreamShaperXL 单独,面向观众,微笑,棕色头发,上半身,开衫,牙齿,打开的外套,黑色夹克,模糊背景,真实感 参考图像 EcomID图像 InstantID图像 PuLID图像
leosam_xl_v7 一个特写肖像,女孩,单独,裙子,珠宝,海滩和大海,粉色裙子,真实感。 参考图像 EcomID图像 InstantID图像 PuLID图像

注意事项

如何使用

ComfyUI

训练细节

该模型在 200 万张淘宝图像上进行训练,其中人脸比例大于 3%。图像分辨率大于800,且美学评分超过 5.5。

混合精度:fp16

学习率:1e-4

批量大小:2

图像大小:1024x1024