开云体育磋商者用SigLIP替代 CLIP-开云(中国)kaiyun体育网址-登录入口
GPT-4o 带火的漫画风扮装生成,当今有了开源版啦!
腾讯混元联袂 InstantX 团队相助突破次元壁,开源定制化扮装生成插件—— InstantCharacter。

以往针对扮装启动的图像生成智商,都存在一定的劣势。
举例,基于适配器的决策天然基本已毕主体一致和文本可控,但在泛化性、姿势变化和作风移动的绽放域扮装方面仍然存在艰辛。基于微调则需对模子进行重新磨真金不怕火,从而花费过长的技术。更无用说,用度上流的推理技术的微调。
而当今这个插件基于DiTs(Diffusion Transformers),能在保证推理后果和文本可裁剪性的同期,竣工已毕扮装个性化创作。

那么一说念望望它具体是若何已毕的?
智商先容
当代 DiTs 与传统的 UNet 架构比较,展现出前所未有的保真度和容量,为生成和裁剪任务提供了更深广的基础。基于此,InstantCharacter 延迟了 DiT,从而用于强泛化性和高保真是扮装启动图像生成。

InstantCharacter 的架构围绕两个要津鼎新伸开:
1.可延迟适配器 :开发了一个可延迟的适配器模块,有用领略扮装特征并与 DiTs 潜在空间无缝交互。
2.渐进磨真金不怕火计谋:策画了一个渐进式三阶段磨真金不怕火计谋,以妥当网罗的多功能数据集,使扮装一致性和文本可裁剪性的分开磨真金不怕火成为可能。
可延迟的适配器策画
传统的定制适配器,举例 IPAdapter 或 ReferenceNet,在 DiT 架构中往往失效,因为它们是专为基于 U-Net 的模子策画的,短缺可延迟性。
为了更好地妥当 DiT 模子,磋商员淡薄了一种可延迟的full-transformer 适配器,它算作扮装图像与基础模子潜在生成空间之间的要津联结,通过增多层深度和避讳特征尺寸已毕可延迟性。
该适配器由三个编码器块构成:
1.通用视觉编码器:
领先诈欺预磨真金不怕火的大型视觉基础编码器来提真金不怕火通用扮装特征,从它们的绽放域识别智力中受益。
曩昔的智商时常依赖于 CLIP,因为它对都了视觉和文本特征。可是,天然 CLIP 概况捕捉详细的语义信息,但它往往会丢失对保管扮装一致性至关进攻的注目纹理信息。为此,磋商者用SigLIP替代 CLIP,SigLIP 在捕捉更细粒度的扮装信息方面进展出色。
此外,引入DINOv2算作另一个图像编码器来增强特征的持重性,减少配景或其他骚扰身分导致的特征耗费。
临了,通过在通说念维度的拼接整合 DINOv2 和 SigLIP 特征,从而取得更全面的绽放域扮装示意。
2.中间编码器:
由于 SigLIP 和 DINOv2 是在相对较低的 384 分辨率下预磨真金不怕火和推理的,在处理高分辨率扮装图像时,通用视觉编码器的原始输出可能会丢失细粒度特征。为了缓解这个问题,经受双流特征会通计谋分辩探索初级特征(low-level features)和区域级特征(region-level features)。
领先,径直从通用视觉编码器的浅层提真金不怕火low-level features,捕捉在更高级次中往往丢失的细节。
其次,将参考图像分割成多个不重复的区块,并将每个区块输入视觉编码器以获取region-level features。
然后,这两种不同的特征畅达过专用的中间 transformer 编码器进行分层整合。具体来说,每个特征旅途都由颓败的 transformer 编码器单独处理,以与高级语义特征整合。随后,来自两个旅途的精湛特征沿着 token 维度联结,从而开拓一个全面的会通示意,捕捉多档次的互补信息。
3.投影头:
临了,精湛的扮装特征通过投影头投射到去噪历程,并与潜在噪声交互。通过技术步感知的Q-former已毕这少量,它将中间编码器输出算作键值对处理,同期通过介意力机制动态更新一组可学习的查询向量。移动后的查询特征随后通过可学习的交叉介意力层注入去噪空间。最终,适配器不错已毕强身份保合手和复短文本启动的天真妥当。
磨真金不怕火计谋
为了有用磨真金不怕火该框架,磋商者领先用心构建了一个高质地的数据集,包含 1000 万张种种化的全身东说念主类 / 扮装图像,包括用于学习扮装一致性的配对图像和用于已毕精准文本到图像对都的非配对数据集。
其次,紧密策画了磨真金不怕火决策,以优化扮装一致性、文本可控性和视觉保真度。为了已毕扮装一致性,领先使用未配对数据进行磨真金不怕火,其中扮装图像算作参考辅导进行自负建,以保合手结构一致性。同期磋商发现使用 512 的分辨率比 1024 更为高效。
在第二阶段,不绝以低分辨率(512)进行磨真金不怕火,但切换到配对磨真金不怕火数据。为生成不同动作、姿势和作风的扮装图像,磋商者通过将扮装图像算作输入,生成新场景中的扮装。这个磨真金不怕火阶段有用摒除了复制粘贴效应,增强了文本可控性,确保生成的图像准确撤职文本要求。
临了一个阶段触及使用配对和非配对图像进行高分辨率结合磨真金不怕火。团队发现存限数目的高分辨率磨真金不怕火迭代不错显耀提升图像的视觉质地和纹理。这一阶段诈欺了高质地图像已毕高保真和文本可控的扮装图像。
本质截至
作家对基于 FLUX 的先进智商进行定性比较:OminiControl、EasyControl、ACE+ 和 UNO;以及大型多模态模子 GPT4o。为了评估,作家网罗了一组不存在于磨真金不怕火数据中的绽放域扮装图像。
现存智商存在局限性:OminiControl 和 EasyControl 无法保留扮装身份特征,而 ACE++ 仅在节略场景中保合手部分特征,但在濒临动作导向的教唆时进展欠安。UNO 过度保合手一致性,这镌汰了动作和配景的可裁剪性。不错看到,InstantCharacter 达到了与 GPT4o 相配的截至,但它不是开源的。
比较之下,InstantCharacter 耐久进展最好。具体而言,InstantCharacter 在保合手精准的文本可控性的同期,已毕了更出色的扮装细节保留和高保真度,即使是针对复杂的动作教唆。


InstantCharacter 还不错通过引入不同的作风 loras 来已毕天真是扮装作风化。如图所示,InstantCharacter 不错在吉卜力和 Makoto 作风之间切换,同期不影响扮装一致性和文本可裁剪性。可是,Jimeng 和 GPT4o 很难天真地保合手这些作风。

本文插件代码及名目均已开源,饱读吹更多的东说念主积极参与关连使命探讨。
论文地址:https://arxiv.org/abs/2504.12395
代码地址:https://github.com/Tencent/InstantCharacter
名目地址:https://instantcharacter.github.io/
一键三连「点赞」「转发」「注重心」
接待在褒贬区留住你的思法!
— 完 —
学术投稿请于使命日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿本体
附上论文 / 名目主页贯穿,以及算计形势哦
咱们会(尽量)实时回应你

� � 点亮星标 � �
科技前沿进展逐日见开云体育
