在生成逼真图像与遵循精确布局之间往往存在着妥协—mt4目录结构文本到图像天生范畴近两年赢得了很大的打破,从 GAN 到 Stable Diffusion,图像天生的速率越来越速,天生效益越来越好。然而,AI 模子天生的图像正在细节上另有许众瑕疵,而且操纵自然叙话指定对象的的确场所、巨细或形态存正在必然的贫窭。为了天生精准、高质料的图像,现有手段常常依赖于平凡的提 prompt 工程或手动创修图像草图。这些手段需求豪爽的人工办事,以是尽头低效。
近来,来自加州大学伯克利分校(UC 伯克利)和微软探求院的探求者从编程的角度忖量了这个题目。目今,用户或许操纵大型叙话模子较好地驾御代码天生,这让该探求看到了编写措施来驾御天生图像细节的大概,网罗物体的形态、巨细、场所等等。基于此,该探求提出应用大型叙话模子(LLM)天生代码的功用达成可控型文本到图像天生。
该探求提出了一个大略而有用的框架 Control-GPT,它应用 LLM 的强健功用凭据文本 prompt 天生草图。Control-GPT 的办事道理是起初操纵 GPT-4 天生 TikZ 代码形态的草图。如下图 1 (c) 所示,措施草图(programmatic sketch)是服从无误的文本注释绘制的,随后这些草图被输入 Control-GPT。Control-GPT 是 Stable Diffusion 的一种变体,它能回收分外的输入,比方参考图像、决裂图等等。这些草图会充任扩散模子的参考点,使扩散模子或许更好地知道空间相干和特地观念,而不是仅仅依赖于文本 prompt。这种手段使得 prompt 工程和草图创修流程不再需求人工干涉,并普及了扩散模子的可控性。
对图像天生来说,教练流程的一个较大寻事是缺乏包括对齐文本和图像的数据集。为通晓决这个困难,该探求将现有实例决裂数据集(比方 COCO 和 LVIS)中的实例掩码转换为众边形的吐露形态,这与 GPT-4 天生的草图犹如。
然后,该探求构修了一个包括图像、文本形容和众边形草图的三元数据集,并微调了 ControlNet。该探求出现这种手段有助于更好地知道 GPT 天生的草图,而且能够助助模子更好地效力文本 prompt 指令。
ControlNet 是扩散模子的一种变体,它需求分外的输入条目。该探求操纵 ControlNet 举动底子图像天生模子,并通过编程草图和 grounding token 的旅途对其举办扩展。
如下图 2 所示,正在 Control-GPT 中,起初 GPT-4 会凭据文本形容天生 TikZ 代码形态的草图,并输出图像中物体的场所。然后该探求用 LATEX 编译 TikZ 代码,将草图转换为图像款式,再将编程草图、文本形容和物体场所的 grounding token 供给给经历调优的 ControlNet 模子,最一生成契合条目的图像。
操纵 GPT-4 天生的草图教练 ControlNet 是需要的,由于预教练的 ControlNet 不知道天生的草图,不行将其转换为实际图像。为了 prompt GPT-4,该探求哀求用户效力如下的 prompt 样本,以让 GPT-4 苦求 TikZ 代码片断的机合化输出,以及合系物体的名称和场所。然后,该探求操纵 GPT-4 的输出来编译草图图像并得回 grounding token。
Control-GPT 的精度取决于 LLM 天生草图时的无误性和可控性。以是,该探求对 LLM 正在草图天生方面的职能举办了基准测试。尝试结果标明 GPT 系列模子正在草图天生方面鲜明优于 LLaMa 等开源模子,而且 GPT-4 正在效力文本指令方面涌现出惊人的高无误性(约 97%)。
该探求对 Control-GPT 和少少经典模子的天生结果举办了人工评估,结果标明当图像中包括两个不对系的罕睹物体组适时,少少模子的天生效益斗劲差,而 Control-GPT 的天生结果相对较好,如下外 2 所示:
查问 LLMs,天生一个 TikZ 代码片断来形容给定的文本,进而查抄 LLMs 的职能。如下外 1 所示,GPT-series 模子的大无数代码片断都能够编译为有用的草图,而 LLaMA 和 Alpaca 的输出要么是空的,要么不行运转。正在 GPT-series 模子中,最新的 GPT-4 正在 95 个查问中只要 3 次腐败,这些查问得胜地天生了有用草图,正在效力文本指令方面的得胜率大约有 97%。ChatGPT 是 GPT-3.5 的 RLHF 微调版本,其职能鲜明低于原始 GPT-3.5。正在调优流程中,谈天才华和代码天生之间大概存正在着衡量。
鄙人图 4 中,探求者供给了一个来自 GPT 系列模子的可视化草图例子。固然天生的草图不如照片那样传神,但它们往往能搜捕到语义,并确切推理出物体的空间相干。天生的草图往往出人预念地通过大略的代码片断来确切解决物体形态。
下图终末一行显现了 GPT-4 的一个腐败案例,即模子无法天生物体形态,而 GPT-3.5 却能给出一个确切的草图。GPT-4 正在草图天生方面的高精度带来的动员是:能够操纵它来普及图像天生模子的可控性。
基于 Visor 数据集,探求者对 Control-GPT 举办了一系列尝试树立的评估,测试其正在空间相干、物体场所和巨细方面的可控性。他们还将评估扩展到众个物体和分散外的 prompt。平凡的尝试标明,Control-GPT 能够大大晋升扩散模子的可控性。
下外 3 中列出了定量评估结果。能够看到,Control-GPT 模子能够正在给定的少少规格下更好地驾御物体的巨细和场所。与简直无法驾御物体场所和尺寸的 Stable Diffusion 模子(SD-v1.5)比拟,Control-GPT 将总体精度从 0% 普及到 14.18%。与现成的 ControlNet 比拟,Control-GPT 正在整个目标上也赢得了更好的涌现,得回了从 8.46% 到 4.18% 的集体改进。这些结果显现了本文的 LLM 集成框架正在更细化和准确驾御图像天生流程方面的潜力。
视觉化。下图 6 显现了定性评估结果,能够看到,ControlGPT 能够服从物体场所和尺寸的标准绘制物体。比拟之下,ControlNet 也能效力,但却很难天生确切的物体,而 Stable Diffusion 则无法效力标准。
对空间相干的溶解尝试。探求者还研商了模子是否对分别类型的空间相干(如左 / 右 / 上 / 下)有偏好,举动空间相干基准解析的一一面。从下外 4 中能够看出,Control-GPT 正在 Visor Score 和物体无误性方面平素比整个的基线模子办事得更好。
众个物体之间的相干。探求者对 Control-GPT 天生众个物体的才华举办了进一步的评估,这些物体的空间相干由 prompt 指定。下图 7 显现了少少例子,Control-GPT 能知道分别物体之间的空间相干,并正在 GPT-4 的助助下将它们放入组织中,涌现出了更好的职能。
可控性与图像传神度。常常,正在天生传神图像与效力准确组织之间往往存正在着妥协,希奇是关于分散外的文字 prompt。如下图 8 所示,(a)是一个例子,天生的图像统统效力组织,但这导致了图像中的少少伪影;而正在(b)中,照片往往看起来很传神,但没有很好地效力草图。
原题目:《用GPT-4达成可控文本图像天生,UC伯克利&微软提出新框架Control-GPT》
本文为滂湃号作家或机构正在滂湃音信上传并宣告,仅代外该作家或机构看法,不代外滂湃音信的看法或态度,滂湃音信仅供给新闻宣告平台。申请滂湃号请用电脑探访。
转载请注明出处。