在人工智能创作的浪潮中,图像生成技术一直是关注焦点。从最初的“文本生图”到如今的“布局控制”,每一次迭代都将AI的创作能力推向新的高度。近期,一项来自学界与产业界联合的突破性技术——InstanceAssemble,有望为“AI作画”领域带来一场精准构图的革新。
这项由上海交大人工智能研究院与小红书联合研发的技术,专注于解决AI绘画中长期存在的“布局难题”。此前,尽管我们已经能够通过文字描述让AI描绘出丰富的画面,但在精确定制画面元素的位置、大小和相互关系上,AI的表现往往差强人意。物件错位、语义逻辑不符等问题频频出现,限制了AI在设计、广告等对画面布局有严苛要求的场景中的应用。InstanceAssemble的出现,标志着AI绘画正从“内容生成”迈向“精准控制”。

InstanceAssemble是基于当前主流的Diffusion Transformer(扩散 Transformer)架构,其核心创新在于引入了“实例组装注意力”(Instance Assembly Attention)机制。简单来说,当用户希望AI按照特定规则构图时,只需提供每个物件的精确位置信息(例如,通过边界框划定区域)以及对应的内容描述,AI便能高效且准确地在指定区域内生成符合要求的画面内容。无论是仅包含少数几个元素的简洁场景,还是物体密集、结构复杂的复杂场景,InstanceAssemble都能保持高度的布局精度和语义一致性。
这项技术的另一大亮点在于其轻量化的适配方案。InstanceAssemble避免了对整个大型模型进行耗时耗力的重新训练。而是通过引入少量额外的参数,即可快速适应现有的大模型。例如,以目前流行的Stable Diffusion3-Medium模型为例,InstanceAssemble只需增加约3.46%的额外参数便可实现功能适配;而对于Flux.1模型,这一比例更是低至惊人的0.84%,极大地降低了技术落地的门槛和成本。
为了更有力地证明InstanceAssemble的技术实力,研究团队还同步发布了一个名为“Denselayout”的基准数据集,其中包含了高达9万个实例,并设计了全新的评估指标,为AI布局生成技术的公平、客观评价提供了行业标准。目前,InstanceAssemble的开源代码及预训练模型已正式上线GitHub,向全球开发者开放。这项技术有望为设计、广告、内容创作等众多行业带来实质性的效率提升和创作灵感的拓展。
github:https://github.com/FireRedTeam/InstanceAssemble
关键要点速览:
-
🎯 精准布局控制:凭借“实例组装注意力”机制,AI能够严格遵循用户设定的位置信息生成内容,支持从稀疏到密集的各类复杂布局。
-
⚡ 低成本高效适配:采用轻量化设计,无需完整模型重训,仅需0.84%至3.46%的额外参数即可适配Flux.1或SD3等主流模型。
-
🔓 全面开源共享:代码与预训练模型已在GitHub开源,并配套发布全新的Denselayout数据集,推动行业在评估标准上的统一。