AI图像生成中的精准布局控制

在人工智能创作的浪潮中，图像生成技术一直是关注焦点。从最初的“文本生图”到如今的“布局控制”，每一次迭代都将AI的创作能力推向新的高度。近期，一项来自学界与产业界联合的突破性技术——InstanceAssemble，有望为“AI作画”领域带来一场精准构图的革新。

这项由上海交大人工智能研究院与小红书联合研发的技术，专注于解决AI绘画中长期存在的“布局难题”。此前，尽管我们已经能够通过文字描述让AI描绘出丰富的画面，但在精确定制画面元素的位置、大小和相互关系上，AI的表现往往差强人意。物件错位、语义逻辑不符等问题频频出现，限制了AI在设计、广告等对画面布局有严苛要求的场景中的应用。InstanceAssemble的出现，标志着AI绘画正从“内容生成”迈向“精准控制”。

InstanceAssemble是基于当前主流的Diffusion Transformer（扩散 Transformer）架构，其核心创新在于引入了“实例组装注意力”（Instance Assembly Attention）机制。简单来说，当用户希望AI按照特定规则构图时，只需提供每个物件的精确位置信息（例如，通过边界框划定区域）以及对应的内容描述，AI便能高效且准确地在指定区域内生成符合要求的画面内容。无论是仅包含少数几个元素的简洁场景，还是物体密集、结构复杂的复杂场景，InstanceAssemble都能保持高度的布局精度和语义一致性。

这项技术的另一大亮点在于其轻量化的适配方案。InstanceAssemble避免了对整个大型模型进行耗时耗力的重新训练。而是通过引入少量额外的参数，即可快速适应现有的大模型。例如，以目前流行的Stable Diffusion3-Medium模型为例，InstanceAssemble只需增加约3.46%的额外参数便可实现功能适配；而对于Flux.1模型，这一比例更是低至惊人的0.84%，极大地降低了技术落地的门槛和成本。

为了更有力地证明InstanceAssemble的技术实力，研究团队还同步发布了一个名为“Denselayout”的基准数据集，其中包含了高达9万个实例，并设计了全新的评估指标，为AI布局生成技术的公平、客观评价提供了行业标准。目前，InstanceAssemble的开源代码及预训练模型已正式上线GitHub，向全球开发者开放。这项技术有望为设计、广告、内容创作等众多行业带来实质性的效率提升和创作灵感的拓展。

github:https://github.com/FireRedTeam/InstanceAssemble

关键要点速览：

🎯 精准布局控制：凭借“实例组装注意力”机制，AI能够严格遵循用户设定的位置信息生成内容，支持从稀疏到密集的各类复杂布局。
⚡ 低成本高效适配：采用轻量化设计，无需完整模型重训，仅需0.84%至3.46%的额外参数即可适配Flux.1或SD3等主流模型。
🔓 全面开源共享：代码与预训练模型已在GitHub开源，并配套发布全新的Denselayout数据集，推动行业在评估标准上的统一。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

AI图像生成中的精准布局控制

相关推荐

发表回复