人工智能领域再次迎来重要突破。近日,国内领先的大模型企业智谱科技正式发布了其最新研发的文生图模型——CogView4。这款开源模型的最大亮点在于,它首次实现了对汉字生成的原生支持,为中文用户提供了前所未有的图像创作体验。 CogView4的发布,不仅标志着国产文生图模型在技术上的重大进步,也为国内相关产业的发展注入了新的动力。
CogView4模型拥有60亿参数,是智谱科技专门针对中文环境打造的。它能够直接理解并处理中文输入,将中文文本转化为高质量的图像。与之前的版本相比,CogView4最大的技术升级在于其强大的双语提示词处理能力。该模型不仅可以无缝处理中英文混合的提示词,还能将汉字元素完美融入图像之中。更令人印象深刻的是,CogView4能够精准理解长达上百字的复杂提示词,为用户提供了更大的创意空间。

相对于上一代产品CogView3-Plus-3B,CogView4在提示词处理能力上实现了质的飞跃。 模型所能理解的tokens长度上限从224大幅提升至1024,这意味着用户可以输入更详尽、更复杂的描述,从而生成更符合预期的图像。这一提升极大地扩展了用户的创作自由度和精细化控制能力。 在权威文生图基准测试DPG-Bench中,CogView4凭借出色的表现脱颖而出,充分证明了其在复杂语义理解和指令跟随方面的领先实力。
目前,CogView4的6B-0304版本已经开源,开发者和研究人员可以免费使用和修改。更令人期待的是,智谱科技将于3月13日正式在“智谱清言”平台(chatglm.cn)上线CogView4,届时普通用户也能直接体验到这款强大的文生图模型。 值得一提的是,CogView4不仅是首个支持汉字生成的开源模型,还是首个遵循Apache 2.0协议的图像生成模型,这进一步降低了使用门槛,促进了技术的传播和应用。
此外,智谱科技还承诺将陆续推出ControlNet、ComfyUI等生态支持,并即将发布一套完整的微调工具包,以满足用户多样化的需求。这些举措表明智谱科技正在积极构建围绕CogView4的完整生态系统,为用户提供更便捷、更高效的创作工具。
在实际应用中,CogView4展现出了令人惊艳的创造力。无论是直接生成具有中国特色的海报,还是根据古诗词的意境绘制精美插图,CogView4都能精准把握用户意图,将文字描述转化为生动逼真的画面。该模型还支持超长提示词,可以生成四格漫画或画面细节丰富的图像,为用户带来了前所未有的创作体验。
例如,用户只需输入一句经典的古诗词“野径云俱黑,江船火独明”,CogView4便能迅速理解诗句中的意象,将黑云、船只、灯火、野径等元素巧妙地融合在画面之中,营造出静谧而神秘的氛围,展现出强大的语义理解和图像生成能力。

从技术层面来看,CogView4的突破主要体现在以下两个方面:首先是它强大的双语提示词输入能力。CogView4将文本编码器升级为具备双语能力的GLM-4 encoder,并通过中英双语图文数据进行训练,从而实现了对中英文混合提示词的完美支持。其次是它支持任意分辨率图像的生成。CogView4采用了二维旋转位置编码(2D RoPE)和Flow-matching方案进行扩散生成建模,不仅支持任意长度的提示词,还能生成任意分辨率的图像,为用户提供了更大的灵活性。

总而言之,智谱科技CogView4的发布是文生图领域的一次重要突破,其对汉字生成、双语提示词的支持,以及开源策略,都将极大地推动文生图技术的发展和普及。随着CogView4的开源和生态支持的不断完善,我们有理由相信,这项技术将在各个领域得到广泛应用,为创意设计、艺术创作、教育娱乐等领域带来变革,最终推动AI惠及更多人群。