阿里巴巴Z-Image轻松超越十亿参数模型

图像生成技术,正以前所未有的速度迭代。就在昨夜,一个令人瞩目的成果在圈内炸开了锅:一张1024×1024分辨率的国风美少女图像,在RTX 4090上仅耗时2.3秒便宣告诞生,显存占用稳定在13GB。这并非出自什么天价的闭源模型,而是来自阿里巴巴通义实验室的Z-Image-Turbo。更令人惊叹的是,它仅以6B的参数量,便在多项评测中追平甚至略微超越了那些参数量动辄20B+的头部闭源模型。

image.png

Z-Image-Turbo用实实在在的效果说话,没有过多浮夸的宣传语,它的亮点清晰可见:

– 仅需8个采样步,即可输出媲美印刷级的图像质量。更重要的是,它对硬件的要求相当亲民,哪怕是6GB显存的消费级GPU(如RTX 3060)也能流畅运行,其显存上限也封顶在16GB,这极大降低了个人用户的使用门槛。

– 对于一句复杂且嵌套的中文指令,它能做到“一口吞下”并精准理解。例如,能将“夜晚的阳光”自动纠正为“左手一杯奶茶,右手手机屏幕上显示今天的新闻”,彻底告别了中英文混用时字母变成“鬼画符”的尴尬局面。

– 在线功能方面,它展现出了对细节的极致追求:细腻的皮肤毛孔、逼真的玻璃反光、雨雾朦胧的逆光效果,以及电影感十足的景深。目前,Z-Image-Turbo已在Elo人类偏好榜单上名列前茅,成为开源模型中的佼佼者。

image.png

其核心技术秘密,源于全新的S3-DiT架构。该架构将文本、视觉语义以及图像Token统一处理,信息流更加连贯高效,有效降低了参数量,据称可减少竞品模型三分之一以上,同时最大化了推理效率。为了进一步赋能社区,团队还同步推出了Z-Image-Edit,用户仅需通过自然语言描述,就能轻松实现对原图的“换头”、“换景”,极大地提升了其可玩性和易用性。

尽管阿里巴巴官方尚未明确宣布是否会完全开源,但该模型已相当便捷地登陆ModelsScope和Hugging Face平台。其核心代码已经被并入Diffusers主分支,执行一句简单的pip命令即可轻松加载。一旦后续的企业级API定价公布,Midjourney和Stability AI等巨头或许将不得不面临更早的降价压力。

Z-Image-Turbo的横空出世,无疑发出了一个强烈的信号:图像生成技术领域,正式迈入了“轻量化、高质量”的新纪元。计算能力的普惠,不再是遥不可及的口号——在这个人人都能拥有一块16G显存显卡的時代,AI创作的门槛正以前所未有的速度降低。

项目地址:

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
上一篇 2025年 11月 28日 上午7:11
下一篇 2025年 11月 28日 上午8:13

相关推荐

欢迎来到AI快讯网,开启AI资讯新时代!