单张图像变三维,光影恢复精度提升37%

在3D内容生成领域,苹果公司最近的一项研究成果,名为LiTo(Surface Light Field Tokenization)的大模型,正悄然掀起一场技术革新。一直以来,如何仅凭一张2D图像完成高精度、全光照的3D模型重建,是困扰业界的一大难题。LiTo的出现,不仅标志着这一挑战的突破,更为未来的AR和空间计算设备带来了前所未有的内容制作潜力。

image.png

LiTo的核心创新,在于其对潜在空间(latent space)的巧妙运用,以及一种新颖的、统一的3D潜在表示法:

  • 高效编码,提纲挈领:它能够将复杂的表面光场数据,以数学化的向量集形式进行压缩。这相当于为物体的几何形态以及光线与其交互的物理规律,提供了一份精炼的“说明书”。

  • 双向机制,重塑光影:模型采用了经典的编码器-解码器架构。编码器负责解析,从2D图像中提取出物体的几何结构和外观特征;而解码器则进行逆向操作,精准重现诸如高光反射(specular highlights)菲涅尔反射(Fresnel reflections)等高级视觉效果,让3D模型栩栩如生。

性能实测:多视角下的光照一致性,真正做到“所见即所得”

为了训练LiTo,研究团队投入了包含数千个物体的3D数据集。实验结果令人瞩目:

  • 纠正朝向偏误,定位精准:LiTo在模型训练中,严格遵循相机坐标系,有效解决了以往同类模型常出现的物体朝向错误问题,确保了3D模型的正确摆放。

  • 性能跃升,遥遥领先:在多视角下的光照一致性评估指标上,LiTo相比当前表现最佳的模型TRELLIS,实现了约37%的显著提升。这意味着,即使从不同角度观察,LiTo生成的3D模型也能保持逼真的光照效果,极大增强了沉浸感。

苹果此举,无疑为3D内容的生产注入了新的活力,也大幅降低了内容创作的门槛。展望未来,这项技术有望成为AR和空间计算设备(如备受瞩目的Vision Pro)的强大内容生成引擎,为元宇宙的构建提供更优质、更详实的视觉基础。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
AI快讯网编辑-青青AI快讯网编辑-青青
上一篇 2026年 3月 18日 上午8:41
下一篇 2026年 3月 18日 上午10:05

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!