在3D内容生成领域,苹果公司最近的一项研究成果,名为LiTo(Surface Light Field Tokenization)的大模型,正悄然掀起一场技术革新。一直以来,如何仅凭一张2D图像完成高精度、全光照的3D模型重建,是困扰业界的一大难题。LiTo的出现,不仅标志着这一挑战的突破,更为未来的AR和空间计算设备带来了前所未有的内容制作潜力。

LiTo的核心创新,在于其对潜在空间(latent space)的巧妙运用,以及一种新颖的、统一的3D潜在表示法:
-
高效编码,提纲挈领:它能够将复杂的表面光场数据,以数学化的向量集形式进行压缩。这相当于为物体的几何形态以及光线与其交互的物理规律,提供了一份精炼的“说明书”。
-
双向机制,重塑光影:模型采用了经典的编码器-解码器架构。编码器负责解析,从2D图像中提取出物体的几何结构和外观特征;而解码器则进行逆向操作,精准重现诸如高光反射(specular highlights)和菲涅尔反射(Fresnel reflections)等高级视觉效果,让3D模型栩栩如生。
性能实测:多视角下的光照一致性,真正做到“所见即所得”
为了训练LiTo,研究团队投入了包含数千个物体的3D数据集。实验结果令人瞩目:
-
纠正朝向偏误,定位精准:LiTo在模型训练中,严格遵循相机坐标系,有效解决了以往同类模型常出现的物体朝向错误问题,确保了3D模型的正确摆放。
-
性能跃升,遥遥领先:在多视角下的光照一致性评估指标上,LiTo相比当前表现最佳的模型TRELLIS,实现了约37%的显著提升。这意味着,即使从不同角度观察,LiTo生成的3D模型也能保持逼真的光照效果,极大增强了沉浸感。
苹果此举,无疑为3D内容的生产注入了新的活力,也大幅降低了内容创作的门槛。展望未来,这项技术有望成为AR和空间计算设备(如备受瞩目的Vision Pro)的强大内容生成引擎,为元宇宙的构建提供更优质、更详实的视觉基础。