近日,Rokid发布了其最新AR眼镜——Rokid Glasses,该眼镜整合了摄像头、多模态大模型和光波导技术,显著提升了对真实世界的感知和用户交互能力。然而,现阶段AI模型对真实世界空间关系的理解仍存在巨大挑战,这限制了AR眼镜的普及和AR技术的进一步发展。
现有的AI视觉模型主要依赖二维图像进行物体识别,缺乏人类的空间理解能力,难以准确把握物体间的空间位置和关系。这不仅影响AR技术,也限制了AR眼镜在实际应用中的推广。

为了突破这一瓶颈,业界正在探索更先进的AI大模型。例如,Niantic公司正在开发“地理空间大模型”(LGM),旨在利用大规模机器学习来理解和模拟真实世界的空间关系。Niantic 认为LGM有望实现超越人类的“空间智能”。
Niantic 利用其游戏《Pokémon Go》和《Ingress》积累的海量真实影像和地图数据,以及其自主研发的视觉定位系统(VPS),为LGM模型的训练提供了坚实的基础。VPS能够根据单张图像在3D地图中确定用户位置。早于LGM,Niantic在2021年推出的ManyDepth技术,能够通过单摄像头直接创建3D地图,将二维图像转化为包含深度信息的三维图像,无需依赖LiDAR等昂贵传感器。

目前,LGM模型已训练超过5000万个神经网络,参数超过150万亿,可在全球超过100万个位置运行。其目标是在全球范围内建立统一的地理空间理解,即使在未被扫描的区域也能提供准确的空间信息。

对于AR眼镜而言,LGM模型不仅提供高精度空间定位,更重要的是提升了计算机感知和理解物理空间的能力,从而改变人机在物理世界的交互方式。这将有力地推动AR眼镜和智能机器人的发展。
然而,LGM模型也面临挑战。首先,在缺乏类似《Pokémon Go》这样AR+LBS游戏广泛普及的市场(例如中国),缺乏足够的数据支持。其次,LGM仍在开发中,其实际性能和未来前景仍需进一步观察。
尽管如此,AI大模型对AR眼镜的影响已不容忽视。近年来,大模型显著提升了AR眼镜的自然语言理解能力,使得人机语音交互更自然流畅,为AR眼镜的普及奠定了基础。

从交互体验来看,AI语音交互弥补了AR眼镜人机交互的不足。同时,大模型也推动了计算机视觉能力的提升,为AR眼镜的未来发展提供了更多可能性。基于摄像头的端云混合AI视觉在理论上具有更高潜力,能够降低空间交互的复杂性和成本,从而减轻设备重量、降低成本并提升续航能力。虽然目前AI视觉的全部价值尚未显现,但其未来发展值得期待。