地理空间大模型与AR眼镜精准定位

近日，Rokid发布了其最新AR眼镜——Rokid Glasses，该眼镜整合了摄像头、多模态大模型和光波导技术，显著提升了对真实世界的感知和用户交互能力。然而，现阶段AI模型对真实世界空间关系的理解仍存在巨大挑战，这限制了AR眼镜的普及和AR技术的进一步发展。

现有的AI视觉模型主要依赖二维图像进行物体识别，缺乏人类的空间理解能力，难以准确把握物体间的空间位置和关系。这不仅影响AR技术，也限制了AR眼镜在实际应用中的推广。

地理空间大模型与AR眼镜精准定位

为了突破这一瓶颈，业界正在探索更先进的AI大模型。例如，Niantic公司正在开发“地理空间大模型”（LGM），旨在利用大规模机器学习来理解和模拟真实世界的空间关系。Niantic 认为LGM有望实现超越人类的“空间智能”。

Niantic 利用其游戏《Pokémon Go》和《Ingress》积累的海量真实影像和地图数据，以及其自主研发的视觉定位系统(VPS)，为LGM模型的训练提供了坚实的基础。VPS能够根据单张图像在3D地图中确定用户位置。早于LGM，Niantic在2021年推出的ManyDepth技术，能够通过单摄像头直接创建3D地图，将二维图像转化为包含深度信息的三维图像，无需依赖LiDAR等昂贵传感器。

地理空间大模型与AR眼镜精准定位

目前，LGM模型已训练超过5000万个神经网络，参数超过150万亿，可在全球超过100万个位置运行。其目标是在全球范围内建立统一的地理空间理解，即使在未被扫描的区域也能提供准确的空间信息。

地理空间大模型与AR眼镜精准定位

对于AR眼镜而言，LGM模型不仅提供高精度空间定位，更重要的是提升了计算机感知和理解物理空间的能力，从而改变人机在物理世界的交互方式。这将有力地推动AR眼镜和智能机器人的发展。

然而，LGM模型也面临挑战。首先，在缺乏类似《Pokémon Go》这样AR+LBS游戏广泛普及的市场（例如中国），缺乏足够的数据支持。其次，LGM仍在开发中，其实际性能和未来前景仍需进一步观察。

尽管如此，AI大模型对AR眼镜的影响已不容忽视。近年来，大模型显著提升了AR眼镜的自然语言理解能力，使得人机语音交互更自然流畅，为AR眼镜的普及奠定了基础。

地理空间大模型与AR眼镜精准定位

从交互体验来看，AI语音交互弥补了AR眼镜人机交互的不足。同时，大模型也推动了计算机视觉能力的提升，为AR眼镜的未来发展提供了更多可能性。基于摄像头的端云混合AI视觉在理论上具有更高潜力，能够降低空间交互的复杂性和成本，从而减轻设备重量、降低成本并提升续航能力。虽然目前AI视觉的全部价值尚未显现，但其未来发展值得期待。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

地理空间大模型与AR眼镜精准定位

相关推荐

发表回复