得场景者得AI天下:出行赛道跑出一家值得关注的数据玩家

在AI从语言模型向世界模型演进的过程中,一个关键的瓶颈浮出水面:训练具身智能所需的真实物理交互数据极度匮乏。据行业估计,需求与供给之间的缺口可能高达十万倍。过去,大模型依赖静态文本和图片即可完成训练,但世界模型需要理解因果、动作和反馈,这要求数据必须来自真实物理世界且包含完整的交互链条。正是这种背景下,一批手握场景数据的平台开始崭露头角。

得场景者得AI天下:出行赛道跑出一家值得关注的数据玩家

全场景数据、全链条服务助力AI大模型高效迭代

杰西卡 发自 凹非寺

AI行业,最稀缺的抢手货变了。

李飞飞提出“空间智能”后,行业正在形成一个越来越明显的趋势判断:大模型之后,世界模型、具身智能正成为资本和产业关注的新焦点。

然而,AI开始转向理解并作用于真实的物理世界之时,一个尴尬的现实也随之浮现:

训练这些模型所需的真实物理世界交互数据,极度稀缺——缺到甚至有业内观点认为,需求与供给之间,可能存在近十万倍的差距。

因为过去的大模型,靠海量文本和图片就能完成语言理解与生成,但具身智能需要的是“决策→行动→反馈”的完整链条——这些静态、缺乏因果和交互的数据,很难再满足需求。

行业迫切需要一种全新的数据:来自真实物理世界、带有因果逻辑、能持续产出的交互数据。

得场景者得AI天下:出行赛道跑出一家值得关注的数据玩家

于是,高质量的物理世界数据,成为当下战略级的稀缺资源;而能为行业持续、低成本、大规模生产物理世界数据的玩家,也逐渐被推上风口。

有意思的是,业内人士向外界透露,AI时代最大的物理世界数据入口之一,很可能正在从一个很多人意想不到的行业里诞生,那就是出行平台

你可能并不知晓,平日里常用的出行服务平台,除了出行服务之外,正在用数据新业务“赚外快”。

出行服务行业,最近逐渐流行起一门新的生意:手握海量真实道路一手数据源的平台们,正通过数据资产化、服务化等方式,开辟第二增长曲线。

而且这些平台中,已经有玩家成功变现,初步验证了商业化路径的可行性。

最先对外披露具体数据的,是广汽集团旗下的出行服务平台——如祺出行

得场景者得AI天下:出行赛道跑出一家值得关注的数据玩家

如祺出行在2025年财报中披露,以AI数据业务为主要收入来源的技术服务板块,已成为公司增长最快的板块

而这个AI数据业务,指的是如祺出行的数据业务板块(以下简称“如祺数据”),最早布局于2023年

彼时,如祺出行在2023年5月获批了乙级测绘资质,开始将那些搭载激光雷达、高精度惯导、周视与环视摄像头等传感器的智能驾驶数据采集车,投入常态化运营。

这些车辆在提供出行服务的同时,也在合规采集真实的驾驶和道路数据。而如祺数据也在采集数据的过程中,不断延伸其数据服务能力。

得场景者得AI天下:出行赛道跑出一家值得关注的数据玩家

直到最近,如祺数据首次对外完整披露了其AI数据资产及能力版图

公开信息显示,其数据资产已覆盖标注数据、行为数据、合成数据及多模态训练数据集四大类,涵盖从原始采集到加工交付的全链条。

这其中,标注数据是基础,行为数据则记录了驾驶员在实际道路环境中的操作决策,合成数据用于补充长尾场景,多模态训练数据集则覆盖图像、文本、音频与视频,可以直接用于大模型的垂类微调。

规模上,如祺数据已搭建起一张覆盖面可观的数据采集网络。

截至2026年5月,公司在广州、上海、重庆、沈阳等城市,部署了超过300辆智能驾驶数据采集车

通过近三年的常态化运营,这些车辆的日均产出已经达到1600小时、130TB;平台亦累计沉淀出千万级的高价值驾驶场景片段。

得场景者得AI天下:出行赛道跑出一家值得关注的数据玩家

这些片段背后,本身就是完整的真实世界交互过程。从这个角度看,平台产生的数据,更像是在持续生产物理世界的“切片”。

而规模之外,商业化进展才是真正检验其模式可行性的关键。

在如祺财报中,2025年,以AI数据服务为主要收入来源的技术服务板块,录得营收1.6亿元,同比大增487.4%

这一增速说明,市场对高质量物理世界数据的需求正在快速释放。

如祺数据的客户结构也能验证这一结论。据介绍,公司服务目前已覆盖智能驾驶、具身智能、大模型、消费电子、医疗等多个领域;腾讯、小马智行、理想、火山引擎、百度智能云、广汽集团等头部企业都是其客户。

得场景者得AI天下:出行赛道跑出一家值得关注的数据玩家

也就是说,从出行服务衍生出的数据服务,已经具备跨行业解决实际需求的能力,并且能跑通从数据采集、加工到商业化交付的完整闭环。

随之而来的变化是,外界更新了对如祺这类出行平台的认知。

具备全链条数据服务能力的如祺,不再只是一家出行服务商,也不单单是传统的数据标注服务商,而是在向“数据集+全栈能力”的综合服务商升级。

而这种“数据集+全栈能力”的闭环能力,很可能也会成为下一代AI中,不可或缺的底层基础设施之一。

想更好理解出行平台的身份转变,其实可以将其拆解为两个更本质的问题:

为什么AI行业对物理世界数据如此渴求?

以及,为什么出行平台恰恰能填补这个缺口?

一切要从李飞飞对世界模型的定义说起。她认为,当前主流的大语言模型存在一个致命缺陷,就是缺乏“空间智能”——即对三维物理世界进行感知、推理和行动的能力。

因此,李飞飞倡导构建一种全新的AI系统,让机器能像人类一样,理解三维物理世界的运行法则,并完成互动。

这套系统,就是她所说的“世界模型”。而世界模型需要具备三个最核心的标准:生成性、多模态性、交互性

得场景者得AI天下:出行赛道跑出一家值得关注的数据玩家

这意味着,训练下一代AI所需的数据,必须同时具备这三个特征,尤其是“交互性”——数据不能只是被动的视觉呈现,还必须包含“动作-反馈”闭环的完整因果链条。

但问题在于,当前行业能够稳定获取的物理世界交互数据,远远无法满足训练需求。

因为传统的数据供给方式主要有三种,且各有局限:

  • 其一,是从互联网上爬取公开图片和视频,这些数据大多是静态的、缺乏交互信息;
  • 其二,是在实验室或仿真环境中人工搭建场景,成本相对高、规模较小;
  • 其三,是众包采集,不过数据的质量和一致性有时难以保证。

短期内,三种方式都难以持续、大规模地产出带有因果逻辑的交互数据。

这正是当前行业面临的核心瓶颈。高质量、高保真、带交互标签的物理世界数据极度匮乏,需求与供给之间存在巨大缺口。

在这种背景下,出行赛道恰恰具备生产、积累这类高价值数据的天然优势。

与传统的数据供给方式不同,出行平台的数据采集逻辑是嵌入真实运营。

每一辆数据采集车,本质上都是一个移动的感知终端,在完成日常出行服务的同时,同步记录“驾驶员决策—车辆响应—环境反馈”的完整交互链条。

得场景者得AI天下:出行赛道跑出一家值得关注的数据玩家

这种闭环数据天然具备多模态对齐、时序连续和因果逻辑的特征。

用如祺对外展示的泊车场景举例:

如祺数据不仅会记录3D障碍物的位置信息,还会同步采集汽车底盘的CAN信号(反映车辆状态,如方向盘转角、油门刹车)、毫米波雷达回波、激光点云与摄像头视频。

这些多模态数据围绕泊车场景,形成了“行为(驾驶员操作)-状态(车辆响应)-环境(周围反馈)”的联合数据集。

在训练AI时,这类数据不仅能告诉模型“是什么”,还能帮助模型理解“为什么”,比如为什么要避让、如何判断车位可用性等需要物理常识和因果推理的任务。

有长期关注AI大模型训练的分析人士指出,这类具有完整推理、决策和反馈链条的数据,就是训练空间智能模型的“黄金数据矿”。

如祺数据也是基于这种独特的数据源,得以系统性地构建其全链条服务能力

技术层面,如祺数据自研的OCC自动化标注算法,采用同源底图与自动化算法,可减少90%人工标注时间,交付准确率超98%。

合成数据模块可一键生成雨、雾、雪、夜等长尾场景,弥补真实采集盲区;多模态数据集则覆盖图像、文本、音频与视频,可以直接支持大模型的垂类微调。

得场景者得AI天下:出行赛道跑出一家值得关注的数据玩家

这套能力的本质,是将其在自动驾驶领域验证过的数据工程化经验——从合规采集、规模化清洗、精准标注到合成增强——打包成标准化产品。

客户可以“开箱即用”,无需从零搭建底层采集与处理能力,就能直接获取经过深度加工的标准化数据集与工具链。

在这一点上,如祺数据和Scale AI的逻辑有点类似:

不仅提供数据,还提供让客户“更懂数据、更高效用数据”的工具与方法论,从而降低高质量物理数据的使用门槛,提升客户的模型迭代效率。

这在一定程度上降低了真实物理数据的使用门槛,也让数据能力的适用范围,能从自动驾驶扩展到具身智能、大模型、消费电子、医疗等多个领域。

得场景者得AI天下:出行赛道跑出一家值得关注的数据玩家

也可以说,规模和能力只是基础,而出行平台真正的想象空间,更在于它以场景为原点、向更多物理世界场景泛化的潜力。

这也是AI发展历程中一再被证明的结论:得“场景”者,得天下

走进物理世界后,AI行业的底层逻辑正在变化——AI的竞争正在从算法转向场景。

正如移动互联网催生了基于位置的服务(LBS)数据金矿,云计算成为了数字经济的通用基建。

在AI迈向“空间智能”的当下,那些能持续、低成本产出真实物理世界交互数据的「场景」,也正成为新时代最核心的基础设施。

在这一背景下,越来越多人开始意识到:场景可能比算法更稀缺

因为算法可以被复现,但一个真实、高频、且能产生闭环交互数据的物理场景,却极难被复制或搬运。

而数据本质上其实是场景的“溢出”,拥有场景,就拥有了持续产生数据飞轮的可能性。

出行平台,就是这样一个几乎堪称完美的“元场景”:它覆盖了海量的公共道路空间,涉及持续的人机共驾决策,每天发生数以亿计的交互事件。

这些要素叠加在一起,构成了一个天然的数据生产系统。

得场景者得AI天下:出行赛道跑出一家值得关注的数据玩家

并且出行平台采用的“业务即采集”模式,还在成本上天然具备明显优势。

传统的专业数据采集,需要投入专门的采集车、专门的驾驶员、专门的场地,成本高昂,规模化难上加难。

但像如祺出行的采集车,本身就是网约车,在提供服务的同时完成数据采集,边际成本被大幅摊薄

更重要的是,这种数据能力,还可以从驾驶场景向更广泛的物理世界延伸。

据接近如祺出行的人士透露,该公司正尝试将“人-车-环境”的交互数据能力泛化至更多应用领域,例如具身智能在车后服务场景,包括洗车、换电、维保、清理等。

车后服务场景作为出行场景的一部分,是如祺出行最擅长、数据积累最深的领域,如祺可以自然地切入,形成真实服务闭环。

而在这些场景中,机器人需要理解的避障、路径规划、精细操作等底层逻辑,和自动驾驶有高度的数据同构性。

这种“低成本、高交互”的数据生产模式,一旦在一个垂直场景跑通,就具备了成为行业标配的潜力。

从更宏观的视角来看,出行平台数据业务的商业化不仅仅是一个公司的成功,更揭示了AI产业底层基础设施的变迁。当算法逐渐开源,模型的差异缩小,场景和数据成为新的护城河。像如祺出行这样的平台,通过将运营产生的数据资产化,实际上是在构建一个面向物理世界AI的“数据工厂”。这种模式的可复制性虽然有待验证,但其方向已足够引发行业深思。未来,能否将数据能力从出行泛化至更多物理场景,将是衡量此类平台长期价值的关键。

一个更长期的趋势是,未来,那些拥有深厚物理场景运营经验的企业,其核心资产可能不仅是服务本身,更是其业务过程中持续产生的、高价值的场景数据

这些数据经过系统性的治理与产品化,或许可以反哺乃至重塑AI产业。

就像出行平台这样的巨型物理世界接口一样,在C端,平台仍是运人的服务商;而在B端,出行平台的身份,已经进化成为AI理解并进入真实世界的、至关重要的物理数据入口。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
Rain科技Rain科技
上一篇 11小时前
下一篇 10小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!