光明时评 发力语料建设 让人工智能健康成长

2024 年世界人工智能大会上，一场关于人工智能语料的论坛在上海首次举办。一年前，2023 年世界人工智能大会上，上海人工智能实验室、人民网、国家气象中心等单位联合发起的中国第一个大模型语料数据联盟正式成立。人工智能大模型的成功取决于三大要素：算力、算法和语料。中国拥有世界上最丰富的数字化应用场景，这些场景提供了极其丰富的语料资源。中国是名副其实的语料大国，但各种语料的质量参差不齐，需要进一步规范。人工智能大模型通常遵循“种瓜得瓜，种豆得豆”的规律，特定的输入会生成特定的输出。因此，从输入端着手，强化语料建设，对于推动人工智能的健康发展至关重要。

在人工智能发展中，语料扮演着“赋能”和“教化”的双重角色。前者通过全方位的知识转移和训练，使人工智能博闻强识，融会贯通，最终技艺超群；后者则通过多维度的情感嵌入和价值对齐，让人工智能“通情达理”，并能够“善解人意”。例如，随着我国老龄化程度的加深，具有健康护理功能的养老护理机器人开始走入人们的生活。越来越多的老年人希望在享受各种专业化养老服务的同时，也能感受到亲人般的温暖。这就需要发挥语料的教化作用，结合特定的激励算法，让机器人以和蔼可亲的姿态、体贴入微的服务，响应并满足老年人的养老需求。由此可见，在人工智能相关技术快速突破的过程中，要想达到“强健其体魄、文明其精神”的目标，语料建设至关重要，需要重点做好拓源、提质、铸魂三项工作。

首先是拓源。人工智能大模型对语料的需求量巨大，当前存在语料资源供给不足与大模型高强度训练需求之间的矛盾。语料建设是一项复杂的系统工程，具有多源、高维、异构、跨界、超限等典型特征，需要广泛动员政府部门、行业组织、企业等各方力量，建立语料建设的统一战线。全国各地纷纷行动，2023 年，上海人工智能实验室宣布联合语料数据联盟成员单位，共同开源发布“书生·万卷”1.0 多模态预训练语料。深圳数交所则联合近 50 家单位成立“开放算料联盟”，多家 A 股公司加盟。这些举措在一定程度上缓解了语料资源供给不足的问题。未来仍需加快拓展来源渠道，将沉淀在行业壁垒间、藏身于隐秘空间里的各种语料资源发掘出来，为人工智能大模型的迭代升级提供动力。

其次是提质。语料涉及海量的数据、文本、图片、语音、视频等资源，既有“原材料”，也有“半成品”。要让大模型能够“吃”得下去，需要依靠数据库技术解决“消化”问题。大模型不仅要吃得饱，还要吃得好，面向行业应用的专业数据库可以给 AI 大模型“开小灶”。

最后是铸魂。语料对于人工智能的“思维方式”和“行为模式”具有潜移默化的影响。在语料建设中，既要开放包容，博采世界各国文化之所长；也要汲取中华优秀传统文化的精髓，为大模型准备“中餐”。中文语料，尤其是中式价值观语料的缺位，轻则会影响面向国内特定应用场景的垂类大模型开发进程，重则可能失去以我国的文化与价值观赋能人工智能发展的机会。对此，应未雨绸缪，加快高质量中文语料资源建设的提速扩容，并将中国特色社会主义文化的价值取向融入其中。让功能日益强大的人工智能成为言端行正、德才兼备的“好孩子”。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。