
AI模型的数据“饕餮盛宴”
AI模型的飞速发展,离不开大量数据的支撑。从图像识别到自然语言处理,从自动驾驶到医疗诊断,每一个成功的AI应用背后都有着海量数据的支撑。
研究团队发现,ChatGPT使用了来自书本、网络文章、维基百科及其他网络资源约570GB、3000亿个单词的文本数据进行训练。

随着AI模型的不断进步,其对数据的需求也在不断增加。如果训练AI算法的数据不足或质量较低,就可能产生低质量结果。例如,美国谷歌公司的“双子座”AI曾建议网友吃石头,或者给披萨涂胶水。
网络公开数据的“有限供给”
虽然网络公开数据的规模在不断扩大,但与AI模型的需求相比,仍然显得捉襟见肘。研究团队使用谷歌网页索引计算出目前的网页总数约为2500亿个,其中每个页面包含约7000字节文本。

根据最新预测,AI模型将在2026年至2032年间用完所有网络公开数据,图像数据也预计将在2030年至2060年耗尽。随着AI技术的深入发展,对于数据的质量和多样性要求也越来越高,这无疑加剧了数据的供需矛盾。

数据资源的短缺可能会限制AI模型的训练和优化。美国人工智能时代研究所研究员巴勃罗·比利亚洛沃斯认为,假如聊天机器人耗尽所有可用数据,而数据效率没有进一步提升,预计该领域的发展将陷入相对停滞。
如何应对数据“饥荒”?
前几天,《时代》杂志与OpenAI宣布两家公司达成了一项为期多年的内容协议和战略合作伙伴关系,该协议允许OpenAI将《时代》杂志内容引入ChatGPT,并帮助训练其最先进的人工智能模型。
据介绍,OpenAI可以通过这笔交易访问《时代》过去100多年的档案和文章。

与此同时,OpenAI还在与数十家出版商洽谈内容授权协议。
从私人数据库中获取数据
正成为AI科技公司解决数据“饥荒”的方向。比利亚洛沃斯认为,如果相关措施成功落地,并且私人数据与公共网络数据一样有用,那么主要AI企业有望在2030年以前保持足够多的数据量。
不过,有业内人士警告,如果有企业试图在未经许可的情况下获取知识产权或者私人信息,可能会面临司法风险。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。