近日,Ziff Davis公司发布的一项研究报告引发了业界广泛关注,该报告揭示了谷歌、OpenAI和Meta等AI巨头在训练大型语言模型(LLM)时对高质量新闻源的严重依赖。

研究团队,由Ziff Davis首席AI律师George Wukoson和技术官Joey Fortuna领导,深入分析了包括Common Crawl、C4、OpenWebText和OpenWebText2在内的多个公开承认被AI公司使用的数据集。结果表明,这些数据集的构成中,新闻和媒体网站的高质量内容占据了极大比例。这充分说明了主流AI企业已将新闻内容视为LLM训练的关键资源,对其模型的准确性和性能至关重要。
然而,这种对新闻内容的高度依赖也引发了关于版权和付费的争议。Ziff Davis的研究指出,AI公司大量使用新闻媒体内容却未支付相应费用,这将对新闻出版商的商业模式造成严重冲击,导致其失去重要的许可收入来源。 这与目前AI行业迅速发展的态势形成了鲜明对比,也凸显了AI发展与传统媒体行业利益平衡的迫切性。
这种担忧并非空穴来风。此前,已有出版商对OpenAI提起诉讼,指控其未经授权使用其内容训练模型。虽然Raw Story和AlterNet的诉讼被联邦法官驳回,但《纽约时报》等媒体机构的类似诉讼仍在审理中,而OpenAI也已经与部分顶级媒体公司达成了内容授权协议。这些案例表明,AI行业与新闻媒体之间的法律博弈仍在持续,并对未来AI模型的训练方式及数据获取方式提出了新的挑战。
总而言之,Ziff Davis的研究不仅清晰地展现了新闻内容在LLM训练中的核心地位,更迫切地呼吁AI行业重新审视其数据获取方式,寻求与新闻媒体之间更公平、更可持续的合作模式,解决版权和利益分配等关键问题,促进AI技术健康、可持续发展。