人工智能技术的飞速发展,以令人惊叹的速度重塑着我们的数字世界。其中,大型语言模型(LLM)的训练数据来源成为了一个备受关注的核心议题。最近,一桩发生在俄勒冈州的诉讼,将Adobe公司卷入了一场关于AI训练数据合法性的风暴之中。这起案例不仅关乎版权,更触及了AI生态系统中创作者与技术开发者之间日趋紧张的利益平衡。
数字内容创作者伊丽莎白·里昂(Elizabeth Lyon)近日提起了一项集体诉讼,指控Adobe公司在其开发的一个轻量级语言模型SlimLM的训练过程中,非法使用了包含她作品的盗版数据集。SlimLM是Adobe推出的一系列专为移动设备上的文档辅助任务优化的模型,例如文本摘要、改写及问答等功能。Adobe方面对此回应称,该模型是基于2023年6月由AI芯片公司Cerebras发布的公开数据集SlimPajama-627B进行预训练的。这一数据集被宣传为公开可用、经过去重且来源多元化的语料库。
然而,里昂的诉状中明确指出,SlimPajama并非凭空而来,而是RedPajama数据集的一个衍生版本。而RedPajama数据集,据称直接复制了臭名昭著的Books3数据集。Books3包含约19.1万本受版权保护的书籍,长期以来一直因为被指控大量收录盗版在线资源(如The Bibliotik)而备受争议。诉状强调:“既然SlimPajama是RedPajama的衍生品,它就包含了来自Books3的内容,其中就包括原告及集体成员受版权保护的作品。”
里昂本人是多本非虚构写作指南的作者,她的作品据称也包含在这次被非法用于训练的数据之中。她指责Adobe在未经授权、未提供署名或支付任何报酬的情况下,将她的文本用于商业AI产品的开发,这构成了对作者在版权法下享有的专有权利的侵犯。
这并非一起孤立事件。Books3和RedPajama数据集已多次出现在与AI相关的版权诉讼中,成为行业内挥之不去的阴影:
- 2024年9月,苹果因被指控使用Books3训练其Apple Intelligence而遭到起诉。
- 同年9月,Anthropic公司与一群作者达成了一项15亿美元的和解协议,也是就类似指控,这被认为是AI版权案件中的一个里程碑事件。
- 10月,Salesforce也被指控依赖RedPajama来训练其AI系统。
随着生成式AI对海量文本数据的依赖日益加深,训练数据的合法性问题已从一种道德争议演变成一个法律雷区。Adobe此次面临的诉讼再次突显了整个行业面临的一项普遍困境:即便使用的是所谓的“开源”数据集,如果该源头包含侵权内容,下游开发者也可能承担连带责任。
在Anthropic昂贵的和解案的阴影之下,Adobe如何应对此次诉讼,无疑将对整个AI行业对训练数据溯源和合规审查的关注产生深远影响。对于内容创作者而言,此次诉讼不仅是对自身权益的捍卫,更是对“在AI时代,创意价值究竟属于谁”这一 seminal 问题的关键确认。