Adobe因使用盗版书籍训练AI模型而遭起诉，SlimLM卷入版权争议

人工智能技术的飞速发展，以令人惊叹的速度重塑着我们的数字世界。其中，大型语言模型（LLM）的训练数据来源成为了一个备受关注的核心议题。最近，一桩发生在俄勒冈州的诉讼，将Adobe公司卷入了一场关于AI训练数据合法性的风暴之中。这起案例不仅关乎版权，更触及了AI生态系统中创作者与技术开发者之间日趋紧张的利益平衡。

数字内容创作者伊丽莎白·里昂（Elizabeth Lyon）近日提起了一项集体诉讼，指控Adobe公司在其开发的一个轻量级语言模型SlimLM的训练过程中，非法使用了包含她作品的盗版数据集。SlimLM是Adobe推出的一系列专为移动设备上的文档辅助任务优化的模型，例如文本摘要、改写及问答等功能。Adobe方面对此回应称，该模型是基于2023年6月由AI芯片公司Cerebras发布的公开数据集SlimPajama-627B进行预训练的。这一数据集被宣传为公开可用、经过去重且来源多元化的语料库。

然而，里昂的诉状中明确指出，SlimPajama并非凭空而来，而是RedPajama数据集的一个衍生版本。而RedPajama数据集，据称直接复制了臭名昭著的Books3数据集。Books3包含约19.1万本受版权保护的书籍，长期以来一直因为被指控大量收录盗版在线资源（如The Bibliotik）而备受争议。诉状强调：“既然SlimPajama是RedPajama的衍生品，它就包含了来自Books3的内容，其中就包括原告及集体成员受版权保护的作品。”

里昂本人是多本非虚构写作指南的作者，她的作品据称也包含在这次被非法用于训练的数据之中。她指责Adobe在未经授权、未提供署名或支付任何报酬的情况下，将她的文本用于商业AI产品的开发，这构成了对作者在版权法下享有的专有权利的侵犯。

这并非一起孤立事件。Books3和RedPajama数据集已多次出现在与AI相关的版权诉讼中，成为行业内挥之不去的阴影：

2024年9月，苹果因被指控使用Books3训练其Apple Intelligence而遭到起诉。
同年9月，Anthropic公司与一群作者达成了一项15亿美元的和解协议，也是就类似指控，这被认为是AI版权案件中的一个里程碑事件。
10月，Salesforce也被指控依赖RedPajama来训练其AI系统。

随着生成式AI对海量文本数据的依赖日益加深，训练数据的合法性问题已从一种道德争议演变成一个法律雷区。Adobe此次面临的诉讼再次突显了整个行业面临的一项普遍困境：即便使用的是所谓的“开源”数据集，如果该源头包含侵权内容，下游开发者也可能承担连带责任。

在Anthropic昂贵的和解案的阴影之下，Adobe如何应对此次诉讼，无疑将对整个AI行业对训练数据溯源和合规审查的关注产生深远影响。对于内容创作者而言，此次诉讼不仅是对自身权益的捍卫，更是对“在AI时代，创意价值究竟属于谁”这一 seminal 问题的关键确认。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Adobe因使用盗版书籍训练AI模型而遭起诉，SlimLM卷入版权争议

相关推荐

发表回复