近18万次抓取，RAG输出被指控几乎逐字抄袭

近期，人工智能搜索领域的一家明星公司 Perplexity 再次站上风口浪尖。继去年与 OpenAI/Microsoft 的诉讼案之后，《纽约时报》近日在美国纽约南区地方法院提起了新的诉讼，指控 Perplexity“大规模、未经授权地复制和传播”其新闻、视频、播客等受版权保护的内容，并要求禁令和损害赔偿。这一举动无疑将为内容版权与生成式 AI 的边界描绘出更为清晰的法律轮廓，也引发了行业对于内容生态与技术发展的深度思考。

Lawyer Legal Office Lawsuit Court

图片来源示意：此图由 AI 生成，出图服务为 Midjourney。

起诉书核心：RAG 输出直指“近乎逐字的新闻”

抓取规模令人咋舌：仅在 2024 年 8 月一个月内，Perplexity 就对 nytimes.com 进行了超过 17.5 万次访问，而且据称是绕过了 robots.txt 协议以及采取了“硬封锁”措施。

内容使用方式引争议：通过检索增强生成（RAG）技术，Perplexity 会将整篇文章或“长篇摘要”直接嵌入其回复中。这意味着用户“无需点击进入原文”即可获取信息，这极大地削弱了原始出版物的流量引导价值。

争夺付费市场：《纽约时报》认为，Perplexity 的 AI 回复“直接取代”了其网站流量和用户订阅，从而严重损害了其广告收入和订阅收入。

技术细节剖析：规避限制与不当署名

规避技术手法：诉讼书详细列举了 Perplexity 可能采用的规避手段，包括使用未提及的用户代理（User-Agent）、第三方爬虫、动态 IP 地址等，并指控其涉嫌违反《数字千年版权法》(DMCA) (§1201)。

商标稀释风险：值得注意的是，诉讼还指出，RAG 技术曾将“Wirecutter 未曾评测过的已召回产品”错误标记为“Wirecutter 推荐”，《纽约时报》认为这构成了“虚假来源标识”和商标稀释。

诉讼目标明确：寻求赔偿、禁令与陪审团审判

经济损失诉求：尽管具体的经济赔偿金额尚未披露，但《纽约时报》强调，Perplexity 拥有“20 亿美元的估值和 1.5 亿美元的融资”，却“未付报酬”地使用了其内容。

禁令请求：诉讼要求禁止 Perplexity 继续抓取和使用《纽约时报》的材料，并要求销毁已复制的内容数据库。

jury Trial：《纽约时报》请求进行陪审团审判，以期树立一个“具有警示意义的先例”。

行业动态：出版商采取“诉讼+谈判”双轨策略

连锁反应：就在同一周，芝加哥论坛报也对 Perplexity 提起了类似的诉讼。此前，News Corp、道琼斯、Reddit 以及超过 40 家媒体机构已启动了约 40 起相关案件。

谈判与合作：另一方面，Perplexity 并非没有尝试与内容方和解。其推出了“出版商计划”（涉及广告收入分成）和 Comet Plus（每月 5 美元，80% 归媒体），并已与 Getty Images 达成多年授权协议。然而，《纽约时报》并未出现在合作名单之列。

双方回应：立场鲜明，针锋相对

《纽约时报》发言人 Graham James ：“我们支持 AI 的合乎道德的发展，但我们坚决反对未经许可使用我们的内容来推广商业产品。”

Perplexity 传播总监 Jesse Dwyer：“出版商总是在起诉新技术：无线电、电视、互联网、社交媒体，现在是 AI。幸运的是，这些从来没有成功过，否则我们至今只能靠电报通信。”

后续展望与行业影响

法律进展：Perplexity 有 30 天的时间提交答辩。如果法院发出临时禁令，其 RAG 索引可能被强制移除《纽约时报》的内容。

行业标杆：本次诉讼的判决结果，将直接影响“AI 搜索 → 出版商”的授权定价模式以及 RAG 技术在内容引用上的边界。OpenAI、Google 等业界巨头对此正密切关注。

监管信号：美国联邦贸易委员会（FTC）已就“AI 生成内容标签”征求意见，此次诉讼的进展很可能会加速相关联邦立法的进程，为 AI 内容的版权和伦理规范树立重要里程碑。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

近18万次抓取，RAG输出被指控几乎逐字抄袭

相关推荐

发表回复