据路透社上周六报道,专注于“内容许可”领域的初创公司 TollBit 近日向新闻出版商发出警告,称多家人工智能公司正在**规避**出版商用来阻止抓取内容的**常见网络标准**,并将抓取的内容用于**训练生成式 AI 系统**。
这一消息是在 AI 搜索初创公司 Perplexity 与媒体《福布斯》之间就同一网络标准公开争执的背景下发出的。当前,科技和媒体公司之间正在就**生成式 AI 时代的内容价值**展开更广泛的辩论。这一辩论的核心在于:生成式 AI 公司在训练模型时是否应该付费使用新闻媒体的内容,以及如何定义和衡量这些内容的价值。
Tollbit 将自己定位为**内容匮乏的 AI 公司**与**愿意与他们达成重大许可协议的出版商**之间的“媒人”,试图在 AI 公司和新闻出版商之间搭建桥梁,促成双方在内容使用上的合作。
IT之家注:《福布斯》曾指责 Perplexity 在 AI 生成的摘要中**剽窃其报道内容**,然而 Perplexity **并未标注**消息来源,也没有获得《福布斯》的许可。这一事件引发了社会对内容版权和知识产权的关注,也让 AI 公司在内容使用方面面临着更大的压力。
另外,《连线》(Wired)杂志上周也发表了一篇调查报道并指出,Perpexity 可能**绕过了**(新闻出版商设置的)“机器人排除协议(Robots Exclusion Protocol)”或其他阻止网络爬虫的程序。这意味着,Perplexity 可能存在着通过非法手段获取内容的行为,而这一行为违反了新闻出版商的利益和权益。

图源 Pexels
自称**代表** ** 2000 多家美国出版商**的贸易组织“新闻媒体联盟”也对这一行为表示担忧 ——AI 公司对出版商设置的“禁止抓取”机制或“robots.txt”等工具置若罔闻。该组织主席 Danielle Coffey 表示,“如果 AI 公司无法停止大规模抓取的话,我们就**无法通过**有价值的内容获利,也无法为记者们**支付报酬**。” 这将导致新闻媒体行业的经济效益下降,进而影响新闻工作者的收入和新闻媒体行业的整体发展。
Tollbit 表示,Perplexity 并不是唯一无视出版商网站“禁止抓取”机制的违规者。根据其分析,“大量”AI 平台绕过了这一机制,而该机制为 AI 平台抓取自家内容设置了一份“**白名单**”—— 指示其网站哪些部分可以被抓取。这表明,AI 公司普遍存在着对新闻出版商权益的漠视,以及对其自身行为的合理性缺乏意识。
“这意味着,来自多个来源(而不仅仅是一家公司)的 AI 平台正在选择绕过 robots.txt 协议来从网站中检索内容,”TollBit 写道,“我们获取的出版商日志越多,这种模式出现的次数就越多。” 这一现象表明, AI 公司在内容使用的规范方面存在着普遍性的问题,需要在法律法规和行业规范方面寻求解决问题的方案。
包括《纽约时报》在内的一些出版商已就这些侵权行为**起诉 AI 公司**。其他出版商则与人工智能公司签署了许可协议,AI 公司们也愿意为内容付费,尽管双方往往对材料的价值存在分歧。许多 AI 开发者认为,他们免费获取内容**并未违反任何法律**。 这一现象反映了当前 AI 公司和新闻出版商之间在内容使用方面的矛盾,以及对相关法律法规的理解差异。