AI 公司抓取新闻网站内容训练 AI 系统

据路透社上周六报道，专注于“内容许可”领域的初创公司 TollBit 近日向新闻出版商发出警告，称多家人工智能公司正在**规避**出版商用来阻止抓取内容的**常见网络标准**，并将抓取的内容用于**训练生成式 AI 系统**。

这一消息是在 AI 搜索初创公司 Perplexity 与媒体《福布斯》之间就同一网络标准公开争执的背景下发出的。当前，科技和媒体公司之间正在就**生成式 AI 时代的内容价值**展开更广泛的辩论。这一辩论的核心在于：生成式 AI 公司在训练模型时是否应该付费使用新闻媒体的内容，以及如何定义和衡量这些内容的价值。

Tollbit 将自己定位为**内容匮乏的 AI 公司**与**愿意与他们达成重大许可协议的出版商**之间的“媒人”，试图在 AI 公司和新闻出版商之间搭建桥梁，促成双方在内容使用上的合作。

IT之家注：《福布斯》曾指责 Perplexity 在 AI 生成的摘要中**剽窃其报道内容**，然而 Perplexity **并未标注**消息来源，也没有获得《福布斯》的许可。这一事件引发了社会对内容版权和知识产权的关注，也让 AI 公司在内容使用方面面临着更大的压力。

另外，《连线》（Wired）杂志上周也发表了一篇调查报道并指出，Perpexity 可能**绕过了**（新闻出版商设置的）“机器人排除协议（Robots Exclusion Protocol）”或其他阻止网络爬虫的程序。这意味着，Perplexity 可能存在着通过非法手段获取内容的行为，而这一行为违反了新闻出版商的利益和权益。

多家 AI 公司绕过网络标准抓取新闻出版商网站内容，并将抓取的内容用于训练生成式 AI 系统

图源 Pexels

自称**代表** ** 2000 多家美国出版商**的贸易组织“新闻媒体联盟”也对这一行为表示担忧 ——AI 公司对出版商设置的“禁止抓取”机制或“robots.txt”等工具置若罔闻。该组织主席 Danielle Coffey 表示，“如果 AI 公司无法停止大规模抓取的话，我们就**无法通过**有价值的内容获利，也无法为记者们**支付报酬**。” 这将导致新闻媒体行业的经济效益下降，进而影响新闻工作者的收入和新闻媒体行业的整体发展。

Tollbit 表示，Perplexity 并不是唯一无视出版商网站“禁止抓取”机制的违规者。根据其分析，“大量”AI 平台绕过了这一机制，而该机制为 AI 平台抓取自家内容设置了一份“**白名单**”—— 指示其网站哪些部分可以被抓取。这表明，AI 公司普遍存在着对新闻出版商权益的漠视，以及对其自身行为的合理性缺乏意识。

“这意味着，来自多个来源（而不仅仅是一家公司）的 AI 平台正在选择绕过 robots.txt 协议来从网站中检索内容，”TollBit 写道，“我们获取的出版商日志越多，这种模式出现的次数就越多。” 这一现象表明， AI 公司在内容使用的规范方面存在着普遍性的问题，需要在法律法规和行业规范方面寻求解决问题的方案。

包括《纽约时报》在内的一些出版商已就这些侵权行为**起诉 AI 公司**。其他出版商则与人工智能公司签署了许可协议，AI 公司们也愿意为内容付费，尽管双方往往对材料的价值存在分歧。许多 AI 开发者认为，他们免费获取内容**并未违反任何法律**。这一现象反映了当前 AI 公司和新闻出版商之间在内容使用方面的矛盾，以及对相关法律法规的理解差异。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

AI 公司抓取新闻网站内容训练 AI 系统

相关推荐

发表回复