OpenAI 面临更多版权诉讼:人工智能训练需要更多数据

据外媒报道,OpenAI 使用所有公开可用的数据来训练 ChatGPT,包括来自互联网的书籍和文章。现在,拥有这些数据的机构希望为他们的工作获得报酬。

训练数据是构建正在席卷科技领域的 AI 模型的重要组成部分。谷歌、Meta、OpenAI、Anthropic 和微软等领先科技公司都在争相寻找新的数据来源。Meta 甚至一度考虑收购世界上最大的出版商之一西蒙舒斯特。

版权争议:数据使用引发争议

问题的一部分在于,出版商越来越多地指责这些公司窃取受版权保护的数据。他们希望为自己的工作获得报酬。Meta 和 OpenAI 在向美国版权局提交的评论中辩称,将受版权保护的材料放在互联网上使其公开可用,因此属于合理使用。但他们的说法在法庭上受到挑战,因为他们面临来自多个团体的有关版权材料的诉讼。

案例分析:调查报道中心与 OpenAI 的诉讼

调查报道中心 (CIR) 是一家非营利性新闻机构,今年早些时候与 Mother Jones 和 Reveal 合并。上周,CIR 在联邦法院起诉了 OpenAI 和微软,指控 OpenAI 利用包括 CIR 在内的全球创作者的版权作品来训练其 GPT 和 Copilot AI 模型。

CIR 的律师指控 OpenAI 和微软使用 Mother Jones 的版权材料来训练他们的 GPT 和 Copilot AI 模型,而没有征得许可或提供赔偿。CIR 首席执行官莫妮卡·鲍尔莱因在一份关于诉讼的声明中表示:「这种搭便车行为不仅不公平,而且侵犯了版权。」

其他诉讼:作家协会和《纽约时报》

除了调查报道中心的诉讼,作家协会也提起了一项集体诉讼,两位作家声称 OpenAI 利用他们书中的信息来训练 ChatGPT。《纽约时报》也在 2023 年 12 月对 OpenAI 提起了类似的诉讼。

OpenAI 的回应:部分许可协议和未来方向

面对这些版权争议,OpenAI 已开始与新闻机构签署许可协议,以公平使用其作品,已与美联社、《华尔街日报》和《纽约邮报》的出版商、《大西洋月刊》、Prisa Media、《世界报》、《金融时报》和 Business Insider 母公司 Axel Springer 签署了此类协议。

然而,这些机器人持续学习所需的内容规模将远远超过少数几份许可协议。OpenAI 正探索两种方式来解决数据来源问题:合成数据和人工智能模型协同工作。

合成数据和模型协同工作:未来趋势

合成数据是人工生成的,而非从现实世界收集的。OpenAI 将合成数据视为训练其模型的一种选择,但首席执行官 Sam Altman 对生成高质量数据表示担忧。他认为,如果能够生成足够智能的模型,能够生成优质的合成数据,那么将是一个很好的解决方案。

OpenAI 也在探索人工智能模型协同工作的过程,即一个人工智能系统生成数据,另一个人工智能系统对其进行判断。这是一种更复杂的方法,但可能会提供更可靠和更具创造性的数据来源。

OpenAI 尚未对此事发表评论。

    免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
    (0)
    上一篇 2024年 7月 1日 上午9:19
    下一篇 2024年 7月 1日 上午9:48

    相关推荐

    欢迎来到AI快讯网,开启AI资讯新时代!