10月 19, 2023
7 最小阅读
公司正在互联网上训练他们的生成式人工智能模型,而且没有真正的方法可以阻止它们

艺术家和作家对生成式人工智能系统持反对态度——这是可以理解的。这些机器学习模型只能输出图像和文本,因为它们已经在大量真人的创造性作品中进行了训练,其中大部分是受版权保护的。包括 OpenAI、Meta 和 Stability AI 在内的主要 AI 开发商现在面临多起诉讼。这种法律主张得到了独立分析的支持;例如,在 8 月, 大西洋 报告称,Meta 部分训练了其大型语言模型 (LLM) 在名为 Books3 的数据集上,其中包含超过 170,000 本盗版和受版权保护的书籍。
这些模型的训练数据集不仅仅包括书籍。在急于构建和训练越来越大的 AI 模型的过程中,开发人员已经席卷了大部分可搜索的互联网。这不仅有可能侵犯版权,而且还威胁到数十亿在线共享信息的人的隐私。这也意味着,所谓的中立模型可以在有偏见的数据上进行训练。由于缺乏企业透明度,很难确切地弄清楚企业从哪里获得训练数据,但 《科学美国人》 与一些有大致想法的人工智能专家进行了交谈。
人工智能训练数据从何而来?
一些数据爬虫和抓取工具甚至能够绕过付费墙(包括 《科学美国人》通过伪装自己在付费账户后面,芝加哥大学的计算机科学家Ben Zhao说。“你会惊讶于这些爬虫和模型训练师愿意走多远来获取更多数据,”赵说。付费新闻网站是谷歌 C4 数据库(用于训练谷歌的 LLM T5 和 Meta 的 LLaMA)中包含的顶级数据源之一 联合分析 作者 华盛顿邮报 和艾伦研究所。
但除了这些承认之外,近几个月来,公司对披露其数据集的细节越来越谨慎。尽管 Meta 提供了一般数据细分 其技术文件 在LLaMA的第一个版本上,几个月后发布了LLaMA 2 包括的要少得多 信息。谷歌也是, 未指定 其最近发布的 PaLM2 AI 模型中的数据源,除了说用于训练 PaLM2 的数据比用于训练 PaLM 的原始版本的数据要多得多之外。OpenAI 写道,它 不愿透露 关于其 GPT-4 训练数据集或方法的任何细节,将竞争列为主要关注点。
为什么狡猾的训练数据是一个问题?
AI 模型可以 反刍相同的材料 这被用来培训他们——包括敏感的个人数据和受版权保护的作品。许多广泛使用的生成式人工智能模型都有阻止它们共享有关个人的识别信息的块,但研究人员已经反复证明 出行方式 这些限制.对于创意工作者来说,即使人工智能的输出并不完全符合剽窃的条件,赵说,他们也可以通过例如利用特定艺术家独特的视觉技术来蚕食付费机会。但是,如果没有数据源的透明度,就很难将这些输出归咎于人工智能的训练;毕竟,它可能巧合地“幻觉”了有问题的材料。
如何保护您的数据免受 AI 的侵害?
在加利福尼亚州和其他一些州,最近通过的数字隐私法赋予消费者要求公司删除其数据的权利。在欧盟,人们也有权删除数据。然而,到目前为止,人工智能公司已经拒绝了这些请求,声称无法证明数据的来源,或者 完全忽略请求——斯坦福大学隐私和数据研究员詹妮弗·金(Jennifer King)说。
赵说,即使公司尊重这些要求,并从训练集中删除你的信息,也没有明确的策略让人工智能模型忘记它以前吸收的东西。为了真正从这些 AI 模型中提取所有受版权保护或潜在的敏感信息,必须有效地从 scratc 中重新训练 AIh,这可能花费数千万美元,道奇说。
目前,没有重要的人工智能政策或法律裁决要求科技公司采取此类行动,这意味着他们没有动力回到绘图板。
本文由AI快讯网译自:AIMagazine