生成式 AI 模型正在从互联网上获取数据，包括您的数据

苏菲·布什维克（Sophie Bushwick）： 要训练大型人工智能模型，您需要大量由真人创建的文本和图像。随着人工智能热潮的继续，越来越清楚的是，其中一些数据来自受版权保护的来源。现在，作家和艺术家正在提起一连串的诉讼，以挑战人工智能开发人员如何使用他们的作品。

劳伦·莱弗（Lauren Leffer）： 但是，不仅仅是已发表的作者和视觉艺术家应该关心生成式人工智能是如何被训练的。如果你正在听这个播客，你可能也要注意。我是劳伦·莱弗（Lauren Leffer），《科学美国人》的技术报道研究员。

布什威克： 我是 Sophie Bushwick，技术编辑 《科学美国人》.您正在收听 快速技术，数字数据潜水版 《科学美国人》 科学，快速 播客。

所以，Lauren，人们经常说生成式人工智能是在整个互联网上训练的，但似乎对这意味着什么并没有太多的了解。当这个问题出现在办公室时，我们的很多同事都提出了问题。

莱弗： 人们询问他们的个人社交媒体资料、受密码保护的内容、旧博客等等。正如华盛顿大学（University of Washington）的计算语言学家艾米丽·M·本德（Emily M. Bender）告诉我的那样，“没有一个地方可以下载互联网”，你很难理解在线数据意味着什么。

布什威克： 因此，让我们深入研究一下。这些人工智能公司是如何获取数据的？

布什威克： 祝我们万圣节快乐。

莱弗： 完全。互联网上令人毛骨悚然的蜘蛛。然后网络爬虫进入并下载所有目录信息。

布什威克： 这些工具很容易访问。

莱弗： 右。市面上有一些不同的开放获取网络爬虫。例如，有一个叫做 Common Crawl 的，我们知道 OpenAI 用它来收集至少一次为 ChatGPT 提供支持的大型语言模型迭代的训练数据。

布什威克： 你是什么意思？至少一个？

莱弗： 是的。因此，与许多大型科技公司一样，随着时间的推移，该公司在训练数据方面的透明度越来越低。当 OpenAI 开发 GPT-3 时，它在一篇论文中解释了它使用什么来训练模型，甚至解释了它如何过滤这些数据。但随着 GPT-3.5 和 GPT-4 的发布，OpenAI 提供的信息要少得多。

布什威克： 我们少说了多少？

莱弗： 少得多——几乎没有。该公司最新的技术报告实际上没有提供有关培训过程或使用数据的细节。OpenAI 甚至在论文中直接承认了这一点，他写道：“考虑到竞争格局和 GPT-4 等大型模型的安全影响，这份报告不包含有关架构、硬件训练、计算数据集、构造训练方法或类似方法的进一步细节。

布什威克： 哇.好的，所以我们真的没有从公司那里得到任何关于是什么为最新版本的 ChatGPT 提供的信息。

莱弗： 右。但这并不意味着我们完全处于黑暗之中。可能在 GPT-3 和 GPT-4 之间，最大的数据源保持了相当一致，因为很难找到足够大的全新数据源来构建生成式 AI 模型。开发人员正试图获得更多的数据，而不是更少的数据。GPT-4 可能在一定程度上也依赖于 Common Crawl。

布什威克： 好的，一般来说，Common Crawl 和网络爬虫是数据收集过程的重要组成部分。那么他们在疏浚什么呢？我的意思是，有没有这些小数字蜘蛛不能去的地方？

莱弗： 好问题。当然，有些地方比其他地方更难进入。一般来说，搜索引擎中任何可见的内容都很容易被吸尘，但登录页面后面的内容更难获得。因此，有关公共 LinkedIn 个人资料的信息可能包含在 Common Crawl 的数据库中，但受密码保护的帐户可能不会。但是想一想。

互联网上的开放数据包括上传到 Flickr 的照片、在线市场、选民登记数据库、政府网页、商业网站、可能还有您的员工简历、维基百科、Reddit、研究存储库、新闻媒体等。此外，还有大量易于访问的盗版内容和存档汇编，wHich 可能会包括你认为你多年前删除的那个令人尴尬的个人博客。

布什威克： 哎呀。好吧，所以这是很多数据，但是——好吧。从好的方面来看，至少这不是我以前的Facebook帖子，因为那些是私人的，对吧？

莱弗： 我很想说是的，但事情是这样的。一般的网络爬虫可能不包括锁定的社交媒体帐户或您的私人帖子，但 Facebook 和 Instagram 归 Meta 所有，Meta 拥有自己的大型语言模型。

布什威克： 啊，对了。

莱弗： 右。Meta 正在投入大量资金进一步开发其人工智能。

布什威克： 在最后一集 技术，快速， 我们谈到了亚马逊和谷歌将用户数据整合到他们的人工智能模型中。那么 Meta 也在做同样的事情吗？

莱弗： 是的。正式。该公司承认，它已经使用Instagram和Facebook帖子来训练其AI。到目前为止，Meta 表示这仅限于公开帖子，但目前尚不清楚他们如何定义这一点。当然，它总是可以改变的。

布什威克： 我觉得这令人毛骨悚然，但我认为有些人可能会想：那又怎样？作家和艺术家不希望他们的版权作品被收录在这里是有道理的，尤其是当生成式人工智能可以吐出模仿他们风格的内容时。但为什么它对其他人很重要呢？无论如何，所有这些信息都是在线的，所以一开始就不是那么私密。

莱弗： 真。它们已经在互联网上全部可用，但您可能会对这些数据库中出现的一些材料感到惊讶。去年，一位数字艺术家正在使用一个名为LAION的视觉数据库，拼写为L-A-I-O-N。

布什威克： 当然，这并不令人困惑。

莱弗： 用于培训和流行的图像生成器。这位艺术家偶然发现了一张与她的名字相关的医疗照片。这张照片是在医院拍摄的，作为她医疗档案的一部分，当时，她特别签署了一份表格，表明她不同意在任何情况下分享这张照片。然而，不知何故，它最终在网上。

布什威克： 哇。这不是违法的吗？这听起来像是违反了HIPPA医疗隐私规则。

莱弗： 对非法问题肯定，但我们不知道医学图像是如何进入LAION的。这些公司和组织并没有很好地关注其数据的来源。他们只是在编译它，然后用它来训练气动工具。来自的报告 Ars Technica公司 在LAION数据库中还发现了许多其他医院里的人的照片。

莱弗： 我确实要求LAION发表评论，但我还没有收到他们的回复。

布什威克： 那么我们认为这里发生了什么？

赵本： 有孩子在未经许可的情况下被拍摄的例子。有私人住宅图片的例子。有各种各样的东西不应该以任何方式、形状或形式包含在公共训练集中。

布什威克： 但是，仅仅因为数据最终进入了人工智能训练集，这并不意味着任何想要查看它的人都可以访问它。我的意思是，这里有保护措施。人工智能聊天机器人和图像生成器不会在你要求时吐出人们的家庭住址或信用卡号。

莱弗： 真。我的意思是，让人工智能机器人提供有关基本历史事件的完全正确的信息已经够难了。他们产生幻觉，经常犯错误。这些工具绝对不是在互联网上追踪个人详细信息的最简单方法。但。。。

布什威克： 哦，为什么总是有一个“但是”？

莱弗： 在那里，呃，在某些情况下，人工智能生成器已经生成了真人脸部的图片和受版权保护作品的非常忠实的复制品。此外，尽管大多数生成模型都有护栏，旨在防止它们共享特定人员的身份信息，但研究人员已经表明，通常有一些方法可以通过创造性提示或通过弄乱开源AI模型来绕过这些障碍。

布什威克： 所以隐私在这里仍然是一个问题吗？

而美国没有。

布什威克： 是的。

莱弗： 另外，所有这些数据都伴随着另一个大问题。

布什威克： 哦，当然可以。让我猜猜这个。是偏见吗？

莱弗： 叮，叮，叮。互联网可能包含大量信息，但这些信息是歪曲的。我采访了纽约大学研究人工智能的数据记者梅雷迪思·布鲁萨德（Meredith Broussard），她概述了这个问题。

莱弗： 用布鲁萨德的话来说，就是“偏向，偏出”。

布什威克： 人工智能开发人员难道不是在过滤他们的训练数据以去除最糟糕的部分，并施加限制以防止机器人创建仇恨内容吗？

莱弗： 是的。但同样，很明显，很多偏见仍然存在。当你看到人工智能生成的大局时，这一点是显而易见的。这些模型似乎反映甚至放大了许多有害的种族、性别和民族刻板印象。例如，人工智能图像生成器往往比男性产生更多的女性性化描述，在基线上，依赖互联网数据意味着这些人工智能模型将偏向于可以访问互联网并在网上发帖的人的视角。

莱弗： 右。互联网实际上并不代表现实世界。

布什威克： 反过来，这些人工智能模型也不是。

莱弗： 完全。最后，Bender 和我采访过的其他几位专家指出，这种偏见以及缺乏透明度使得很难说我们目前的生成式 AI 模型应该如何使用。比如，对于有偏见的黑匣子内容机器来说，什么是好的应用程序？

布什威克： 也许这是一个我们现在不回答的问题。 科学，快速 由 Jeff DelViscio、Tulika Bose、Kelso Harper 和 Carin Leong 制作。我们的节目由 Elah Feder 和 Alexa Lim 编辑。我们的主题音乐由多米尼克·史密斯（Dominic Smith）创作。

布什威克： 为 《科学美国人》的 科学，快速， 我是苏菲·布什维克。

莱弗： 我是Lauren Leffer。下次再和你谈谈。

本文由AI快讯网译自：AIMagazine

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

生成式 AI 模型正在从互联网上获取数据，包括您的数据

相关推荐

分子之心获数亿融资，AI 创造蛋白质时代来临！

发表回复