近期,欧盟通过了《人工智能法案》,这项法案要求公司在人工智能系统训练过程中使用的所有数据需保持透明度,这将对人工智能行业最敏感的商业秘密之一构成挑战。
自微软支持的OpenAI向公众发布ChatGPT以来,生成式人工智能在过去18个月里吸引了大量公众参与和投资。然而,随着该行业的快速发展,人们开始质疑人工智能公司获取训练模型数据的方式,以及这些公司在未经创作者许可的情况下,利用畅销书和好莱坞电影来训练人工智能是否构成版权侵犯。
欧盟新的《人工智能法案》将在未来两年内分阶段实施,旨在为监管机构提供充足时间来执行新规,并为企业提供履行一系列新义务的时间。然而,一些规定在实际操作中如何运作目前尚不清楚。
该法案中争议最大的规定之一要求部署通用人工智能模型(例如ChatGPT)的组织提供训练模型所使用内容的“详细摘要”。新成立的人工智能办公室表示,计划在与利益相关方协商后,于2025年初公布一个模板供各组织参考。
虽然具体细节尚未确定,但人工智能公司普遍对透露训练模型内容持抵触态度,认为这些信息属于商业机密,公开将使竞争对手获得不公平优势。
人工智能图像编辑公司Photoroom的首席执行官马蒂厄·里乌夫(Matthieu Riouf)表示:“看到竞争对手的数据集对我们而言是梦想成真,对他们公开我们的数据集也是一样。”
他补充道:“这就像烹饪一样,菜谱中有一部分属于顶级大厨不会公开的秘密,即让菜肴与众不同的‘秘诀’。”
透明度规定的最终执行细节将对行业内所有企业产生重大影响,包括小型人工智能初创公司以及谷歌和Meta等大型科技公司,这些公司都将人工智能技术视为未来运营的核心。
共享商业机密
在过去一年中,包括谷歌、OpenAI和Stability AI在内的多家知名科技公司都面临着创作者的诉讼,这些创作者指控他们的内容被不当用于训练人工智能模型。
虽然美国总统拜登已通过多项行政命令,重点关注人工智能的安全风险,但版权问题尚未得到充分解决。目前要求科技公司为使用数据向权利人付费的呼吁获得了国会两党的支持。
面对越来越严格的审查,科技公司与媒体和网站签署了大量内容授权协议。其中,OpenAI与《金融时报》和《大西洋月刊》签署了协议,谷歌则与美国传媒巨头新闻集团和社交媒体网站Reddit达成协议。
尽管如此,OpenAI在3月仍然招致了批评,当时其首席技术官米拉·穆拉提(MiraMurati)拒绝回答是否使用YouTube视频来训练其视频生成工具Sora,因为这将违反该公司服务条款。
上个月,OpenAI再次受到抨击,该公司在公开演示最新版ChatGPT时使用的人工智能生成的声音被女演员斯嘉丽·约翰逊(Scarlett Johansson)形容为与她本人声音“极为相似”。
人工智能初创公司“Hugging Face”的联合创始人托马斯-沃尔夫(Thomas Wolf)表示支持提高透明度,但并未得到全行业的认可。他说:“很难知道结果会如何,还有很多事情有待决定。”
欧洲大陆的高级立法者之间仍存在分歧。欧洲议会负责监督《人工智能法案》起草工作的立法者之一德拉戈斯·图多拉奇(Dragos Tudorache)表示,应强制人工智能公司公开其数据集。
他说:“这些数据集必须足够详细,让斯嘉丽·约翰逊、碧昂斯或任何人都能知道他们的作品、歌曲、声音、艺术或科学是否被用于训练算法。”
委员会的一位官员表示:“《人工智能法案》承认,有必要在保护商业秘密的合法需求与促进包括版权持有者在内的拥有合法权益的各方行使欧盟法律规定的权利之间取得适当平衡。”
在法国总统马克龙的领导下,法国政府私下反对引入可能削弱欧洲人工智能初创企业竞争力的规定。
今年5月,法国财政部长布鲁诺·勒梅尔(Bruno Le Maire)在巴黎举行的“科技万岁”(Viva Technology)会议上表示,他希望欧洲成为人工智能领域的全球领导者,而不仅仅是美国和中国产品的消费者。
他说:“这一次,制定控制措施和标准的欧洲需要明白,在监管之前须先进行创新。否则,将面临对尚未掌握的技术进行监管的风险,或因尚未掌握这些技术而进行了糟糕的监管。”