Rain科技7月17日消息,据媒体报道,多家科技巨头,包括英伟达、苹果、Salesforce和Anthropic等,被曝光涉嫌违规使用数据训练其AI模型。
这些公司被发现使用了超过173536个YouTube视频的字幕数据,而这些数据的获取并未得到视频创作者的许可。
这些公司所使用的数据集名为“YouTube Subtitles”,由非营利组织EleutherAI创建,该数据集包含了来自超过48000个频道的视频文本。
其中不乏知名教育机构和媒体公司的内容,例如可汗学院、麻省理工学院、哈佛大学等,此外,一些广受欢迎的YouTube创作者,如MrBeast等的视频也被包括在内。这意味着这些科技巨头不仅利用了公众视频内容,还可能包含了学生学习资料、专业学术研究成果以及原创视频内容。
此前,EleutherAI发布了名为“Pile”的数据汇编,其中大部分数据集都是对公众开放的,包括YouTube Subtitles。但是,这些数据集的获取并未得到所有原始数据的权利人授权,这引发了关于数据版权和隐私的争议。
值得注意的是,苹果在使用Pile数据集训练OpenELM模型时,并未直接下载数据,因此从技术层面上来看,是EleutherAI违反了YouTube的使用条款。但是,苹果公司作为最终受益者,并未尽到监管数据来源的责任,也为这场争议带来了更多的不确定性。
YouTube明确禁止未经授权从平台获取素材,同时这些数据不仅用于训练AI,还可能涉及到版权和隐私问题。例如,一些视频可能包含个人信息,例如姓名、地址或其他敏感数据,使用这些数据训练AI模型可能会造成潜在的隐私风险。
创作者们对此表示震惊和不满,因为他们并未被告知自己的作品被用于商业目的,更遑论从中获得任何补偿。这无疑引发了关于数据权益和商业利益的伦理问题,也为AI模型训练数据获取的规范化提出了新的挑战。
