NVIDIA、苹果等巨头违规用数据训练AI，超17万个视频曝光

Rain科技7月17日消息，据媒体报道，多家科技巨头，包括英伟达、苹果、Salesforce和Anthropic等，被曝光涉嫌违规使用数据训练其AI模型。

这些公司被发现使用了超过173536个YouTube视频的字幕数据，而这些数据的获取并未得到视频创作者的许可。

这些公司所使用的数据集名为“YouTube Subtitles”，由非营利组织EleutherAI创建，该数据集包含了来自超过48000个频道的视频文本。

其中不乏知名教育机构和媒体公司的内容，例如可汗学院、麻省理工学院、哈佛大学等，此外，一些广受欢迎的YouTube创作者，如MrBeast等的视频也被包括在内。这意味着这些科技巨头不仅利用了公众视频内容，还可能包含了学生学习资料、专业学术研究成果以及原创视频内容。

此前，EleutherAI发布了名为“Pile”的数据汇编，其中大部分数据集都是对公众开放的，包括YouTube Subtitles。但是，这些数据集的获取并未得到所有原始数据的权利人授权，这引发了关于数据版权和隐私的争议。

值得注意的是，苹果在使用Pile数据集训练OpenELM模型时，并未直接下载数据，因此从技术层面上来看，是EleutherAI违反了YouTube的使用条款。但是，苹果公司作为最终受益者，并未尽到监管数据来源的责任，也为这场争议带来了更多的不确定性。

YouTube明确禁止未经授权从平台获取素材，同时这些数据不仅用于训练AI，还可能涉及到版权和隐私问题。例如，一些视频可能包含个人信息，例如姓名、地址或其他敏感数据，使用这些数据训练AI模型可能会造成潜在的隐私风险。

创作者们对此表示震惊和不满，因为他们并未被告知自己的作品被用于商业目的，更遑论从中获得任何补偿。这无疑引发了关于数据权益和商业利益的伦理问题，也为AI模型训练数据获取的规范化提出了新的挑战。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

NVIDIA、苹果等巨头违规用数据训练AI，超17万个视频曝光

相关推荐

发表回复