多家科技巨头,包括苹果、英伟达、Salesforce和Anthrophic,被曝在训练AI模型时使用了来自谷歌旗下视频网站YouTube的未授权数据。这些公司使用了一个包含大量YouTube视频字幕文本的数据集,违反了YouTube的规定。该数据集包含来自4.8万个频道的17.35万个视频的字幕文本,总计4.89亿个单词,并包含多种语言的翻译。
😠 科技巨头违规使用YouTube数据:苹果、英伟达、Salesforce和Anthrophic等公司被曝在训练AI模型时使用了来自YouTube的未授权数据。
😨 数据集规模庞大:这些公司使用了一个名为“YouTube Subtitles”的数据集,包含来自4.8万个频道的17.35万个视频的字幕文本,总计4.89亿个单词,并包含多种语言的翻译。
😡 违反平台规定:YouTube禁止从平台上未经许可抓取内容,而这些科技公司使用了包含大量YouTube视频字幕文本的数据集,违反了平台的规定。
🤔 数据来源多样化:该数据集包含视频博主上传的部分和Youtube自动转录的文本,除了英语外,通常还附带日语、德语和阿拉伯语等语言的翻译。
😔 潜在风险:科技公司使用未经授权的数据训练AI模型,可能会带来潜在的法律风险和道德问题。
格隆汇7月17日|据媒体消息,包括苹果、英伟达、Salesforce和Anthrophic在内的一些大型科技公司,被曝在训练AI模型时使用了来自谷歌旗下视频网站YouTube的未授权数据。这些公司使用了一个由第三方提供的数据集,其中包含从YouTube上抓取的大量视频字幕文本,违反了YouTube禁止从平台上未经许可抓取内容的规定。报道指出,这些科技公司在训练AI模型时都使用了一个名为“YouTube Subtitles(YouTube字幕)”的数据集,大小为5.7GB,包含4.89亿个单词,来自Youtube上超过4.8万个频道中的17.35万个视频。该数据集由视频字幕的纯文本组成,包括视频博主上传的部分和Youtube自动转录的文本,除了英语外,通常还附带日语、德语和阿拉伯语等语言的翻译。