格隆汇快讯 2024年07月17日
英伟达等巨头被曝违规使用YouTube数据训练模型 涉17万个视频
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

多家科技巨头,包括苹果、英伟达、Salesforce和Anthrophic,被曝在训练AI模型时使用了来自谷歌旗下视频网站YouTube的未授权数据。这些公司使用了一个包含大量YouTube视频字幕文本的数据集,违反了YouTube的规定。该数据集包含来自4.8万个频道的17.35万个视频的字幕文本,总计4.89亿个单词,并包含多种语言的翻译。

😠 科技巨头违规使用YouTube数据:苹果、英伟达、Salesforce和Anthrophic等公司被曝在训练AI模型时使用了来自YouTube的未授权数据。

😨 数据集规模庞大:这些公司使用了一个名为“YouTube Subtitles”的数据集,包含来自4.8万个频道的17.35万个视频的字幕文本,总计4.89亿个单词,并包含多种语言的翻译。

😡 违反平台规定:YouTube禁止从平台上未经许可抓取内容,而这些科技公司使用了包含大量YouTube视频字幕文本的数据集,违反了平台的规定。

🤔 数据来源多样化:该数据集包含视频博主上传的部分和Youtube自动转录的文本,除了英语外,通常还附带日语、德语和阿拉伯语等语言的翻译。

😔 潜在风险:科技公司使用未经授权的数据训练AI模型,可能会带来潜在的法律风险和道德问题。

格隆汇7月17日|据媒体消息,包括苹果、英伟达、Salesforce和Anthrophic在内的一些大型科技公司,被曝在训练AI模型时使用了来自谷歌旗下视频网站YouTube的未授权数据。这些公司使用了一个由第三方提供的数据集,其中包含从YouTube上抓取的大量视频字幕文本,违反了YouTube禁止从平台上未经许可抓取内容的规定。报道指出,这些科技公司在训练AI模型时都使用了一个名为“YouTube Subtitles(YouTube字幕)”的数据集,大小为5.7GB,包含4.89亿个单词,来自Youtube上超过4.8万个频道中的17.35万个视频。该数据集由视频字幕的纯文本组成,包括视频博主上传的部分和Youtube自动转录的文本,除了英语外,通常还附带日语、德语和阿拉伯语等语言的翻译。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI模型 YouTube 数据隐私 科技巨头 违规使用
相关文章