英伟达等巨头被曝违规使用YouTube数据训练模型涉17万个视频

格隆汇快讯 2024年07月17日

多家科技巨头，包括苹果、英伟达、Salesforce和Anthrophic，被曝在训练AI模型时使用了来自谷歌旗下视频网站YouTube的未授权数据。这些公司使用了一个包含大量YouTube视频字幕文本的数据集，违反了YouTube的规定。该数据集包含来自4.8万个频道的17.35万个视频的字幕文本，总计4.89亿个单词，并包含多种语言的翻译。

😠 科技巨头违规使用YouTube数据：苹果、英伟达、Salesforce和Anthrophic等公司被曝在训练AI模型时使用了来自YouTube的未授权数据。

😨 数据集规模庞大：这些公司使用了一个名为“YouTube Subtitles”的数据集，包含来自4.8万个频道的17.35万个视频的字幕文本，总计4.89亿个单词，并包含多种语言的翻译。

😡 违反平台规定：YouTube禁止从平台上未经许可抓取内容，而这些科技公司使用了包含大量YouTube视频字幕文本的数据集，违反了平台的规定。

🤔 数据来源多样化：该数据集包含视频博主上传的部分和Youtube自动转录的文本，除了英语外，通常还附带日语、德语和阿拉伯语等语言的翻译。

😔 潜在风险：科技公司使用未经授权的数据训练AI模型，可能会带来潜在的法律风险和道德问题。

格隆汇7月17日｜据媒体消息，包括苹果、英伟达、Salesforce和Anthrophic在内的一些大型科技公司，被曝在训练AI模型时使用了来自谷歌旗下视频网站YouTube的未授权数据。这些公司使用了一个由第三方提供的数据集，其中包含从YouTube上抓取的大量视频字幕文本，违反了YouTube禁止从平台上未经许可抓取内容的规定。报道指出，这些科技公司在训练AI模型时都使用了一个名为“YouTube Subtitles（YouTube字幕）”的数据集，大小为5.7GB，包含4.89亿个单词，来自Youtube上超过4.8万个频道中的17.35万个视频。该数据集由视频字幕的纯文本组成，包括视频博主上传的部分和Youtube自动转录的文本，除了英语外，通常还附带日语、德语和阿拉伯语等语言的翻译。

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签