英伟达等巨头被曝违规使用YouTube数据训练模型

韭研公社 2024年07月17日

多家科技巨头，包括苹果、英伟达、Salesforce和Anthrophic，被曝在训练AI模型时使用了来自谷歌旗下视频网站YouTube的未授权数据。这些公司使用了一个由第三方提供的数据集，其中包含从YouTube上抓取的大量视频字幕文本，违反了YouTube禁止从平台上未经许可抓取内容的规定。

🤔 **科技巨头使用未授权数据：** 苹果、英伟达、Salesforce和Anthrophic等科技巨头被曝在训练AI模型时，使用了来自YouTube的未授权数据。这些公司使用的“YouTube Subtitles”数据集包含了从YouTube上抓取的4.89亿个单词，大小为5.7GB。

⚠️ **违反YouTube规定：** YouTube明确禁止未经许可从平台上抓取内容，而这些科技公司使用第三方提供的数据集，实际上违反了YouTube的规定。

⚖️ **数据使用争议：** 此事件引发了关于数据使用和隐私的争议。一方面，科技公司需要大量数据来训练AI模型，但另一方面，也要尊重数据所有者的权益。

🤔 **影响与后续：** 此次事件可能会引发监管机构对科技公司数据使用行为的关注，并可能对未来AI模型的训练方式产生影响。

🕵️ **科技公司的回应：** 目前，涉及的科技公司尚未对此事发表公开声明。

🧐 **未来展望：** 此次事件提醒我们，在人工智能时代，数据使用和隐私问题至关重要，需要科技公司和监管机构共同努力，建立更加合理的数据使用规范。

财联社7月17日电，据媒体报道，包括苹果、英伟达、Salesforce和Anthrophic在内的一些大型科技公司，被曝在训练AI模型时使用了来自谷歌旗下视频网站YouTube的未授权数据。这些公司使用了一个由第三方提供的数据集，其中包含从YouTube上抓取的大量视频字幕文本，违反了YouTube禁止从平台上未经许可抓取内容的规定。报道指出，这些科技公司在训练AI模型时都使用了一个名为“YouTube Subtitles（YouTube字幕）”的数据集，大小为5.7GB，包含4.89亿个单词，

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签