170000+视频被悄悄喂给AI训练，苹果英伟达等都在用，创作者毫不知情

36kr 2024年07月17日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

近期，多家大型 AI 公司，包括苹果、英伟达、Anthropic 等，被曝违规使用油管数据训练模型。来自 48000 个频道的 173536 个视频的字幕，在博主不知情的情况下，被用于训练这些最先进的 AI 模型。尽管这些公司并非直接获取数据，而是通过非营利组织 Eleuther AI 发布的公开数据集“Pile”进行训练，但这一事件引发了关于数据所有权和 AI 模型训练伦理的争议。

👨‍💻 **AI 公司违规使用油管数据训练模型**：苹果、英伟达、Anthropic 等多家 AI 公司被曝使用来自 48000 个油管频道的 173536 个视频字幕训练模型，而这些博主并未授权。这些数据并非 AI 公司直接获取，而是通过非营利组织 Eleuther AI 发布的公开数据集“Pile”获得的。该数据集包含来自油管、维基百科等平台的文本数据，供 AI 研究人员和开发者使用。这一事件引发了关于数据所有权和 AI 模型训练伦理的争议。一些发现被侵权的博主已经发声，表示这会影响他们的收入。部分公司对此事做出了回应，例如 Anthropic 表示他们使用的数据集只包含一小部分油管字幕，并强调使用数据集与直接使用视频内容不同。Salesforce 也表示他们使用该数据集训练了用于学术研究目的的模型，并强调该数据集是公开可用的。目前，Eleuther AI 尚未对此事做出回应。

💰 **油管字幕数据是座“金矿”**：油管上的字幕数据包含丰富的语言信息，对于训练 AI 模型具有重要价值。今年早些时候，OpenAI 被曝使用语音模型转录了 100 万小时的油管视频来训练 GPT-4。《纽约时报》也曾表示，他们在 2021 年用完了所有可用数据，并讨论了将播客、油管视频等有声数据转成文字数据来使用。

🤔 **数据所有权和 AI 模型训练伦理的挑战**：这一事件并非个案。此前，艺术家也曾不满 Stability AI 使用他们的作品训练 AI 模型，但由于数据集并非 AI 公司直接获取，而是来自非营利机构 LAION，因此没有很好的解决办法。对于更加直接的侵权事件，比如《纽约时报》指控 OpenAI 违规使用其作品训练模型，官司也尚未尘埃落定。这一事件再次引发了人们对于数据所有权和 AI 模型训练伦理的思考。如何平衡 AI 技术发展与数据所有权之间的关系，是未来需要重点关注的问题。

AI侵权又来了……

最新消息，苹果、英伟达、Anthropic等大型AI公司被曝违规使用油管数据训练模型。

来自48000个频道的173536个视频的字幕，在博主不知情情况下，被喂给了世界上最先进的AI们。

范围波及可汗学院、MIT、华尔街日报、吉米秀以及大V博主等频道。

但是！

油管现在可能还没法直接起诉这些公司……

因为他们不是自己上手去扒数据，而是通过一个公开数据集。

非营利组织Eleuther AI收集了这些数据，供AI研究和开发使用。

熟悉的感觉又来了——当初艺术家因不满自己的作品被用于AI模型训练，但数据集也不是AI公司自己上手扒的，而是来自非营利机构LAION。

有人就说，几乎所有模型都是在未经授权情况下使用数据训练的……这件事如果能让更多人意识到数据所有权的问题，那也算件好事。

目前，英伟达拒绝置评，苹果未予回应。

油管字幕数据是座“金矿”

这次被发现涉嫌违规使用油管数据的公司有：苹果、英伟达、Anthropic、Saleforeces、Databricks等。

发现这件事的机构是Proof News。

他们构建了一个工具，可以让博主自行搜索自己的视频是否被用于训练模型。

Anthropic方面已对此做出回应：

这个数据集确实包含油管上的一小部分字幕。但是油管的规定是直接使用会侵权，这和使用数据集不是一个性质，我们建议去询问数据集的作者。

Salesforce表示确实使用该数据集训练了用于学术研究目的的模型，并强调该数据集是公开可用的。

该数据集的提供方是Eleuther AI，他们曾推出了60亿参数的GPT-J，在当时被认为是最逼近于GPT-3的开源模型。

在2020年，他们发布了一个名为“Pile”的开源数据集，包含油管、维基百科等数据，供AI研究人员和开发者使用。如上几家公司提到的数据集，说的就是它。

目前Eleuther AI也未对此事做出回应。

一些发现被侵权的博主已经发声，表示这就是砸饭碗呀。

另外，这些被使用的数据也存在风险，Proof News表示油管上的字幕数据不少都包含脏话、偏见等。

但不可否认，油管上的数据是座“金矿”。

今年早些时候，OpenAI被曝使用语音模型转录了100万小时的油管视频来训练GPT-4。《纽约时报》说它们在2021年已经用完了所有可用数据，并讨论了把播客、油管视频等有声数据转成文字数据来使用。

网友：这也无解呀

实际上，AI侵权的类似案例已经不少了，比如之前艺术家不满Stability AI，情况几乎一模一样。

有人就觉得，这也不是大型公司在背后操控，现在似乎没有很好的解决办法。

对于更加直接的侵权事件，比如《纽约时报》指控OpenAI违规使用其作品训练模型，官司现在也还没有结果。

最新进展是，OpenAI要求《纽约时报》证明其作品的原创性，还要查看采访笔记等来证明每篇文章的原创性。《纽约时报》进行了反驳……

不过有意思的是，科技网站Ars Technica发现自己发在油管上的视频也被使用了。

但这些视频的文案内容是他们用AI写的。

Proof News也提到，被使用的油管数据里还包括鹦鹉学舌的视频。

也就是说，AI现在正在模仿人类、模仿英语、以及模仿其他AI……

参考链接：

[1]https://www.wired.com/story/youtube-training-data-apple-nvidia-anthropic/

[2]https://arstechnica.com/ai/2024/07/apple-was-among-the-companies-that-trained-its-ai-on-youtube-videos/

[3]https://www.proofnews.org/youtube-ai-search/

本文来自微信公众号“量子位”（ID:QbitAI），作者：明敏，36氪经授权发布。

油管字幕数据是座“金矿”

网友：这也无解呀

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签