AI 训练数据藏雷：近 12,000 个 API 密钥与密码曝光

Common Crawl 非营利组织维护着一个庞大的开源存储库，其中存储了自 2008 年以来收集的数 PB 级网络数据，任何人都能免费使用这些数据。由于数据集规模巨大，许多人工智能项目，包括 OpenAI、DeepSeek、Google、Meta、Anthropic 和 Stability 等公司的大型语言模型（LLM）训练，可能至少部分依赖这一数字档案。

Truffle Security 公司（TruffleHog 敏感数据开源扫描器背后的公司）的研究人员对 Common Crawl 2024 年 12 月档案中 267 亿个网页的 400 TB 数据进行检查后，发现了 11,908 个成功验证的有效机密。这些机密均为开发人员硬编码，这意味着 LLM 存在在不安全代码上进行训练的可能性。

在这些机密中，有 Amazon Web Services（AWS）的根密钥、MailChimp API 密钥以及 WalkScore 服务的有效 API 密钥等。

源代码中的 AWS 根密钥：Truffle Security

TruffleHog 在 Common Crawl 数据集中总共识别出 219 种不同类型的秘密，其中最常见的是 MailChimp API 密钥，近 1,500 个独特的 Mailchimp API 密钥被硬编码在前端 HTML 和 JavaScript 中。

MailChimp API 密钥在前端 HTML 源代码中泄露：Truffle Security

开发人员的失误在于将这些密钥硬编码到 HTML 表单和 JavaScript 片段中，而未使用服务器端环境变量，这使得攻击者有可能利用这些密钥开展恶意活动，如进行网络钓鱼、品牌冒充，进而导致数据泄露。

此外，研究人员还发现报告中的机密存在高重复使用率，63% 的机密出现在多个页面上。例如，一个 WalkScore API 密钥在 1,871 个子域中出现了 57,029 次。研究人员还在一个网页上发现了 17 个独特的实时 Slack webhook，而 Slack 明确警告 webhook URL 包含秘密，严禁在网上（包括通过公共版本控制存储库）分享。

尽管 LLM 训练数据会经过预处理阶段，旨在清理和过滤掉不相关数据、重复内容、有害或敏感信息，但机密数据仍然难以彻底删除，且无法保证完全清除如此庞大数据集中的所有个人身份信息（PII）、财务数据、医疗记录和其他敏感内容。

研究结束后，Truffle Security 联系了受影响的供应商，并协助他们撤销了用户的密钥，成功帮助这些组织集体轮换 / 撤销了数千个密钥。即便人工智能模型使用的是比研究人员扫描的数据集更旧的档案，Truffle Security 的发现仍给我们敲响了警钟，不安全的编码实践可能会对 LLM 的行为产生影响。

参考及来源：https://www.bleepingcomputer.com/news/security/nearly-12-000-api-keys-and-passwords-found-in-ai-training-dataset/

?发表于：中国北京

?️ 阅读原文

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签