嘶吼专业版 03月06日
AI 训练数据藏雷:近 12,000 个 API 密钥与密码曝光
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Truffle Security的研究人员在Common Crawl的2024年12月数据集中发现了11,908个有效机密,这些机密均为开发者硬编码。这意味着大型语言模型(LLM)可能在不安全的代码上进行训练。研究发现包括Amazon Web Services(AWS)的根密钥、MailChimp API密钥以及WalkScore服务的有效API密钥等。开发人员将密钥硬编码到HTML表单和JavaScript片段中,增加了被恶意利用的风险,可能导致网络钓鱼、品牌冒充和数据泄露。尽管LLM训练数据会经过预处理,但敏感数据难以彻底清除。Truffle Security已联系受影响的供应商,协助他们撤销密钥,成功帮助轮换/撤销了数千个密钥。

🔑 研究人员在Common Crawl数据集中发现了大量硬编码的机密信息,包括AWS根密钥、MailChimp API密钥和WalkScore API密钥等,总计219种不同类型的秘密。

📧 其中最常见的是MailChimp API密钥,有近1,500个独特的密钥被硬编码在前端HTML和JavaScript中,这些密钥泄露可能被用于网络钓鱼和品牌冒充。

⚠️ 研究发现机密存在高重复使用率,例如一个WalkScore API密钥在1,871个子域中出现了57,029次,此外,还在一个网页上发现了17个独特的实时Slack webhook,而Slack明确警告webhook URL包含秘密。

🛡️ 尽管LLM训练数据会经过预处理,但机密数据仍然难以彻底删除,且无法保证完全清除所有个人身份信息(PII)、财务数据、医疗记录和其他敏感内容,这给数据安全带来了挑战。

Common Crawl 非营利组织维护着一个庞大的开源存储库,其中存储了自 2008 年以来收集的数 PB 级网络数据,任何人都能免费使用这些数据。由于数据集规模巨大,许多人工智能项目,包括 OpenAI、DeepSeek、Google、Meta、Anthropic 和 Stability 等公司的大型语言模型(LLM)训练,可能至少部分依赖这一数字档案。

Truffle Security 公司(TruffleHog 敏感数据开源扫描器背后的公司)的研究人员对 Common Crawl 2024 年 12 月档案中 267 亿个网页的 400 TB 数据进行检查后,发现了 11,908 个成功验证的有效机密。这些机密均为开发人员硬编码,这意味着 LLM 存在在不安全代码上进行训练的可能性。

在这些机密中,有 Amazon Web Services(AWS)的根密钥、MailChimp API 密钥以及 WalkScore 服务的有效 API 密钥等。

源代码中的 AWS 根密钥:Truffle Security

TruffleHog 在 Common Crawl 数据集中总共识别出 219 种不同类型的秘密,其中最常见的是 MailChimp API 密钥,近 1,500 个独特的 Mailchimp API 密钥被硬编码在前端 HTML 和 JavaScript 中。

MailChimp API 密钥在前端 HTML 源代码中泄露:Truffle Security

开发人员的失误在于将这些密钥硬编码到 HTML 表单和 JavaScript 片段中,而未使用服务器端环境变量,这使得攻击者有可能利用这些密钥开展恶意活动,如进行网络钓鱼、品牌冒充,进而导致数据泄露。

此外,研究人员还发现报告中的机密存在高重复使用率,63% 的机密出现在多个页面上。例如,一个 WalkScore API 密钥在 1,871 个子域中出现了 57,029 次。研究人员还在一个网页上发现了 17 个独特的实时 Slack webhook,而 Slack 明确警告 webhook URL 包含秘密,严禁在网上(包括通过公共版本控制存储库)分享。

尽管 LLM 训练数据会经过预处理阶段,旨在清理和过滤掉不相关数据、重复内容、有害或敏感信息,但机密数据仍然难以彻底删除,且无法保证完全清除如此庞大数据集中的所有个人身份信息(PII)、财务数据、医疗记录和其他敏感内容。

研究结束后,Truffle Security 联系了受影响的供应商,并协助他们撤销了用户的密钥,成功帮助这些组织集体轮换 / 撤销了数千个密钥。即便人工智能模型使用的是比研究人员扫描的数据集更旧的档案,Truffle Security 的发现仍给我们敲响了警钟,不安全的编码实践可能会对 LLM 的行为产生影响。

参考及来源:https://www.bleepingcomputer.com/news/security/nearly-12-000-api-keys-and-passwords-found-in-ai-training-dataset/

?发表于:中国 北京

?️ 阅读原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Common Crawl API密钥泄露 LLM安全 数据安全 Truffle Security
相关文章