HackerNews 03月03日
DeepSeek 数据泄露:12,000 余条硬编码 API 密钥与密码曝光
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

最新分析揭示,DeepSeek的11,908条API密钥、密码及身份验证令牌在公开网络数据中遭到曝光。这项研究强调了AI模型在未经筛选的互联网数据训练下,可能会内化并复现不安全的编码模式。Truffle Security通过扫描Common Crawl数据集,发现了大量可用于访问AWS、Slack、Mailchimp等服务的有效凭据,以及包含暴露凭据的网页。研究揭示了基于公开数据训练的LLM可能继承其中的不安全模式,并提出了在AI编码工具中引入安全防护措施、扩展密钥扫描范围等建议,以减少AI生成代码中的安全漏洞。

🔑DeepSeek大量API密钥泄露,暴露了AI模型训练数据安全隐患,凸显了未经筛选的网络数据可能导致模型学习并复现不安全编码模式的风险。

🌐Common Crawl数据集扫描发现,大量有效凭据可用于访问主流服务,且许多密钥在多个域名重复使用,WalkScore API密钥暴露范围极广,暗示了API密钥管理的普遍问题。

🚨Mailchimp API密钥泄露严重,大多嵌入客户端JavaScript代码,易于被网络钓鱼利用,并增加数据泄露风险,反映了开发者安全意识的薄弱。

🛡️Truffle Security提出多项安全建议,包括在AI编码工具中引入安全防护措施、扩展密钥扫描范围、采用“宪法AI”技术,旨在减少AI生成代码中的安全漏洞,提升软件开发安全性。

HackerNews 编译,转载请注明出处:

最新分析发现,在公开爬取的网络数据中,DeepSeek 的 11,908 条 API 密钥、密码及身份验证令牌遭到曝光。

据网络安全公司 Truffle Security 披露,这一研究凸显了 AI 模型在未经筛选的互联网数据训练下,可能会内化并复现不安全的编码模式。

此前已有研究表明,大型语言模型(LLM)常建议在代码中硬编码凭据,这引发了关于训练数据如何影响开发实践的讨论。

Truffle Security 通过扫描 Common Crawl 2024 年 12 月的数据集(约 400TB 数据,覆盖 47.5 万个网站、26.7 亿个网页),利用其开源工具 TruffleHog 发现:

特别值得注意的是,部分数据集涉及高风险暴露,例如:

Mailchimp API 密钥泄露尤为严重,超 1,500 例,且大多直接嵌入客户端 JavaScript 代码,这种做法不仅助长了网络钓鱼攻击,也增加了数据泄露风险。

Common Crawl 的数据集包含 90,000 份 WARC 文件,存储了网站爬取的 HTML、JavaScript 及服务器响应数据

Truffle Security 使用 20 节点 AWS 集群 处理这些存档,借助 awk 拆分文件,并通过 TruffleHog 逐一验证密钥是否仍然有效。该工具能区分有效凭据(可用于服务认证)和无效字符串——这是 LLM 训练时无法做到的关键步骤。

研究团队在分析过程中面临基础设施挑战:WARC 数据流式处理效率低,初期严重拖慢分析进度,而 AWS 优化后下载速度提升了 5-6 倍

尽管面临技术难题,研究团队仍秉持负责任的披露原则,与 Mailchimp 等供应商合作,撤销了数千条泄露的密钥,避免了逐个联系网站所有者的低效通知方式。

这一研究揭示了一项重大安全隐患:基于公开数据训练的 LLM 可能继承其中的不安全模式。尽管 DeepSeek 采用额外的安全防护措施(如微调、对齐技术和提示限制),但硬编码凭据的广泛存在,使得不安全实践易于被模型学习并传播。

此外,非功能性凭据(如占位符令牌)也加剧了问题,因为 LLM 在代码生成时无法识别其有效性。

Truffle Security 警告,在多个客户端项目中重复使用 API 密钥 会带来极大风险。例如,一家软件公司因在多个客户域名间共享 Mailchimp 密钥,导致所有关联账户均面临攻击风险。

为减少 AI 生成代码中的安全漏洞,Truffle Security 建议:

随着 LLM 在软件开发中的影响力持续上升,确保训练数据的安全性已不再是可选项,而是构建安全数字未来的基础

 


消息来源:Cybersecurity News 

本文由 HackerNews.cc 翻译整理,封面来源于网络;  

转载请注明“转自 HackerNews.cc”并附上原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek API密钥泄露 AI安全 LLM 数据安全
相关文章