DeepSeek 数据泄露：12,000 余条硬编码 API 密钥与密码曝光

HackerNews 编译，转载请注明出处：

最新分析发现，在公开爬取的网络数据中，DeepSeek 的 11,908 条 API 密钥、密码及身份验证令牌遭到曝光。

据网络安全公司 Truffle Security 披露，这一研究凸显了 AI 模型在未经筛选的互联网数据训练下，可能会内化并复现不安全的编码模式。

此前已有研究表明，大型语言模型（LLM）常建议在代码中硬编码凭据，这引发了关于训练数据如何影响开发实践的讨论。

Truffle Security 通过扫描 Common Crawl 2024 年 12 月的数据集（约 400TB 数据，覆盖 47.5 万个网站、26.7 亿个网页），利用其开源工具 TruffleHog 发现：

11,908 条有效凭据

276 万个网页

63% 的密钥

WalkScore API 密钥

1,871 个子域

57,029 次

特别值得注意的是，部分数据集涉及高风险暴露，例如：

AWS 根密钥

同一网页的聊天功能中

17 个独特的 Slack webhook

Mailchimp API 密钥泄露尤为严重，超 1,500 例，且大多直接嵌入客户端 JavaScript 代码，这种做法不仅助长了网络钓鱼攻击，也增加了数据泄露风险。

Common Crawl 的数据集包含 90,000 份 WARC 文件，存储了网站爬取的 HTML、JavaScript 及服务器响应数据。

Truffle Security 使用 20 节点 AWS 集群 处理这些存档，借助 awk 拆分文件，并通过 TruffleHog 逐一验证密钥是否仍然有效。该工具能区分有效凭据（可用于服务认证）和无效字符串——这是 LLM 训练时无法做到的关键步骤。

研究团队在分析过程中面临基础设施挑战：WARC 数据流式处理效率低，初期严重拖慢分析进度，而 AWS 优化后下载速度提升了 5-6 倍。

尽管面临技术难题，研究团队仍秉持负责任的披露原则，与 Mailchimp 等供应商合作，撤销了数千条泄露的密钥，避免了逐个联系网站所有者的低效通知方式。

这一研究揭示了一项重大安全隐患：基于公开数据训练的 LLM 可能继承其中的不安全模式。尽管 DeepSeek 采用额外的安全防护措施（如微调、对齐技术和提示限制），但硬编码凭据的广泛存在，使得不安全实践易于被模型学习并传播。

此外，非功能性凭据（如占位符令牌）也加剧了问题，因为 LLM 在代码生成时无法识别其有效性。

Truffle Security 警告，在多个客户端项目中重复使用 API 密钥 会带来极大风险。例如，一家软件公司因在多个客户域名间共享 Mailchimp 密钥，导致所有关联账户均面临攻击风险。

为减少 AI 生成代码中的安全漏洞，Truffle Security 建议：

在 AI 编码工具中引入安全防护措施

自定义指令

扩展密钥扫描范围

采用“宪法 AI”技术

随着 LLM 在软件开发中的影响力持续上升，确保训练数据的安全性已不再是可选项，而是构建安全数字未来的基础。

本文由 HackerNews.cc 翻译整理，封面来源于网络；

转载请注明“转自 HackerNews.cc”并附上原文

Fish AI Reader