Lex Fridman 重磅播客，关于 Deepseek 和中美 AI 的一切

原创歸藏的 AI 工具箱 2025-02-04 11:29 山西

Lex Fridman 录制了一期关于 Deepseek 的播客，采访对象是 AI2 的模型训练专家 Nathan Lambert 和 Semianalysis 硬件专家 Dylan Patel，三个多小时时长，非常值得听一下。

详细讨论了关于 Deepseek、中美 AI 竞争等关于 AI 的方方面面。　

我转录了一个完整文章，感兴趣可以看看。　

完整的播客视频地址：https://www.youtube.com/watch?v=_1f-o0nqpEI&ab_channel=LexFridman　

引言　

在人工智能 (AI) 领域，一个名为 Deepseek 的中国公司最近掀起了一阵波澜，其发布的新模型在性能和成本效益上都令人瞩目，引发了业内外的广泛关注。为了深入了解 Deepseek 的技术突破及其更广泛的影响，知名播客主持人 Lex Fridman 采访了两位 AI 领域的专家：AI2 的模型训练专家 Nathan Lambert 和 Semianalysis 的硬件专家 Dylan Patel。这篇访谈深入探讨了 Deepseek 的模型、开放权重、训练技术、硬件基础设施、地缘政治影响以及 AI 技术的未来走向，旨在为读者揭开 “Deepseek 时刻” 的面纱，并剖析其对全球 AI 格局的深远意义。　

Deepseek 的技术突破：V3 和 R1 模型　

Nathan Lambert 首先介绍了 Deepseek 发布的两款核心模型：Deepseek V3 和 Deepseek R1。　

Deepseek V3：这是一款混合专家 (Mixture of Experts, MoE) 架构的 Transformer 语言模型，采用了开放权重模式。V3 分为基础模型和指令模型，指令模型经过指令微调等后训练技术，更易于使用，类似于 ChatGPT。V3 的发布时间是 2023 年 12 月底，其性能已可与 GPT-4 和 Llama 405B 等顶尖模型相媲美。

Deepseek R1：这是一款推理模型，于 V3 发布几周后推出。R1 与 V3 共享许多训练步骤，但在后训练阶段采用了不同的技术，专注于提升模型的推理能力。R1 的独特之处在于其能够展示链式思考 (Chain-of-Thought) 的推理过程，这在以往的模型中较为罕见，引起了 AI 社区乃至更广泛领域的强烈兴趣。

开放权重：AI 领域的开源运动　

访谈深入探讨了 “开放权重” 的概念及其在 AI 领域的意义。开放权重指的是模型权重（模型的核心参数）在互联网上公开提供下载，用户可以自由使用和研究。　

开放权重的定义与许可：开放权重并不等同于完全的 “开源”，它主要指模型权重的公开，而训练数据和代码可能仍然是闭源的。开放权重模型通常附带不同的许可证，规定了用户的使用条款，例如商业用途限制、修改权限等。Deepseek R1 采用了 MIT 许可证，这是一种非常宽松的许可证，允许商业用途和下游修改，体现了 Deepseek 在推动 AI 开放性方面的积极姿态。

开放权重的意义：开放权重降低了 AI 技术的门槛，使得更多研究人员、工程师甚至个人开发者能够接触和使用最先进的 AI 模型，促进了 AI 技术的普及和创新。同时，开放权重也增强了用户对数据隐私的控制，用户可以在本地运行模型，无需将数据上传到云端 API，从而降低了数据泄露的风险。

与 OpenAI 的对比：Deepseek 的开放权重策略与 OpenAI 的封闭模式形成鲜明对比。Deepseek 的做法对 OpenAI 等公司构成了压力，促使整个行业朝着更加开放的方向发展。同时，Deepseek 在技术报告中公开了大量模型训练的细节，这也推动了 AI 技术的透明度和可操作性。

Deepseek 的技术优势：混合专家架构与多头潜在注意力　

Dylan Patel 和 Nathan Lambert 详细分析了 Deepseek 模型在技术上的创新，特别是混合专家架构 (MoE) 和多头潜在注意力 (MLA)。　

混合专家架构 (MoE)：MoE 是一种模型架构，旨在提高模型参数量和计算效率。传统的稠密模型在推理时会激活所有参数，而 MoE 模型则只激活模型中的一部分 “专家” 参数，从而在保持模型容量的同时，降低了计算成本。Deepseek V3 采用了 MoE 架构，拥有 6000 多亿参数，但在推理时只激活约 370 亿参数，大大提高了训练和推理的效率。

多头潜在注意力 (MLA)：MLA 是 Deepseek 提出的新型注意力机制，旨在降低推理过程中的内存使用量。MLA 通过低秩近似等技术，减少了注意力计算的复杂度，提高了长文本处理的效率。结合 MoE 和 MLA，Deepseek 模型在保证性能的同时，实现了更低的计算和内存成本，使其在推理成本上具有显著优势。

底层优化：为了进一步提升效率，Deepseek 团队还进行了大量的底层优化，包括修改 CUDA 代码、定制通信调度等。这些优化深入到 GPU 硬件层面，充分挖掘了硬件的潜力，使得 Deepseek 能够在相对有限的硬件资源下训练出高性能的模型。

Deepseek 的低成本优势：训练与推理　

访谈深入探讨了 Deepseek 模型在训练和推理方面实现低成本的原因。　

训练成本：

MoE 架构：MoE 架构显著降低了训练过程中的计算量，使得 Deepseek 能够以更少的 GPU 资源完成模型训练。

MLA 机制：MLA 机制降低了内存需求，进一步提升了 GPU 的利用率。

底层优化：底层优化提升了训练效率，缩短了训练时间，降低了 GPU 租赁成本。

硬件选择：Deepseek 选择使用在中国出口管制政策下可获得的 H800 GPU，虽然互连带宽受限，但 Deepseek 通过技术优化弥补了这一不足，降低了硬件成本。

推理成本：

模型效率：MoE 和 MLA 架构使得 Deepseek 模型在推理时更加高效，降低了单位 token 的计算成本。

定价策略：Deepseek 采取了极具竞争力的定价策略，R1 模型的 API 价格远低于 OpenAI 的同类产品，这可能是为了快速抢占市场份额，也可能与其低成本优势有关。

用户体验：V3 与 R1 的差异　

Nathan Lambert 描述了 V3 和 R1 在用户体验上的差异：　

Deepseek V3：类似于 ChatGPT 等聊天模型，能够快速生成流畅、信息丰富的回答，适用于广泛的问答场景。

Deepseek R1：R1 的独特之处在于其推理过程的可见性。用户可以看到模型在生成答案之前，会先输出一段链式思考过程，详细解释其如何分解问题、分析信息和得出结论。这种 “思考过程” 的展示，增强了模型的透明度和可信度，也提升了用户对 AI 推理能力的感知。

硬件基础设施：Deepseek 的 GPU 资源　

Dylan Patel 分享了他对 Deepseek 硬件资源的分析：　

强大的 GPU 算力：Deepseek 的母公司 Highflyer 是一家量化交易公司，拥有雄厚的 GPU 算力基础。早在 2021 年，Highflyer 就宣称拥有中国最大的 A100 GPU 集群。

持续扩张：Deepseek 在过去几年持续扩张 GPU 资源，据 SemiAnalysis 估计，Deepseek 目前可能拥有约 5 万张 GPU，使其成为全球 AI 领域算力最强的公司之一。

H800 集群：Deepseek V3 的训练使用了 2000 张 H800 GPU，尽管 H800 在互连带宽上有所限制，但 Deepseek 通过技术优化，充分利用了其计算性能。

出口管制的地缘政治影响　

访谈深入探讨了美国对华 AI 芯片出口管制的地缘政治影响。　

出口管制的逻辑：美国政府实施出口管制，旨在延缓中国在 AI 领域的追赶速度，维护美国的科技领先地位。Dario Amodei 等人认为，超级 AI 技术可能带来巨大的军事优势，因此美国需要限制中国的 AI 发展，以维护全球力量平衡。

出口管制的局限性：出口管制难以完全阻止中国 AI 技术的发展。中国公司仍然可以通过技术创新、自主研发和非直接渠道获取算力资源。出口管制的主要影响可能在于限制了中国 AI 技术的应用规模和普及速度。

对中国 AI 产业的影响：出口管制促使中国加大在芯片制造和 AI 基础研究领域的投入，加速了本土 AI 产业链的建设。Deepseek 的崛起正是中国 AI 产业自强自立的一个缩影。

潜在的风险：出口管制可能加剧地缘政治紧张，甚至可能增加台海冲突的风险。限制中国获得先进技术，可能促使中国采取更激进的策略，以突破技术封锁。

TSMC 与半导体产业的未来　

访谈讨论了台积电 (TSMC) 在全球半导体产业中的关键地位，以及美国试图重塑半导体供应链的努力。　

TSMC 的主导地位：TSMC 占据了全球先进制程芯片制造的绝大部分市场份额，几乎所有主要的科技公司都依赖 TSMC 生产芯片。

台湾的特殊性：台湾之所以能孕育出 TSMC 这样的巨头，与其历史机遇、人才优势、产业生态以及文化因素密不可分。

美国重塑供应链的挑战：美国政府试图通过芯片法案等措施，吸引 TSMC 等企业在美国本土设厂，重振美国半导体制造业。然而，重塑半导体供应链并非易事，需要巨额投资、技术积累、人才培养以及文化转变。

地缘政治风险：TSMC 的高度集中在台湾，也带来了地缘政治风险。一旦台海局势紧张，全球半导体供应链将面临巨大冲击。

AGI 时间线与推理模型的未来　

访谈探讨了通用人工智能 (AGI) 的发展时间线，以及推理模型在 AGI 发展中的作用。　

AGI 的定义与时间线：专家们对 AGI 的定义和实现时间线存在分歧。Dario Amodei 认为 2026 年可能出现超级 AI，而 Nathan Lambert 则认为 AGI 的实现可能需要更长时间。

推理模型的重要性：推理模型被认为是 AGI 发展的重要一步。R1 和 O1 等推理模型的出现，标志着 AI 在逻辑推理、复杂问题解决等方面取得了显著进展。

测试时间计算 (Test-Time Compute)：推理模型的兴起，使得测试时间计算变得更加重要。为了获得更准确、更可靠的答案，模型需要在推理阶段进行更多的计算，这导致推理成本显著上升。

算力需求：AGI 的实现将需要海量的算力资源。OpenAI 等公司正在积极建设超大规模数据中心，以满足未来 AGI 训练和推理的算力需求。

推理模型的成本与效率　

访谈分析了推理模型的成本挑战，以及 Deepseek 在降低推理成本方面的优势。　

推理成本高昂：推理模型的长文本处理和复杂计算，导致推理成本显著高于传统的聊天模型。OpenAI 的 O1 Pro 模型定价高昂，部分原因在于其推理成本过高。

Deepseek 的效率优势：Deepseek 通过 MoE、MLA 等技术，以及底层优化，显著降低了推理成本。R1 模型的 API 定价远低于 O1，体现了 Deepseek 在推理效率上的优势。

推理成本下降趋势：尽管推理模型成本较高，但随着技术进步和硬件升级，推理成本有望持续下降，这将推动推理模型在更广泛的应用场景中普及。

开放权重模型的风险与伦理　

访谈讨论了开放权重模型带来的潜在风险和伦理挑战。　

模型滥用风险：开放权重降低了 AI 技术的门槛，但也可能被恶意用户用于不当用途，例如生成虚假信息、进行网络攻击等。

模型偏见与价值观：开放权重模型的价值观和偏见，可能会随着模型的传播而扩散，对社会文化产生潜移默化的影响。

安全风险：开放权重模型可能存在安全漏洞，被攻击者利用，造成安全事件。

责任归属：开放权重模型的滥用和安全问题，使得责任归属变得复杂。模型开发者、使用者和传播者之间的责任界定尚不清晰。

AI 超级集群竞赛：算力基础设施的军备竞赛　

访谈最后探讨了全球 AI 公司正在展开的 AI 超级集群竞赛，以及算力基础设施建设的巨大投入。　

超大规模数据中心：为了训练和部署更大、更强的 AI 模型，OpenAI、Meta、Google、X AI 等公司正在竞相建设超大规模数据中心，这些数据中心的功率消耗达到吉瓦 (GW) 级别，堪比一座小型城市。

算力军备竞赛：AI 超级集群的建设，标志着 AI 领域正在进行一场前所未有的算力军备竞赛。谁掌握了更强大的算力，谁就更有可能在 AI 竞争中占据领先地位。

能源挑战：超大规模数据中心带来了巨大的能源消耗和环境挑战。AI 公司需要在追求技术进步的同时，兼顾可持续发展，探索更绿色、更高效的算力解决方案。

结论　

Deepseek 的崛起，以及 R1 推理模型的发布，标志着中国 AI 技术正在快速追赶并开始在某些领域超越西方。 “Deepseek 时刻” 不仅是对现有 AI 格局的一次有力冲击，也预示着全球 AI 竞争将进入一个更加激烈和复杂的新阶段。开放权重、推理模型、超大规模算力基础设施等关键词，将成为未来 AI 发展的重要方向。然而，随之而来的伦理风险、安全挑战和地缘政治博弈，也需要全社会共同关注和应对。这场 AI 革命，才刚刚开始。　

感谢阅读，如果觉得有用可以点个赞或者喜欢　

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签