原创 歸藏的 AI 工具箱 2025-02-04 11:29 山西
Lex Fridman 录制了一期关于 Deepseek 的播客,采访对象是 AI2 的模型训练专家 Nathan Lambert 和 Semianalysis 硬件专家 Dylan Patel,三个多小时时长,非常值得听一下。
Lex Fridman 录制了一期关于 Deepseek 的播客,采访对象是 AI2 的模型训练专家 Nathan Lambert 和 Semianalysis 硬件专家 Dylan Patel,三个多小时时长,非常值得听一下。
详细讨论了关于 Deepseek、中美 AI 竞争等关于 AI 的方方面面。
我转录了一个完整文章,感兴趣可以看看。
完整的播客视频地址:https://www.youtube.com/watch?v=_1f-o0nqpEI&ab_channel=LexFridman
引言
在人工智能 (AI) 领域,一个名为 Deepseek 的中国公司最近掀起了一阵波澜,其发布的新模型在性能和成本效益上都令人瞩目,引发了业内外的广泛关注。为了深入了解 Deepseek 的技术突破及其更广泛的影响,知名播客主持人 Lex Fridman 采访了两位 AI 领域的专家:AI2 的模型训练专家 Nathan Lambert 和 Semianalysis 的硬件专家 Dylan Patel。这篇访谈深入探讨了 Deepseek 的模型、开放权重、训练技术、硬件基础设施、地缘政治影响以及 AI 技术的未来走向,旨在为读者揭开 “Deepseek 时刻” 的面纱,并剖析其对全球 AI 格局的深远意义。
Deepseek 的技术突破:V3 和 R1 模型
Nathan Lambert 首先介绍了 Deepseek 发布的两款核心模型:Deepseek V3 和 Deepseek R1。
Deepseek V3:这是一款混合专家 (Mixture of Experts, MoE) 架构的 Transformer 语言模型,采用了开放权重模式。V3 分为基础模型和指令模型,指令模型经过指令微调等后训练技术,更易于使用,类似于 ChatGPT。V3 的发布时间是 2023 年 12 月底,其性能已可与 GPT-4 和 Llama 405B 等顶尖模型相媲美。
Deepseek R1:这是一款推理模型,于 V3 发布几周后推出。R1 与 V3 共享许多训练步骤,但在后训练阶段采用了不同的技术,专注于提升模型的推理能力。R1 的独特之处在于其能够展示链式思考 (Chain-of-Thought) 的推理过程,这在以往的模型中较为罕见,引起了 AI 社区乃至更广泛领域的强烈兴趣。
开放权重:AI 领域的开源运动
访谈深入探讨了 “开放权重” 的概念及其在 AI 领域的意义。开放权重指的是模型权重(模型的核心参数)在互联网上公开提供下载,用户可以自由使用和研究。
开放权重的定义与许可:开放权重并不等同于完全的 “开源”,它主要指模型权重的公开,而训练数据和代码可能仍然是闭源的。开放权重模型通常附带不同的许可证,规定了用户的使用条款,例如商业用途限制、修改权限等。Deepseek R1 采用了 MIT 许可证,这是一种非常宽松的许可证,允许商业用途和下游修改,体现了 Deepseek 在推动 AI 开放性方面的积极姿态。
开放权重的意义:开放权重降低了 AI 技术的门槛,使得更多研究人员、工程师甚至个人开发者能够接触和使用最先进的 AI 模型,促进了 AI 技术的普及和创新。同时,开放权重也增强了用户对数据隐私的控制,用户可以在本地运行模型,无需将数据上传到云端 API,从而降低了数据泄露的风险。
与 OpenAI 的对比:Deepseek 的开放权重策略与 OpenAI 的封闭模式形成鲜明对比。Deepseek 的做法对 OpenAI 等公司构成了压力,促使整个行业朝着更加开放的方向发展。同时,Deepseek 在技术报告中公开了大量模型训练的细节,这也推动了 AI 技术的透明度和可操作性。
Deepseek 的技术优势:混合专家架构与多头潜在注意力
Dylan Patel 和 Nathan Lambert 详细分析了 Deepseek 模型在技术上的创新,特别是混合专家架构 (MoE) 和多头潜在注意力 (MLA)。
混合专家架构 (MoE):MoE 是一种模型架构,旨在提高模型参数量和计算效率。传统的稠密模型在推理时会激活所有参数,而 MoE 模型则只激活模型中的一部分 “专家” 参数,从而在保持模型容量的同时,降低了计算成本。Deepseek V3 采用了 MoE 架构,拥有 6000 多亿参数,但在推理时只激活约 370 亿参数,大大提高了训练和推理的效率。
多头潜在注意力 (MLA):MLA 是 Deepseek 提出的新型注意力机制,旨在降低推理过程中的内存使用量。MLA 通过低秩近似等技术,减少了注意力计算的复杂度,提高了长文本处理的效率。结合 MoE 和 MLA,Deepseek 模型在保证性能的同时,实现了更低的计算和内存成本,使其在推理成本上具有显著优势。
底层优化:为了进一步提升效率,Deepseek 团队还进行了大量的底层优化,包括修改 CUDA 代码、定制通信调度等。这些优化深入到 GPU 硬件层面,充分挖掘了硬件的潜力,使得 Deepseek 能够在相对有限的硬件资源下训练出高性能的模型。
Deepseek 的低成本优势:训练与推理
访谈深入探讨了 Deepseek 模型在训练和推理方面实现低成本的原因。
训练成本:
MoE 架构:MoE 架构显著降低了训练过程中的计算量,使得 Deepseek 能够以更少的 GPU 资源完成模型训练。
MLA 机制:MLA 机制降低了内存需求,进一步提升了 GPU 的利用率。
底层优化:底层优化提升了训练效率,缩短了训练时间,降低了 GPU 租赁成本。
硬件选择:Deepseek 选择使用在中国出口管制政策下可获得的 H800 GPU,虽然互连带宽受限,但 Deepseek 通过技术优化弥补了这一不足,降低了硬件成本。
推理成本:
模型效率:MoE 和 MLA 架构使得 Deepseek 模型在推理时更加高效,降低了单位 token 的计算成本。
定价策略:Deepseek 采取了极具竞争力的定价策略,R1 模型的 API 价格远低于 OpenAI 的同类产品,这可能是为了快速抢占市场份额,也可能与其低成本优势有关。
用户体验:V3 与 R1 的差异
Nathan Lambert 描述了 V3 和 R1 在用户体验上的差异:
Deepseek V3:类似于 ChatGPT 等聊天模型,能够快速生成流畅、信息丰富的回答,适用于广泛的问答场景。
Deepseek R1:R1 的独特之处在于其推理过程的可见性。用户可以看到模型在生成答案之前,会先输出一段链式思考过程,详细解释其如何分解问题、分析信息和得出结论。这种 “思考过程” 的展示,增强了模型的透明度和可信度,也提升了用户对 AI 推理能力的感知。
硬件基础设施:Deepseek 的 GPU 资源
Dylan Patel 分享了他对 Deepseek 硬件资源的分析:
强大的 GPU 算力:Deepseek 的母公司 Highflyer 是一家量化交易公司,拥有雄厚的 GPU 算力基础。早在 2021 年,Highflyer 就宣称拥有中国最大的 A100 GPU 集群。
持续扩张:Deepseek 在过去几年持续扩张 GPU 资源,据 SemiAnalysis 估计,Deepseek 目前可能拥有约 5 万张 GPU,使其成为全球 AI 领域算力最强的公司之一。
H800 集群:Deepseek V3 的训练使用了 2000 张 H800 GPU,尽管 H800 在互连带宽上有所限制,但 Deepseek 通过技术优化,充分利用了其计算性能。
出口管制的地缘政治影响
访谈深入探讨了美国对华 AI 芯片出口管制的地缘政治影响。
出口管制的逻辑:美国政府实施出口管制,旨在延缓中国在 AI 领域的追赶速度,维护美国的科技领先地位。Dario Amodei 等人认为,超级 AI 技术可能带来巨大的军事优势,因此美国需要限制中国的 AI 发展,以维护全球力量平衡。
出口管制的局限性:出口管制难以完全阻止中国 AI 技术的发展。中国公司仍然可以通过技术创新、自主研发和非直接渠道获取算力资源。出口管制的主要影响可能在于限制了中国 AI 技术的应用规模和普及速度。
对中国 AI 产业的影响:出口管制促使中国加大在芯片制造和 AI 基础研究领域的投入,加速了本土 AI 产业链的建设。Deepseek 的崛起正是中国 AI 产业自强自立的一个缩影。
潜在的风险:出口管制可能加剧地缘政治紧张,甚至可能增加台海冲突的风险。限制中国获得先进技术,可能促使中国采取更激进的策略,以突破技术封锁。
TSMC 与半导体产业的未来
访谈讨论了台积电 (TSMC) 在全球半导体产业中的关键地位,以及美国试图重塑半导体供应链的努力。
TSMC 的主导地位:TSMC 占据了全球先进制程芯片制造的绝大部分市场份额,几乎所有主要的科技公司都依赖 TSMC 生产芯片。
台湾的特殊性:台湾之所以能孕育出 TSMC 这样的巨头,与其历史机遇、人才优势、产业生态以及文化因素密不可分。
美国重塑供应链的挑战:美国政府试图通过芯片法案等措施,吸引 TSMC 等企业在美国本土设厂,重振美国半导体制造业。然而,重塑半导体供应链并非易事,需要巨额投资、技术积累、人才培养以及文化转变。
地缘政治风险:TSMC 的高度集中在台湾,也带来了地缘政治风险。一旦台海局势紧张,全球半导体供应链将面临巨大冲击。
AGI 时间线与推理模型的未来
访谈探讨了通用人工智能 (AGI) 的发展时间线,以及推理模型在 AGI 发展中的作用。
AGI 的定义与时间线:专家们对 AGI 的定义和实现时间线存在分歧。Dario Amodei 认为 2026 年可能出现超级 AI,而 Nathan Lambert 则认为 AGI 的实现可能需要更长时间。
推理模型的重要性:推理模型被认为是 AGI 发展的重要一步。R1 和 O1 等推理模型的出现,标志着 AI 在逻辑推理、复杂问题解决等方面取得了显著进展。
测试时间计算 (Test-Time Compute):推理模型的兴起,使得测试时间计算变得更加重要。为了获得更准确、更可靠的答案,模型需要在推理阶段进行更多的计算,这导致推理成本显著上升。
算力需求:AGI 的实现将需要海量的算力资源。OpenAI 等公司正在积极建设超大规模数据中心,以满足未来 AGI 训练和推理的算力需求。
推理模型的成本与效率
访谈分析了推理模型的成本挑战,以及 Deepseek 在降低推理成本方面的优势。
推理成本高昂:推理模型的长文本处理和复杂计算,导致推理成本显著高于传统的聊天模型。OpenAI 的 O1 Pro 模型定价高昂,部分原因在于其推理成本过高。
Deepseek 的效率优势:Deepseek 通过 MoE、MLA 等技术,以及底层优化,显著降低了推理成本。R1 模型的 API 定价远低于 O1,体现了 Deepseek 在推理效率上的优势。
推理成本下降趋势:尽管推理模型成本较高,但随着技术进步和硬件升级,推理成本有望持续下降,这将推动推理模型在更广泛的应用场景中普及。
开放权重模型的风险与伦理
访谈讨论了开放权重模型带来的潜在风险和伦理挑战。
模型滥用风险:开放权重降低了 AI 技术的门槛,但也可能被恶意用户用于不当用途,例如生成虚假信息、进行网络攻击等。
模型偏见与价值观:开放权重模型的价值观和偏见,可能会随着模型的传播而扩散,对社会文化产生潜移默化的影响。
安全风险:开放权重模型可能存在安全漏洞,被攻击者利用,造成安全事件。
责任归属:开放权重模型的滥用和安全问题,使得责任归属变得复杂。模型开发者、使用者和传播者之间的责任界定尚不清晰。
AI 超级集群竞赛:算力基础设施的军备竞赛
访谈最后探讨了全球 AI 公司正在展开的 AI 超级集群竞赛,以及算力基础设施建设的巨大投入。
超大规模数据中心:为了训练和部署更大、更强的 AI 模型,OpenAI、Meta、Google、X AI 等公司正在竞相建设超大规模数据中心,这些数据中心的功率消耗达到吉瓦 (GW) 级别,堪比一座小型城市。
算力军备竞赛:AI 超级集群的建设,标志着 AI 领域正在进行一场前所未有的算力军备竞赛。谁掌握了更强大的算力,谁就更有可能在 AI 竞争中占据领先地位。
能源挑战:超大规模数据中心带来了巨大的能源消耗和环境挑战。AI 公司需要在追求技术进步的同时,兼顾可持续发展,探索更绿色、更高效的算力解决方案。
结论
Deepseek 的崛起,以及 R1 推理模型的发布,标志着中国 AI 技术正在快速追赶并开始在某些领域超越西方。 “Deepseek 时刻” 不仅是对现有 AI 格局的一次有力冲击,也预示着全球 AI 竞争将进入一个更加激烈和复杂的新阶段。开放权重、推理模型、超大规模算力基础设施等关键词,将成为未来 AI 发展的重要方向。然而,随之而来的伦理风险、安全挑战和地缘政治博弈,也需要全社会共同关注和应对。这场 AI 革命,才刚刚开始。
感谢阅读,如果觉得有用可以点个赞或者喜欢