机器之心 2024年10月24日
100%英伟达的错:黄仁勋确认Blackwell缺陷修复,明年初出货
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英伟达承认其最新一代Blackwell AI芯片存在设计缺陷,导致良率低下。该缺陷已在台积电的帮助下修复,改进版的B100/B200处理器即将投入量产。英伟达 CEO 黄仁勋表示,该缺陷完全由英伟达造成,并否认了有关台积电应承担责任的报道。Blackwell 芯片采用全新一代架构,拥有 2080 亿个晶体管,在执行大模型推理等任务时效率较前代提升了 30 倍。为了让 Blackwell 计算设备正常工作,英伟达设计了七种不同类型的芯片,并同时投入生产。英伟达表示,已修复的 Blackwell GPU 预计将于近期投入量产,并在 2025 年初开始发货。AWS、谷歌、Meta 和微软是英伟达的主要客户,为满足他们对新一代 AI 算力的需求,该公司必须在本年度出货一些最初低良率的 Blackwell GPU。

🤔 英伟达承认其最新一代Blackwell AI芯片存在设计缺陷,导致良率低下。该缺陷完全由英伟达造成,并非台积电的责任。

💪 英伟达已在台积电的帮助下修复了该缺陷,改进版的B100/B200处理器即将投入量产。Blackwell 芯片采用全新一代架构,拥有 2080 亿个晶体管,在执行大模型推理等任务时效率较前代提升了 30 倍。

⏳ 已修复的 Blackwell GPU 预计将于近期投入量产,并在 2025 年初开始发货。AWS、谷歌、Meta 和微软是英伟达的主要客户,为满足他们对新一代 AI 算力的需求,该公司必须在本年度出货一些最初低良率的 Blackwell GPU。

📈 为了让 Blackwell 计算设备正常工作,英伟达设计了七种不同类型的芯片,并同时投入生产。这些芯片使用台积电的 CoWoS-L 封装技术连接两个芯片,该技术依赖于配备局部硅互连(LSI)桥接器的 RDL 中介层。

⚠️ 然而,GPU 芯片、LSI 桥接器、RDL 中介层和主板基板之间的热膨胀特性可能不匹配,导致系统弯曲和故障。因此,英伟达在 8 月承认了其 Blackwell GPU 的良品率低,需要修改 GPU 硅片的顶部金属层和凸片,以提高生产良率。

2024-10-24 13:03 北京

不怪台积电。

机器之心报道

编辑:泽南、杜伟

老黄:科技公司的芯片需求让我夜不能寐。


「我们的 Blackwell 芯片存在设计缺陷,虽然可以正常使用,但该设计缺陷导致良率低下,」黄仁勋表示。「这 100% 是英伟达的错。」


自 3 月份发布以来,全球科技公司都在疯狂求购的 Blackwell AI 芯片,似乎终于要到了出货的时候。


本周三,在与高盛(Goldman Sachs)进行的会议中,英伟达表示 Blackwell GPU 中影响良率的设计缺陷已宣告修复,B100/B200 处理器的改进版即将投入量产。


据路透社等外媒报道,英伟达 CEO 黄仁勋本周承认,该缺陷完全由英伟达造成,并表示该现在已在台积电的及时帮助下修复了缺陷



今年 8 月,当有关英伟达最新一代芯片 Blackwell 设计缺陷的第一批报道出现时,一些媒体称台积电应承担责任 —— 并暗示这可能导致英伟达与其代工合作伙伴之间的关系紧张。


黄仁勋表示,事实并非如此。他还驳斥了有关两家公司关系紧张的报道,并称其为「假新闻」。为了让 Blackwell 计算设备正常工作,英伟达设计了七种不同类型的芯片,并同时投入生产


英伟达的 Blackwell 芯片采用全新一代架构,台积电 4NP 工艺打造,拥有 2080 亿个晶体管,在执行大模型推理等任务时效率较前代提升了 30 倍,因而备受科技公司期待。


此种面积的芯片,显然不能再通过传统方式来打造。Blackwell 的 B100 和 B200 GPU 两个型号使用台积电的 CoWoS-L 封装技术连接两个芯片,该技术依赖于配备局部硅互连(LSI)桥接器的 RDL 中介层(以实现约 10 TB/s 的数据传输速率)。


英伟达表示,双芯片的 GPU 没有内存局部性问题或缓存问题,CUDA 将其视为单块 GPU,可见这些芯片的桥接器至关重要。然而,GPU 芯片、LSI 桥接器、RDL 中介层和主板基板之间的热膨胀特性可能不匹配,导致系统弯曲和故障。


图源:Nvidia


因此,英伟达在 8 月承认了其 Blackwell GPU 的良品率低,需要修改 GPU 硅片的顶部金属层和凸片,以提高生产良率。当时,英伟达在一份声明中表示,「公司已经对 Blackwell GPU 的掩膜实施了修复。」


不过,英伟达也重申,公司在第二季度与客户一起对 Blackwell GPU 进行了抽样检查,并承认必须生产「低良率 Blackwell 材料」才能满足对 Blackwell 处理器的需求。


同时,黄仁勋在 2025 财年第二季度财报电话会议上表示,公司针对 Blackwell B100 和 B200 GPU 的设计进行了所有必要的变更,从而有望在第四季度实现量产。


英伟达 Blackwell GPU 不同型号的参数规格。


其实在半导体行业中,影响良率的 bug 以及重大功能问题并不是什么新鲜事。通常,公司通过修改金属层(或两层)等新步进(stepping)来修复这些问题。


据此前报道,英特尔的 Sapphire Rapids 有 500 个 bug。因此,英特尔发布了大约十几个步进来修复所有 bug(其中五个是基础重置)。每个新步进大约需要三个月才能完成(包括识别问题、修复问题和生产新版本芯片)。


图源:Intel


从这一点来看,英伟达和台积电修复 Blackwell GPU 的速度的确令人印象深刻。


目前,已修复的用于 AI 和超级计算机的 Blackwell GPU 预计将于最近几天投入量产,并在 2025 年初开始发货(仍在英伟达 2025 财年内)


此外,根据英伟达在今年初披露的消息,AWS、谷歌、Meta 和微软是其主要客户(合计收入占比高达 40%),为满足他们对其新一代 AI 算力的需求,该公司必须在本年度出货一些最初低良率的 Blackwell GPU。不过,2024 年究竟会有多少 Blackwell GPU 被「送」往数据中心,我们不得而知。


周三美股收盘,刚刚创下历史新高的英伟达股票收跌 2.81 %,回落到 140 美元以下。


参考内容:

https://www.tomshardware.com/pc-components/gpus/nvidia-adresses-significant-blackwell-yield-issues-production-ramp-in-q4

https://www.reuters.com/technology/artificial-intelligence/nvidias-design-flaw-with-blackwell-ai-chips-now-fixed-ceo-says-2024-10-23/

https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidias-jensen-huang-admits-ai-chip-design-flaw-was-100-percent-nvidias-fault-tsmc-not-to-blame-now-fixed-blackwell-chips-are-in-production




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

英伟达 Blackwell 芯片 良率 台积电
相关文章