掘金 人工智能 前天 17:47
14.9 万元,满血流畅运行 DeepSeek 一体机抱回家!清华 90 后初创出品
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了行云集成电路推出的褐蚁 HY90 一体机,该设备以10万元级别的价格实现了对DeepSeek 671B大模型的满血运行,打破了此前运行该级别模型需百万级设备的行业格局。通过异构计算架构、自主研发的推理引擎框架以及参数压缩技术,褐蚁HY90在性能和成本之间取得了平衡,为中小团队提供了低门槛、高扩展性的AI部署方案。文章还介绍了行云集成电路的创始团队及其背景,强调了其在技术和资本方面的优势。

💡 褐蚁HY90一体机以10万元级别价格,实现了对DeepSeek 671B大模型的满血、未量化运行,速度甚至超越了官方表现。

💻 褐蚁HY90采用双路AMD 9005系列CPU和中高端消费级GPU的异构计算架构,通过1TB/s高内存带宽,解决了CPU方案的内存墙问题,同时降低了成本。

🚀 行云自主研发的推理引擎框架优化算法和任务调度,提升了token生成速率,在FP8精度下,Decode阶段速度稳定在20TPS以上,Prefill阶段首字延迟控制在80秒以内。

💰 通过技术整合,褐蚁HY90实现了“高性能+低成本”的平衡,将最高质量的模型体验带入10万元价位,推动了大模型在智能客服、数据分析等场景的普惠应用。

👨‍🎓 行云集成电路的创始人季宇拥有清华大学博士学位,并在华为海思昇腾芯片团队担任编译器专家,CTO余洪敏拥有丰富的芯片研发经验,团队实力雄厚,且获得了多家明星资本的投资。

满血 DeepSeek 一体机,价格竟然被打到 10 万元级别了!

而且还不是量化版本,正是那个 671B 参数、最高质量的 FP8 原版。

或许有小伙伴要问了,那跑 DeepSeek-R1/V3 的速度,能跟官方一较高下吗?

可以的,甚至是更快的那种。例如我们提个问题,来感受一下这个 feel:

一个汉字具有左右结构,左边是木,右边是乞。这个字是什么?只需回答这个字即可。

视频详情

由此可见,无论是什么类型的题目,褐蚁 HY90 都能以相对较快的速度丝滑处理。

不过有一说一,以往的一体机,即便是搭载 Q4 量化版本,成本动辄就要达到 200 万元。

而褐蚁 HY90 在搭载满血、未量化的 DeepSeek 情况下,不仅能够保证速度,更是把价格打掉了一个数量级。

因此,接下来的一个问题便是:

如何炼成的?

在我们聊 “如何实现” 之前,且需了解一下 “什么在阻碍”

首先,大家提到一体机,第一反应大概率就是 GPU,而它本身就或许构成了短板。

因为传统 GPU 方案因显存容量限制,例如 671GB 需求需多张 A100 显卡,成本已经超过了百万的级别。

而 CPU 方案则受限于内存带宽,因为大模型推理需要频繁加载参数(如 671B 参数的 FP8 精度模型占用约 671GB 内存)。

如果内存带宽不足,就会导致计算单元(CPU 核心)长时间等待数据,形成 “内存墙”(Memory Wall),严重影响推理速度。

针对上述的短板,行云的褐蚁一体机采用双路 AMD 9005 系列 CPU,通过 1TB/s 的高内存带宽满足基础推理需求,同时搭配一张中高端消费级 GPU 作为算力补充。

这种异构计算架构通过软件协同优化,既解决了纯 CPU 方案在部分推理阶段的算力不足问题,又显著降低了成本,将硬件投入压缩至 10 万元以内。

除此之外,行云自主研发的推理引擎框架通过算法优化和任务调度,同样对 token 生成速率起到了显著的提升作用。

在 FP8 精度下,Decode 阶段速度稳定在 20TPS 以上,且受上下文长度影响较小(128K 上下文仍保持 15TPS);Prefill 阶段在 16K 上下文内首字延迟控制在 80 秒以内。


这种高效推理能力尤其适合需要连续生成大量 token 的场景(如 AI Agent),大幅缩短任务响应时间。

不仅如此,团队还针对大模型运行需求,精准平衡了计算能力与内存带宽,支持满血 FP8 精度的 R1/V3 模型,并预留扩展能力,未来可支持 1.5T 参数量的模型。

通过参数压缩技术(如 INT4 量化),进一步将 Decode 速度提升至 28TPS(1K 上下文),满足不同场景对速度与精度的灵活需求。

据了解,团队后续还将对 MoE 类的模型提供较好的支持。

褐蚁一体机的出现,可以说是改写了行业的格局——

此前运行满血 671B 模型需百万级设备,而同类低配方案(如 32B/70B 模型)仍需 20-40 万元。

行云通过技术整合,将最高质量的模型体验直接带入 10 万元价位,为中小团队提供了低门槛、高扩展性的 AI 部署方案。

这一技术突破不仅实现了 “高性能 + 低成本” 的平衡,更推动了大模型在智能客服、数据分析等场景的普惠应用。

清华 90 后创办的公司

最后,正如我们刚才提到的,行云除了产品本身之外,创始团队同样也有不少的亮点。

首先就是创始人兼 CEO 季宇,他本科就读于清华大学物理系,后转向计算机体系结构方向,获得清华大学计算机体系结构博士学位。

在学术研究方面,他曾作为共同第一作者在顶级期刊《自然》(Nature)上发表计算机体系结构相关论文,并荣获中国计算机学会(CCF)优秀博士学位论文奖(CCF 优博奖)。

行云集成电路创始人兼 CEO,季宇

在 2023 年 8 月成立行云集成电路之前,季宇曾在华为海思昇腾芯片团队,担任昇腾 AI 芯片编译器专家,负责多个昇腾编译器项目,也曾入选 “华为天才少年”

在华为期间,正因长期专注于 AI 编译器优化和处理器微架构等挑战性问题,也让他积累了丰富的 AI 芯片研发经验。

除了季宇本人之外,CTO 余洪敏拥有深厚的学术背景和丰富的行业经验。

他本科毕业于华中科技大学,后在中国科学院半导体研究所获得博士学位。

在职业履历方面,余洪敏曾担任百度昆仑芯、华为海思车载昇腾芯片等多款芯片的负责人,并曾在地平线担任芯片研发总监。

他长期领导和管理超过 100 人的研发团队,精通芯片研发设计全流程,具备丰富的实战经验——成功主导 10 余款芯片的流片与量产,并多次推动先进工艺数据中心芯片的架构设计、工程实现及大规模商用部署。

值得一提的是,在去年 11 月份,行云集成电路还得到了一众明星资本的投资,包括智谱 AI、峰瑞资本、嘉御资本、春华资本、中科创星、同创伟业奇绩创坛、水木清华校友基金等。

由此,从行云集成电路成立至今的发展来看,是有产品,有团队,更有市场的那种了。

但更重要的一点是,这家刚成立两年的公司,一举实现了一体机圈子里类似的 DeepSeek 的 “高性能 + 低成本”——

嗯,“中国初创” 的含金量还在持续上升。

欢迎在评论区留下你的想法!

—  —

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

褐蚁HY90 DeepSeek 大模型 一体机 AI
相关文章