浅黑科技 03月21日
中国存储登顶记:3000 万次心跳和 30 年山河轰鸣
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章讲述了中国曙光存储团队研发FlashNexus存储系统,冲击SPC-1榜单世界纪录的故事。团队通过艰苦卓绝的努力,最终实现了每秒3000万次读写请求的性能指标,标志着中国存储技术在集中式全闪存储领域取得了重大突破,打破了国外垄断,展现了中国科技企业的创新实力和自主可控的决心。

🚀FlashNexus存储系统是曙光存储团队研发的集中式全闪存储,其核心目标是顶住每秒3000万次的读写请求,即3000万IOPS,以刷新SPC-1榜单的世界纪录。

💡FlashNexus的研发过程面临技术挑战和外部压力,团队通过不断优化、测试,攻克了硬盘、网卡等硬件的瑕疵问题,最终实现了性能指标。

💪为了实现3000万IOPS的承诺,FlashNexus采用了“超级隧道”和“协程调度”等技术,提高了CPU的利用效率,保证了系统的稳定性和高速性。

🛡️面对美国的技术封锁,曙光存储团队积极采用国产芯片,重新设计FlashNexus,完成了软硬件的自主可控,并最终实现了SPC-1榜单的登顶。

原创 史中 浅黑科技 2025-03-21 11:08 北京

有人把数据化成歌,有人把它存在山河。

浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试用各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。


中国存储登顶记:
3000 万次心跳和 30 年山河轰鸣

文|史中



(一)“3000 万”的狂野承诺



2024 年深秋。一间宽大的会议室里,三十多位来自曙光存储团队的老师傅围坐,盯着屏幕上平平无奇的代码。

别被他们白面书生的长相给骗了,实际上,他们背地里玩儿的比谁都刺激。。。

如果我们可以缩小,顺着屏幕背后的线缆往深处走,会进入一个硕大的计算机集群。

这个集群正在浅吟低吼。

几分钟后,它将会爆发狂野威力,瞬间模拟出上千万人同时在网上浏览、购物、下单、转账的混乱操作。

而这些操作产生的每一条读取和写入数据的请求,都会如枪林弹雨般射向我们今天的主角:一套名为 FlashNexus 的存储系统。

FlashNexus 的任务只有两个字:顶住。

具体来说,是要顶住每秒 3000 万次的读写请求——简称为 3000 万 IOPS

你不妨想象一个宇宙空间里的硕大仓库,里面的货架上摆满了箱子。

一秒内就有 3000 万个箱子被搬进搬出,而且是要指定货架指定位置,无一错漏。



这个成绩,会被如实记录在评测软件中,反手发给世界最权威的机构 SPC(存储性能委员会)。

一旦通过认证,FlashNexus 就会以绝对优势登上“SPC-1 榜单”的第一位。

我猜有浅友会说:技术我不懂,但按照咱中国人做事的稳妥方式,老师傅肯定已经背地里研发到万无一失,这次测试只是最后走个秀,没有通不过的道理吧?

非也。

这个榜单相当于存储领域的奥运会:3000 万 IOPS 不仅意味着金牌,还意味着新的世界纪录

运动员创造世界纪录,不可能有什么“万无一失”。

举个宏观世界的例子吧:

2025 年,小米 SU7 Ultra 在上海国际赛道创造了 2:09.944 的量产车最快圈速的世界纪录。

而为了创造这个圈速,小米使用了两台车,一台车去冲榜的间隙,另一台车就原地加电换胎保养。

即使这样呵护备至,也总会有微小的意外扰动成绩。当天的车手跑了很多圈,从中午飙到黄昏,才终于把最佳成绩从 2 分11 秒多刷到 2 分 10  秒以下。

你说这个世界纪录是真的吗?当然是真的。你说这个纪录能一次达到吗?老天不会对你那么好的。

回到 FlashNexus 的测试现场,事情的本质是一样的。

3000 万的性能指标,是老师傅在产品设计之初就立下的承诺。

实际上,在这之前,团队已经试运行过两次测试程序,结果就因为某块硬盘和网卡有微小的瑕疵,导致测试结果有一瞬间崩到了 2000 多万。

虽然抖动只有一秒左右,但套用《霸王别姬》里程蝶衣的话:差一秒,差几百毫秒、几十毫秒,都不算 3000 万!

这一次,老师傅们又肝了一个礼拜,绞尽脑汁把所有的点位都做了检查加固。此刻拔剑四顾,能做的好像只剩祈祷了。

对啊!

说到这,有人从椅子上弹射了起来。

当时正好是曙光存储部门成立 20 周年, 单位给发了水果。他们七手八脚拿来几个柿子和橙子,然后找了根雪糕棍,写了个“榜”字。堆在一起:打榜事立成(大棒、柿子、立着的橙子)。



郭照斌看了看,觉得团队搞玄学的最高水平也就是谐音梗了,没啥说的了,图灵保佑,冯·诺依曼保佑——走你!

随着回车键清脆的响动,数据如海啸奔涌,通过光纤管道高压直喷到 FlashNexus。

随即,根据测试程序的预设,数据流量变成一条条排浪,从低逐渐到高,从高逐渐到低,然后高低突然切换,用最虐的方式拍打着存储系统的堤岸。

在这头的屏幕上,IOPS 的实时数据和老师傅的心跳也随之脉冲。



最挑战的时刻来了,流量洪峰开始全速冲击。所有人都凝固在原地,死死盯着开头的那个 3 字。而任凭其他数字疯狂跳动,3 始终是 3!

随着测试程序缓缓降温,会议室里欢呼雷动。

这些师傅中,很多都默默搞了十几、二十年存储技术,把人生最好的年华倾倒在了晶片和代码之间。

正因为系统里的 1000 万行代码全部来自于他们的岁月和指尖,他们才知道这 3000 万 IOPS 的承诺有多狂野,才知道这 3000 万 IOPS 对脚下的山河意味着什么。

SPC-1 榜单被新的世界记录刷新




(二)是谁来自山河湖海,却囿于“最后一块拼图”



我猜你现在正端着手机,轻飘飘地滑动着这篇文章。

但这个操作绝不限于眼前方寸。

支撑它的,是横跨山河的存储体系



你看到的这些文字本身,当然要和其他内容一起放在平台的存储系统里,供全球所有人随时调阅,不能出现任何延迟和过载。

你随时能给手机充电,是因为我们国家拥有稳定的电力系统。而电网如此稳定,是因为每时每刻全国的高压变电站都会回传海量的数据,使得调度系统可以精确平衡电网的压力。

你正在使用的网络流量,是靠遍布全国的 5G 基站提供的服务。你之所以不用操心信号抖动,是因为电信运营商会把所有基站的工作数据回传,用于实时分析、监测。

可以这样说:手机、电脑、智能汽车,无论什么设备,它们的本质工作都是计算;而计算产生数据,数据必定要安驻在某个存储系统。



如今成百上千种存储产品“毫无存在感地”支撑着我们生活的方方面面,就像大河纵横,载千帆竞流。

有趣的是,无论沿着哪条支脉漫溯,我们都会来到同一个湍急的上游:

1980 年代,新中国敞开了大门,从百年踉跄里爬起来,站稳姿势准备拥抱世界。可两手空空的感觉真难受,一切可能性的源头都是“能源”。

跺跺脚,大地沉默,到底祖国母亲把能源藏在了哪里?

为了勘探石油,石油工业部的专家必须依靠“高性能计算设备”对地震波进行计算。而当时,满足需求的只有 Made in USA 的大型机。

外国人大发慈悲,同意用高于市场价几倍的价格卖给我们。

不过,为了防止我们“偷偷”用它进行军事计算,专门在外面建了一个玻璃罩,钥匙在他们手里,只有在洋人的监视下才能操作。

这不是商业,这是侮辱。

君子报仇,十年不晚。我们的民用高性能计算研究,就大概始于那时。

在国家 863 计划的指导下,1993 年,李国杰院士带着中科院的一群年轻人开发了“曙光一号”,用分布式高性能计算突破了垄断。

而后时光奔流,曙光系列高性能计算系统成为国之重器,中科曙光公司也由此成立,日益壮大。



如今我们对制造世界一流的高性能计算、世界一流的云计算和人工智能基建有一种迷之执念,这大概都源自 80 年代“计算饥渴”造就的肌肉记忆。

但老话说得好:光存不算假把式,光算不存傻把式!

计算力越强,就需要越厉害的存储系统与之相配。

曙光公司从 2004 年开始研发“分布式存储系统”,一开始只是作为自家高性能计算的“陪嫁丫鬟”,但后来丫鬟也变成了大女主,开始独立进入石油、电力、证券、 银行、电信等等领域, 20 年来跨越山海,承托着国计民生的底层数据。

注意,这里我特意强调了“分布式”

分布式存储,简单理解就是用一个“调度系统”把很多普通服务器里的硬盘连接起来,组成一个大硬盘。



它就像一堆散落的仓库。

仓库规格各异,之间也不用打通,甚至不在一地。反正要找什么东西,调度系统知道去哪个仓库找,不就行了吗?

有了它,你只要不断把新仓库连接进系统里,就相当于造出无限扩展的仓储系统了!

就像下面酱:



对于用户众多,又非常在意存储成本的中国企业来说,这技术简直太“解恨”了。

但这里有个小问题:“量大管饱”不是生活的全部,有时候,我们需要的是“米其林三星”!

把这么多仓库统筹起来,必然需要复杂的调度系统,而调度的本质是信息在不同层级的模块里流转。

就像一家公司,制度越复杂,层级越多,决策流程就越长,干个事儿就越费时间。

这是难以避免的。

做过十几年分布式存储的郭照斌给我举了一个例子:

假如一个存储节点突发故障,故障信号层层传输到调度系统需要几秒钟,这时调度系统需要赶紧选定备用节点。

由于节点分散在各处,调度指令还需要通过网线远程传输。等备节点解析信号,拉起服务,系统恢复平稳,全过程怎么说也得要 15-30 秒。

就算技术特别牛,能压缩到 10 秒,那也已经接近物理极限了。

就像下图:



可别说 10 秒,仅仅 1 秒的“罢工”,对很多国之重器来说都是“不能承受之重”。

曙光存储 FlashNexus 产品经理卫然给我列举了几个数据:

银行数据库的存储系统如果出现 1 秒故障,就会有 2000 笔跨行转账无法被记录,需要手动对账;

电信计费的存储系统如果出现 1 秒故障 ,就会造成 1000 个用户流量超标时无法及时提醒,导致资费损失;

证券报价数据库存储系统卡顿 1 毫秒,在上面购买沪深 300 基金的用户损失就是 78 万元。

话说,大概在 2017-2018 年,前线就不断传回来消息:

金融、能源、电信用户最核心的数据库,迫切需要搭配一种顶级存储,既要要极其稳定,又要极其高速,还要支持极高并发。

人家已经立了英雄贴。只要能解燃眉之急,哪怕贵点儿也没问题!

其实曙光存储上上下下的师傅们心里都门清:这种既要又要还要,恐怕只有一种存储产品可以满足,那就是——集中式全闪存储

所谓“全闪”,就是承载数据的硬盘不能是普通的 HDD 硬盘,而要使用更快速的 SSD,也就是我们说的闪存盘;

所谓“集中式”,就是不使用零散的服务器,而是定制一套机柜,里面的板卡和芯片都是专门设计的,把闪存盘放在一起“军事化管理”,从而让系统达到极限性能。



如果用仓库的比喻,就是建设一个巨型仓库,里面通道布局、机械结构、人员配置都统一设计;

而且所有货架都靠电子系统寻找位置,无论是放东西还是拿东西,都比过去用机械臂找快上万倍。

这么庞大又精密的东西,妥妥是存储界的顶级贵族。。。它真的能造出来吗?



答案是能。因为美国人早就造出来了。

要研究世界上最快的存储系统,咱们只需要打开一个榜单——SPC-1。

六年前,郭照斌他们就曾经瞪着这个榜单,上面一水儿都是美国老牌公司:EMC、IBM 之类。

实际上,当时中国的银行和券商,为了保证服务的极限可靠性,核心存储也只能从这些外国产品里挑。

不是不想支持国产,只不过支持“中国设备”就没办法支持“中国用户”。。。

没错,即便已经到了 2018 年,“玻璃房子”的幽灵仍在萦绕。

看着这个榜单,老师傅们心里五味杂陈。

这些“金榜题名”的公司随便哪个都比曙光存储的资金多十倍,人力多十倍,技术积累还多十几年。

反观曙光团队自己,虽然已经有了不错的分布式存储产品,可集中式存储,尤其是“集中式全闪存储”,逻辑结构差异巨大,老师傅相当于重开一局,不仅每一行代码都要重头写,甚至连团队都得从头招聘。

但这件事,并非纯粹的商业决策。

回到历史的当下,2018 年世界正急打转向:美国变脸,对中国的技术封锁开始动了真格,敞开的门正迅速关闭。

一旦拿下“集中式全闪存储”,曙光存储将代表中国摘取存储系统皇冠上的明珠,也补上产品线最后一块缺失的拼图。

一旦拿不下。。。后面虽不能断言没机会,但代价可能会指数级提高。。。

曙光分布式存储的一些技术骨干组成了“敢死队”,向集中式全闪存储进发,郭照斌就是其中一员。

郭照斌


隔着玻璃看历史,总因细节模糊而显平淡。但如果穿越回去,和他们一起站在悬崖边,面对未知的命运却仍要纵身而下时,我们能听到耳边呼啸的风。

回望历史,人不孤单。

1993 年,曙光的前辈们曾经面对更加恐怖的深渊。而他们走到了对岸,用“高性能计算”化成利剑劈开玻璃房子。

2004 年,分布式存储的同事们也面临幽深的峡谷。他们同样走到了对岸,用极致性价比做出了外国产品的“平替”。

对这些故事的无数次重温,也许就是系在集中式存储团队身上唯一却无比坚固的“保险绳”。

不过这一次,他们有多大胜算呢?



(三)存储系统的“特斯拉时刻”



严格说,这是曙光存储第一次冲击“集中式全闪存储”,但不是第一次冲击“集中式存储”。

两个名字看起来很像,实则天差地别。

如果用汽车类比:“集中式全闪存储”就是电动车,而传统的“集中式机械硬盘存储”就是燃油车。

从燃油车到电动车,似乎只是核心动力部件从发动机变成了电动机,但为了适应它,其他所有的传动结构都要发生天翻地覆的变化。甚至可以说,电动车和燃油车已经是两个不同的物种。

存储也是如此。

我们不妨回到仓库的比喻,给你说说其中的核心要害:

硬盘好比就是仓库里的货柜。

 1)机械硬盘存储和提取货物靠的是“机械臂”。



机械臂的运动有点像咱们在书架上找书时候的手指头,顺次点着书脊,看到要找的目标,就抽出来。这就是“寻道”。



2)闪存硬盘存储和提取货物靠的是“电子映射”。


它有点像咱们取快递的柜子,你只要输入柜子号,背后的电路板就直接控制相应的柜门弹开了。完全不需要寻道的过程。



寻找同样一件东西,他俩的速度能差一万倍。

你用闪存盘代替机械硬盘,存储系统总体性能就提升了一万倍吗?

不对。

要说清楚这个事情,不能只看货架,还要请上另一个角色——仓库管理员

货架只是无情的存取机器,得有一个管理员来告诉它需要把东西存在哪,或者从哪个位置取东西啊!

这个管理员,就是 CPU。

现在假设你就是管理员,如果用“机械货架”,会是这样的局面:

1)你的老板一下给了你 100 条指令,要你从仓库里找出这 100 件东西,越快越好。

2)你拿出 1 号指令,对一个货架说:你去给我拿这个 A 货物。

3)货架收到指令开始寻找,由于机械臂速度有限,可能得半小时才能找到。

这个时候,你该怎么办?

在原地哼着小曲儿,等货架把东西找来?老板肯定炒你鱿鱼啊!



没错,因为你这个管理员的效率比货架的效率高太多,最好的办法就是把任务穿插起来:

1)你布置完一个任务,马上去布置下一个任务。

2)直到哪个货架找到了,就来“钉”你一下。

3)被“钉”后,你暂停布置任务,把这个 A 货物拿给客户。

4)然后你再回来继续布置任务,直到下一个 B 货物被找到。

以此类推。。。

咱们用慢镜头展示一下这个过程



这个打断你的操作,专有名词就叫做 CPU 的“中断”。

目前为止,一切都很顺理成章。

现在,我们原地把机械货架换成电子货架,哪怕其他条件都不变,局面也大不一样了:

1)你给第一个货架布置完任务,让它去找 A 货物,然后你跑去给第二个货架布置任务。

2)结果你第二个任务刚布置一半,就听“钉”的一声——第一个货架已经把东西送来了。

3)你只好先把 A 货物送走,回来继续布置任务。但这么一折腾,你已经忘了刚才说到哪了,还得回忆半天。

你看,由于电子货架速度太快,导致你布置任务的过程被频繁打断,每次打断和续上都需要额外的时间和计算。

这么一来,你甚至不如回到最简单的操作:

发布任务,原地等货架找来,把货送出去,再布置第二个任务。

咱们再用慢镜头展示一下这个过程↓



也就是说,如果仓库里全是电子货架(闪存盘),反而不需要机械货架(机械硬盘)那么冗杂的调度逻辑。

正所谓:最好的食材只需要简单的烹饪!

明白了这些,我们再回到现实中。

其实,曙光存储早在 2012 年就尝试用机械硬盘设计集中式存储,但其中的代码太复杂,而且很多逻辑都固化在硬件中,被国外垄断,卖得死贵。所以那次尝试并不成功。

所谓不成功,就是产品做出来了,但是性价比没有“Made in China”的样子。

类比一下,这也很像中国的汽车业。

过去,我们按照燃油车的技术路线追赶,不仅技术复杂,而且前面全是别人下的专利绊子,非常不划算。所以中国燃油车一直没有做到世界顶尖。



后来,我们直接换道超车,做技术更简洁、竞争更小、前景更广阔的电动车。

另开一局,这不就成了吗?!



只不过,换道不是想换就能换,这里需要一个巨大的“天时”。

电动车的技术路线早就存在了(其实人类是先发明的电动车,后发明的燃油车),但世界上一直没有一家成功的电动车企业。直到 2015 年,电驱和电池技术迅速成熟,价格大幅下降。

具备以上条件,才能有企业可能整合这些技术,制造出性价比优异的电动车,挑战油车的地位。

于是,特斯拉横空出世。

而在 2018 年左右,同样的事情再次上演:闪存价格开始大幅下降

这就是存储产业的“特斯拉时刻”!

从 2018 年开始闪存价格下降斜率变快,预计 2026 年会比机械硬盘更便宜。


特斯拉时刻的出现,意味着中国存储产业换道超车的时间窗口已经打开。

当时有远见的中国师傅都看到了这个历史之门透出的光芒:

不只是曙光,包括华为、浪潮、紫光、金山在内的中国企业全在这个时间点大幅投入全闪存储的研发。

沧海横流,接下来谁最牛,真的就是拼每一行代码,每一颗芯片,每一块板卡上的每一束电流了。



(四)“豪华仓库”变形记



要说清楚“集中式全闪存储”里面的狠活儿,咱们不妨线把仓库工作的状态放在舞台上完整表演一遍。

首先给你把所有角色介绍清楚:

货架:硬盘

箱子:数据

管理员:CPU

管理员的小本本:内存

快递站:网卡

仓库的老板:操作系统

现在演出开始。


🌸第一幕🌸

假设你开了一家连锁咖啡馆,叫“羊了个驼咖啡”。

中哥来了,下单一杯美式。



于是,这笔订单由数据库打包成了一个“赛博纸箱”,通过网线发送到了存储系统的“快递站”。

快递站通知“管理员”:亲,来活儿了,赶紧入库!

管理员拿着这个箱子,到货架旁,指挥它收起来。

这就是最基本的工作流程



话说,就我一个顾客,也用不上这么复杂的存储系统。

接下来,我们上强度。


🌸第二幕🌸

你家生意太好,除了中哥还有 100 人同时买咖啡——每时每刻,快递源源不断。

这时,一个仓库管理员就忙不过来了。

具体来说,你给仓库里配了 4 个管理员小队(对应着 4 个 CPU),每个小队 有 64 个管理员(对应着 64 个核心),乘在一起有 256 个管理员。

这里问题就复杂了!

256 个管理员操作的可是同一间仓库!他们之间有可能打架!



红色管理员操作货架上某个位置的时候,起码得保证绿色管理员没有操作这个位置,否则最后就乱了啊。。。

所以,你决定搞个“加锁”机制。也就是红色管理员操作之前,先把用到的档口上锁,操作完了再解锁,其他管理员才能去操作。



这样不就解决冲突问题了吗?

没错,但我们接着上强度,新问题还会出现。


🌸第三幕🌸

同时买咖啡的人变成了 10000 个。

你突然发现,管理员又忙不过来了。

仔细一看,真正存取的没花太长时间,大量的时间都浪费在了频繁的加锁和解锁上。这咋整?

郭照斌他们给你想了一个方案:超级隧道

所谓超级隧道,核心思路就是:围绕着每一个管理员(CPU 核),都配备它独占的资源。

从快递站开始,就分出 256 个格子,每个格子专属一个管理员。红色格子出现箱子,就等着红色管理员来取,别的管理员哪怕闲着,也不能帮忙。

同理,红色管理员也对应着自己的专属货架,他只能在自己的位置上存储东西,其他管理员不能碰。

也就是说,从快递站(网卡),到管理员(CPU),到货柜(硬盘),形成了一个一杆子插到底的“超级隧道”。



这种情况下,领地不重叠,还加啥锁?

“加锁机制”的所有代码都可以“全选+删除”!



管理员只管搬箱子,系统运行起来肯定快得飞起。

但这还不是终局,我们继续上强度。


🌸第四幕🌸

同时买咖啡的人变成了 100000 个。

虽然“超级隧道”没有相互干扰,但不可避免,管理员手头的任务开始出现“积压”。

比如:红色管理员这个箱子还没放好,快递站的红色柜子又来了几个新快递。由于“超级隧道”的存在,这些快递还只能他弄,别人帮不上忙。。。



这时,管理员有两个策略:

1)一个一个来,等货架把这个箱子放好了,再去取下一个箱子。

2)穿插着来,货架正在摆放这个箱子的过程中,他就直接回到快递站取下一个箱子。

注意!即便是“电子货架”,存放的速度极快,也还是慢于管理员的行动速度。也就是说,第二个策略会更节省时间。

但问题是,管理员离开货架时,必须记下现在手头有哪些工作,顺序是什么,分别干到哪一步了,回来好续上。

这时,就要给每个管理员配一个专属“小本本”(内存专属区域),记下关键信息。



由于管理员的职责不交叉,一个管理员只需要用最简略的信息记录下当前状态,他自己能看懂就行,所以这个本本可以设计得非常小巧。

本本小,就能随身带(放在 CPU 寄存器),读起来也很快,所以对整体存取的速度影响很小。

这种在同一个隧道里“庖丁解牛”,来回切换任务的操作,就叫做“协程调度”



协程调度带来一个巨大的好处,那就是:一个新快递来了,管理员看看小本子上的排队情况,马上就能回答你“这个快递需要多久能入库”。

这在宏观上的表现就是:任何一个数据来了,都能知道还需要多久*肯定*能存好。

这个“多久”,其实就是系统在这一瞬间的卡顿时间,假设告诉你最大卡顿是 50 毫秒。你只要觉得 50 毫秒能接受,就没事了呀。



你要不接受呢?

没关系,我们继续上强度。


🌸第五幕🌸

“羊了个驼”搞了个秒杀活动,同时买咖啡的人变成了 1000000 个。

相对应的,可能 1 号管理员的卡顿就变成了 1 秒钟。这时,他已经不堪重负,需要求救了!

怎么呼救呢?

我们设计一个巨大的广告牌,每个管理员都把自己的实时状态和负荷写在广告牌上,所有人抬眼就能看到。



如果一个管理员在广告牌上的负载总是很大,那么仓库的“老板”,也就是操作系统就得出面了。

比如,他要重新分配任务,比如把一个货架上的货物分到两个货架上,由两个管理员来干。

这其实很考验仓库老板的智商。因为它首先要反应快, 其次还要做预判,不能等管理员已经累坏了才想起来找人给他分担任务。

这不仅需要精准合理的调度规则,还需要一套精确的 AI 预测系统。



OK,演员暂时谢幕。FlashNexus 主要的黑科技就科普到这里。

对于曙光存储来说,这些不是戏剧,这些是他们过去几年的经历。

现在看上去,技术逻辑朗若裂眉。可一但上手去做,就会经历了很多“一想就对,一做就废”的至暗时刻。

即使是在领域里滚了 20 年的老师傅,也会经常卡在一些技术点上,例如主控节点之间信息高速互联的协议策略、例如负载调度的模型微调。作废的代码无计其数。

说到底,“集中式全闪存储”就是一项软硬件紧密耦合的复杂工程,而工程从来无法用理论公式去完成。

很多软硬件模块的原理都是对经验的拟合,没有犯错的经历,你就不可能知道怎么做。

为啥美国公司能做好集中式存储?因为他们做了几十年,也错了几十年。仅此而已。

郭照斌告诉我,仅仅软件部分,FlashNexus 就有 1000 万行代码,都是这几年一个字一个字手敲出来的。

即便有些模块能找到成熟的开源代码,他们也是学习之后自己实现出来。

这倒不是什么强迫症。因为只有自己敲出来,才意味着对其中的代码有了本质理解。

一个用来护佑山河的存储系统,中国人必须完全理解,这很合理吧?

而所谓理解,不过是在黑暗中摸索,一遍遍重来的过程中凝结的伤疤。




(五)追杀与登顶



2019 年,就在曙光集中式全闪存储研发开始前,美国突然宣布把曙光加入“实体清单”。

大家总爱开玩笑,说这是对中国科技公司硬实力的盖章认证。

但曙光存储的师傅们可笑不出来,这意味着一场针对自己的“追杀”拉开序幕,刀刀见血。

刚才说过,集中式存储是软硬件协同的。这意味着光靠代码还不够,很多调度逻辑都要固化在硬件里。

可美国一纸禁令,让原本还谈着合作的外国企业一夜之间把曙光拉黑,一个字都不敢说了。

在这种情况下,哪怕之前已经买到手的芯片都不能使用了, 因为原厂不给任何技术支持,使用这些“三无芯片”万一出啥问题,不是给自己埋雷吗?!

怎么办?

还能怎么办?曙光老师傅开始用国产芯片重新设计。

存储系统里不光用到 CPU,还有大大小小很多芯片,有些专用芯片就是为存储产品设计的。这些芯片未必有多精细的制程,只是国外的比较成熟,过去没有“卡脖子”,直接进口就行。

现在,曙光只好紧急联系中国合作伙伴,给他们描述芯片的用途,讨论参数,从头进行联合设计。

这是一场浩繁的工程。

但俯瞰当时的中国,曙光并不孤单。因为“卡脖子”的无差别攻击,很多行业都突然面临专用芯片缺失的局面,被迫开启产业链自救。

塞翁失马焉知非福。中国芯片的产品线补足,也发生在这个时期。无数自救故事凝固在彼处,成就了一幅宽阔的“清明上河图”。

杀不死我的,必将让我更强大。

一个有趣的转机来自 2022 年底。

那时,“集中式全闪存储”刚刚做好软硬件的诸多准备,准备全力攻坚,隔壁突然传来了好消息。

曙光的分布式存储系统 ParaStor 冲击了一个权威榜单:IO500。

IO500 考验的核心是存储容量和吞吐量。而 ParaStor 一举拿下了 10 节点榜单的第一名,把世界纪录提升了 146%!

这无疑是“荣登”实体清单之后的一次汹涌的自我证明。

ParaStor 和 IO500 登顶成绩。


分布式存储是曙光存储的传统艺能,也是郭照斌本人奋斗了多年的领域。即便如此,这个成绩还是有点超越了他的想象。

也正是从那时起,集中式存储团队心里萌生了一个想法:集中式全闪存储也要证明自己!

3000 万 IOPS,就是那时定下的目标。

实际上,老师傅想要挑战的目标是:做到单集群百控级扩展,1 亿 IOPS。

而在 SPC-1 的测评中,一般会使用 32 个主控的系统。简单除一下,这个规模的系统应该要达到 3000 万 IOPS。

于是,老师傅一边朝着这个指标努力,一边抽空和 SPC 联系。由于相隔大洋,只能用邮件沟通,有时候一来一回就要一个礼拜。

2024 年夏天开始,好不容易拿到了测试系统,老师傅赶紧部署下去跑分试试。

结果,就在快要跑到 3000 万 IOPS 的时候,测试系统就闪退了。。。

老师傅咂嘴。看来咱水平还是有待提高啊,继续反躬自省吧。

自省了半个月,老师傅越发觉得不对劲。有没有一种可能。。。是测试程序。。。有问题?

又开始了几轮漫长的邮件沟通,SPC 的技术团队终于确认:不好意思,我们的评测系统从没跑过 3000 万 IOPS,确实存在 Bug,等我们 Update 一下。

为了见证一个世界纪录,连赛场都得重修一次,也算是活久见了。

时间终于来到了 2024 年秋天。顶级全闪存储的软件和硬件终于打磨光亮,测试程序也及时更新,文章开头的那一幕终于出现了。

这个打榜的存储系最终形态是:

32 个主控,每两个主控互为备份,总共是 16 组“仓库”,各个仓库之间由高速网络互联,可以实时进行信息同步,保证它们连接在一起,共同成为一个超大的变形金刚。

这就是 FlashNexus 全闪服务器,前面的 25 个格子,就是 25 块闪存盘的位置。


这样一个每秒可以进行 3000 万次存取响应的人造物巅峰,完全有能力进入大银行的心脏,记录海量刷新的账目;有能力进入电信系统,记录所有人的话费实时消耗;有能力进入石油系统,支持超大规模 AI 来分析地震波,寻找更加隐秘的矿藏。

凡是国外存储系统能支撑的场景,中国存储系统都能支撑;有些他们支撑不了的,我们还能支撑。

因为我们是世界第一。

这是测试结果的完整参数


这是一场围追堵截中的登顶,一场旷日持久的尘埃落定。

客观地说,曙光并非唯一的成功者。就在 2024 年,其他头部的国产厂商也宣布推出自己的集中式全闪存储。

从这个意义上讲,中国师傅作为一个整体,踏足了曾经的技术禁区。

2025 年 2 月,SPC-1 的官方认证发布,在他们给曙光团队的邮件中如是说:

我们将会把结果发布在 SPC 的网站上,并且给所有邮件列表上的成员发送通知。

我还会在首页上添加一个通知;并非每一天都有人能刷新 SPC-1 纪录。



那之后几个礼拜,郭照斌的手机被各方信息轰炸。

不仅自己的销售团队来问,客户也托人来问,连很多友商同事都找来询问情况,因为他们的老板看到新闻,质问他们为啥不去打榜。。。

“你们的纪录有信心保持多久?”我问郭照斌。

“我当然希望保持久一些。也许一两年,也许很快就被打破。但没关系,纪录就是用来打破的,因为我们也会继续创造更好的纪录。”

和团队一起燃烧了几年生命才抵达顶峰,郭照斌却没有我想象中那么留恋。

他的平静,或许源于祛魅。



(六)耐心和祛魅



在过去的十多年,我们内心大概有一个共识:

中国技术可以做到很强。但这种强来自于已知的堆垒,而非对未知的探寻。

换句话说——中国难有受人尊敬的技术创新。

这种判断非常理性。毕竟中国的制度、学术体系、商业氛围都和西方不同,最近几十年的历史也一再证明,美国总是创新的策源地。

但就在 2025 年,一些跳脱出历史经验的事情正在发生。

DeepSeek 祭出了让世界 AI 研究者膜拜的模型推理结构,Manus 让 AI 拯救了重复劳动的社畜;宇树机器人在春晚舞姿顺滑,越疆机器人用手指捏起了樱桃。

中国技术人一如既往平凡地生活,上班打卡、下班带娃,可他们手中却不知不觉开始诞生一些世间尚不存在,并不平凡的东西。

如春雨润物,大地返青。

这是一场汹涌的祛魅。

在郭照斌心里,这种祛魅发生得更早。

2022 年,分布式存储创造了 IO500 世界纪录时,郭照斌突然有一种感觉:身边的人还是那些人,谁也没有长出三头六臂,也没听说谁菩提顿悟。

就是这些原班人马,十几年前还在琢磨模仿美国技术,七八年前还在研究如何跟紧别人的创新。也不知从那天开始,突然发现前面没人了,只好自己创造,也就拿下了世界第一。


现在的信息流通非常自由,全世界的技术人正在同一片土地上耕作,过去那样的严密封锁再也不会出现了。

冲击最高点不是不可能,只是以前没敢想。

他说。

听着他的话,我陷入了自己的回忆。

小时候,总看到那样的新闻报道:有追求的技术人舍家撇业,远渡重洋。因为最好的东西只在彼岸发生。仿佛这样的奋不顾身浸染着至深的浪漫。

但如今,我就在家门口,和这些创造了历史的技术人面对面,他们看上去和蔼平静,可能还有点儿羞涩。就像是小时候结伴上学的哥们。

我大概明白,技术人的浪漫,也许并非走到世界的尽头。而是把那些汹涌的远方带回家,成为手中的柴米油盐,脚下的寻常巷陌。

如果把这些造物搬到你面前,它们只是棱角分明的机柜。匆忙一瞥,对它的印象一定如纸片一样轻薄。

但如果安静下来,把所有的定格连缀成故事,会听到一条澎湃的河。

三十年前,老一辈技术人之所以把他们的作品称为“曙光”,寓意已非常明确。而时代变迁,后人也许终究无法重走他们的筚路蓝缕。

但一代人有一代人的使命。

山河宽广,我们永远需要无尽的算力和存力的护佑。每一个尚未抵达的世界纪录,不都是新一代技术人谱写历史的机会吗?

在和我聊天时,技术老师傅总是尽量避免华丽的词汇,他们朴实地解释自己的参数,讲解实现的方案,我听不懂他们就换个方式再讲,怎么说都不腻。

但此刻,回忆那些平淡的对话,我却如置身扁舟,漂流在那条汹涌的河上。

一个我儿时就会背,但却用了几十年才渐渐理解的诗句突然又浮现在脑海:

为什么我的眼里常含泪水,

因为我对这土地爱得深沉。



往期推荐:
👉14亿人的战争:中国人用了30年望见计算力的珠峰
👉腾讯的硬盘里,有互联网的昨天今天和明天
👉阿里巴巴“数据库侠客”:此行路远,不问归期
👉平凡人的野望:我们为赛博世界保管记忆
👉“老司机”决战火神山
👉我曾用5G照耀珠峰




有人把数据化成歌

有人把它存在山河


再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax


哦对了,如果喜欢文章,请别吝惜你的“在看”“分享”。让有趣的灵魂有机会相遇,会是一件很美好的事情。


Thx with  in  Beijing

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

曙光存储 FlashNexus SPC-1榜单 集中式全闪存储 国产芯片
相关文章