中国团队首度公开光电混合计算架构，已完成从概念验证到产品交付的关键跨越

原创 DeepTech深科技 2025-04-10 15:48 北京

展示了由商业产线生产的大规模光电集成计算卡并提供全部实测数据。

光，就像是宇宙中最迅捷的使者，以每秒近 30 万公里的速度在真空中传播，不仅照亮了我们的世界，更在现代科技领域发挥越来越重要的作用。

在通信领域，光纤在全球应用已有数十年历史，光在信号传输方面的能耗、时延和通量等都远优于电子。如今，光纤早已进入千家万户，带来高速稳定的网络连接。

除了通信，光在计算领域也展现出巨大潜力。早在 2017 年，美国麻省理工学院沈亦晨和团队开发的可编程光子处理器芯片开创了片上干涉架构的先河‌。作为一种颠覆性计算范式，光计算近年来发展迅速，正处于从实验室走向产业化的关键阶段。

近日，Nature 以《超低延迟大规模集成光子加速器》（An integrated large-scale photonic accelerator with ultralow latency）为题刊载了一篇论文，介绍了曦智科技在光电混合计算领域取得的产业化进展。

（来源：Nature）

“这篇论文介绍的其实是我们四年前发布的上一代光子计算处理器‘PACE’，相当于是把这款产品的开发思路进行了一次‘开源’：通过公开‘PACE’光电混合计算（硬件和软件）的具体架构，我们希望吸引更多人参与到光计算行业中来，促进整个行业的发展和进步。”曦智科技创始人、CEO 沈亦晨告诉 DeepTech。

针对这项研究成果，审稿人认为，“在光子计算领域，通常会通过小规模的演示对大规模系统性能进行乐观推断，而本论文中的数据均来自整个‘PACE’计算系统的实测性能，研究团队工程化的实现了一个超大规模光子矩阵计算系统，可谓是一次‘壮举’。”

作为国际顶级学术期刊，Nature 发表的研究成果向来以高校、科研机构等学术界基础研究为主，而此次发表来自产业界的产品化成果，一方面标志着光计算技术已经从理论研究阶段跨入实际应用阶段；另一方面也反映出学术界对光计算商业前景的认可。

从“0”到“用”的突破：光电混合计算架构首次公开

近年来，随着硅光子、纳米光学、材料科学等学科的发展，全球范围光计算的热度不断攀升。与传统电子计算技术相比，光计算采用了一种全新的运算方式，利用光子作为信息载体，通过光学硬件而非电子硬件来执行计算任务。

这种新型计算方式尤其擅长处理需要高度并行运算的复杂任务，然而光计算也面临着一些挑战，首当其冲的是缺乏合适的商业化应用场景；其次，传统的光子器件采用分离式设计，对光场的调控手段比较单一并且整个光子系统的体积较为庞大，导致光计算技术长期停留在实验室理论研究阶段。

图｜光子计算处理器“PACE”（来源：曦智科技）

2021 年，曦智科技发布光子计算处理器“PACE”（Photonic Arithmetic Computing Engine，光子计算引擎），其包含 64x64 光学矩阵，集成 16,000 个光子器件，由一块集成硅光芯片和一块 CMOS 微电子芯片以 3D 封装形式堆叠而成，能够实现 1GHz 频率的高速计算和每周期 3 纳秒的延迟。

最为关键的一点是，“PACE”通过实测验证了光子计算的优越性，由于光在执行矩阵向量乘法时的时延极低，通过重复矩阵乘法和受控噪声组成的紧密回环来实现较低延迟，在生成伊辛问题（Ising）和最大割/最小割问题（Max-cut/Min-cut）这类组合优化问题的高质量解决方案，而这代表着光电混合计算从概念验证到产品化落地的跨越。

技术架构层面，曦智科技联合创始人、首席技术官孟怀宇表示，“之所以选择 64×64 的矩阵规模，主要是由于我们在当时的时间节点上有把握能开发成功且规模足够大的产品形态，在此规模下有海量元器件需要控制，采用 3D 堆叠封装是最佳选择。”

“PACE 中的 16,000 个光子器件并不存在光学串扰的问题。”曦智科技主任硅光工程师华士跃指出，“至于射频串扰，由于我们采用的是倒装芯片（Flip chip），被控器件和控制元器件上下堆叠，是点对点的，因此器件之间的串扰也不明显，只有在长距离并行金属线可能会有一些串扰。总的来说，我们借助先进封装解决了串扰问题。”

除了技术参数优势，这一产品化成果能够被 Nature 收录，主要是由于这是一款完全由商业生产线制造的大规模光电集成计算卡，并且还提供了详尽的实测数据支持，不仅证实了这款计算卡在降低计算延迟方面的卓越表现，也展示出其在提升计算效率和稳定性等方面的一些优势。

图｜PACE 系统架构示意（来源：Nature）

任何一项技术，只有从实验室基础理论研究走向大众市场并付诸应用才能算作真正意义上的成功。对于光计算领域，在沈亦晨看来，技术从概念到产品需要经历几个步骤。

第一步，新技术（对比现有技术）要体现出优越性。“在这篇论文中，针对伊辛图形优化算法，我们用光电混合芯片证明比电芯片要快几个数量级。这是技术从概念变成产品的第一步，即具有优越性。”他补充说。

第二步，新技术要解决实用问题，并且能融入到现有的计算体系生态中。“这也就是我们今年 3 月份发布的新一代光电混合计算产品‘曦智天枢’，首次验证了用光电混合芯片也能跑通用商用算法，具备了实用性，可以解决一些实际问题，并且在形态上与普通的 GPU 无异，可以直接插入服务器。”他介绍说。

第三步，相当于是前两步的融合：既能解决实际问题，而且在解决问题中比现有技术更有优势，当然还包括成本的下降、稳定性的提升等，这些都是后续产品迭代需要攻克的问题。

“总的来说，这篇论文的一个重要意义在于，我们让大家看到什么样的计算结构和算法能够最大化发挥出光计算的优势，这大概率是一些 AI for Science 的应用场景。”沈亦晨指出，“曦智科技的早期客户主要面向教科研领域，我们希望与教科研的研究人员一起去探索和发现（除了当前通用商用 AI 算法之外的）新的且比较契合的应用场景。”

值得一提的是，Nature 同期还刊载了来自美国 Lightmatter 团队围绕光电计算的研究成果：其开发的光电芯片包含四个 128×128 光子矩阵，能够执行自然语言处理模型 BERT 以及用于图像识别的神经网络 ResNet，并且其运算结果的准确性可与传统的电子芯片相媲美。

8 年追光历程：从概念验证到产品落地

回顾沈亦晨的“追光之路”。早在 2017 年，他以第一作者在 Nature Photonics 上发表了一篇题为《由纳米光学回路实现的深度学习》（Deep learning with coherent nanophotonic circuits）的封面论文，首次提出光子计算系统的概念，开发出基于相干纳米光子电路进行深度学习计算方法，即光子代替电子来进行 AI 计算。

（来源：Nature Photonics）

这项研究被业界公认为是集成光子领域的开创性进展，在算法创新和硬件革新两个维度都取得突破：算法层面，开发了一系列既能够保持模型性能，又能显著减少深度学习计算需求的算法，这些算法特别针对光子芯片进行了优化；硬件层面，采用光干涉仪来执行基本的矩阵运算任务，替代了传统的电子晶体管。

彼时，这套光子计算系统并不能称之为“产品”，它体积过于庞大，几乎占据了半个实验室。

同年，沈亦晨创立曦智科技，以这项研究成果为起点致力于将光子计算产品化、商业化。

2019 年，曦智科技发布了首款光子计算原型板卡，成功运行了 Google TensorFlow 自带的卷积神经网络模型来处理 MNIST 数据集，验证了两年前的这一开创性想法，证明了光子计算的可行性，并且产品的体积也缩小上千倍。

这一幕，就像是上世纪 40 年代诞生的世界第一台通用计算机“ENIAC”，半个多世纪后，这个重达 30 吨的庞然大物体积已经小到可以放进背包甚至口袋里。

图｜曦智科技 2019 年开发的首款光子计算原型板卡（来源：曦智科技）

2021 年，“PACE”的问世，向业界展示了一款由商业产线生产的大规模光电集成计算卡，标志着光电混合计算从概念验证完成产品化落地。

时隔四年，曦智科技于今年 3 月推出了新一代光电混合计算卡“曦智天枢”，首次实现了在复杂商业模型中的应用，并在特定算法中体现出了优于商用 GPU 的延迟优势。

“对比上一代‘PACE’产品：硬件方面，首先是矩阵尺寸扩大了四倍，从 64×64 到 128×128；精度提高到 8bit，可以跑 ResNet50 以及其他 AI 算法；软件方面，我们开发了一整套开发框架，在易用性方面也有所提升。”孟怀宇介绍说。

更为重要的是，“对比上一代‘PACE’（形态上更像是一款实验仪器），‘曦智天枢’已经进化成为了一款标准的 PCIe 通用板卡，不仅仅是硬件形态，其在芯片层面上支持通过 PCIe 与 CPU 直接互联，而这意味着‘曦智天枢’可以直接部署在传统的数据中心服务器中。”他补充说。

创业至今 8 年有余，曦智科技的产品线不断优化迭代，围绕光计算开发的侧重点也在悄然发生变化。

“早先刚开始做光计算的时候，我们特别专注矩阵乘法部分，如今我们发现远远不止矩阵乘法，还包括互联、存储、带宽等等，类似于‘水桶效应’，其整体效能取决于其最薄弱的环节（短板），而非最强项（长板）。所以我们需要把每个‘木板’都补齐，才能实现综合性能的上限。比如，我们布局了光互联的产品线，本质上就是来解决计算过程中的数据存储和搬运问题。“沈亦晨表示。

“随着时间的推移，我们越来越认识到‘软件生态’的重要性。”孟怀宇补充说，“光计算也好，电计算也罢，计算范式不同，各自的优势也有所不同，这个时候庞大的软件生态反而成为制约其进入大规模商业应用的门槛。”

“光计算开发，远不止是纯硬件方面的事情。一方面，我们要做好自己的软件；另一方面，我们还需要自己去培育软件生态。”他表示。

谈及学术界和产业界对光电混合计算的关注点，曦智科技首席运营官王泷指出：“学术界更关心的是理论上限，产业界更关心的是可实现性、可落地性，我觉得这是一个本质的区别。”

“学术界的侧重点为创新，他们可能会去探索一些新架构、新应用、新材料等前沿技术。但就我们自身（产业界）而言，对于激进技术的应用会更加收敛，因为我们希望能在中短期内将技术落地成为一款可量产、可应用的产品，还包括一些细分要素，比如成本可控，可编程性，上手难易度等等。”孟怀宇补充说。

图｜曦智科技团队（来源：受访者）

对于未来公司发展规划。“首先，在硬件方面，我们已经在着手开发 256×256 矩阵规模的芯片产品，同时在供应链方面进一步向国产靠拢。”沈亦晨表示。

其次，对于光计算这个新兴计算硬件而言，初期显然无法与传统通用 GPU 市场相抗衡。“所以，我们选择先聚焦一个当量足够大的专用定制化场景：大模型推理，同时将光互联融入其中，开发新一代产品。”他说道。

最后，构建光计算生态。“我们希望带动产学研一起合作，围绕光计算本身的硬件优势来寻找这种‘杀手级’的应用，即大模型推理等现有商业 AI 以外的应用场景。”他表示。

市场层面，“光计算的市场前景主要看算力市场需求。我们目前已经做出了一款‘可用’的产品，下一步做出‘好用’的产品。如果能做到‘好用’，那么国内算力市场规模有多大，光计算的机会就有多大。”王泷表示。

提出“等效光算力”标准：让参数更能体现实际性能

随着产品陆续落地，那如何衡量其性能指标呢？在电子芯片领域，业界通常讲某款 AI 芯片算力有多少 TOPS，但即便 TOPS 相同，在不同精度下、不同架构下也是完全不同的，而在光子芯片领域，这个问题变得更加混乱，甚至连 TOPS 的定义都完全不同。

“出于这个原因，我们从实际应用的角度思考，如何找到一个比单纯峰值算力更能够体现芯片实际性能的参数来供大家参考？”孟怀宇说道，“于是，我们提出了‘等效光算力’的概念，其中包含三个参数，一个是峰值算力，然后加入了两个修正值，输出精度和权重刷新。”

具体来说，一方面，虽然在 8bit，4bit 和 1bit 输出精度下都能拥有同样的 TOPS，显然不同精度下的实用价值是不一样的，毕竟更高的精度付出了更大的代价；另一方面，从本质上来讲，可编程的设备才能称得上是计算机，权重刷新速度，代表能够以多快的速度刷新其每个矩阵的参数，可以描述光电混合计算卡的可编程性有多强。

“比如相机镜头也可以完成一些光信号的处理，但是它完全没有可编程性，更不可能跑 ResNet50，所以不能称之为光子计算机。”他举例说。

“曦智科技成立之初，我们的目标就是把光计算变成一种能够付诸实际应用的可以大规模量产的产品。”沈亦晨补充道，“片面地去夸大峰值算力，很多时候并不能代表真实性能。所以，我们除了峰值算力以外，融入了精度和可编程性两个参数指标，希望这种综合算力评价方法能更加全面、真实、客观地展示光计算芯片实际价值，同时也能让业界全面了解光计算的优势和局限。”

“其实，如果单纯为了冲高峰值算力，完全可以用最低的精度和最不可编程的硬件实现超高的峰值算力，但这样做牺牲的是应用性和落地性；相反的，想要提高应用性，增加精度的代价也是指数级的。”他补充说。

“光计算和电计算两种计算范式存在本质不同：精度越高，对于光计算而言其难度是呈指数级上升，对于电计算而言其难度只是呈线性上升。当然，我们也希望整个算法会越来越往低精度发展，因为当算法的精度需求越低的时候，光计算的优势就愈发明显。”他解释说。