IT之家 2024年07月27日
CPU、GPU 的互连从 1 米飙至 100 米,英特尔:你相信光吗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英特尔发布了业界首款全集成 OCI(光学计算互连)芯片,利用光学 I / O 取代电气 I / O 进行数据传输,解决 AI 大模型算力难题。OCI 芯片可在最长 100 米的光纤上单向支持 64 个 32Gbps 通道,传输距离远、量大、功耗低,更适合 AI 大模型的“体质”。

🚀 英特尔 OCI 芯片采用硅光子技术,将光学 I / O 引入数据传输,解决传统电气 I / O 传输距离短、功耗高的难题。OCI 芯片可在最长 100 米的光纤上单向支持 64 个 32Gbps 通道,传输速度快、容量大、功耗低,更适合 AI 大模型的算力需求。 OCI 芯片利用光纤进行数据传输,有效地解决了传统电气 I / O 传输距离短的限制。在 AI 大模型时代,算力需求不断攀升,数据传输成为瓶颈,而 OCI 芯片的出现,为解决这一问题提供了新的解决方案。

💡 OCI 芯片采用光电共封装技术,将硅光子集成电路(PIC)和电子集成电路(EIC)封装在一起,实现了计算和通信的紧密结合。通过光学 I / O,数据中心 CPU 的电气 I / O 信号被转换为光信号,通过光纤进行传输,从而提高了数据传输速度和效率。 OCI 芯片的优势在于其高带宽、低功耗和高稳定性。它能够在 8 对光纤上实现 4Tbps 的双向数据传输速度,功耗仅为每比特 5 皮焦耳,比可插拔光收发器模块的功耗降低了 3 倍。

📈 英特尔 OCI 芯片的性能演进路线图显示,其未来可以达到 32Tbps 的传输速度,通过提升光纤波段数量、每个波段的光数据传输率以及光纤对数来实现。OCI 芯片的应用场景包括通信、计算芯片封装等,未来将与 CPU、GPU 等芯片集成,形成计算加互连的芯片种类,拥有广阔的应用前景。 英特尔 OCI 芯片的出现,标志着数据中心互连技术的重大突破,将为 AI 大模型的快速发展提供强有力的算力支持。未来,随着 OCI 芯片技术的不断发展,其应用范围将进一步扩大,为更多领域带来革新。

💡 英特尔 OCI 芯片采用硅光子技术,集成了片上激光器、硅光子集成电路、光放大器和电子集成电路,实现了光学 I / O 的高效集成。 英特尔 OCI 芯片的优势在于其高带宽、低功耗、高稳定性和高集成度。它能够在 8 对光纤上实现 4Tbps 的双向数据传输速度,功耗仅为每比特 5 皮焦耳,比可插拔光收发器模块的功耗降低了 3 倍。同时,OCI 芯片采用片上激光器,实现了高集成度,并保证了极高的稳定性。

🚀 英特尔 OCI 芯片的应用场景非常广泛,包括通信、计算芯片封装等。未来,它将与 CPU、GPU 等芯片集成,形成计算加互连的芯片种类,为 AI 大模型、高性能计算、云计算等领域提供更强大的算力支持。 英特尔 OCI 芯片的出现,标志着数据中心互连技术的重大突破,将推动数据中心向更高性能、更低功耗、更小体积的方向发展。未来,随着 OCI 芯片技术的不断发展,其应用范围将进一步扩大,为更多领域带来革新。

英特尔用“光”,突破了大模型时代棘手的算力难题 —— 推出业界首款全集成 OCI(光学计算互连)芯片。

图源:英特尔

要知道,在 AI 大模型遵循 Scaling Law 发展的当下,为了取得更好的效果,要么模型规模、要么数据规模,都在往更大的趋势发展。

这就会导致 AI 大模型在算力层面上,对整个计算、存储,包括中间 I / O 通信等提出更高的要求。

而英特尔此次的突破口,正是 I / O 通信

在 CPU 和 GPU 中,用光学 I / O 取代电气 I / O 进行数据传输。

有什么用?

一言蔽之,数据传输距离远多了量大了功耗低了 —— 更适合 AI 大模型的“体质”了。

图源:英特尔

那么英特尔为什么要用到“光”?具体又是如何实现的?

用上了“光”,从马车变卡车

传统采用电气 I / O 的方式(铜线连接)固然有它的优势,例如支持高带宽密度和低功耗,但致命的问题就是传输距离比较短(不到 1 米)

这要放在一个机架里倒也是没有问题,但 AI 大模型在算力上往往标配都是服务器集群这个量级。

不仅占地面积大,还跨 N 多个机架,线都是需要几十米甚至上百米的长度,功耗那是相当的高;它会吃掉所有供给机架的电源,以至于没有足够的电去做计算和存储芯片的读写操作。

除此之外,存算比方面,也正是因为大模型“大”的特点,由原来读取一次做上百次计算的比例,到现在直接变成了接近 1:1。

图源:英特尔

这就需要一种新的办法,可以在提高算力和存储密度的同时降低功耗、缩小体积,从而在一个有限的空间里,放进更多的计算和存储。

而用上了光学 I / O,问题便迎刃而解了:

可在最长 100 米的光纤上,单向支持 64 个 32Gbps 通道。

一个形象的比喻就是,就好比从使用马车(容量和距离有限)到使用小汽车和卡车来配送货物(数量更大、距离更远)。

不仅如此,即使是在相对较近的距离去完成一些更高密度、更灵活的数据传输工作,OCI 这种方式则可以类比成摩托车,速度更快且更灵活。

值得一提的是,这种 OCI 的方法不是停留在理论的那种。

据英特尔介绍,他们已经利用了实际验证的硅光子技术,集成了包含片上激光器的硅光子集成电路(PIC)、光放大器和电子集成电路。

并且在此前也展示了与自家 CPU 封装在一起的 OCI 芯粒,还能与下一代 CPU、GPU、IPU 等 SOC(系统级芯片)集成。

还没完,英特尔也已经出货了超过 800 万个硅光子集成电路,其中超过 3200 万个现已投入使用的激光器。

图源:英特尔

那么接下来的一个问题是:

英特尔的 OCI 是如何“炼”成的?

英特尔研究院副总裁、英特尔中国研究院院长宋继强的交流过程中,他对这个问题做了深入的剖析和解读。

英特尔研究院副总裁、英特尔中国研究院院长,宋继强

硅光子技术集合了 20 世纪两项最重要的发明:硅集成电路和半导体激光。

与传统电子产品相比,它支持在较远的距离内更快的数据传输速度,同时利用英特尔高容量硅产品制造的效率。

英特尔这一次发布的硅光集成技术,OCI 芯粒达到了光电共封装的层面。

这个光电共封装是把一个硅光子集成电路(PIC),和一个电子集成电路(EIC),放在一个基板上组成了一个 OCI 芯粒,作为一个集成性连接的部件。

这就意味着 xPU,包括 CPU,未来的 GPU 都可以和 OCI 芯片封装在一起。

OCI 芯粒就是把数据中心 CPU 出来的所有的电气 I / O 信号转成了光,通过光纤,在两个数据中心的节点或者是系统里面去互相传输。

目前的双向数据传输速度达到了 4Tbps,它在上层的传输协议兼容到 PCIe 5.0,单向支持 64 个 32Gbps 通道,这在目前的数据中心当中是足够用的:

它采用 8 对光纤,功耗仅为每比特 5 皮焦耳(pJ),即 10-12 焦耳,这个数据比可插拔光收发器模块的功耗降了 3 倍(后者是每比特 15 皮焦耳)。

图源:英特尔

在一个光传输的通道里,它实际上有 8 个不同的波段,每个波段的频率间隔是 200GHz,一共占用了 1.6THz 光谱的间距用来传输。

光从可见光到不可见光,实际上它的频谱宽度是很宽的,从 THz 开始就算是接近光通讯了。

那么 OCI 芯粒未来会用在哪些领域呢?

对此,宋继强表示:

一个是可以用它来实现通信,还可以把它跟 CPU、GPU 这些计算芯片封装在一起,计算加通信非常紧密地封装在一起。

我们通过硅光集成和先进封装技术,先进封装英特尔也有非常多不同的技术,就可以实现更高密度的 I / O 芯粒,然后再和其它的 xPU 结合,未来基于芯粒,形成很多不同种类的计算加互连的芯片种类,会有非常好的应用前景。

就 OCI I / O 接口芯粒的性能演进路线图来看,它目前可以达到 32Tbps 传输速度的技术方案,主要靠迭代式的稳步提升三个方面的指标,分别是:

一根光纤里有 8 段稳定的波段

每一个波段的光数据传输率为 32Gbps

可同时拉 8 对光纤且互不影响

这三个指标乘起来,就是目前单向上有 2Tbps 的数据传输速度,双向即是 4Tbps。未来可以继续向上演进,逐步提升带宽能力。

图源:英特尔

最后,英特尔在硅光集成技术的差异化方面,宋继强也做出了解释:

主要是我们把高频率的激光发射器做在了晶圆上,又把硅的光放大器也集成上去,这是两个比较核心的技术,都是在晶圆级去制造出来的。

接下来,我们可以量产这样的高集成度激光器,因为这种在片上的激光器的好处是用普通的光纤就可以去传输了。

并且在稳定性方面,几乎是 100 亿小时才有可能发生一次错误

那么你觉得英特尔 pick 的“光”如何呢?欢迎在评论区留言讨论。

参考链接:

本文来自微信公众号:量子位(ID:QbitAI),作者:金磊

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

英特尔 OCI 光学计算互连 硅光子技术 AI 大模型 算力 数据传输
相关文章