雪球网今日 2024年08月02日
【为什么TPU是更适合AI的下一代架构】1、TPU的技术优势TPU作为学术界唯一公认优于GPU的架构,已经在北美市场引起了特斯拉、谷歌等大玩家的关注,并开始布局下一...
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

TPU作为更适合AI的下一代架构,具有技术优势、市场应用及发展前景。其在计算性能、成本、架构设计等方面表现出色,在大模型训练等领域发挥重要作用。

🎯TPU的技术优势显著,作为学术界公认优于GPU的架构,其针对深度学习进行优化,张量计算方式使性能大幅提升,且租赁价格低于GPU,架构设计使其在大规模计算集群中具独特优势。

💼TPU的市场应用广泛,谷歌的TPU已大规模量产并占据一定市场份额,在内部应用中表现出色,且开始提供大规模集群服务。中航信作为国内TPU龙头企业,也推动了TPU在国内的应用。

🌟TPU的未来发展前景广阔,尽管设计和生产周期长,但技术领先性和市场潜力使其成为未来AI芯片的重要方向,在大模型应用中具有广阔前景,且国内正推动自主可控的TPU发展。

📈TPU与GPU的对比中,TPU专为深度学习设计,在相同条件下性能比GPU高,且架构设计使其利用率高,综合效率优于GPU。

来源:雪球App,作者: 米格星球的小星星,(https://xueqiu.com/7517920899/299607572)

【为什么TPU是更适合AI的下一代架构】

1、TPU的技术优势
TPU作为学术界唯一公认优于GPU的架构,已经在北美市场引起了特斯拉谷歌等大玩家的关注,并开始布局下一代架构。TPU的设计目标是成为AI界的x86,统领整个AI时代的指令集和工作方式。
TPU的计算单元设计针对深度学习进行了优化,特别是其张量计算方式(Tensor Core),使得它在同样的芯片面积和能耗下,比GPU有3.5倍的性能提升。TPU在云上的租赁价格也显著低于GPU,进一步降低了成本。
TPU的架构设计使其在大规模计算集群中具有独特的优势。TPU采用Vector Processor和Very Long Instruction Word (VLIW)架构,能够更好地利用芯片资源,提高计算效率。这些设计使得TPU在深度学习任务中表现出色。
2、TPU的市场应用与发展
谷歌的TPU已经从最初的原型产品发展到大规模量产,今年的生产量已经超过200万片,占据全球25%的市场份额。谷歌的TPU在内部应用中表现出色,特别是在大模型训练和推荐系统中,显示出比GPU更高的精度和效益。
TPU在大模型训练中的优势显著,特别是在大规模集群服务中,谷歌云已经开始提供大规模集群的TPU服务,吸引了包括苹果在内的大型企业使用。TPU的高性价比使其在市场上具有强大的竞争力。
中航信作为国内TPU龙头企业,已经完成了TPU芯片的流片和量产,年产量超过2万片。中航信的TPU产品已经涵盖了大模型公司和主要的四大云商,并与国内顶尖学府合作,推动大模型在教育、医疗和金融等领域的应用。
3、TPU的未来发展与挑战
TPU的设计和生产周期较长,从0到1的生产设计过程需要4到5年,规模化生产需要7到10年。尽管如此,TPU的技术领先性和市场潜力使其成为未来AI芯片的重要方向。
TPU在大模型中的应用前景广阔,特别是在实现类人类智力水平的模型方面。随着模型参数的增加,TPU能够更好地支持大规模计算,推动AI在各行业的应用和发展。
中航信在国内推动自主可控的TPU发展,旨在应对中美技术博弈的挑战。通过与国内顶尖学府和企业合作,中航信希望打造一个完整的TPU生态系统,推动AI大模型的落地和盈利。
1、TPU的崛起与前景
大家好,欢迎大家参加我们的电话会议。我是华源研究的戴明宇。大家也看到了,昨天苹果开始系统性地使用TPU完成大模型的训练,使得A股市场首次正式认识到TPU的价值。
作为学术界目前唯一公认优于GPU的架构,TPU在北美早有反响。像特斯拉、谷歌这样的大玩家,以及一些新的创业企业,都开始布局下一代的架构。基于此,今天我们非常荣幸能够在二级市场对TPU认知的关键时刻,邀请到国内TPU龙头企业中航信的创始人杨梦一凡杨总,为大家做一个关于TPU的深度解读。杨总不仅经历了大模型在训练初期对GPU的应用,而且完整参与了谷歌TPU从第二代到第四代的核心团队的研发、设计及应用。接下来,我把时间交给杨总。
好的,谢谢戴总。各位线上的朋友,我先根据大家关心的问题,做一些简单的介绍。这次交流主要是介绍TPU到底是什么,以及为什么我们认为TPU会成为未来大模型,甚至AI产业的主要应用芯片。我们希望TPU在AI界能像x86在CPU时代那样统领整个指令集。我们认为TPU的指令和工作方式将成为未来AI的黄金架构。
首先,请允许我做一个个人介绍。我是杨梦一凡,中航信的创始人兼CEO。我在2005年考入上海交通大学,2006年交流到韩国汉阳大学。在交换期间,我们研发了SK Telecom的高性能4G网络芯片。在这个过程中,我发现当时中国和海外在芯片设计上有一定差距。于是2007年我转学到密歇根大学,专攻计算机芯片设计和架构研发,并发表了一些顶级论文。之后,我在斯坦福大学跟随美国工程院士自豪·沈里昌研究高性能CPU的研发及计算机架构的迭代。
2011年,甲骨文并购了一家关系型数据库公司,我和一些斯坦福的师兄和老师加入了Oracle团队,构建高性能CPU。到2017年,硅谷普遍认为未来20年是AI的时代。虽然大公司还未完全显露头角,但我们认为AI和计算体系的发展将使AI逐步替代生产力,成为核心生产力。因此,我们的高性能CPU团队转向AI芯片研发,并有幸加入谷歌,成为谷歌TPU核心团队之一,完成了TPU第二代到第四代的设计。在这个过程中,我们发现只要有足够的算力,模型架构就能展现出人类的智力水平。尤其是在TPU第二代和第三代的落地过程中,TPU的张量计算方式(Tensor Core,TC)为后来的Attention OOD论文奠定了基础,也就是现在大家熟知的Transformer。
这篇论文的核心创新点是将神经网络中的卷积计算替代为矩阵计算,从而优化计算方式,催生了后来的Transformer、BERT、Switch Transformer和GPT等模型。我们看到人工智能的发展趋势,因此决定创业,研发国产可控的GPU。经过7到8年的发展,TPU已经从原型产品逐步变成谷歌的战略产品,并实现量产。今年谷歌的TPU产量已超过200万片,预计到年底,谷歌将占据全球超过25%的市场份额。这也是为什么去年年底推出了GPU port这个词。根据谷歌的生产量推算,谷歌的算力相当于苹果、亚马逊微软等巨头公司的总和。
最初,TPU主要用于谷歌内部计算,因为卖硬件的实际价值有限。通过将TPU部署成系统,完成大模型训练或推荐系统的训练,TPU展现出比GPU更高的性能和更低的能耗,从而产生更高的精度和效益。因此,TPU在谷歌内部得以立项。随着大模型的爆发,谷歌的生态系统也在改变,开始向外提供咨询服务。以前在谷歌云上只能使用4K到16K的GPU进行demo测试,不适合大模型训练和推理。随着大模型的出现,谷歌开始在云上为大型企业提供大规模集群服务。
杨总,不好意思,我打断一下,声音有点模糊。您能稍微调试一下吗?
好的,我试一下。
现在好一点吗?
您可能需要语速稍微慢一点,声音大一点,这样会好很多。
好的,现在好很多。
2、TPU与GPU在AI计算中的优势对比
好的,那我语速慢一点,然后声音再放大一点。刚才提到,苹果昨天晚上发布了一篇论文和一个模型,使用谷歌的TPU v4训练集群完成了模型的训练,并用TPU v5逐步完成了模型的部署。关于TPU和GPU的区别,后面会具体说明。从大的方向上来说,TPU是专为深度学习设计的,其基本算子(matmul)被广泛应用于当前的大模型中。因此,在相同的芯片制造工艺、面积和能耗下,TPU的性能比GPU高出3.5倍。如果在集群上进行部署,TPU能够带来更低廉的成本。比如在云上租赁TPU的价格,在同等性能下,仅为H100或A100的二分之一到四分之一。这就是为什么TPU逐渐崭露头角,成为未来AI芯片的主流。
我们接下来讨论一下,为什么TPU和DPU在当前浪潮中具有价值,以及TPU和GPU在这个浪潮中的不同之处。随着模型逐渐变大,计算需求发生变化,整个计算领域迎来了最大的变革和创新。无论是英伟达还是其他公司,都在公开场合提到过类似的判断。大模型和大规模计算的出现,打破了以往在单块芯片上完成所有计算的模式。过去的计算模式中,多个任务可以在并行计算机上完成,但大模型需要在成千上万块芯片上进行计算,这带来了新的计算架构需求,给了新的芯片架构和创业公司机会,这也是GPU的价值所在。
回到本质,我们来看TPU与GPU的不同之处,以及TPU在大规模计算集群中的独特优势。首先,TPU的计算单元设计不同于GPU。GPU原本是为图形显示和计算设计的,主要用于3D图形显示和计算。它需要在显示器上每个像素点独立计算和控制,因此GPU采用了多核架构,每块芯片上有上万甚至两万个核,可以单独控制每个像素,实现最佳计算能力。
在人工智能场景中,深度学习每一层都是一个统计学模型,通过超过10层的统计学模型和特定的非线性算子进行分离,最终完成结果推断。例如,视觉模型可以识别一个杯子,并推断杯子里有水。在计算过程中,统计学模型可以用数学表达式来完成。因此,TPU设计的芯片可以更好地完成特定数学表达式的计算,比高并发性的GPU有更优的结果。
再来看GPU在人工智能学习中的问题。以A100和B100为例,每块芯片上有超过1万个核,可以看作是一个通用型工厂,工人可以生产各种产品。当任务分配给这1万个工人时,需要将任务分解成很多步骤,让他们在这些步骤上进行优化和生产。
3、TPU架构优化与效率提升
你会发现一个问题,因为每个工人都不专业,但他们每个工人都有一个工作种类。所以你要合理地分配这些工人到每个阶段的工作上,是件非常复杂的事情。而且我可以定制化一个工作,对吧?但是如果我的工厂需要支持不同种类的工作,你就会发现我不能定制化一款产品了。我就得把调度算法写得足够复杂,确保所有的产品都能支持。
这是什么呢?这就是扩展性,这也是英伟达在其GPU产品上的最大壁垒。英伟达用了20年的时间构建了一个完整的生态系统,这个生态系统让它在行业领域中独树一帜。
但是我们还是回到刚才的问题,因为它的通用性实在太强了。虽然英伟达优化了20年,但优化实在是太难了,所以最后的结果是什么?虽然深度学习的算法可以引入,但在大部分算法上,整个芯片的半导体利用率其实只有10%到20%,非常低。所以我们只需要设计一个芯片,使其半导体利用率超过这个指标,就能明显看到性能提升。如果芯片的利用率不是10%到20%,而是50%到60%,那么你就能看到三倍以上的性能提升。这就是为什么除了刚才提到的计算特点,TPU还有不同的架构来完成优化。
了解这些特点后,我们开始设计TPU。最简单的思路是,既然知道要支持的应用场景有限,我的生产不是生产飞机大炮和杯子,而可能只生产一个碗,虽然这个碗可能很复杂,有很多花纹和雕刻的步骤。所以我可以训练出1000个工人,这些工人的每个技术特点都非常明显,可以统一安排在生产线上完成任何碗的雕花步骤。只要给我一个碗或类似碗的产品,我就能很容易地分配好这1000个人去完成生产。
这就是TPU核心设计的逻辑。我不需要那么多人和资源,而是把每个人的利用率都发挥到最好。那么它的直接体现是什么?直接体现是如果单看CPU的算力指标,它其实不如GPU。无论是GPU1、GPU2、GPU3,还是后面的GPU4和GPU5,对标每一层级的CPU,单看算力指标,CPU都比GPU低。但因为TPU的利用率高,所以跑出来的模型性能比GPU高,生产成本比GPU低,综合效率也比GPU好。这就是TPU的核心价值所在。
4、TPU架构设计与优化
在这样的背景下,我们开始探讨TPU的设计逻辑。TPU作为一个统计学模型,可以表达成数学表达式。因此,芯片的指令应当能够完成所有数学表达式的运算。在实际硬件实现中,需要特定的硬件单元来处理非线性方程,例如sigmoid或tanh函数。
在CPU上,完成这些运算只需一行程序即可实现,例如512次的tanh计算。而在TPU上,为了保证精度,可能需要进行20到30次计算才能完成一个tanh运算。这导致TPU的硬件效率比CPU低很多。
在硬件实现方面,TPU降低了通用核的数量和控制逻辑的复杂性,可能一个芯片只控制128个或更少的单元。每个单元可以实现很多功能,并行化程度很高。这种架构被称为向量处理器(Vector Processor),通过顺序时间的方式降低内存带宽需求。例如,一个指令可以在第一个周期到第1024个周期内,每个周期都从内存获取数据,从而大幅提升内存带宽利用率。
向量处理器在减少控制逻辑数量的情况下,可以部署更多的计算资源,充分利用芯片资源。因此,向量处理器非常适合深度学习的架构。
然而,向量处理器的信息化程度不高,因此业界采用了另一种架构,称为超长指令字(Very Long Instruction Word, VLIW)。一个指令可以执行多达五到十个操作,例如数据存储、数据读取、数据判断、乘法加法以及远端通信等。这种架构可以更好地完成深度学习的计算和流水线安排,提高芯片资源的利用率。
在CPU上无法实现这种大规模并行化,因为CPU的工作大部分是前后依赖的。而深度学习通过算法优化,可以减少前后依赖,实现大规模并行化,从而大幅提高芯片利用率。
两个芯片利用率的提高可以实现大模型的算法。GPU在相同的生产工艺和制程下,性能可以提升3到5倍。优化架构后,还需要进行SOC(系统级芯片)的优化,包括芯片设计和集群连接方式。
当前的GPU连接方式在国内和国外有所不同。国内的GPU连接方式主要在一个节点内,通过NVLink实现八块芯片的互联。八块芯片之间是均匀网络,但跨节点通信需要通过PCIe接口,带宽较低,只有NVLink带宽的八分之一甚至更低。这对软件优化提出了很高的挑战。
美国的英伟达系统,如DGX和HGX,可以通过NVLink连接更多的芯片,例如当前的GP200可以连接576块芯片。NVLink每个链接有18条通路,这与其设计逻辑有关,是为了与IBM的CPU适配。
英伟达收购Mellanox和ARM的原因之一是为了实现CPU与GPU的直接互联,不再依赖PCIe,从而提升系统整体性能。TPU也可以通过特定的芯片互联方式实现类似功能。
TPU的芯片网络互联方式独特,例如在TPU v4及以前的版本中,一个TPU可以与四个其他TPU相连,形成二维环状结构。这样可以构成一个32x32的矩阵,总共1024块芯片,每个芯片与相邻的四个芯片相连,边缘芯片通过长线与对角线上的芯片相连,形成完整的二维环状网络。
5、AI深度学习的架构革新
构成二维环以后,大家可以在脑子里模拟一下这个场景。会发现一个很有意思的点,每一块芯片在这个网络里的任何一块TPU都是对称的,百分之百在逻辑上是对称的。因此,这样就会大幅度优化软件栈的实施难度。因为所有的芯片都是对称的,所以在这个网络里所有的芯片都是统一的。无论是数据并行还是模型并行,你都可以随意搭建它的网络拓扑。而且它使用二维环的方式,没有走线的方式后,你就不需要避开数据流。
为什么会有这个原因?我们回到网络架构的核心原理。以前我们有交换机和路由器,交换机下面可以接一大堆设备,因为它的逻辑是总线上的设备。逻辑是我不可能同时使用这个总线,我的程序在不同的时间周期使用总线,因此总线的平均利用率是比较高的。但如果所有芯片在同一时间使用总线,那么效率就非常低。
在AI应用中,会发现一个巨大的问题。如果你使用数据并行化,你会发现所有模型在同一时间开始训练,所有芯片在同一时间开始训练并在同一时间结束,并在同一时间需要进行数据交换。因此,总线方式在这种应用场景中是非常差的方式。
GPU因为其原有设计是为图像处理,不考虑所有带宽并发的情况。所以它只能不停增加NVLink的带宽来保证通信效率。而我们的做法是改变整个网络架构来增加通信效率。因为每块芯片可以和旁边的四块芯片相连,每次传输时,比如参数训练好了,我要告诉旁边的芯片,就直接和四块芯片同时通信。然后每块芯片又可以和另外相连的三块芯片通信,这样网络放大效应非常快,比总线方式更快地完成所有参数的更新。所以它的网络效率更适用于深度学习的场景。
这是另一个TPU的创新。到TPU4和TPU5以后,大家认为大模型的时代到来了。以前的互联集群价值不太高了,我们可能需要的是万卡甚至十万卡的互联。如果还是二维环的话,节点数太多,所以构建了三维环,甚至四维环。三维环后,每块芯片与相邻的六块芯片相连,构成一个完美的立方体结构。比如16x16x16的方式,可以实现超过4000片芯片的互联,这是TPU的另一个创新点。你可以在TPU4的论文中看到,它的网络构建是通过CD tros方式构建的。
当然,由于芯片数目太多,计算中心的芯片虽然规格很高,但会坏。芯片在使用过多或过热时会坏,生产和检验过程中也不能保证完全良品,所以使用过程中会出现局部芯片死机,导致整个网络瘫痪。重启整个网络可能需要半小时到一小时。
为了解决这个问题,每一个连接通路上都有一个可重配置的光学开关,这样整个通路是可调整的。如果出现一块或几块芯片不能工作,它也能快速绕开,进行重启重置,然后再连回网络。这样整个模型的训练效率和系统利用率都会大幅提升。
这些是TPU在SOA上的一些设计优势。再加上HBM的高带宽内存和片内大规模内存,分散在整个计算单元上,形成一个紧密计算的方式。这些小创新点加在一起,形成了TPU3到5倍的性能提升。这是TPU特有的,再往下是物理制程的迭代。TPU和GPU都会实现这些。
不仅是生产制程的迭代,比如12nm到7nm,同时还有先进的封装方式,比如2.5D封装和现在用的CD Cambridge。比如GB200,它有个CD Cambridge,把两块B100用TC分布式高速互联方式连在一起,TPU同样可以做类似的解决方案。TPUV6也有同样的解决方案,可以通过硅桥把两块芯片连在一起。这些部分能够带来50%、60%、70%的性能增长,而架构带来的性能增量往往是5到10倍。因此,美国有很多类TPU的创业公司,包括Graphcore、OpenAI等,都在开发新的TPU架构芯片。
这就是TPU发展的技术领先性和原理。它毕竟是个物理产品,这也是为什么TPU现在才出现,而不是在2019年或2020年。因为从0到1的生产设计过程需要很长时间,第一块芯片一般需要4到5年,流片后,后续芯片可以在12到18个月内迭代。生产环境需要时间,3到5年才能逐步规模化生产。一个芯片公司基本上在第七年才能规模化生产,达到1万片到10万片的量级,百万片基本上需要十年时间。经过这么长时间,才变成了稳定成熟的技术。
现在逐步成为计算芯片的一个重要组成部分,这也是为什么GPU的成熟应用让英伟达和其他GPU厂商感到恐慌。当我们有了GPU的价值和路线后,我们来看TPU能做到什么程度。我们先看到大模型的本质,大模型通过大规模计算,最终实现类人类的思考逻辑和方式。
在2019年,谷歌的Switch Transformer已经发布。Switch Transformer的智力水平不比GPT-3差多少。但为什么当时没有引起广泛关注?因为单次运行1.6万亿参数的模型,实际成本接近两百万美元。这种成本不具备任何落地可能性。
6、TPU与AI模型涌现能力
所以,为什么经过五六年计算体系的不断演进,计算速度不断提升,算法也在不断优化,使得一些量化实现变得更小?最后在GPT-3推出时,从每次调用成本两美元降到现在将近一到两美分的成本,成本降低了100倍。这才是真正的产业化落地,让大家能够体验到类人类模型的能力。
还有一个大家关心的问题,就是模型的扩展性。当模型参数超过100亿时,会出现一种叫做涌现能力的现象。这种能力是什么呢?即使模型没有见过某个场景,但它可以根据人的推断方式来推断出这个场景的结果。举个例子,国内很多学者喜欢用这个例子:假设有两栋楼,我在A楼办公,我的办公室在B楼的某一层,这两栋楼的第三层是连通的,那么我要怎么过去?如果你把这个问题问大模型,大模型会告诉你,你需要坐电梯到某层,再从那层走到另一栋楼,再坐电梯到第三层的办公室。你会发现,这个场景并不在它的训练语料中,但它已经像人一样,能够进行推理,具备了涌现能力。也就是说,即使内容不在语料中,它也可以完成推测,这代表模型逐步具备了智力。
另一个实验结果显示,当模型规模逐渐增大时,它的这种能力也逐渐增强。根据人类的神经突触和神经元数量,大约是70万亿到100万亿个突触连接,规模达到百万亿时,模型可能超越人类智力水平。我们可以根据不同参数规模的模型来界定其智力水平,比如百万亿参数可能是博士生水平,10万亿参数可能是研究生水平,1万亿参数可能是本科生水平。这样就可以逐级替代人类社会不同行业的工作种类。因此,它会对算力产生更大规模的需求。如果任何行业被AI替代,那么当前构建的所有算力中心和算力集群基础设施都不足以满足需求。这就是为什么当前全世界都在疯狂地增加算力和部署算力芯片。
我们知道了TPU的优势,这也是为什么在2018年底,我们决定创业做TPU。当时我们本来想在硅谷做,但后来觉得中美未来的政治斗争肯定会产生博弈,美国肯定会限制中国的技术发展。所以我们觉得在中国做自主可控的TPU,有其社会价值,也能推动中国大模型的发展。因此,我们在2018年底回国,开始做中国自主可控的TPU。
7、TPU的深度学习优势
到那个时候,大家并不认可我们的方向。一是因为TPU还不为人知,二是因为在大模型领域,大家认为其发展前景有限,且不认为这些模型能达到人类智力水平。因此,我们低调地努力研发我们的GPU。
无论如何,TPU需要4到5年的时间才能完成产品的初步落地、流片及基本量产。我们中航昕去年年底完成了芯片的流片,经过半年的测试,预计年底能完成芯片的量产并逐步出货。目前,我们的供应链已经非常完善,年产能超过2万片,正在进行出货和生产。我们的客户不仅包括大模型公司,还涵盖了主要的四大云服务商。同时,我们也希望打造自己的软件栈和合作伙伴生态。
我们与一些上市公司,如艾布鲁,共同打造了超过千卡级别的算力集群。这些算力集群与浙大、交大等人工智能研究院合作,致力于构建能够突破和替代人类生产力的大模型,主要应用于教育、医疗和金融领域。我们希望借助TPU的力量,通过国内顶尖学府的研究能力,不断扩大模型规模,最终达到研究生智力水平,逐步替代或辅助人类,成为行业生产力的核心。
随着大模型和整个产业的发展,我们希望打造核心的国产TPU,与美国谷歌的TPU竞争,共同推动TPU产业的发展,使其软件栈更加成熟,提高AI大模型在行业中的性价比和成本效益,最终实现大模型的落地和盈利。
总结一下,TPU芯片是专为深度学习设计的,其主要算子经过优化,特别是针对当前大模型的attention机制。因此,在相同工艺、面积和能耗下,TPU的性能比传统GPU提升3到5倍。这不仅有实际测试数据支持,谷歌也发表过相关论文,MA top上也有记录。谷歌的TPU在相同生产支撑下,能耗和成本仅为英伟达A100的一半,但性能提升了1.5到1.9倍,集群上实现了4到5倍的生产效率提升。
TPU的软件栈设计更简单,优化更精细,支持TensorFlow、PyTorch等深度学习框架。对于大模型算法开发者来说,从GPU迁移到TPU几乎无感,只需修改一两行代码即可完成迁移,这是其优势所在。
谷歌的TPU有一个问题,它主要支持谷歌自己的生态,不愿支持如Facebook等开放式生态。因此,使用谷歌TPU需要将模型迁移到TensorFlow和JAX,这对一些公司造成了障碍。但由于其高性价比,仍有苹果等公司选择谷歌TPU。
TPU在市场上的竞争力远优于GPU。例如,H100的租赁价格约为7.5万到7.51万元一个月,而同等类型的TPU部署价格可降至3万元以下一个月。通过对模型进行适配,迁移成本降低,性价比和成本构成优于传统GPU。这也是我们选择TPU而非国产GPU的原因。TPU的软件栈更容易构建,单独性能更好。
只要大模型或深度学习行业爆发,TPU技术路线就更容易实现盈亏平衡点。大模型使用的算子集仅占整体的1/30,软件栈投入也仅为整体的1/10到1/30,因此研发投入更低,更容易实现盈亏平衡点,产品性价比更高,更容易切入市场。我们坚信TPU未来必将成为AI界的核心架构。
好的,谢谢杨总。从底层逻辑到当下的性价比及架构优势,全面解读了TPU相对于GPU的优势,以及为什么我们认为TPU可能是更适合AI的下一代架构。由于芯片是一个敏感行业,今天不设置线上提问环节。如有需求,可以随时联系杨总或线下调研。我们相信以中航昕为引领的TPU架构将在中国的人工智能算力市场占据一定空间。再次感谢杨总和各位投资者的参与。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

TPU AI架构 深度学习 市场应用
相关文章