原创 一支烟一朵花 2025-02-03 13:28 安徽
大模型预训练、深度强化学习(RL)、自注意力机制(Transformer)的崛起,以及硬件算力的快速提升,已经让AI几乎渗透到各行各业,无论是推荐系统、语音助手、计算机视觉,还是自动驾驶、虚拟助手、乃至生成式模型(例如对话生成、图像生成)等应用都离不开AI的强大支持。
规模化落地的背后,AI也遭遇了难以回避的成本难题。
高昂的训练开销、庞大的数据中心投入、从人才到算法工程的持续维护成本,使得不少AI初创企业和互联网巨头都在思考——什么时候AI业务才能真正在商业上普遍盈利?
更准确地说,随着硬件和基础设施层面的成本降低,AI行业究竟需要在哪个阶段、依赖哪些核心技术与商业策略,才能摆脱烧钱、实现健康的正向盈利循环?
本文将从以下几个方面展开深入探讨:
一,结合近期的一些研究进展和行业数据(例如Deepseek R1的强化学习路线、Minimax的Lighting Attention创新、NVIDIA的H200与RTX 5090算力增长),探寻AI在硬件和算法层面降本增效的关键思路;
二,从ToC和ToB两条业务主线出发,分析AI落地的核心痛点与盈利模式;
三,通过对OpenAI与其他公司的对比,并结合多位业内专家的观点,试图揭示AI基础设施的价值创造逻辑,探讨在成本进一步下降的情况下,AI大规模盈利的现实条件与未来走向。
AI成本的多重构成与当下的行业痛点
先明确“AI的主要成本构成是什么”,以及当前行业中面临的主要痛点。
很多人习惯将AI的成本仅仅归结于硬件加速器(如GPU)或云计算资源的费用,但事实上,一个成熟、可商业化的AI业务背后往往还包括诸如数据获取与清洗、人力研发投入、推理上线服务稳定性、数据中心维护,以及软件生态建设等多个方面。更关键的是,各项成本要素之间并非简单相加,而是彼此交织、互相牵连。
1 模型训练与推理的算力消耗
- 训练成本 不少AI企业在初期阶段就被大模型训练费用所困扰。以一个数百亿参数的Transformer模型为例,大规模预训练通常需要数周到数月的GPU集群运行。在GPU单价尚未下降的时代,每天的训练支出都可能高达数十万美元甚至更多。而且,模型越大,数据规模越庞大;模型迭代频率越快,重复训练的次数也越多,这些都成倍推高了成本。推理成本 除了训练,高并发场景下的推理开销也是一笔可观的费用。面向大众的ToC应用,比如聊天机器人或语音助手,需要在短时间内响应海量请求,对计算资源和带宽的需求极为敏感。一些自然语言生成模型(Large Language Models)在推理时,对于显存、张量处理能力、内存带宽等硬件指标也有较高要求。因此,推理集群的成本不容小视。
2 数据中心建设与维护
AI业务少不了建设或租用大规模数据中心(Data Center)。无论是自建数据中心,还是选择云厂商(如AWS、Azure、Oracle Cloud、Google Cloud)的算力平台,服务器购置、供电制冷、网络带宽、运营维护、安全性保障等支出都极为庞大。
根据TechCrunch在2025年1月21日的报道,OpenAI已经与软银(SoftBank)以及Oracle展开了高达500亿美元的数据中心项目合作,将在全球多个区域部署超大规模的AI算力中心,以满足快速增长的AI训练与推理需求。如此巨额的资金投入,生动诠释了当下AI数据中心建设的“烧钱”特点。
3 数据与人才
对人工智能来说,“数据即燃料”,无论是监督学习还是自监督大模型训练,都离不开海量的高质量数据。而数据的获取往往需要支付版权费用、安全合规成本,以及数据清洗、标注、预处理等工程工作。此外,“AI人才”在业内的薪酬水准居高不下,高水平算法工程师、数据科学家、底层系统工程师的团队薪资,往往是公司人力支出的大头。难以招到并稳定留住顶尖人才,也会推高公司整体运营成本。
4 研发与生态建设
AI不是单打独斗的技术,需要包括MLOps在内的整体系统支撑。例如在线服务要考虑可扩展性、容错能力、持续集成与持续部署(CI/CD)、AB测试乃至隐私合规、风控、客服等运营组件。对于初创公司而言,每多一个系统模块就多一笔研发与维护支出,对于大型公司而言,多维度的模块耦合成本更高。 这些成本叠加在一起,就像一艘大型油轮每移动一次都要消耗大量燃料,让AI企业无论大小都倍感负担。
降本增效的关键:算法与硬件齐头并进
随着AI需求爆炸式增长,业界不断探索如何在算法和硬件两个层面实现降本增效。这里我们重点结合几项新的关键技术进展来探讨这条脉络。
1 Deepseek R1的强化学习路线
在arXiv上2025年1月发布的论文中,Deepseek研究团队提出了一种名为“R1”的深度强化学习新框架。它主张在少样本场景下,通过强化学习(RL)与微调网络(Fine-tuning)的结合,减少对大规模预训练资源的依赖。与之前需要海量标注数据的大模型路线相比,R1可以更好地适应多任务少样本场景,从而在一定程度上减少训练成本。
该方法在实验上展现了对下游任务的快速适配能力。例如在自动驾驶仿真环境中,Deepseek R1只用了过去传统方法约三分之一的数据量,就达到了同等乃至更好的决策性能。这是一个颇具象征性的案例:用更灵活、更高效的算法手段,降低对巨额算力资源的依赖,间接节省训练预算。
2 Minimax的Lighting Attention创新
另一个值得关注的创新是Minimax在其技术报告中介绍的“Lighting Attention”机制。传统的自注意力机制(Self-Attention)在计算量上呈现二次方级别的增长,当模型参数和序列长度越来越大时,显存占用和计算开销都呈指数式膨胀。为此,Minimax提出了通过稀疏化策略和部分硬件指令优化来加速注意力的计算过程。
Minimax称,该Lighting Attention机制在相同硬件条件下,能够将大模型推理的延迟降低约30%~40%,显存占用也减少25%以上;对于训练阶段,基于稀疏和剪枝的技术,最快可以达到2倍以上的加速。这意味着在同样的GPU或专用芯片资源下,模型计算效率显著提升,从而使得相同规模的模型可以用更少成本完成训练和推理。
在其公布的测试数据中(见图表1),在数十亿参数规模下,以Lighting Attention为核心改进后,Minimax的模型在推理吞吐量和单位成本上的表现超越了多家对比模型,包括OpenAI早期版本的GPT系模型,以及其他一些竞争对手的Transformer框架。
3 硬件迭代:NVIDIA H200、RTX 5090的算力飞跃
说到降低AI成本,除了算法层面的革新,硬件的持续演进是最直观、最有力的驱动。过去几年里,GPU加速卡在AI任务上性能翻倍的周期大约是每年1~1.5年,专用AI芯片(如TPU等)也在不断演进。近期,NVIDIA公布了新一代数据中心GPU——H200,该产品宣称在混合精度运算、Tensor Core优化等多个维度实现了显著的性能跃升,对比上一代H100,单卡峰值算力提高约40%,能效比也有显著提升。
此外,面向消费者或开发者市场的RTX 5090同样吸引了大量关注。尽管其主打游戏与PC创作加速,但由于其出色的FP16/FP32性能,也有不少中小型AI团队通过“消费者级显卡搭建集群”的方式,来缓解高昂的企业级GPU成本压力。更高效的硬件意味着同等预算下可以部署更多计算能力,训练时间更短,从而让AI企业更快地推出产品并收回成本。
在一项行业统计(见图表2)中,我们可以清晰地看到过去十年GPU在FP16算力方面的增长曲线,几乎保持着双指数级的爬升,也因此推动了深度神经网络规模的不断扩大。
4 软件栈与基础设施的成熟
除了硬件和算法的改进,软件栈与基础设施的完善也不可忽视。从深度学习框架(如TensorFlow、PyTorch、JAX等)的高效实现,到分布式训练调度系统(如Horovod、DeepSpeed、Ray等),再到容器化与云原生技术的广泛应用,一整套从研发到部署的工具链日趋成熟。
加上Oracle、SoftBank、AWS、Azure等云厂商推出针对AI工作负载优化的实例类型,以及专用网络互联方案(如InfiniBand、NVLink),让企业可以灵活地按需购买算力,避免一次性砸下巨额资金自建集群。
AI在基础设施层面的战场已经成为价值创造的核心,“谁能在算力、存储与网络上提供最高效且最具性价比的方案,谁就能在产业竞争中取得先机”。这种基础设施的成熟度,直接决定了企业能否以更低的成本、更快的速度进行AI迭代和落地。
ToC与ToB业务的盈利前景:困境与突破
降低AI成本只是手段,实现盈利还需要扎根具体业务场景。总体来看,AI市场的商业模式大致可分为**ToC(面向个人消费者)和ToB(面向企业与机构)**两大部分。这两者在需求特征、付费能力、技术要求上都有显著区别,也就决定了它们对盈利模式的影响。
1 ToC:海量用户与低付费转化率
面向个人消费者的AI服务常见于聊天机器人、语音助手、AI绘画/视频生成应用、个性化推荐系统等。这类场景用户规模巨大但付费转化率往往较低。大多数消费者在尝鲜后更倾向于使用免费或内置功能,只有小部分会为高级功能付费;即使付费,也常常要求较低价格。
- 数据与算力消耗大:ToC应用往往需要在短时间内响应高并发请求,其推理成本迅速累加。用户留存与体验:用户对响应速度和智能水平要求非常高,一旦体验不佳就会迅速流失。盈利模式依赖广告或高级会员:很多AI工具借鉴在线视频或音乐平台的盈利模式,提供免费版本+广告,再提供高级付费版本去广告并解锁更多功能。 在成本没有显著降低之前,ToC领域往往难以真正大规模盈利;但是,一旦算力与推理成本大幅下降,这类应用具备潜在的用户规模爆发优势,可快速拉升营收。
2 ToB:客制化难度高但单体价值可观
相较于ToC,面向企业的ToB业务更有可能带来稳定而可观的收入,因为企业往往愿意为提升效率、降低人力成本、增强竞争力而支付高额费用。然而,ToB业务也有其痛点:
- 客制化需求多:不同企业对AI的需求多种多样,数据格式、算法侧重点、系统对接方式都可能大相径庭,导致项目周期长、交付难度大。长销售周期:ToB往往需要多轮沟通、立项和验收,而且企业内部决策链条冗长,影响营收回款周期。维护与升级成本:ToB项目通常需要后续的持续维护,AI模型在客户的实际场景中需要不断迭代、排错和调优。
在硬件和基础设施成本没有显著降低的阶段,ToB业务尽管付费金额更高,也可能被庞大的定制化成本所侵蚀。只有当主流算法与硬件平台变得足够普及且价格合理,才能进一步降低项目实施难度与单位成本,从而帮助AI服务提供商更好地赚钱。
对比分析:OpenAI与其他公司在盈利策略上的差异
1 OpenAI:大模型先行者的布局
OpenAI作为大模型领域的先驱,一直以来都承担着“开荒者”的角色:
- 超大规模训练:从GPT到GPT-4,再到未来更多多模态模型,OpenAI在研发上砸下了巨额预算,也引领了大模型能力的变革。生态建设:与微软Azure的深度合作,使得OpenAI的模型服务可以无缝对接Azure云的企业级市场。商业化探索:ChatGPT在ToC上凭借庞大用户量进行“增值订阅+API调用费”的模式;同时也切入企业市场,提供专门的企业版大模型API,主打数据安全与灵活部署。
然而,高昂的模型训练与维护成本也给OpenAI带来巨大的资本和营收压力。据业内人士透露,OpenAI的资金大部分仍来自投资方与合作伙伴,如微软的多轮巨额注资,而真正来自产品和服务收费的收入在总成本中占比相对有限。
正因如此,OpenAI与软银、Oracle于2025年1月21日宣布,共同投入高达5000亿美元在全球建设AI数据中心,意在通过规模效应与集约化管理大幅降低运营成本。这一战略或可为OpenAI在未来几年提供更具弹性的算力来源,也进一步稳固其在大模型领域的领先地位。
2 Minimax、Deepseek、Google、Meta等的多样化竞争
除了OpenAI,其他厂商也在积极布局,从其策略中可以看出差异:
- Minimax:专注于算法效率优化(Lighting Attention),希望以技术创新为核心竞争力。既可以向企业和开发者提供一个更高效的基础模型,也可以与硬件厂商合作,推出专门优化过的推理集群方案。他们更倾向ToB和技术授权盈利模式。
- Deepseek:其核心技术“R1强化学习”更多针对特定行业落地(如自动驾驶、机器人),在少样本强化学习这一赛道上扎根。可能通过与硬件厂商和车企合作的方式,打造端到端的解决方案,获取项目收入。
- Google:依托自家云平台(Google Cloud)和TPU基础设施,Google Brain/DeepMind也始终在大模型(PaLM、Gemini等)和行业解决方案上保持领先。他们的盈利主要来自云服务费用、广告业务与高附加值的企业AI解决方案。研发经费雄厚,但在大模型公开服务的规模化营收上进展相对谨慎。
- Meta:更多地在社交网络与元宇宙场景下寻找AI的落地机会(如提升推荐算法、VR/AR交互等)。其AI研究(FAIR)也拥有大量开源项目,有助于社区普及与生态建设,但商业化路径同样需要投入与时间。
3 AI业务盈利的多元模式
从上述厂商的对比可以发现,AI业务的盈利并非只有一个单一模式,根据自身技术特长与资源优势,AI公司可以选择不同路径:
- 云服务+API收费:开放模型或算力接口,向开发者和企业收费。垂直行业解决方案:将AI与汽车、金融、医疗、制造等行业深度结合,收取定制化或使用费。广告与增值服务:针对ToC应用提供免费版吸引流量,通过广告和少数付费用户实现营收。专利与技术授权:对外授权核心技术或专利,收取专利费或一次性技术转让费。
在硬件、算法和基础设施成本都进一步下降后,各种模式的可行性都将增强,AI企业将更容易在多种商业模式中找到适配自身特点的盈利通路。
当AI成本进一步降低时,普遍盈利的关键触发点
既然硬件升级与算法创新正在不断降低AI成本,那么究竟什么时候AI业务才能普遍盈利? 这是一个需要多维度综合考量的命题:市场需求成熟度、成本下降幅度、技术和生态完善度都要同步发展。
1 规模化效应:从临界点到拐点
AI成本曲线在下降的过程中,并不意味着所有AI企业都会立即盈利,因为营收与成本之间往往存在一个临界点:当成本降至某个水平,企业的盈利能力才会在短时间内得到集中爆发。
- 规模效应:当硬件成本足够低、推理效率足够高,就能支持大规模用户的实时访问。此时,ToC应用如果能获得成千上万乃至上亿级别的用户规模,即便单用户付费很低,也可能累加出可观利润。边际成本递减:在ToB领域,当主流AI模型在不同行业的复用程度越来越高,定制化需求的门槛就会降低。企业可以购买“通用大模型+小规模微调”的方案,而无需从头定制,显著削减项目交付成本,从而让AI服务商拥有更高利润率。
2 从数据中心到AI基础设施的整合
未来的AI基础设施并不仅仅是简单的GPU集群,还包含高带宽网络、分布式存储、内存池化方案,以及更灵活的混合云架构。一旦这些基础设施形成了模块化、标准化的形态,企业就可以像“使用水电煤气”那样方便地获取所需的AI算力和数据处理服务。这种普及和便利性会让AI企业的运营效率大幅提升,也能显著降低他们在基础设施上的自建投入。届时,大量中小企业也能负担起AI应用的开发和部署,市场需求会进一步释放。
3 技术与商业模式的共振
在硬件和算法成本真正大幅下降的同时,也需要商业模式的成熟和用户需求的进一步提高,才能实现普遍盈利。例如,短视频平台崛起时,离不开智能推荐算法成本的下降和移动互联网流量的爆发双重助力;同理,AI大规模盈利也依赖于生态网络的形成。
- 用户与开发者社区:更多开发者掌握AI技能,意味着更多创新应用涌现,从而吸引更多用户和付费群体。行业标准与法规:如果隐私保护、模型版权等方面法规逐渐清晰,AI应用落地的门槛与风险也会随之降低,市场交易会更加活跃。数据可获得性:数据的开放与共享程度越高,训练和应用成本越能被进一步摊薄。
因此,AI业务真正“普遍盈利”的时代,应该是技术与商业模式形成正循环,算法降本同时催生出大批应用场景,每个应用带来更多收入,反过来进一步支撑算法与硬件研发的投入。
业内专家观点与未来预测
为深化对这一话题的理解,我参考了多位业内资深人士,并整理了他们的观点(部分采访与资料来源与公开媒体的报道),这里摘录几段有代表性的评论。
某AI独角兽创始人:“我们一直在等GPU价格能再降30%左右,才好大规模上线某些生成式AI功能。现在每推一个新功能,都要考虑推理成本和用户活跃度的平衡。等到NVIDIA H200和5090再普及一些,或者云平台有更优惠的价位时,ToC业务才更可能快速实现盈亏平衡。”
OpenAI高级研究人员:“我们并不单纯依赖硬件层面的降价,更重要的是全面的优化,包括数据集构建、模型剪枝、编译器优化等等。但不可否认的是,大规模数据中心的投入一旦完成,会极大程度推动成本走低,也让我们可以更灵活地去测试更多商业化可能。”
Minimax工程总监:“Lighting Attention是我们在应对推理延迟和成本上积累的一套方法论,未来还会持续优化算法效率。要真正实现行业普遍盈利,需要硬件、软件、算法、生态多方形成合力。一个技术单点突破当然很重要,但也离不开系统性协同。”
数据中心运营专家:“当AI基础设施像电网一样成为公共服务时,AI企业的商业化就会变得平易近人。关键就是规模效应,500亿美元级别的数据中心项目,或者阿里、腾讯、Google、AWS、Oracle这样的巨头布局,对整个行业都会有一个下沉效应。”
综合这些专家意见,可以得出一个基本判断:
在硬件升级、数据中心扩张、算法优化与商业生态成熟的多重驱动下,AI行业在未来2~5年内有望出现一波普遍盈利的窗口期。但要迈过这道槛,仍需要持续投入和耐心。
AI要想改变世界,首先要在商业化上取得成功
回顾近十年,AI从学术前沿走向大规模商业应用的脚步虽快,却也历经不少波折和泡沫。
规模宏大的项目、炫目的技术突破,必须通过扎实的商业模式和健康的盈利能力来支撑,才能真正影响世界、造福社会。
当AI成本进一步降低,AI业务什么时候才能普遍盈利? 从上文可以看到,这是一个技术与商业、供给与需求、基础设施与生态协同演进的过程。我们可以将其形象地比作一棵正在茁壮成长的“大树”:
- 根系是硬件与算法等底层支撑,深深扎进土壤,决定这棵树能吸收多少养分(算力)和水分(数据)。树干是AI开发与运维的流程体系,让AI能够稳定地向上生长。树枝与树叶则是多种商业模式在不同领域的绽放,不断与外界环境进行能量和信息的交换。果实则象征盈利与价值回报——只有当根基扎实、树干挺拔,树叶繁茂之时,果实才会真正丰硕而且可持续。
从现实来看,OpenAI、Minimax、Deepseek等企业就像这些大树的不同分支与树干,尝试以各自的优势和方向去吸收资源、开枝散叶。虽然眼下仍然需要巨额投入和大量磨合,但随着硬件成本不断走低、模型算法持续优化、数据中心规模化建设初见成效,整个AI产业正一步步逼近商业化收获的“临界点”。
最终,AI想要真正改变世界,首要前提是能获得稳定、健康的商业回报,这样才能推动更大规模的研发投入与更深入的行业落地。或许在不远的将来,我们会看到一大批“AI独角兽”蜕变为拥有成熟利润模式的科技巨头,也会看到新一轮的AI浪潮在各行各业全面开花。就如同十年前移动互联网的普及,带来了社交、直播、电商等领域的巨变,AI的降本与盈利突破,也终将为人类生产生活方式开启一个全新的时代。
关注我,持续提供专业有价值的AI内容和洞见。
我们下篇文章见。
参考
- [1] Deepseek R1强化学习论文, arXiv:2501.12948, 2025年[2] Minimax, Lighting Attention技术报告(2025),在线PDF[3] TechCrunch: OpenAI teams up with SoftBank and Oracle on $50B data center project, 2025年1月21日[4] NVIDIA H200产品介绍: https://www.nvidia.com/en-us/data-center/h200/[5] NVIDIA RTX 5090显卡信息: https://www.nvidia.com/en-us/geforce/graphics-cards/50-series/rtx-5090/[6] 机器之心: OpenAI与其他厂商对比分析[7] Data Center Dynamics: AI Infrastructure - the value creation battleground