开源了10个?
一觉醒来,世界又变了。百度竟一口气开源了10个大模型。
看到这个消息,我脑海里瞬间充满了问号和一丝不敢相信。这还是我印象中的百度吗?
今年初百度预告了开源计划,但当时我猜想,或许只是象征性地在GitHub上创建一个空仓库,放个 README.md 文件罢了。然而,一个季度过去,百度这次没有“画饼”,而是真的端出了覆盖从0.3B到424B参数的10款模型“全家桶”。看来,这次的野心很大嘛。
从坚守闭源到毅然开源,这180度的战略大转弯背后必有深意。原因我稍后再探讨,当务之急,是先弄清楚这10款模型究竟实力如何,到底能不能打。
双线出击:从技术标杆到边缘应用
根据官方资料,这次开源的模型覆盖“文本”与“多模态”两大领域,展现了清晰的战略布局:
- 大型模型向上:用于树立行业技术丰碑,直接挑战全球顶尖水平。小型模型向下:精准瞄准成本与功耗极其敏感的边缘计算和移动设备市场。想象一下,智能家居等设备即便在离线状态下,也能识别简单指令,这正是小模型大展拳脚的舞台——在硬件性能和内存受限的场景中,它们是无可替代的解决方案。
Reddit上的技术爱好者已经将这10个模型整理成表,我直接搬运过来,方便大家在选型时参考。
Model Name | Base Parameters | Active Parameters | Model Type | Modality | Training Type |
---|---|---|---|---|---|
ERNIE-4.5-VL-424B-A47B-PT | 424B | 47B | MoE | Text & Vision | PT |
ERNIE-4.5-VL-424B-A47B-Base-PT | 424B | 47B | MoE | Text & Vision | Base |
ERNIE-4.5-VL-28B-A3B-PT | 28B | 3B | MoE | Text & Vision | PT |
ERNIE-4.5-VL-28B-A3B-Base-PT | 28B | 3B | MoE | Text & Vision | Base |
ERNIE-4.5-300B-A47B-PT | 300B | 47B | MoE | Text | PT |
ERNIE-4.5-300B-A47B-Base-PT | 300B | 47B | MoE | Text | Base |
ERNIE-4.5-21B-A3B-PT | 21B | 3B | MoE | Text | PT |
ERNIE-4.5-21B-A3B-Base-PT | 21B | 3B | MoE | Text | Base |
ERNIE-4.5-0.3B-PT | 0.3B | - | Dense | Text | PT |
ERNIE-4.5-0.3B-Base-PT | 0.3B | - | Dense | Text | Base |
性能如何?不服跑个分
模型矩阵如此全面,性能表现又如何呢?
从各项基准测试结果来看,文心4.5系列与市面上的同级别模型可谓是“神仙打架”,互有胜负。在基础能力、事实准确性、指令遵循以及推理编程等方面,其表现甚至超越了DeepSeek-V3、Qwen2等强劲对手。更令人意外的是,在视觉常识、多模态推理等主流评测中,它竟然战胜了闭源的OpenAI o1模型,这确实有些出乎意料。
这背后的技术底气,主要来自几个方面:
- 多模态异构混合专家(MoE)结构:这是本次发布最核心的技术亮点。百度创新的MoE架构,专为从语言大模型(LLM)向多模态模型的平滑过渡而设计。它能在不牺牲甚至提升纯文本能力的前提下,大幅增强对图像等多模态信息的理解力。这种原生的多模态设计,避免了传统“胶水拼接”方案的弊端,向着对复杂世界更统一的认知迈出了关键一步。先进的训练与后训练技术:文心4.5系列融合了“时空表征压缩”、“以知识为中心的训练数据构建”和“自反馈增强后训练”等一系列前沿技术。这些技术共同提升了模型的智能、上下文理解力(甚至能看懂网络迷因和讽刺漫画),并有效抑制了“幻觉”,让模型输出更可靠。
开源协议方面,文心4.5系列权重遵循 Apache 2.0 协议,对学术研究和商业应用都非常友好。
在飞桨后台可以直接体验这几款模型(无需繁琐部署)👉 aistudio.baidu.com/playground
🔗 说了那么久开源开源,在哪能拿到这些模型啊?
- 一个是飞桨(官方渠道):aistudio.baidu.com/modelsoverv…另一个是“抱抱脸”:huggingface.co/baidu
值得注意的是,百度这次打出了一套组合拳——“双层开源”,即同时开源模型层(文心ERNIE 4.5)和支撑其高效运行的框架层(飞桨PaddlePaddle 3.0)。
开源的意义:AI巨头的阳谋?
开源与闭源之争,是技术圈永恒的话题,在AI领域尤为激烈。
放眼全球,OpenAI是闭源模式的旗手。自AI纪元开启,它就牢牢占据着舞台中央。在模型性能的“军备竞赛”的上一阶段,国内外众多公司几乎都是沿着OpenAI开辟的道路前行,闭源确实被验证为一种可行的商业模式。
然而,当模型能力发展到一定瓶颈,市场格局悄然改变,上一版本的“通关秘籍”就不一定奏效了。
一个典型的例子是Meta。其Llama模型的开源,背后有着深刻的商业考量。随着苹果收紧用户隐私政策,Facebook赖以生存的个性化广告业务受到了巨大冲击——无法精准获取用户数据,导致广告投放效果下滑,客户不满,收入降低,股价承压。内忧外患之下,扎克伯格必须寻找新的出路。此时,AI浪潮席卷而来,Meta利用自身数据训练模型去分析用户行为习惯,以提升广告精准度。当模型训练成熟后,将其开源便是一步妙棋:不仅引爆了全球开发者的热情,炒高了技术声望,更重要的是,向市场和投资者传递了公司掌握前沿技术的强烈信号,成功稳住了阵脚。
在闭源的赛道上,OpenAI已然是一座难以逾越的高山。正面硬撼,胜算渺茫。而开源,恰恰提供了一条差异化竞争的道路,能蹭舆论热点,能开辟生态圈,同时还能站在道德制高点指手画脚。
百度开源,底气何在?
理解了上述逻辑,再回看百度从“闭源商业论”到如今的开源4.5系列的10款大模型,其动机就清晰多了。
纵观百度的发展历程,从PC时代的绝对霸主到移动互联网时代的追赶者,它一直在寻找通往下一个时代的“船票”。作为曾经“BAT”的头头,家底依然雄厚。百度很早就布局了AI,投入巨大。我还记得,大概20年左右注册飞桨账号,就为了每天签到“薅”一点免费算力。在OpenAI引爆全球后,百度也是国内最先应战的选手之一,“文心一言”和“文心一格”发布之初我就去排队申请了,回家等了一个月终于叫我号了。尽管当时产品的能力与顶级选手尚有差距,但百度的行动速度无疑是国内第一梯队。
正当我以为百度将重拾荣光时,阿里、字节、腾讯等巨头携重金和流量猛然发力,迅速在声量上盖过了百度。此时的百度,在生成式AI应用上稳步推进,却不温不火;在寄予厚望的无人驾驶(萝卜快跑)项目上,又因事故登上新闻(时也,命也!)。
剧情发展至此,百度为何选择开源这张牌?答案几乎不言而喻:构建一个无法被绕过的应用生态。
百度的开源策略,是一场精心设计的“阳谋”,其核心是将价值锚点从模型本身转移到平台与生态之上。
第一层护城河:飞桨(PaddlePaddle)框架显然,百度的目标是将飞桨打造成“中国的CUDA”。在AI技术栈中,深度学习框架是最底层、用户粘性最强的部分。一旦开发者和企业大规模采用飞桨,高昂的迁移成本将形成一道坚固的壁垒。控制了框架,就等于掌握了AI开发的“操作系统”,这是最深厚、最持久的护城河。
第二层护城河:千帆(Qianfan)云平台通过将模型本身免费化、商品化,百度意图将商业重心彻底转移到其“千帆MaaS(模型即服务)平台”。未来的核心利润不再是售卖模型API调用次数,而是提供可扩展、高可靠、深度优化的模型托管、推理及周边工具链服务。开源模型是高效的获客手段,而云平台服务才是真正的利润引擎。
最终目标:培育生态飞轮此举的最终胜利,取决于能否在“百度技术栈”之上,培育出一个庞大、繁荣、充满活力的第三方应用生态。一旦形成,强大的网络效应将启动一个正向循环的“飞轮”:
- 更多AI原生应用 → 吸引更多终端用户更多用户 → 产生更多高质量数据更多数据 → 反哺文心模型和飞桨框架的迭代优化更强的模型与框架 → 吸引新一轮的开发者加入
这个飞轮一旦高速转动起来,竞争对手再想用同样的模式追赶,将难如登天。
当然,以上皆为我个人基于公开信息的瞎猜,欢迎有不同看法的工友在评论区交流。
最后,抛开大厂之间的商业博弈不谈,作为开发者和普通用户,我是乐于看到一个有实力、有诚意的大厂拥抱开源。这无疑会极大地推动技术创新,降低整个社会的AI应用门槛。单凭这一点,就值得一个大大的赞!