原创 冰拿铁 2025-03-18 11:41 北京
“AI水电煤”时代加速来临!
作者|冰拿铁
编辑|星奈
媒体|AI大模型工场
模圈代有才人出,各领风骚几十天。还没从DeepSeek的“技术眩晕”中缓过来,百度又给我带来了亿点小冲击——3月16日,百度正式发布文心大模型4.5及文心大模型X1,性能远超预期,并宣布提前免费:
目前,两款模型已在文心一言官网上线,免费向用户开放。据介绍,文心大模型4.5是百度首个原生多模态大模型,其多模态理解、文本和逻辑推理能力显著提升,在多项测试中表现优于GPT4.5,API调用价格仅为GPT4.5的1%;文心大模型X1为深度思考模型,性能对标DeepSeek-R1,调用价格约为R1的一半。
其中,作为百度新一代基座大模型,文心大模型4.5的多项基准测试成绩优于GPT4.5、DeepSeek-V3等,并在平均分上以79.6分高于GPT4.5的79.14分。
刚一发布,海外博主瞬间不淡定了,纷纷点赞称炸裂。没有对比就没有伤害,甚至有博主转发了百度的官推并直言:“美国AI公司(就该像这样)把全部时间花在开发和创新上,而不是无所事事地闲逛,一边祈祷自己受到保护、不必竞争。这是缺乏自信的糟糕表现!”
那么,此次的“文心双雄”都带来了哪些维度的性能提升?据悉,文心大模型4.5通过多个模态联合建模实现协同优化,多模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力显著提升。而文心大模型X1具备“长思维链”,擅长中文知识问答、文学创作、逻辑推理等,而且增加了多模态能力和多工具调用,能理解和生成图片,还能调用工具生成代码、图表等丰富内容。
技术vs成本双杀背后,文心4.5和X1表现究竟如何?背后又有哪些“技术秘籍”?
实测文心4.5千般武艺:
多模态能力最惊艳!
在DeepSeek毒打后,我对文心4.5的多模态能力十分期待:此前,DeepSeek哪里都好,但遗憾的是多模态能力实在太弱,深度理解图片都费劲,更别提看音视频了,导致和DeepSeek沟通时只能采取最“原始”的文字交流方式,常常给我一种“5G内容,2G形式”既视感,每次使用都意犹未尽。
因此,此次我们在图片理解、视频分析等场景对文心4.5重点展开测评:
首先,再牛的AI也得经得住抽象网友的毒打,几个梗图下来,文心4.5分分钟秒懂化身开了八倍镜的鉴梗大师,细节捕捉与推理深度在线,点出梗图的巧妙和幽默。
外行看热闹,内行看门道,能读懂梗图背后,要求大模型有很强的综合能力:要精准识别流行文化符号,构建文化共识库;要具备跨次元关联力,才能看懂跨时空混搭梗,这要求模型构建起“古典-现代”知识图谱,实现符号的时空穿越式理解;同时,也要构建起反讽与双关语“解码器”,将黑话转化为直白逻辑,建立情绪强度坐标系……
然后,上几道图片内容判断题:上传景点实拍、电影截图喂给文心4.5,其分分钟指出意义、⽤途是什么、位置在哪里等关键因素,福尔摩斯·文心4.5上线!
在接下来音视频判断题环节,文心4.5也毫不逊色:上传音频,文心4.5分分钟听歌识曲,网易云哭晕在厕所。
来自AI大模型工场音频:这世界有那么多人
👆🏻上传视频,文心4.5化身语文课代表总结视频主旨,是我的吃瓜搭子实锤了!
输入甄嬛传视频,其也能准确识别出为哪一集,鉴定为甄学家十级!👇🏻
上传财报图表,其也能准确算出毛利率和净利率👇🏻
接下来,在AI图片生成维度,让文心4.5替我打工,画点图看看!“如果⼩⽶下⼀辆车要造⽪卡⻋,可能造成什么样?”“画个甄嬛骑摩托⻋”,结果可见,文心4.5 iRAG图⽚⽣成能⼒在线,可准确⽣成主流⼈物和物品,⽆幻觉。
——综上,文心4.5多模态能力确实在线,能对文字、图片、音频、视频等内容进行综合理解,相当于给AI装上了超级感官中枢+语言大师芯片+文化记忆词典,不仅多模态理解能力优秀,且具备了更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力显著提升。
那么,文心4.5背后究竟有怎样的技术路径?
文心4.5采用多模态异构专家扩展技术,根据模态特点构建模态异构专家,结合自适应模态感知损失函数,解决不同模态梯度不均衡问题,提升多模态融合能力。
接下来,测评文心X1看看!
多工具调用王文心X1:DeepSeek
深度思考力半价购,打通格式“任意流”?
一番测评下来,我们发现,文心大模型X1具备更强的理解、规划、反思、进化能力,并支持多模态,是首个自主运用工具的深度思考模型。作为能力更全面的深度思考模型,兼备准确、创意和文采,在逻辑推理、复杂计算及⼯具调⽤等⽅⾯表现尤为出⾊。
能够润色小说:
也能⽣成高情商回答,成打工人嘴替👇🏻
还能做“证明‘对于任意正整数n,n 5−n能被30整除’”这种步骤很多、难度系数高的证明题。
值得一提的是,文心X1还有一个很惊艳的特色——多工具调用,可显著扩展模型自身边界,高效、精准、有效解决现实中复杂任务。
问“已知我⼀节课都没上,如何在3天之内通过高数考试”,文心X1调⽤⾼级联⽹⼯具,按⼩时做出了学习计划,给出⾼数考试重点和推荐教材,有效性很强。
👆🏻为大学生操碎了心的X1,密密麻麻列了三页
目前,文心X1已⽀持⾼级搜索、⽂档问答、图⽚理解、AI绘图、代码解释器、⽹⻚链接读取、TreeMind树图、百度学术检索、商业信息查询、加盟信息查询、词云⽣成等多款⼯具。
多工具调用下,文心X1开启“任意流”模式,打破格式次元壁:可以喂给其根据word内容,让其从低到⾼排列员⼯的⼯资,整理成Excel⽂档给我,可见其调⽤⽂档问答、代码解释器,分分钟吐出一个excel!
而上传图片,问文心X1想要做这道菜需要哪些⼯序,它也可以⽣成pdf⽂件发给我。
——这让我想起了之前百度文库上炒鸡好用、让格式任意流转的自由画布。布,是你吗?文心X1一口气吃了几个自由画布?
透视文心X1背后的技术支撑可见,其运用了递进式强化学习、基于思维链和行动链的端到端训练、多元统一的奖励系统等关键技术,并通过飞桨与文心的联合优化,实现从压缩、推理、服务部署的全链路极致调优,大幅降低推理成本。
通俗来说,递进式强化学习就像是模圈的游戏闯关制特训营,以“打怪升级”模式,让AI从青铜菜鸟逐步进化成“全服第一”,在创作、搜索、工具调用、推理等场景全面提升模型的综合应用能力;同时,针对深度搜索、工具调用等场景,根据结果反馈进行端到端的模型训练,显著提升训练效果。
前有DeepSeek的史诗性更新,后有百度加速技术突破,并把成本一再击穿地心:当下,众厂商共努力下,AI正加速进入“水电煤时代”。
百度此轮更新:
主权个体加速诞生,AI进入水电煤时代
目前,两款模型均已在文心一言官网上线,用户登录即可免费体验。同时,企业及开发者可在百度智能云千帆大模型平台调用新模型,文心大模型4.5已同步上线,输入价格为0.004元/千tokens,输出0.016元/千tokens,约为GPT4.5价格的1%;文心大模型X1定价为输入0.002元/千tokens,输出0.008元/千tokens,即将在千帆平台上线。
这价格让我感慨,百度越来越实在了,不搞虚头巴脑的概念,直接甩出免费体验入口和白菜价API,明摆着是要把AI变成新时代的水电煤,让开发者、企业都能像接自来水一样调用智能。
于个人维度,“主权个体”将加速诞生。《主权个体》(The Sovereign Individual)一书中,詹姆斯·戴尔·戴维森预言,在未来的世界里,能够自力更生、精通技术的个体将掌控自己的未来,成为最强大的“主权个体”。如今,手握能思考也能干活、无比全面的文心系列大模型,打工人再次进化,“一个人统领一支AI团队”照进现实。
而从行业角度,文心4.5及X1的技术突破将推动AI在更多实际应用场景中发挥价值,从智能搜索、企业办公、科研辅助到代码生成等领域,进一步赋能各行业的数字化升级,助力AI技术真正走向生产力变革的新阶段,让AI水电煤时代加速到来,也推动AI新世界向着普惠、高效的星辰大海,扬帆起航。
AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian,注明真实身份。
数据支持天眼查,大模型独家合作账号
— END —
监制 / 刘老师
编辑 / AIGCCCCC
视觉 / 大模型
微博 / @AI大模型工场
TG/AI Marketing Field
大模型应用创业者,你怎么看?
■ 百度文心一言 阿里通义千问 ▍通用大模型案例
■ 科大讯飞星火 京东 ▍产业大模型案例
■ 商汤日日新,腾讯,昆仑万维 ▍ 金融大模型案例
■ 盘古大模型,中国电信,医联 ▍医疗大模型案例
■阅文大模型,腾讯音乐大模型 ▍文娱大模型案例
■知乎,360大模型,火山引擎 ▍ 教育大模型案例
■ 网易,金山办公大模型 ▍更多行业大模型案例
上次介绍小参数出奇迹!360开源最强14B推理模型,端侧部署春天来了?
本文由大模型领域垂直媒体「AI大模型工场」
原创出品,未经许可,请勿转载。
/
欢迎提供新的大模型商业化落地思路