原创 Super黄 2025-03-16 09:37 北京
两个模型,一个深度思考文心X1,一个原生多模态文心4.5,值得体验!
大家好,我是AI产品黄叔!百度刚刚发布了两款让人"直呼内行"的AI新模型—文心大模型4.5和深度思考模型X1!
特别是亲自上手体验后,尽管已经用了很多DeepSeek R1以及Claude 3.7,还是有被惊艳到!而且,最离谱的是—这两款模型居然提前免费开放了(对,不用等到百度之前官宣的4月1日免费开放日)!所有人现在就可以在文心一言官网体验!
来,跟着黄叔一起来看看这两款模型到底怎么样。
文心X1:直接开大招的深度思考模型
本来我以为文心只是常规升级,结果直接给我一记"回旋踢"!文心X1不仅支持联网搜索,还能自主调用多个工具,这操作简直太秀了!
举个我亲测的栗子,随便找了篇文章,使用@功能调起TreeMind树图能力,然后...
X1先是像个认真的小学生一样,把任务梳理成三个步骤,然后一步一步稳扎稳打,最后生成的树图还支持编辑!这波操作,简直妙到毫巅啊!
更绝的是它的深度理解能力。之前我用DeepSeek R1处理我近500条flomo笔记做年度规划时,它只读了前66%就"累趴下"了:
最后不是太忙,就是说超出最大长度限制,烦死了:
今天换文心X1一试,7.2万字完全不在话下,人家直接"一口闷"!不仅读完了全部内容,还给出了超出我预期的分析:
一是准确捕捉到我去年笔记中提到的多模态内容,二是基于最新市场趋势给我量身定制了发展方向。
老实说,这个建议真的让我陷入了深深的思考...不愧是"深度思考"模型啊:
再来看看舆情分析能力:
我丢给它一个提示词:"你是一名舆情分析专家,对近期Manus热点的舆情做深度分析"
结果X1给出了DeepSeek R1完全忽略的关键点:"当前舆情呈现'技术突破叙事与信任危机并存'的特征,需警惕短期炒作掩盖长期价值风险。"
是不是一针见血?
继续,来看看它的规划能力如何:
提示词:我们好几家人4月1日出发去东京,住在横滨,4月2日在东京玩,4月3日在横滨玩,4月4日去东京看樱花,4月5日包车从横滨去河口湖,4月6日包车去河口湖和伊豆,4月7日回国。你是旅行规划师,帮我规划每天的行程
这是我媳妇已经完成规划的行程,我看看文心X1的规划能力如何:
这里因为我在提示词里告诉了X1,住在横滨,所以这么一对比下来,X1居然比R1出的行程还要好。
比如X1抵达日/4月2日,都说了在横滨的住宿,或者提到了交通(甚至交通还提到了通勤时长),但R1上来先说适应时差(去日本不存在时差),然后也只字不提横滨住宿的事情。。。
X1还在两天的包车路线里很细心的给出了详细的时间点行程规划:
整体看下来,X1在自主工具调用能力,长文本推理连贯性上,跟R1能形成对标,下面我们先接着看原生多模态的文心4.5:
文心4.5:原生多模态非常绝
说到文心4.5,我必须强调的是它的"原生多模态"不是简单拼接多个单模态模型(不是缝合怪!),而是从架构层面实现多模态深度融合。用人话说就是:它真的能同时理解图片、视频、语音和文字,而且能理解它们之间的复杂关系!
我拿Karpathy在X上分享的《How I use LLMs》配图做测试,问文心4.5:"用人话和我解释下整张图"
结果一秒我就看明白了:解释得通俗易懂不说,还把图中的关键概念都梳理得清清楚楚!
再上难度,我丢了一张我旅游时拍的可口可乐主题店大玻璃瓶照片(因为我自己都忘了是哪个城市的了),文心4.5直接告诉我具体位置,还科普了这家店的背景知识,简直是长了双顺风耳加火眼金睛啊!
我又找了一张仅标注"Stock Market Crashes Visualized"的复杂图表,提问"这张图表达了什么":
文心4.5不仅详细解读了图表内容,还贴心地补充了历史事件具体年份,甚至总结出:“尽管市场经历了多次崩溃,但长期来看,累计实际财富呈现出增长的趋势。”
悄悄说,我拿一些国外顶级大模型一对比,文心给的回复质量反而更高...
正写着文章,我家孩子突然来了兴致要我画敖丙和哪吒,于是我顺手给了文心4.5一个提示词:
"画一张敖丙和哪吒在夕阳西下场景里肩并肩的照片"
结果出图质感不错!色彩、构图、细节都很赞!
我又好奇地问:"如果蔚来要造一辆皮卡,会是什么样的?帮我画出来"
生成的车型不仅保留了蔚来的设计语言(腰线、前脸、瞭望塔都很到位),而且一次出图就这么惊艳,身为蔚来车主的我看完确实得点赞。
多模态工作流:我找到了播客制作神器!
这才是让我最激动的部分!作为一个小播客主,我经常在送完媳妇上班后,开车回家路上录制音频内容。以前想把这些内容改写成视频脚本时,我需要:
1. 把MP3上传到某个网站转文字
2. 把文字导出成Word
3. 再把Word丢给大模型加上提示词处理
这看着就麻烦了!
现在用文心4.5,我直接上传录音文件,然后让它导出文字,再输入提示词,总共两步,就能得到我想要的视频脚本!
这效率提升简直是坐火箭vs蜗牛爬的区别啊!我终于明白什么才是真正的"原生多模态"了!
我还尝试上传了前段时间很火的用Claude生成天气卡片的视频:
让文心分析"这个视频说了什么?"
结果有点震惊,真的完全理解了视频内容!甚至因为录屏软件做了缩放动作,文心还以为是切换了界面,这观察力简直了!
碎碎念
整体体验下来,这两个模型真的让我大呼过瘾:
文心4.5:
- 能看懂各种图片(从普通照片到梗图都不在话下)能听懂/看懂音视频(连续多轮对话直接完成工作流)图片生成质量超赞(质感拉满)语言理解和逻辑推理能力进一步增强
文心X1:
- 首个能自主调用工具的深度思考模型在规划/推理/图片理解等任务上表现优异具备与DeepSeek R1匹敌的能力还有R1不具备的长文本/工具调用/图片理解能力
最最最重要的是——不用等到4月1日,今天这两个顶配模型在百度文心一言官网里就可以马上体验,并且使用完全免费!这波福利拿捏得死死的!
很多朋友还会关心评测分数,我也要来了:
作为百度新一代基座大模型,文心大模型4.5的多项基准测试成绩优于GPT4.5、DeepSeek-V3等,并在平均分上以79.6分,高于GPT4.5的79.14。
API价格方面,X1是DeepSeek R1的一半:
如果你也用了这两个模型,欢迎在评论区分享你的使用体验,我们一起探讨怎么用好这两款新模型~