原创 橘子OrangeAI 2025-04-17 13:44 北京
总算解决了之前 DeepSeek 系列模型都不支持图片输入的痛点。
前几天看到字节发布了豆包深度思考模型技术报告,从模型指标看起来显著超过了 DeepSeek R1。
对这个模型的表现非常期待,今天刚好看到火山开放模型 API 了,就拿来实测了一下。
测完感受到这个模型的最大的特色,就是是视觉理解能力+深度思考能力的结合。
总算解决了之前 DeepSeek 系列模型都不支持图片输入的痛点。
同时从今天 o3 的发布来看,视觉理解+深度思考,也是未来模型发展的必然方向。
模型的三个特点
豆包深度思考模型,在指标上有三个特点:
更多的细节可以查看技术报告
https://github.com/ByteDance-Seed/Seed-Thinking-v1.5
话不多说,我们直接进入模型实测环节。
两道基础题
首先是绕不开的小数比大小题和🍓题。
在昨天 OpenAI 发布的 GPT4.1 上,这俩题都会答错。
我们看看豆包深度思考模型的表现:
两道题都答对了。
分数对比做对了,而且方法也是对的。
标准的草莓题,也答对了。
(后面又给它上了点强度,多放了几个r,就数不过来了。)
数学能力测试
首先看一个工厂生产效率题:
再看一个考研数学题,对于包含复杂公式的数学题,可以直接截图,使用带视觉推理的模型来解答。
实际测了几道题,发现模型的数学解题能力,相比之前的豆包有显著的提升,而且思维过程也可以作为解题参考。
由于支持了视觉输入,对于数学解题来说,要比之前手动敲公式要方便太多(根本敲不出来),也能够更好地解答各种学科的图像问题。
视觉代码能力
最近 Vibe Coding 越来越火,其中最重要的能力就是模型的视觉代码能力,这个能力是模型前端能力的一个体现。
用svg画一个皮卡丘:
Gemini 的效果
DeepSeek R1 的效果
这道题 Gemini 画的最像,豆包的神似但没画嘴,尾巴也差点意思,DeepSeek 就比较抽象了,让人想起了葫芦娃里的蛇精。
视觉理解能力
前面提到 R1 最大的痛点就是不支持图像理解,这点豆包做的很好,我觉得这是模型最大的亮点,所以也多测了一些。
生活中经常遇到的场景是把PDF里的图形化表格抽取成格式化的表格。
PDF里的图标无法直接复制,这时候就可以截图发给 AI 来提取,豆包可以完美完成任务。
再测试一下模型对黄金走势图理解和分析,这个分析和理解,已经超出了很多专家了。
最近,即梦和4o生图火遍全网,我转载了阿真的文章,大家都说非常受用,参见前文链接
但有人说这套提示词里的风格就这么几十种,我想增加怎么办。
这也很简单,我们就把喜欢的风格扔给豆包让他抽象即可。
举个简单的例子,也是我上次写过的柔和的3D物品风格
向上面那样扔给豆包,这样我就获得了一种风格prompt,放到之前阿真的模板里即可。
写作能力
我们先测试一下模型的口语风格,看看模型的 AI 味儿能不能去掉。
再让朱雀检测一下,AI 味儿 0%,完美通过。
再测试一下写诗的意境,
我们让 DeepSeek 来打个分:
结语:
以上就是我对豆包深度思考模型的全部测试。
实测下来,最大亮点是支持图片输入,表格提取、图表分析这些实用场景做得挺稳。
加上超低的价格和非常快的速度,会成为视觉理解场景下的默认模型。
模型的数学题算得明白,复杂公式和生产规划题能捋清思路。
代码能力跟 DeepSeek R1差不多,视觉代码能力还要更强一些。
同时也能看到,这个模型也依然存在进步空间,比如草莓题多几个变量就数错,画皮卡丘漏了嘴巴和尾巴细节等,期待豆包在以后的更新中逐渐解决这些问题。