橘子汽水铺 前天 05:02
视觉理解+深度思考,豆包深度思考模型来了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文评测了字节跳动发布的豆包深度思考模型,该模型一大亮点是实现了视觉理解能力与深度思考能力的结合,解决了此前DeepSeek系列模型不支持图片输入的痛点。通过实测,该模型在数学能力、代码能力和逻辑推理能力上均有出色表现,尤其在视觉理解方面,能够处理表格提取、图表分析等实用场景。尽管在细节处理上仍有提升空间,但其超低的价格和快速的响应速度,使其在视觉理解场景下具有显著优势。

🤩 **视觉理解能力突破**:豆包深度思考模型解决了DeepSeek系列模型不支持图片输入的痛点,使其能够处理PDF表格提取、图表分析等任务,拓展了应用场景。

➕ **数学能力显著提升**:模型在数学解题能力上有所增强,能够解答包含复杂公式的数学题,并通过视觉输入简化了操作流程,提升了用户体验。

💻 **代码能力表现出色**:在Vibe Coding等视觉代码任务中,豆包模型的表现接近DeepSeek R1,展现了其在代码生成方面的实力。

💡 **逻辑推理能力突出**:在ARC-AGI等逻辑推理测试中,豆包深度思考模型超越了DeepSeek R1和Gemini 2.5,体现了其强大的推理能力。

原创 橘子OrangeAI 2025-04-17 13:44 北京

总算解决了之前 DeepSeek 系列模型都不支持图片输入的痛点。

前几天看到字节发布了豆包深度思考模型技术报告,从模型指标看起来显著超过了 DeepSeek R1。

对这个模型的表现非常期待,今天刚好看到火山开放模型 API 了,就拿来实测了一下。

测完感受到这个模型的最大的特色,就是是视觉理解能力+深度思考能力的结合。

总算解决了之前 DeepSeek 系列模型都不支持图片输入的痛点。

同时从今天 o3 的发布来看,视觉理解+深度思考,也是未来模型发展的必然方向。


模型的三个特点

豆包深度思考模型,在指标上有三个特点:

    1. 数学能力超越 DeepSeek R1。
    2. 代码能力和 DeepSeek R1 非常接近。
    3. 逻辑推理能力很强,在 ARC-AGI 上显著超过了 R1、Gemini 2.5 。

更多的细节可以查看技术报告

https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

话不多说,我们直接进入模型实测环节。


两道基础题

首先是绕不开的小数比大小题和🍓题。

在昨天 OpenAI 发布的 GPT4.1 上,这俩题都会答错。

我们看看豆包深度思考模型的表现:


两道题都答对了。

分数对比做对了,而且方法也是对的。

标准的草莓题,也答对了。

(后面又给它上了点强度,多放了几个r,就数不过来了。)


数学能力测试

首先看一个工厂生产效率题:

再看一个考研数学题,对于包含复杂公式的数学题,可以直接截图,使用带视觉推理的模型来解答。

实际测了几道题,发现模型的数学解题能力,相比之前的豆包有显著的提升,而且思维过程也可以作为解题参考。

由于支持了视觉输入,对于数学解题来说,要比之前手动敲公式要方便太多(根本敲不出来),也能够更好地解答各种学科的图像问题。


视觉代码能力

最近 Vibe Coding 越来越火,其中最重要的能力就是模型的视觉代码能力,这个能力是模型前端能力的一个体现。

用svg画一个皮卡丘:


Gemini 的效果

DeepSeek R1 的效果

这道题 Gemini 画的最像,豆包的神似但没画嘴,尾巴也差点意思,DeepSeek 就比较抽象了,让人想起了葫芦娃里的蛇精。


视觉理解能力

前面提到 R1 最大的痛点就是不支持图像理解,这点豆包做的很好,我觉得这是模型最大的亮点,所以也多测了一些。

生活中经常遇到的场景是把PDF里的图形化表格抽取成格式化的表格。

PDF里的图标无法直接复制,这时候就可以截图发给 AI 来提取,豆包可以完美完成任务。


再测试一下模型对黄金走势图理解和分析,这个分析和理解,已经超出了很多专家了。


最近,即梦和4o生图火遍全网,我转载了阿真的文章,大家都说非常受用,参见前文链接

但有人说这套提示词里的风格就这么几十种,我想增加怎么办。

这也很简单,我们就把喜欢的风格扔给豆包让他抽象即可。

举个简单的例子,也是我上次写过的柔和的3D物品风格

向上面那样扔给豆包,这样我就获得了一种风格prompt,放到之前阿真的模板里即可。


写作能力

我们先测试一下模型的口语风格,看看模型的 AI 味儿能不能去掉。

再让朱雀检测一下,AI 味儿 0%,完美通过。

再测试一下写诗的意境,


我们让 DeepSeek 来打个分:

结语:

以上就是我对豆包深度思考模型的全部测试。

实测下来,最大亮点是支持图片输入,表格提取、图表分析这些实用场景做得挺稳。

加上超低的价格和非常快的速度,会成为视觉理解场景下的默认模型。

模型的数学题算得明白,复杂公式和生产规划题能捋清思路。

代码能力跟 DeepSeek R1差不多,视觉代码能力还要更强一些。

同时也能看到,这个模型也依然存在进步空间,比如草莓题多几个变量就数错,画皮卡丘漏了嘴巴和尾巴细节等,期待豆包在以后的更新中逐渐解决这些问题。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

豆包深度思考模型 视觉理解 数学能力 代码能力 逻辑推理
相关文章