视觉理解+深度思考，豆包深度思考模型来了

橘子汽水铺前天 05:02

视觉理解+深度思考，豆包深度思考模型来了

本文评测了字节跳动发布的豆包深度思考模型，该模型一大亮点是实现了视觉理解能力与深度思考能力的结合，解决了此前DeepSeek系列模型不支持图片输入的痛点。通过实测，该模型在数学能力、代码能力和逻辑推理能力上均有出色表现，尤其在视觉理解方面，能够处理表格提取、图表分析等实用场景。尽管在细节处理上仍有提升空间，但其超低的价格和快速的响应速度，使其在视觉理解场景下具有显著优势。

🤩 **视觉理解能力突破**：豆包深度思考模型解决了DeepSeek系列模型不支持图片输入的痛点，使其能够处理PDF表格提取、图表分析等任务，拓展了应用场景。

➕ **数学能力显著提升**：模型在数学解题能力上有所增强，能够解答包含复杂公式的数学题，并通过视觉输入简化了操作流程，提升了用户体验。

💻 **代码能力表现出色**：在Vibe Coding等视觉代码任务中，豆包模型的表现接近DeepSeek R1，展现了其在代码生成方面的实力。

💡 **逻辑推理能力突出**：在ARC-AGI等逻辑推理测试中，豆包深度思考模型超越了DeepSeek R1和Gemini 2.5，体现了其强大的推理能力。

原创橘子OrangeAI 2025-04-17 13:44 北京

总算解决了之前 DeepSeek 系列模型都不支持图片输入的痛点。

前几天看到字节发布了豆包深度思考模型技术报告，从模型指标看起来显著超过了 DeepSeek R1。

对这个模型的表现非常期待，今天刚好看到火山开放模型 API 了，就拿来实测了一下。

测完感受到这个模型的最大的特色，就是是视觉理解能力+深度思考能力的结合。

总算解决了之前 DeepSeek 系列模型都不支持图片输入的痛点。

同时从今天 o3 的发布来看，视觉理解+深度思考，也是未来模型发展的必然方向。

模型的三个特点

豆包深度思考模型，在指标上有三个特点：

1. 数学能力超越 DeepSeek R1。

2. 代码能力和 DeepSeek R1 非常接近。

3. 逻辑推理能力很强，在 ARC-AGI 上显著超过了 R1、Gemini 2.5 。

更多的细节可以查看技术报告

https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

话不多说，我们直接进入模型实测环节。

两道基础题

首先是绕不开的小数比大小题和🍓题。

在昨天 OpenAI 发布的 GPT4.1 上，这俩题都会答错。

我们看看豆包深度思考模型的表现：

两道题都答对了。

分数对比做对了，而且方法也是对的。

标准的草莓题，也答对了。

（后面又给它上了点强度，多放了几个r，就数不过来了。）

数学能力测试

首先看一个工厂生产效率题：

再看一个考研数学题，对于包含复杂公式的数学题，可以直接截图，使用带视觉推理的模型来解答。

实际测了几道题，发现模型的数学解题能力，相比之前的豆包有显著的提升，而且思维过程也可以作为解题参考。

由于支持了视觉输入，对于数学解题来说，要比之前手动敲公式要方便太多（根本敲不出来），也能够更好地解答各种学科的图像问题。

视觉代码能力

最近 Vibe Coding 越来越火，其中最重要的能力就是模型的视觉代码能力，这个能力是模型前端能力的一个体现。

用svg画一个皮卡丘：

Gemini 的效果

DeepSeek R1 的效果

这道题 Gemini 画的最像，豆包的神似但没画嘴，尾巴也差点意思，DeepSeek 就比较抽象了，让人想起了葫芦娃里的蛇精。

视觉理解能力

前面提到 R1 最大的痛点就是不支持图像理解，这点豆包做的很好，我觉得这是模型最大的亮点，所以也多测了一些。

生活中经常遇到的场景是把PDF里的图形化表格抽取成格式化的表格。

PDF里的图标无法直接复制，这时候就可以截图发给 AI 来提取，豆包可以完美完成任务。

再测试一下模型对黄金走势图理解和分析，这个分析和理解，已经超出了很多专家了。

最近，即梦和4o生图火遍全网，我转载了阿真的文章，大家都说非常受用，参见前文链接

但有人说这套提示词里的风格就这么几十种，我想增加怎么办。

这也很简单，我们就把喜欢的风格扔给豆包让他抽象即可。

举个简单的例子，也是我上次写过的柔和的3D物品风格

向上面那样扔给豆包，这样我就获得了一种风格prompt，放到之前阿真的模板里即可。

写作能力

我们先测试一下模型的口语风格，看看模型的 AI 味儿能不能去掉。

再让朱雀检测一下，AI 味儿 0%，完美通过。

再测试一下写诗的意境，

我们让 DeepSeek 来打个分：

结语：

以上就是我对豆包深度思考模型的全部测试。

实测下来，最大亮点是支持图片输入，表格提取、图表分析这些实用场景做得挺稳。

加上超低的价格和非常快的速度，会成为视觉理解场景下的默认模型。

模型的数学题算得明白，复杂公式和生产规划题能捋清思路。

代码能力跟 DeepSeek R1差不多，视觉代码能力还要更强一些。

同时也能看到，这个模型也依然存在进步空间，比如草莓题多几个变量就数错，画皮卡丘漏了嘴巴和尾巴细节等，期待豆包在以后的更新中逐渐解决这些问题。

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

豆包深度思考模型视觉理解数学能力代码能力逻辑推理

相关文章

Fujitsu Chosen For GENIAC Project To Enhance Reliability Of GenAI in Business Applications

科大讯飞胡郁：GPT训练后涌现出逻辑推理能力相当于985、211的大学生

大模型测试题爆火，GPT-4和Claude3都跪了，LeCun转发：新Benchmark

怎样培养理性、自我规范的思考？

NYU Researchers Introduce Cambrian-1: Advancing Multimodal AI with Vision-Centric Large Language Models for Enhanced Real-World Performance and Integration

做的一个新玩具，来玩！

小学三年级外甥问的一道数学题

9.11和9.9哪个大？AI大模型大翻车

VLM集体「失明」？视力测试惨败，GPT-4o、Claude 3.5全都不及格

AI for Science！第二届世界科学智能大赛来了